Affiner les résultats
- Lederer Marianne23
- Boitet Christian21
- Israël Fortunato17
- Cardey-Greenfield Sylviane16
- Durieux Christine16
- Hamzé Hassan13
- Yvon François13
- Depecker Loïc12
- Besacier Laurent11
- Dichy Joseph10
- Gile Daniel9
- Collombat Isabelle8
- Humbley John8
- Lerat Pierre8
- Seleskovitch Danica8
- Zinglé Henri8
- Gautier Laurent7
- Levet Jean-Pierre7
- القاسم فايزة7
- Ballard Michel6
- Blanchon Hervé6
- Ladmiral Jean-René6
- Morin Emmanuel6
- Schwenk Holger[remove]6
- Barrault Loïc5
- Bosredon Bernard5
- Daille Béatrice5
- Danlos Laurence5
- Grass Thierry5
- Guillaume Jean-Patrick5
- Hassoun Mohamed5
- Ibrahim Amr Helmy5
- Jenn Ronald5
- Maniez François5
- Mejri Salah5
- Pergnier Maurice5
- Qasem Fayza El5
- Roman André5
- Szende Tamás5
- Tutin Agnès5
- Banoun Bernard4
- Bensimon Paul4
- Cavalla Cristelle4
- Chiaramella Yves4
- Condamines Anne4
- Dalmas Martine4
- Desclès Jean-Pierre4
- Estève Yannick4
- Froeliger Nicolas4
- Gardes Joëlle4
Search
Votre recherche :
Directeurs de thèse Carruthers Leo Martin Retirer
Directeurs de thèse Schwenk Holger Retirer
1 - 8 sur 8
Nombre de résultats par page
- Auteur
- Delphine Le Corfec
- Résumé
- Lire le résumé
- En 1473-1474, un marchand anglais installé à Bruges, William Caxton, imprime pour la première fois un livre en anglais : le Recuyell of the historyes of Troyes. Il s’agit d’une traduction d’un succès récent de la littérature curiale bourguignonne, le Recueil des histoires de Troyes de Raoul Lefèvre. Le texte d’origine est également imprimé avant la fin de l’année 1475 pour Caxton. Cette thèse porte sur les traductions réalisées et diffusées par William Caxton reflétant l’ensemble d’un savoir médiéval mais apparaissant comme moderne à la fin du XVe siècle. La source principale en est le premier livre imprimé en anglais qui constitue un exemple de texte ancien revenu à la mode par le biais d’une réécriture. Un premier volume est consacré au commentaire. Il s’agit, dans une première partie, de souligner les aspects originaux ou traditionnels des traductions et des éditions de Caxton. La deuxième partie porte sur l’édition pour Caxton du Recueil en français et son impact. Une troisième partie est attachée à l’analyse des procédés de traduction et l’influence du Recuyell dans l’histoire littéraire anglaise.Dans le second volume, l’édition comparée du Recuyell of the historyes of Troyes et du Recueil des histoires de Troyes imprimés pour Caxton, permet d’étudier les procédés de traduction utilisés par l’homme de lettres mais également les logiques présidant à l’impression de textes. Pour imprimer le texte français, Caxton ou ses associés ont, en effet, choisi une version différente du manuscrit ayant servi de base à sa traduction anglaise. Un dernier volume est dédié aux annexes (bibliographie, éditions d’autres traditions, glossaire, tables généalogiques, etc.).
- Disicipline
- Études médiévales
- Date
- Soutenue le 18/01/2020
- Sous la direction de
- Leo Martin Carruthers
- Organisme
- Sorbonne université
- École doctorale Mondes anciens et médiévaux (Paris)

- Auteur
- Walid Aransa
- Résumé
- Lire le résumé
- La traduction automatique de texte arabe a reçu beaucoup d'attention au cours de la dernière décennie. La langue arabe, langue officielle de plus de 25 pays, est parlée par plus de 290 millions de personnes. Les changements politiques engendrés par les révolutions arabes ont mis sur le devant de la scène cette langue et ses multiples dialectes. Ce travail s'inscrit dans le cadre du projet BOLT dont le but est d'améliorer les performances des systèmes de traduction arabe-anglais pour des domaines spécifiques (SMS, parole conversationnelle, etc.)Dans cette thèse, j'ai enrichi le système de traduction à base de segments du LIUM à maints égards. Les systèmes à base de segments fournissent actuellement les meilleures performances. Ces systèmes sont basés sur deux modèles statistiques : le modèle de traduction et le modèle de langage. Dans l'objectif d’améliorer la qualité de traduction de l'arabe, nous avons mis l'accent sur trois aspects. Le premier aspect est la réduction des mots inconnus dans la sortie de traduction. Le second aspect de mon travail de thèse est l'adaptation au domaine ou à la tâche de la table de traduction. Finalement, je me suis intéressé à l'amélioration de la modélisation linguistique avec des réseaux de neurones. Ces modèles sont utilisés pour re-évaluer les n-meilleures hypothèses de traduction.Toutes les techniques développées ont été minutieusement incorporées dans le système du LIUM et évaluées dans trois campagnes d’évaluation internationales dans le cadre du projet BOLT.
- Disicipline
- Informatique
- Date
- Soutenue le 24/09/2015
- Sous la direction de
- Holger Schwenk
- Loïc Barrault
- Organisme
- Le Mans
- École doctorale Sciences et technologies de l'information et mathématiques (Nantes)

- Auteur
- Haithem Afli
- Résumé
- Lire le résumé
- Les performances des systèmes de traduction automatique statistique dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes. Cependant, les textes parallèles librement disponibles sont aussi des ressources rares : la taille est souvent limitée, la couverture linguistique insuffisante ou le domaine des textes n’est pas approprié. Il y a relativement peu de paires de langues pour lesquelles des corpus parallèles de tailles raisonnables sont disponibles pour certains domaines. L’une des façons pour pallier au manque de données parallèles est d’exploiter les corpus comparables qui sont plus abondants. Les travaux précédents dans ce domaine n’ont été appliqués que pour la modalité texte. La question que nous nous sommes posée durant cette thèse est de savoir si un corpus comparable multimodal permet d’apporter des solutions au manque de données parallèles dans le domaine de la traduction automatique.Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes modalités (texte ou parole) pour le développement d’un système de traduction automatique statistique. Une première partie des contributions consisteà proposer une technique pour l’extraction des données parallèles à partir d’un corpus comparable multimodal (audio et texte). Les enregistrements sont transcrits avec un système de reconnaissance automatique de la parole et traduits avec unsystème de traduction automatique. Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte. Dans la deuxième partie des contributions, nous visons l’amélioration de notre méthode en exploitant les entités sous-phrastiques créant ainsi une extension à notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de filtrage. Enfin, nous présentons plusieurs manières d’aborder l’adaptation des systèmes de traduction avec les données extraites.Nos expériences ont été menées sur les données des sites web TED et Euronews qui montrent la faisabilité de nos approches.
- Disicipline
- Informatique
- Date
- Soutenue le 08/07/2014
- Sous la direction de
- Holger Schwenk
- Loïc Barrault
- Organisme
- Le Mans
- École doctorale Sciences et technologies de l'information et mathématiques (Nantes)

2013LEMA1034
Modèles de traduction évolutifs
- Auteur
- Frédéric Blain
- Résumé
- Lire le résumé
- Bien que la recherche ait fait progresser la traduction automatique depuis plusieurs années, la sortie d’un système automatisé ne peut être généralement publiée sans avoir été révisée humainement au préalable, et corrigée le cas échéant. Forts de ce constat, nous avons voulu exploiter ces retours utilisateurs issus du processus de révision pour adapter notre système statistique dans le temps, au moyen d’une approche incrémentale.Dans le cadre de cette thèse Cifre-Défense, nous nous sommes donc intéressés à la postédition, un des champs de recherche les plus actifs du moment, et qui plus est très utilisé dans l’industrie de la traduction et de la localisation.L’intégration de retours utilisateurs n’est toutefois pas une tâche aussi évidente qu’il n’y paraît. D’une part, il faut être capable d’identifier l’information qui sera utile au système, parmi l’ensemble des modifications apportées par l’utilisateur. Pour répondre à cette problématique, nous avons introduit une nouvelle notion (les « Actions de Post-Édition »), et proposé une méthodologie d’analyse permettant l’identification automatique de cette information à partir de données post-éditées. D’autre part, concernant l’intégration continue des retours utilisateurs nous avons développé un algorithme d’adaptation incrémentale pour un système de traduction statistique, lequel obtient des performances supérieures à la procédure standard. Ceci est d’autant plus intéressant que le développement et l’optimisation d’un tel système de traduction estune tâche très coûteuse en ressources computationnelles, nécessitant parfois jusqu’à plusieurs jours de calcul.Conduits conjointement au sein de l’entreprise SYSTRAN et du LIUM, les travaux de recherche de cette thèse s’inscrivent dans le cadre du projet ANR COSMAT 1. En partenariat avec l’INRIA, ce projet avait pour objectif de fournir à la communauté scientifique un service collaboratif de traduction automatique de contenus scientifiques. Outre les problématiques liéesà ce type de contenu (adaptation au domaine, reconnaissance d’entités scientifiques, etc.), c’est l’aspect collaboratif de ce service avec la possibilité donnée aux utilisateurs de réviser les traductions qui donne un cadre applicatif à nos travaux de recherche.
- Disicipline
- Informatique et Applications
- Date
- Soutenue le 24/09/2013
- Sous la direction de
- Holger Schwenk
- Organisme
- Le Mans
- École doctorale Sciences et technologies de l'information et mathématiques (Nantes)

- Auteur
- Kashif Shah
- Résumé
- Lire le résumé
- L’approche statistique pour la traduction automatique semble être aujourd’hui l’approche la plusprometteuse. Cette approche permet de développer rapidement un système de traduction pour unenouvelle paire de langue lorsque les données d'apprentissage disponibles sont suffisammentconséquentes.Les systèmes de traduction automatique statistique (Statistical Machine Translation (SMT)) utilisentdes textes parallèles, aussi appelés les bitextes, comme support d'apprentissage pour créer lesmodèles de traduction. Ils utilisent également des corpus monolingues afin de modéliser la langueciblée.Les performances d'un système de traduction automatique statistique dépendent essentiellement dela qualité et de la quantité des données disponibles. Pour l'apprentissage d'un modèle de traduction,les textes parallèles sont collectés depuis différentes sources, dans différents domaines. Ces corpussont habituellement concaténés et les phrases sont extraites suite à un processus d'alignement desmots.Néanmoins, les données parallèles sont assez hétérogènes et les performances des systèmes detraduction automatique dépendent généralement du contexte applicatif. Les performances varient laplupart du temps en fonction de la source de données d’apprentissage, de la qualité de l'alignementet de la cohérence des données avec la tâche. Les traductions, sélectionnées parmi différenteshypothèses, sont directement influencées par le domaine duquel sont récupérées les donnéesd'apprentissage. C'est en contradiction avec l'apprentissage des modèles de langage pour lesquelsdes techniques bien connues sont utilisées pour pondérer les différentes sources de données. Ilapparaît donc essentiel de pondérer les corpus d’apprentissage en fonction de leur importance dansle domaine de la tâche de traduction.Nous avons proposé de nouvelles méthodes permettant de pondérer automatiquement les donnéeshétérogènes afin d'adapter le modèle de traduction.Dans une première approche, cette pondération automatique est réalisée à l'aide d'une technique deré-échantillonnage. Un poids est assigné à chaque bitextes en fonction de la proportion de donnéesdu corpus. Les alignements de chaque bitextes sont par la suite ré-échantillonnés en fonction de cespoids. Le poids attribué aux corpus est optimisé sur les données de développement en utilisant uneméthode numérique. De plus, un score d'alignement relatif à chaque paire de phrase alignée estutilisé comme mesure de confiance.Dans un travail approfondi, nous pondérons en ré-échantillonnant des alignements, en utilisant despoids qui diminuent en fonction de la distance temporelle entre les bitextes et les données de test.Nous pouvons, de cette manière, utiliser tous les bitextes disponibles tout en mettant l'accent sur leplus récent.L'idée principale de notre approche est d'utiliser une forme paramétrique, ou des méta-poids, pourpondérer les différentes parties des bitextes. De cette manière, seuls quelques paramètres doiventêtre optimisés.Nous avons également proposé un cadre de travail générique qui, lors du calcul de la table detraduction, ne prend en compte que les corpus et les phrases réalisant les meilleurs scores. Cetteapproche permet une meilleure distribution des masses de probabilités sur les paires de phrasesindividuelles.Nous avons présenté les résultats de nos expériences dans différentes campagnes d'évaluationinternationales, telles que IWSLT, NIST, OpenMT et WMT, sur les paires de langues Anglais/Arabeet Fançais/Arabe. Nous avons ainsi montré une amélioration significative de la qualité destraductions proposées.
- Disicipline
- Informatique
- Date
- Soutenue le 30/06/2012
- Sous la direction de
- Holger Schwenk
- Organisme
- Le Mans

- Auteur
- Elizabeth Kelly-Penot (Kelly)
- Résumé
- Lire le résumé
- Cette thèse propose d’explorer les enjeux de la pratique de la traduction de français en anglais après la Conquête normande, à partir d’une comparaison des deux romans anglais et leurs sources respectives. La première partie s’attachera à examiner le rapport entre le Roman de Brut, écrit au 12e siècle par l’auteur francophone Wace, et sa traduction en anglais, le Brut de La3amon, effectuée au début du 13e siècle. Une autre étude constituera l’essentiel de la seconde partie, portant sur l’examen comparatif de deux versions, française et anglaise, du roman d’Alexandre le Grand : le Roman de toute chevalerie de Thomas de Kent et Kyng Alisaunder, roman anonyme du 14e siècle.
- Disicipline
- Etudes médiévales anglaises
- Date
- Soutenue le 20/01/2012
- Sous la direction de
- Leo Martin Carruthers
- Organisme
- Paris 4
- École doctorale Mondes anciens et médiévaux (Paris)

- Auteur
- Sadaf Abdul Rauf
- Résumé
- Lire le résumé
- Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le «translation edit rate (TER)». Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que «Agence France Press (AFP)», «Associate press» ou «Xinua News». Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique...
- Disicipline
- Informatique
- Date
- Soutenue le 18/01/2012
- Sous la direction de
- Holger Schwenk
- Organisme
- Le Mans

- Auteur
- Daniel Déchelotte
- Résumé
- Lire le résumé
- Cette thèse porte sur la traduction de la parole reconnue automatiquement. La tâche retenue est la traduction des discours des députés européens aux sessions plénières du parlement européen, entre l'anglais et l'espagnol. Cette thèse repose sur deux systèmes de traduction statistique. Le premier a été entièrement développé au cours de cette thèse et met en œuvre le modèle IBM-4. Le second système emploie Moses, un décodeur libre par groupes de mots à l'état de l'art. Nous envisageons aussi une collaboration entre les deux décodeurs. Le modèle quadrigramme neuronal s'avère très performant dans les deux sens de traduction. Les systèmes de traduction mis en oeuvre dans cette thèse furent très compétitifs à l'évaluation TC-Star de février 2007. Nous proposons un algorithme inspiré de celui du Perceptron pour modifier de façon discriminante les scores de la table de traduction en observant les erreurs de traduction sur un ensemble de développement. Concernant l'interaction entre reconnaissance de la parole et traduction, nous mesurerons l'impact du taux de mots erronés de la reconnaissance sur les performances de la traduction, et évaluons séparément les impacts respectifs du modèle de langage source et du modèle acoustique. Nous menons également des expériences prenant en compte l'ambiguïté de la sortie de la reconnaissance automatique, c'est-à-dire les mots entre lesquels la reconnaissance « hésite ». Nous décrivons ensuite plusieurs traitements spécifiques à la parole qui interviennent après la reconnaissance et avant la traduction. Enfin, nous modifions le système de reconnaissance de manière à améliorer les performances de traduction de la parole.
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2007
- Sous la direction de
- Holger Schwenk
- Jean-Luc Gauvain
- Organisme
- Paris 11
