Affiner les résultats
- Lederer Marianne23
- Boitet Christian21
- Israël Fortunato17
- Cardey-Greenfield Sylviane16
- Durieux Christine16
- Hamzé Hassan13
- Depecker Loïc12
- Yvon François12
- Besacier Laurent11
- Dichy Joseph11
- Gile Daniel9
- Collombat Isabelle8
- Humbley John8
- Lerat Pierre8
- Seleskovitch Danica8
- Zinglé Henri8
- Gautier Laurent7
- Levet Jean-Pierre7
- القاسم فايزة7
- Ballard Michel6
- Blanchon Hervé6
- Grass Thierry6
- Hassoun Mohamed6
- Ladmiral Jean-René6
- Morin Emmanuel6
- Schwenk Holger[remove]6
- Bosredon Bernard5
- Daille Béatrice5
- Danlos Laurence5
- Guillaume Jean-Patrick5
- Ibrahim Amr Helmy5
- Jenn Ronald5
- Lelubre Xavier5
- Maniez François5
- Pergnier Maurice5
- Qasem Fayza El5
- Roman André5
- Szende Tamás5
- Tutin Agnès5
- Banoun Bernard4
- Barrault Loïc4
- Bensimon Paul4
- Cavalla Cristelle4
- Chiaramella Yves4
- Condamines Anne4
- Dalmas Martine4
- Desclès Jean-Pierre4
- Estève Yannick4
- Froeliger Nicolas4
- Gardes Joëlle4
Search
Votre recherche :
Directeurs de thèse Antoniadis Georges Retirer
Directeurs de thèse Schwenk Holger Retirer
1 - 8 sur 8
Nombre de résultats par page
- Auteur
- Jorge Mauricio Molina Mejia
- Résumé
- Lire le résumé
- Nous présentons, dans ce manuscrit, un dispositif informatique d'aide à la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche à améliorer le niveau linguistique des étudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondé sur un corpus textuel spécifiquement annoté et étiqueté grâce aux outils de traitement automatique de langues (TAL) et à des annotations manuelles en format XML. Ceci permet de développer des activités à visée formative, en tenant compte des besoins exprimés par les publics cibles (enseignants-formateurs et leurs étudiants en formation).Comme nous l'exposons tout au long de cette thèse, l'élaboration d'un système comme le nôtre est le produit de la mise en œuvre de connaissances et de compétences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingénierie pédagogique, linguistique générale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pédagogique pour la formation des étudiants en FLE dans le contexte de l'éducation supérieure en Colombie, un outil pensé en fonction des besoins et des objectifs de cet apprentissage. L'originalité de notre système repose sur le type de public choisi, le modèle didactique de formation mis en œuvre et la spécificité du corpus utilisé. À notre connaissance, il s'agit d'un des premiers systèmes d'ALAO fondé sur la linguistique textuelle s'adressant à la formation des futurs enseignants de FLE dans un contexte exolingue.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 07/11/2015
- Sous la direction de
- Georges Antoniadis
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Walid Aransa
- Résumé
- Lire le résumé
- La traduction automatique de texte arabe a reçu beaucoup d'attention au cours de la dernière décennie. La langue arabe, langue officielle de plus de 25 pays, est parlée par plus de 290 millions de personnes. Les changements politiques engendrés par les révolutions arabes ont mis sur le devant de la scène cette langue et ses multiples dialectes. Ce travail s'inscrit dans le cadre du projet BOLT dont le but est d'améliorer les performances des systèmes de traduction arabe-anglais pour des domaines spécifiques (SMS, parole conversationnelle, etc.)Dans cette thèse, j'ai enrichi le système de traduction à base de segments du LIUM à maints égards. Les systèmes à base de segments fournissent actuellement les meilleures performances. Ces systèmes sont basés sur deux modèles statistiques : le modèle de traduction et le modèle de langage. Dans l'objectif d’améliorer la qualité de traduction de l'arabe, nous avons mis l'accent sur trois aspects. Le premier aspect est la réduction des mots inconnus dans la sortie de traduction. Le second aspect de mon travail de thèse est l'adaptation au domaine ou à la tâche de la table de traduction. Finalement, je me suis intéressé à l'amélioration de la modélisation linguistique avec des réseaux de neurones. Ces modèles sont utilisés pour re-évaluer les n-meilleures hypothèses de traduction.Toutes les techniques développées ont été minutieusement incorporées dans le système du LIUM et évaluées dans trois campagnes d’évaluation internationales dans le cadre du projet BOLT.
- Disicipline
- Informatique
- Date
- Soutenue le 24/09/2015
- Sous la direction de
- Holger Schwenk
- Loïc Barrault
- Organisme
- Le Mans
- École doctorale Sciences et technologies de l'information et mathématiques (Nantes)

- Auteur
- Haithem Afli
- Résumé
- Lire le résumé
- Les performances des systèmes de traduction automatique statistique dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes. Cependant, les textes parallèles librement disponibles sont aussi des ressources rares : la taille est souvent limitée, la couverture linguistique insuffisante ou le domaine des textes n’est pas approprié. Il y a relativement peu de paires de langues pour lesquelles des corpus parallèles de tailles raisonnables sont disponibles pour certains domaines. L’une des façons pour pallier au manque de données parallèles est d’exploiter les corpus comparables qui sont plus abondants. Les travaux précédents dans ce domaine n’ont été appliqués que pour la modalité texte. La question que nous nous sommes posée durant cette thèse est de savoir si un corpus comparable multimodal permet d’apporter des solutions au manque de données parallèles dans le domaine de la traduction automatique.Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes modalités (texte ou parole) pour le développement d’un système de traduction automatique statistique. Une première partie des contributions consisteà proposer une technique pour l’extraction des données parallèles à partir d’un corpus comparable multimodal (audio et texte). Les enregistrements sont transcrits avec un système de reconnaissance automatique de la parole et traduits avec unsystème de traduction automatique. Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte. Dans la deuxième partie des contributions, nous visons l’amélioration de notre méthode en exploitant les entités sous-phrastiques créant ainsi une extension à notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de filtrage. Enfin, nous présentons plusieurs manières d’aborder l’adaptation des systèmes de traduction avec les données extraites.Nos expériences ont été menées sur les données des sites web TED et Euronews qui montrent la faisabilité de nos approches.
- Disicipline
- Informatique
- Date
- Soutenue le 08/07/2014
- Sous la direction de
- Holger Schwenk
- Loïc Barrault
- Organisme
- Le Mans
- École doctorale Sciences et technologies de l'information et mathématiques (Nantes)

2013LEMA1034
Modèles de traduction évolutifs
- Auteur
- Frédéric Blain
- Résumé
- Lire le résumé
- Bien que la recherche ait fait progresser la traduction automatique depuis plusieurs années, la sortie d’un système automatisé ne peut être généralement publiée sans avoir été révisée humainement au préalable, et corrigée le cas échéant. Forts de ce constat, nous avons voulu exploiter ces retours utilisateurs issus du processus de révision pour adapter notre système statistique dans le temps, au moyen d’une approche incrémentale.Dans le cadre de cette thèse Cifre-Défense, nous nous sommes donc intéressés à la postédition, un des champs de recherche les plus actifs du moment, et qui plus est très utilisé dans l’industrie de la traduction et de la localisation.L’intégration de retours utilisateurs n’est toutefois pas une tâche aussi évidente qu’il n’y paraît. D’une part, il faut être capable d’identifier l’information qui sera utile au système, parmi l’ensemble des modifications apportées par l’utilisateur. Pour répondre à cette problématique, nous avons introduit une nouvelle notion (les « Actions de Post-Édition »), et proposé une méthodologie d’analyse permettant l’identification automatique de cette information à partir de données post-éditées. D’autre part, concernant l’intégration continue des retours utilisateurs nous avons développé un algorithme d’adaptation incrémentale pour un système de traduction statistique, lequel obtient des performances supérieures à la procédure standard. Ceci est d’autant plus intéressant que le développement et l’optimisation d’un tel système de traduction estune tâche très coûteuse en ressources computationnelles, nécessitant parfois jusqu’à plusieurs jours de calcul.Conduits conjointement au sein de l’entreprise SYSTRAN et du LIUM, les travaux de recherche de cette thèse s’inscrivent dans le cadre du projet ANR COSMAT 1. En partenariat avec l’INRIA, ce projet avait pour objectif de fournir à la communauté scientifique un service collaboratif de traduction automatique de contenus scientifiques. Outre les problématiques liéesà ce type de contenu (adaptation au domaine, reconnaissance d’entités scientifiques, etc.), c’est l’aspect collaboratif de ce service avec la possibilité donnée aux utilisateurs de réviser les traductions qui donne un cadre applicatif à nos travaux de recherche.
- Disicipline
- Informatique et Applications
- Date
- Soutenue le 24/09/2013
- Sous la direction de
- Holger Schwenk
- Organisme
- Le Mans
- École doctorale Sciences et technologies de l'information et mathématiques (Nantes)

- Auteur
- Kashif Shah
- Résumé
- Lire le résumé
- L’approche statistique pour la traduction automatique semble être aujourd’hui l’approche la plusprometteuse. Cette approche permet de développer rapidement un système de traduction pour unenouvelle paire de langue lorsque les données d'apprentissage disponibles sont suffisammentconséquentes.Les systèmes de traduction automatique statistique (Statistical Machine Translation (SMT)) utilisentdes textes parallèles, aussi appelés les bitextes, comme support d'apprentissage pour créer lesmodèles de traduction. Ils utilisent également des corpus monolingues afin de modéliser la langueciblée.Les performances d'un système de traduction automatique statistique dépendent essentiellement dela qualité et de la quantité des données disponibles. Pour l'apprentissage d'un modèle de traduction,les textes parallèles sont collectés depuis différentes sources, dans différents domaines. Ces corpussont habituellement concaténés et les phrases sont extraites suite à un processus d'alignement desmots.Néanmoins, les données parallèles sont assez hétérogènes et les performances des systèmes detraduction automatique dépendent généralement du contexte applicatif. Les performances varient laplupart du temps en fonction de la source de données d’apprentissage, de la qualité de l'alignementet de la cohérence des données avec la tâche. Les traductions, sélectionnées parmi différenteshypothèses, sont directement influencées par le domaine duquel sont récupérées les donnéesd'apprentissage. C'est en contradiction avec l'apprentissage des modèles de langage pour lesquelsdes techniques bien connues sont utilisées pour pondérer les différentes sources de données. Ilapparaît donc essentiel de pondérer les corpus d’apprentissage en fonction de leur importance dansle domaine de la tâche de traduction.Nous avons proposé de nouvelles méthodes permettant de pondérer automatiquement les donnéeshétérogènes afin d'adapter le modèle de traduction.Dans une première approche, cette pondération automatique est réalisée à l'aide d'une technique deré-échantillonnage. Un poids est assigné à chaque bitextes en fonction de la proportion de donnéesdu corpus. Les alignements de chaque bitextes sont par la suite ré-échantillonnés en fonction de cespoids. Le poids attribué aux corpus est optimisé sur les données de développement en utilisant uneméthode numérique. De plus, un score d'alignement relatif à chaque paire de phrase alignée estutilisé comme mesure de confiance.Dans un travail approfondi, nous pondérons en ré-échantillonnant des alignements, en utilisant despoids qui diminuent en fonction de la distance temporelle entre les bitextes et les données de test.Nous pouvons, de cette manière, utiliser tous les bitextes disponibles tout en mettant l'accent sur leplus récent.L'idée principale de notre approche est d'utiliser une forme paramétrique, ou des méta-poids, pourpondérer les différentes parties des bitextes. De cette manière, seuls quelques paramètres doiventêtre optimisés.Nous avons également proposé un cadre de travail générique qui, lors du calcul de la table detraduction, ne prend en compte que les corpus et les phrases réalisant les meilleurs scores. Cetteapproche permet une meilleure distribution des masses de probabilités sur les paires de phrasesindividuelles.Nous avons présenté les résultats de nos expériences dans différentes campagnes d'évaluationinternationales, telles que IWSLT, NIST, OpenMT et WMT, sur les paires de langues Anglais/Arabeet Fançais/Arabe. Nous avons ainsi montré une amélioration significative de la qualité destraductions proposées.
- Disicipline
- Informatique
- Date
- Soutenue le 30/06/2012
- Sous la direction de
- Holger Schwenk
- Organisme
- Le Mans

- Auteur
- Sadaf Abdul Rauf
- Résumé
- Lire le résumé
- Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le «translation edit rate (TER)». Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que «Agence France Press (AFP)», «Associate press» ou «Xinua News». Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique...
- Disicipline
- Informatique
- Date
- Soutenue le 18/01/2012
- Sous la direction de
- Holger Schwenk
- Organisme
- Le Mans

- Auteur
- Daniel Déchelotte
- Résumé
- Lire le résumé
- Cette thèse porte sur la traduction de la parole reconnue automatiquement. La tâche retenue est la traduction des discours des députés européens aux sessions plénières du parlement européen, entre l'anglais et l'espagnol. Cette thèse repose sur deux systèmes de traduction statistique. Le premier a été entièrement développé au cours de cette thèse et met en œuvre le modèle IBM-4. Le second système emploie Moses, un décodeur libre par groupes de mots à l'état de l'art. Nous envisageons aussi une collaboration entre les deux décodeurs. Le modèle quadrigramme neuronal s'avère très performant dans les deux sens de traduction. Les systèmes de traduction mis en oeuvre dans cette thèse furent très compétitifs à l'évaluation TC-Star de février 2007. Nous proposons un algorithme inspiré de celui du Perceptron pour modifier de façon discriminante les scores de la table de traduction en observant les erreurs de traduction sur un ensemble de développement. Concernant l'interaction entre reconnaissance de la parole et traduction, nous mesurerons l'impact du taux de mots erronés de la reconnaissance sur les performances de la traduction, et évaluons séparément les impacts respectifs du modèle de langage source et du modèle acoustique. Nous menons également des expériences prenant en compte l'ambiguïté de la sortie de la reconnaissance automatique, c'est-à-dire les mots entre lesquels la reconnaissance « hésite ». Nous décrivons ensuite plusieurs traitements spécifiques à la parole qui interviennent après la reconnaissance et avant la traduction. Enfin, nous modifions le système de reconnaissance de manière à améliorer les performances de traduction de la parole.
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2007
- Sous la direction de
- Holger Schwenk
- Jean-Luc Gauvain
- Organisme
- Paris 11

- Auteur
- Doriane Simonnet
- Résumé
- Lire le résumé
- Le travail de thèse consiste en la réalisation de modèles et outils danalyse sémantique pour lexploitation de corpus dentretiens réalisés par une société daide à linnovation. Ces entretiens sont analysés afin de déterminer si un projet dinnovation répond ou non à plusieurs critères dacceptabilité. Lautomatisation de cette analyse, au-delà des difficultés dambiguïtés généralement rencontrées en analyse sémantique des opinions, doit permettre de traiter des contenus relevant dune multitude de langues de spécialité. Il sagira donc de réaliser des modèles et outils intégrant des procédés généraux de traitement automatique des langues (analyse syntaxique et sémantique) et des ontologies permettant dintégrer différentes terminologies.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- En préparation depuis le 02/09/2016
- Sous la direction de
- Georges Antoniadis
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines
