Affiner les résultats
- Université Grenoble Alpes (ComUE)[remove]4
- Grenoble2
- Université Grenoble Alpes2
- Université de Liège1
- Université de Sfax (Tunisie). Faculté des Sciences économiques et de gestion1
- Boitet Christian3
- Bellynck Valérie[remove]2
- Besacier Laurent2
- Bhattacharyya Pushpak1
- Blanchon Hervé1
- Blanchon Hervé[remove]1
- Mangeot Mathieu1
- Schwab Didier1
- Semmar Nasredine1
- Zrigui Mounir[remove]1
Search
Votre recherche :
Établissements Grenoble Alpes Retirer
Établissements Université Grenoble Alpes (ComUE) Retirer
Écoles Doctorales École doctorale mathématiques, sciences et technologies de l\'information, informatique (Grenoble) Retirer
Directeurs de thèse Heijer Johannes den Retirer
Directeurs de thèse Bellynck Valérie Retirer
Directeurs de thèse Zrigui Mounir Retirer
Directeurs de thèse Blanchon Hervé Retirer
1 - 4 sur 4
Nombre de résultats par page
- Auteur
- Marwa Hadj salah
- Résumé
- Lire le résumé
- Nous abordons dans cette thèse une étude sur la tâche de la désambiguïsation lexicale qui est une tâche centrale pour le traitement automatique des langues, et qui peut améliorer plusieurs applications telles que la traduction automatique ou l'extraction d'informations. Les recherches en désambiguïsation lexicale concernent principalement l'anglais, car la majorité des autres langues manque d'une référence lexicale standard pour l'annotation des corpus, et manque aussi de corpus annotés en sens pour l'évaluation, et plus important pour la construction des systèmes de désambiguïsation lexicale. En anglais, la base de données lexicale wordnet est une norme de-facto de longue date utilisée dans la plupart des corpus annotés et dans la plupart des campagnes d'évaluation.Notre contribution porte sur plusieurs axes: dans un premier temps, nous présentons une méthode pour la création automatique de corpus annotés en sens pour n'importe quelle langue, en tirant parti de la grande quantité de corpus anglais annotés en sens wordnet, et en utilisant un système de traduction automatique. Cette méthode est appliquée sur la langue arabe et est évaluée sur le seul corpus arabe, qui à notre connaissance, soit annoté manuellement en sens wordnet: l'OntoNotes 5.0 arabe que nous avons enrichi semi-automatiquement. Son évaluation est réalisée grâce à la mise en œuvre de deux systèmes supervisés (SVM, LSTM) qui sont entraînés sur les corpus produits avec notre méthode.Grâce ce travail, nous proposons ainsi une base de référence solide pour l'évaluation des futurs systèmes de désambiguïsation lexicale de l’arabe, en plus des corpus arabes annotés en sens que nous fournissons en tant que ressource librement disponible.Dans un second temps, nous proposons une évaluation in vivo de notre système de désambiguïsation de l’arabe en mesurant sa contribution à la performance de la tâche de traduction automatique.
- Disicipline
- Informatique
- Date
- Soutenue le 19/12/2018
- Sous la direction de
- Hervé Blanchon
- Mounir Zrigui
- Didier Schwab
- Organisme
- Université Grenoble Alpes (ComUE)
- Université de Sfax (Tunisie). Faculté des Sciences économiques et de gestion
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

2019GREAM019
Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali
- Auteur
- Houssein Ahmed Assowe
- Résumé
- Lire le résumé
- Dans le cadre des travaux en cours pour informatiser un grand nombre de langues « peu dotées », en particulier celles de l’espace francophone, nous avons créé un système de traduction automatique français-somali dédié à un sous-langage journalistique, permettant d’obtenir des traductions de qualité, à partir d’un corpus bilingue construit par post-édition des résultats de Google Translate (GT), à destination des populations somalophones et non francophones de la Corne de l’Afrique. Pour cela, nous avons constitué le tout premier corpus parallèle français-somali de qualité, comprenant à ce jour 98 912 mots (environ 400 pages standard) et 10 669 segments. Ce dernier constitue’est un corpus aligné, et de très bonne qualité, car nous l’avons construit en post-éditant les pré-traductions de GT, qui combine pour cela avec une combinaison de lason système de TA français-anglais et système de TA anglais-somali. Il Ce corpus a également fait l’objet d’une évaluation de la part depar 9 annotateurs bilingues qui ont donné une note score de qualité à chaque segment du corpus, et corrigé éventuellement notre post-édition. À partir de ce corpus, en croissance, nous avons construit plusieurs versions successives d’un système de Traduction Automatique à base de fragments (PBMT), MosesLIG-fr-so, qui s’est révélé meilleur que GoogleTranslate GT sur ce couple de langues et ce sous-langage, en termes de mesure BLEU et du temps de post-édition. Nous avons fait également une première expérience de traduction automatique neuronale français-somali en utilisant OpenNMT, de façon à améliorer les résultats de la TA sans aboutir à des temps de calcul prohibitifs, tant durant l’entraînement que durant le décodage.D’autre part, nous avons mis en place une iMAG (passerelle interactive d’accès multilingue) qui permet à des internautes somaliens non francophones du continent d’accéder en somali à l’édition en ligne du journal « La Nation de Djibouti ». Les segments (phrases ou titres) prétraduits automatiquement par notre un système de TA fr-so en ligne disponible peuvent être post-édités et notés (sur sur une échelle de 1 à 20) par les lecteurs eux-mêmes, de façon à améliorer le système par apprentissage incrémental, de la même façon que ce qui a été fait pour le système français-chinois (PBMT) créé par [Wang, 2015].
- Disicipline
- Informatique
- Date
- Soutenue le 30/05/2019
- Sous la direction de
- Hervé Blanchon
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Ying Zhang
- Résumé
- Lire le résumé
- Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert.Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES.
- Disicipline
- Informatique
- Date
- Soutenue le 29/06/2016
- Sous la direction de
- Christian Boitet
- Valérie Bellynck
- Mathieu Mangeot
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Lingxiao Wang
- Résumé
- Lire le résumé
- La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA.
- Disicipline
- Informatique
- Date
- Soutenue le 15/12/2015
- Sous la direction de
- Christian Boitet
- Valérie Bellynck
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)
