Affiner les résultats
- École doctorale Lettres, langues, linguistique, arts (Lyon)[remove]2
- Dichy Joseph[remove]1
- Habert Benoît[remove]1
- Larouk Omar1
Search
Votre recherche :
Disciplines Sciences du langage Spécialité Didactique et Linguistique Retirer
Disciplines Linguistique Retirer
Écoles Doctorales École doctorale Lettres, langues, linguistique, arts (Lyon) Retirer
Directeurs de thèse Habert Benoît Retirer
Directeurs de thèse Dichy Joseph Retirer
1 - 2 sur 2
Nombre de résultats par page
2017LYSE2042
Conception et développement d'un outil d'aide à la traduction anglais/arabe basé sur des corpus parallèles
- Auteur
- Abdelghani Yahiaoui
- Résumé
- Lire le résumé
- Dans cette thèse, nous abordons la réalisation d’un outil innovant d’aide à la traduction anglais/arabe pour répondre au besoin croissant en termes d’outils en ligne d’aide à la traduction centrés sur la langue arabe. Cet outil combine des dictionnaires adaptés aux spécificités de la langue arabe et un concordancier bilingue issu des corpus parallèles. Compte tenu de sa nature agglutinante et non voyellée, le mot arabe nécessite un traitement spécifique. C’est pourquoi, et pour construire nos ressources lexicales, nous nous sommes basés sur l’analyseur morphologique de Buckwalter qui, d’une part, permet une analyse morphologique en tenant compte de la composition complexe du mot arabe (proclitique, préfixe, radical, suffixe, enclitique), et qui, d’autre part, fournit des ressources traductionnelles permettant une réadaptation au sein d’un système de traduction. Par ailleurs, cet analyseur morphologique est compatible avec l’approche définie autour de la base de données DIINAR (DIctionnaire Informatisé de l’Arabe), qui a été construite, entre autres, par des membres de notre équipe de recherche. Pour répondre à la problématique du contexte dans la traduction, un concordancier bilingue a été développé à partir des corpus parallèles Ces derniers représentent une ressource linguistique très intéressante et ayant des usages multiples, en l’occurrence l’aide à la traduction. Nous avons donc étudié de près ces corpus, leurs méthodes d’alignement, et nous avons proposé une approche mixte qui améliore significativement la qualité d’alignement sous-phrastique des corpus parallèles anglais-arabes. Plusieurs technologies informatiques ont été utilisées pour la mise en œuvre de cet outil d’aide à la traduction qui est disponible en ligne (tarjamaan.com), et qui permet à l’utilisateur de chercher la traduction de millions de mots et d’expressions tout en visualisant leurs contextes originaux. Une évaluation de cet outil a été faite en vue de son optimisation et de son élargissement pour prendre en charge d’autres paires de langues.
- Disicipline
- Linguistique
- Date
- Soutenue le 30/05/2017
- Sous la direction de
- Joseph Dichy
- Omar Larouk
- Organisme
- Lyon
- École doctorale Lettres, langues, linguistique, arts (Lyon)

- Auteur
- Adrien Barbaresi
- Résumé
- Lire le résumé
- Le premier chapitre s'ouvre par un description du contexte interdisciplinaire. Ensuite, le concept de corpus est présenté en tenant compte de l'état de l'art. Le besoin de disposer de preuves certes de nature linguistique mais embrassant différentes disciplines est illustré par plusieurs scénarios de recherche. Plusieurs étapes clés de la construction de corpus sont retracées, des corpus précédant l'ère digitale à la fin des années 1950 aux corpus web des années 2000 et 2010. Les continuités et changements entre la tradition en linguistique et les corpus tirés du web sont exposés. Le second chapitre rassemble des considérations méthodologiques. L'état de l'art concernant l'estimation de la qualité de textes est décrit. Ensuite, les méthodes utilisées par les études de lisibilité ainsi que par la classification automatique de textes sont résumées. Des dénominateurs communs sont isolés. Enfin, la visualisation de textes démontre l'intérêt de l'analyse de corpus pour les humanités numériques. Les raisons de trouver un équilibre entre analyse quantitative et linguistique de corpus sont abordées.Le troisième chapitre résume l'apport de la thèse en ce qui concerne la recherche sur les corpus tirés d'internet. La question de la collection des données est examinée avec une attention particulière, tout spécialement le cas des URLs sources. La notion de prétraitement des corpus web est introduite, ses étapes majeures sont brossées. L'impact des prétraitements sur le résultat est évalué. La question de la simplicité et de la reproducibilité de la construction de corpus est mise en avant.La quatrième partie décrit l'apport de la thèse du point de vue de la construction de corpus proprement dite, à travers la question des sources et le problèmes des documents invalides ou indésirables. Une approche utilisant un éclaireur léger pour préparer le parcours du web est présentée. Ensuite, les travaux concernant la sélection de documents juste avant l'inclusion dans un corpus sont résumés : il est possible d'utiliser les apports des études de lisibilité ainsi que des techniques d'apprentissage artificiel au cours de la construction du corpus. Un ensemble de caractéristiques textuelles testées sur des échantillons annotés évalue l'efficacité du procédé. Enfin, les travaux sur la visualisation de corpus sont abordés : extraction de caractéristiques à l'échelle d'un corpus afin de donner des indications sur sa composition et sa qualité.
- Disicipline
- Linguistique
- Date
- Soutenue le 20/06/2015
- Sous la direction de
- Benoît Habert
- Organisme
- Lyon, École normale supérieure
- École doctorale Lettres, langues, linguistique, arts (Lyon)
