Affiner les résultats
- Lederer Marianne23
- Boitet Christian[remove]21
- Israël Fortunato17
- Cardey-Greenfield Sylviane16
- Durieux Christine16
- Hamzé Hassan13
- Depecker Loïc12
- Yvon François12
- Besacier Laurent11
- Dichy Joseph11
- Gile Daniel9
- Collombat Isabelle8
- Humbley John8
- Lerat Pierre8
- Seleskovitch Danica8
- Zinglé Henri8
- Gautier Laurent7
- Levet Jean-Pierre7
- القاسم فايزة7
- Ballard Michel6
- Blanchon Hervé6
- Hassoun Mohamed6
- Ladmiral Jean-René6
- Morin Emmanuel6
- Schwenk Holger6
- Bosredon Bernard5
- Daille Béatrice5
- Danlos Laurence5
- Guillaume Jean-Patrick5
- Ibrahim Amr Helmy5
- Jenn Ronald5
- Lelubre Xavier5
- Maniez François5
- Pergnier Maurice5
- Qasem Fayza El5
- Roman André5
- Szende Tamás5
- Tutin Agnès5
- Banoun Bernard4
- Barrault Loïc4
- Bensimon Paul4
- Cavalla Cristelle4
- Chiaramella Yves4
- Condamines Anne4
- Dalmas Martine4
- Desclès Jean-Pierre4
- Estève Yannick4
- Froeliger Nicolas4
- Gardes Joëlle4
- Gaudin François4
Search
1 - 10 sur 21
| Suivant »
Nombre de résultats par page
- Auteur
- Ritesh Shah
- Résumé
- Lire le résumé
- Alors que Twitter évolue vers un outil omniprésent de diffusion de l'information, la compréhension des tweets en langues étrangères devient un problème important et difficile. En raison de la nature intrinsèquement à commutation de code, discrète et bruitée des tweets, la traduction automatique (MT) à l'état de l'art n'est pas une option viable (Farzindar & Inkpen, 2015). En effet, au moins pour le hindi et le japonais, nous observons que le pourcentage de tweets « compréhensibles » passe de 80% pour les locuteurs natifs à moins de 30% pour les lecteurs monolingues cible (anglais ou français) utilisant Google Translate. Notre hypothèse de départ est qu'il devrait être possible de créer des outils génériques, permettant aux étrangers de comprendre au moins 70% des « tweets locaux », en utilisant une interface polyvalente de « lecture active » (LA, AR en anglais) tout en déterminant simultanément le pourcentage de tweets compréhensibles en-dessous duquel un tel système serait jugé inutile par les utilisateurs prévus.Nous avons donc spécifié un « SUFT » (système d'aide à la compréhension des tweets étrangers) générique, et mis en œuvre SUFT-1, un système interactif à mise en page multiple basé sur la LA, et facilement configurable en ajoutant des dictionnaires, des modules morphologiques et des plugins de TA. Il est capable d'accéder à plusieurs dictionnaires pour chaque langue source et fournit une interface d'évaluation. Pour les évaluations, nous introduisons une mesure liée à la tâche induisant un coût négligeable, et une méthodologie visant à permettre une « évaluation continue sur des données ouvertes », par opposition aux mesures classiques basées sur des jeux de test liés à des ensembles d'apprentissage fermés. Nous proposons de combiner le taux de compréhensibilité et le temps de décision de compréhensibilité comme une mesure de qualité à deux volets, subjectif et objectif, et de vérifier expérimentalement qu'une présentation de type lecture active, basée sur un dictionnaire, peut effectivement aider à comprendre les tweets mieux que les systèmes de TA disponibles.En plus de rassembler diverses ressources lexicales, nous avons construit une grande ressource de "formes de mots" apparaissant dans les tweets indiens, avec leurs analyses morphologiques (à savoir 163221 formes de mots hindi dérivées de 68788 lemmes et 72312 formes de mots marathi dérivées de 6026 lemmes) pour créer un analyseur morphologique multilingue spécialisé pour les tweets, capable de gérer des tweets à commutation de code, de calculer des traits unifiés, et de présenter un tweet en lui attachant un graphe de LA à partir duquel des lecteurs étrangers peuvent extraire intuitivement une signification plausible, s'il y en a une.
- Disicipline
- Informatique
- Date
- Soutenue le 28/10/2017
- Sous la direction de
- Christian Boitet
- Pushpak Bhattacharyya
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Ying Zhang
- Résumé
- Lire le résumé
- Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert.Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES.
- Disicipline
- Informatique
- Date
- Soutenue le 29/06/2016
- Sous la direction de
- Christian Boitet
- Valérie Bellynck
- Mathieu Mangeot
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Lingxiao Wang
- Résumé
- Lire le résumé
- La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA.
- Disicipline
- Informatique
- Date
- Soutenue le 15/12/2015
- Sous la direction de
- Christian Boitet
- Valérie Bellynck
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Carlos Eduardo Ramisch
- Résumé
- Lire le résumé
- Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres
- Disicipline
- Informatique
- Date
- Soutenue le 12/09/2012
- Sous la direction de
- Christian Boitet
- Aline Villavicencio
- Organisme
- Grenoble
- Universidade Federal do Rio Grande do Sul (Brésil)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Amel Fraisse
- Résumé
- Lire le résumé
- Nous proposons une méthode novatrice pour permettre la localisation en contexte de la majorité des logiciels commerciaux et libres, ceux programmés en Java et en C++/C#. Actuellement, la traduction des documents techniques ainsi que celle des éléments d'interface des logiciels commerciaux est confiée uniquement à des professionnels, ce qui allonge le processus de traduction, le rend coûteux, et quelquefois aboutit à une mauvaise qualité car les traducteurs professionnels n'ont pas accès au contexte d'utilisation des éléments textuels. Dès que l'on sort du petit ensemble des quelques langues les mieux dotées, et que l'on veut localiser un logiciel pour des « langues peu dotées », ce processus n'est plus viable pour des raisons de coût et surtout de rareté, de cherté, ou d'absence de traducteurs professionnels. Notre méthode consiste à faire participer de façon efficace et dynamique les bêta- testeurs et les utilisateurs finals au processus de localisation: pendant qu'ils utilisent l'application, les utilisateurs connaissant la langue originale du logiciel (souvent mais pas toujours l'anglais) peuvent intervenir sur les éléments textuels d'interface que l'application leur présente dans leur contexte d'utilisation courant. Ils peuvent ainsi traduire en contexte les boutons, les menus, les étiquettes, les onglets, etc. , ou améliorer la traduction proposée par des systèmes de traduction automatique (TA) ou des mémoires de traductions (MT). Afin de mettre en place ce nouveau paradigme, nous avons besoin d'intervenir très localement sur le code source du logiciel: il s'agit donc aussi d'un paradigme de localisation interne. La mise en place d'une telle approche de localisation a nécessité l'intégration d'un gestionnaire de flot de traductions « SECTra - w ». Ainsi, nous avons un nouveau processus de localisation tripartite dont les trois parties sont l'utilisateur, l'éditeur du logiciel et le site collaboratif SECTra_w. Nous avons effectué une expérimentation complète du nouveau processus de localisation sur deux logiciels libres à code source ouvert: Notepad-plus-plus et Vuze.
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2010
- Sous la direction de
- Christian Boitet
- Organisme
- Grenoble
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Muhammad Ghulam Abbas Malik
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2010
- Sous la direction de
- Christian Boitet
- Organisme

- Auteur
- Mohammad Daoud
- Résumé
- Lire le résumé
- Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Multilingual Preterminological Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc. ) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots.
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2010
- Sous la direction de
- Christian Boitet
- Kyō Kageura
- Mathieu Mangeot
- Organisme
- Grenoble
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Vassilina Nikoulina
- Résumé
- Lire le résumé
- Les modèles de traduction automatique probabiliste traditionnel ignorent la structure syntaxique des phrases source et cible. Le choix des unités lexicales cible et de leur ordre est contrôlé uniquement par des statistiques de surface sur le corpus d'entraînement. La connaissance de la structure linguistique peut-être bénéfique, car elle fournit des informations génériques compensant la pauvreté des données directement observables. Nos travaux ont pour but d'étudier l'impact des informations syntaxiques sur un modèle de traduction probabiliste de base, fondé sur des fragments, dans le cadre d'un analyseur dépendanciel particulier, XIP, dont la performance est bien adaptée à nos besoins. Nous étudions d'abord l'intégration des informations syntaxiques dans un but de reclassement des traductions proposées par le modèle de base? Nous définissons un ensemble de traits mesurant la similarité entre les structures de dépendance source et cible, et des traits de cohérence linguistique (basés sur l'analyse cible). L'apprentissage automatique des poids de ces traits permet de détecter leurs importance. L'évaluation manuelle des différents modèles de reclassement nous a permis de montrer le potentiel de ces traits pour améliorer la qualité des traductions proposées par le modèle de base. Ensuite, nous avons proposé un modèle pour réduire la taille du graphe des hypothèses exploré par le modèle de base à l'aide de connaissances sur la structure syntaxique source. Nous avons également proposé une procédure de décomposition d'une phrase source initiale en sous-phrases pour simplifier la tâche de traduction. Les évaluations initiales de ces modèles se sont montrées prometteuses.
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2010
- Sous la direction de
- Christian Boitet
- Marc Dymetman
- Organisme
- Grenoble
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Hong-Thai Nguyen
- Résumé
- Lire le résumé
- La thèse porte sur les problèmes posés par la conception et la réalisation de la partie logicielle des systèmes de traduction automatisée (TAO) hétérogènes, intégrant des systèmes de TA multiples et/ou à composants hétérogènes, ainsi qu'une partie THAM (traduction humaine aidée par la machine), reposant sur des mémoires de traductions. Ces systèmes se développent à côté des systèmes de TA homogènes et de THAM, et les supplanteront peut-être à moyen terme. Leurs différents composants de TA seront construits par des équipes différentes, distribuées autour de la planète, avec des méthodes algorithmiques et des outils différents (langages spécialisés ou LSPL), ainsi que des ressources et composants linguiciels différents (dictionnaires et corpus de divers types, grammaires et transducteurs basés sur des règles), à l'aide d'EDL (environnements de développement linguiciel) eux aussi différents. Les contributions de la thèse concernent en particulier : • l'amélioration des « méta-EDL de TAO », permettant d'effectuer une transition incrémentale entre les EDL natifs des systèmes de TA utilisés pour construire un systèmes de TAO à composants hétérogènes, et un futur EDL intégrateur universel, dans lequel on pourra « rapatrier » la compilation et l'exécution des LSPL ; • la conception et la réalisation d'une base lexicale partageant un même pivot lexical, PIVAX, réalisée au-dessus de la plate-forme Jibiki (G. Sérasset, GETALP) ; • la réingénierie de langages spécialisés « externes » (non supportés par l'EDL Ariane-G5), avec application aux « systèmes-Q » (A. Colmerauer, 1967), qui servit de base pendant 15 ans au système de TA TAUM-météo destiné aux bulletins météorologiques canadiens ; • la conception et la réalisation d'un « moniteur » adapté à la partie « production » d'un système de TAO hétérogène, EMEU_w. 1. 0, qui a été développé et utilisé dans le cadre d'un projet de grande ampleur.
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2009
- Sous la direction de
- Christian Boitet
- Eric Castelli
- Organisme
- Grenoble 1

2009GRE10134
Conception et prototypage d'un outil web de médiation et d'aide au dialogue tchaté écrit en langue seconde
- Auteur
- Achille Falaise
- Résumé
- Lire le résumé
- Notre thème de recherche général concerne les aides informatisées au dialogue en langue seconde, oral et/ou écrit. Cette thèse se concentre sur la définition et l'étude, au moyen de corpus et d'un prototype, de procédés d'aide au dialogue écrit (tchat) en langue étrangère, dans un contexte de « médiation faible ». Nous présentons dans un premier temps ce qu'est le tchat « ordinaire » en langue première, ses divergences de surface et ses convergences profondes vis à vis des autres formes d'écrit. Nous montrons ensuite les limites des aides actuelles, à « médiation forte », dans laquelle l'outil d'aide est interposé entre des locuteurs supposés totalement incapables de communiquer par un autre biais, de sorte qu'on ne traite jamais le cas pourtant fréquent où ils peuvent utiliser une langue intermédiaire. Nous adaptons au tchat le scénario du projet VerbMobil (1992-2000) et proposons une approche à « médiation faible » pour locuteurs partiellement bilingues, capable de tenir compte de leurs compétences et de leurs problèmes spécifiques. Le prototype développé dans ce cadre, Koinè, permet d'étudier les contraintes informatiques, ergonomiques et linguistiques d'un tel système, de proposer des solutions, et de les expérimenter. Des aides au dialogue oral ont été prévues, mais, comme la reconnaissance vocale du tout venant au téléphone ou sur IP n'est pas encore assez avancée pour ce type d'utilisation, la version actuelle est centrée sur l'écrit. Koinè est un service Web, construit à l'aide de la bibliothèque logicielle Krater, qui accélère et simplifie le développement d'applications Web. Koinè agrège des fonctionnalités utiles pour surmonter les obstacles de la communication en langue non native, telle que tableau blanc, livre de phrases interactif personnalisable, prétraduction par traduction automatique, mesures d'intelligibilité et de prototypicalité des énoncés, et possibilité de « désambiguïsation interactive et participative ».
- Disicipline
- Informatique
- Date
- Soutenue le 02/01/2009
- Sous la direction de
- Christian Boitet
- Hervé Blanchon
- Organisme
- Grenoble 1
