Affiner les résultats
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)7
- École doctorale 58, Langues, Littératures, Cultures, Civilisations2
- École doctorale Lettres, langues, linguistique, arts (Lyon)2
- École doctorale 536 « Sciences et agrosciences » (Avignon)1
- École doctorale Sciences pour l'ingénieur (Lille)1
- École doctorale langues, littératures et sciences humaines (Grenoble)1
- École doctorale mathématiques, sciences et technologies de l'information, informatique1
- Lederer Marianne23
- Boitet Christian20
- Israël Fortunato17
- Cardey-Greenfield Sylviane16
- Durieux Christine16
- Yvon François14
- Hamzé Hassan13
- Depecker Loïc12
- Besacier Laurent[remove]11
- Dichy Joseph10
- Gile Daniel9
- Gautier Laurent8
- Humbley John8
- Lerat Pierre8
- Seleskovitch Danica8
- Zinglé Henri8
- Collombat Isabelle7
- Levet Jean-Pierre7
- Qasem Fayza El7
- Szende Tamás7
- Ballard Michel6
- Blanchon Hervé6
- Ladmiral Jean-René6
- Morin Emmanuel6
- Schwenk Holger6
- Tutin Agnès6
- Barrault Loïc5
- Cristinoi-Bursuc Antonia5
- Daille Béatrice5
- Danlos Laurence5
- Estève Yannick5
- Grass Thierry5
- Guillaume Jean-Patrick5
- Hassoun Mohamed5
- Ibrahim Amr Helmy5
- Kraif Olivier5
- Maniez François5
- Masson-Vincourt Marie-Paule5
- Mejri Salah5
- Paoli Bruno5
- Pergnier Maurice5
- Plassard Freddie5
- Roman André5
- Zweigenbaum Pierre5
- القاسم فايزة5
- Banoun Bernard4
- Bensimon Paul4
- Bosredon Bernard4
- Cavalla Cristelle4
- Chiaramella Yves4
Search
Votre recherche :
Directeurs de thèse Lachkar Abdenbi Retirer
Directeurs de thèse Besacier Laurent Retirer
1 - 10 sur 15
| Suivant »
Nombre de résultats par page
- Auteur
- Manh Ha Nguyen (Ha)
- Disicipline
- Informatique
- Date
- Soutenue le 04/06/2022
- Sous la direction de
- Yannick Esteve
- Laurent Besacier
- Organisme

- Auteur
- Marcely Zanon Boito
- Résumé
- Lire le résumé
- La documentation computationnelle des langues (CLD) est un domaine de recherche qui vise à proposer des méthodologies capables d'accélérer la documentation des langues, en aidant les linguistes à collecter et à traiter efficacement les données de nombreux dialectes, dont certains devraient disparaître d'ici 2100 (Austin et Sallabank, 2013). Pour y parvenir, les méthodes proposées doivent être robustes au traitement de données disponibles en faible quantité, car les corpus issus des initiatives de documentation manquent de volume, et elles sont basées sur la parole, car beaucoup de ces langues sont de tradition orale, sans forme écrite standard.Dans cette thèse, nous étudions la tâche de segmentation non supervisée en mots (UWS) à partir de la parole. Le but de cette approche est de segmenter la parole en petits morceaux correspondant aux mots de cette langue, sans avoir accès à une transcription écrite. Nous proposons ici de baser le processus de segmentation des mots sur des informations bilingues alignées. Ceci est inspiré par la potentielle disponibilité de traductions, souvent collectées par les linguistes lors de la documentation (Adda et al., 2016).Ainsi, à l'aide de corpus bilingues composés d'énoncés vocaux et de traductions alignées au niveau des phrases, nous proposons l'utilisation de modèles de traduction automatique neuronale (NMT) basés sur l'attention afin d'aligner et de segmenter. Le traitement de la parole nécessitant des quantités considérables de données, nous divisons cette approche en deux étapes. Nous effectuons d'abord une discrétisation de la parole (SD), en transformant les énoncés d'entrée en séquences d'unités de parole discrètes. Nous entraînons ensuite des modèles NMT, qui produisent des matrices de probabilité d'alignement entre les unités et les traductions de mots. Cette probabilité d’alignement bilingue est utilisée pour segmenter les unités, et la segmentation finale est appliquée au signal vocal.Pour la tâche de SD, nous comparons 5 approches : 3 modèles bayésiens basés sur les HMM (Ondel et al., 2016, 2019 ; Yusuf et al., 2020), et 2 modèles neuronaux à quantification vectorielle (van den Oord et al., 2017 ; Baevski et al.,2020a). Nous constatons que les modèles bayésiens, en particulier le SHMM (Ondel et al., 2019) et le H-SHMM (Yusuf et al., 2020), sont les plus exploitables pour l’UWS basée sur le texte dans notre cadre de documentation. Pour l'alignement et la segmentation, nous comparons 3 modèles NMT basés sur l'attention : RNN (Bahdanau et al., 2015), 2D-CNN (Elbayad et al., 2018), et Transformer (Vaswani et al., 2017). Nous constatons que le mécanisme d'attention est toujours exploitable dans notre cadre limité (5130 phrases alignées uniquement), mais que les matrices produites par les modèles NMT récents (2D-CNN, Transformer) sont inférieures à celles du modèle RNN, plus simple.Enfin, notre approche UWS basée sur l'attention est évaluée dans des conditions optimales en utilisant les phonèmes (Boito et al., 2019a), et dans des conditions réalistes en utilisant la sortie des modèles de SD (Godard et al., 2018c). Nous utilisons 8 langues et 56 paires de langues pour vérifier l'impact linguistique de la segmentation basée sur l’information bilingue (Boito et al., 2020b), et nous présentons des extensions pour augmenter la qualité des matrices de probabilité d'alignement produites (Boito et al., 2021).Dans des contextes réalistes et en utilisant différentes langues, l'UWS basé sur l'attention est compétitif par rapport au modèle bayésien non-paramétrique de Goldwater et al. (2009). De plus, le nôtre a l'avantage de récupérer des annotations bilingues pour les segments de mots qu'elle produit. Enfin, dans ce travail, nous présentons également 2 corpus pour les études de CLD (Godard et al.,2018a ; Boito et al., 2018), et un corpus pour le traitement de la parole à faibles ressources avec des paires de langues diverses (Boito et al., 2020a).
- Disicipline
- Informatique
- Date
- Soutenue le 10/07/2021
- Sous la direction de
- Laurent Besacier
- Aline Villavicencio
- Organisme
- Université Grenoble Alpes
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- William Havard
- Résumé
- Lire le résumé
- Ces dernières années, les méthodes d'apprentissage profond ont permis de créer des modèles neuronaux capables de traiter plusieurs modalités à la fois. Les modèles neuronaux de traitement de la Parole Visuellement Contextualisée (PVC) sont des modèles de ce type, capables de traiter conjointement une entrée vocale et une entrée visuelle correspondante. Ils sont couramment utilisés pour résoudre une tâche de recherche d'image à partir d'une requête vocale: c'est-à-dire qu'à partir d'une description orale, ils sont entraînés à retrouver l'image correspondant à la description orale passée en entrée. Ces modèles ont suscité l'intérêt des linguistes et des chercheurs en sciences cognitives car ils sont capables de modéliser des interactions complexes entre deux modalités --- la parole et la vision --- et peuvent être utilisés pour simuler l'acquisition du langage chez l'enfant, et plus particulièrement l'acquisition lexicale.Dans cette thèse, nous étudions un modèle récurrent de PVC et analysons les connaissances linguistiques que de tels modèles sont capables d'inférer comme sous-produit de la tâche principale pour laquelle ils sont entraînés. Nous introduisons un nouveau jeu de données qui convient à l'entraînement des modèles de PVC. Contrairement à la plupart des jeux de données qui sont en anglais, ce jeu de données est en japonais, ce qui permet d'étudier l'impact de la langue d'entrée sur les représentations apprises par les modèles neuronaux.Nous nous concentrons ensuite sur l'analyse des mécanismes d'attention de deux modèles de PVC, l'un entrainé sur le jeu de données en anglais, l'autre sur le jeu de données en japonais, et montrons que les modèles ont développé un comportement général, valable quelle que soit la langue utilisée, en utilisant leur poids d'attention pour se focaliser sur des noms spécifiques dans la chaîne parlée. Nos expériences révèlent que ces modèles sont également capables d'adopter un comportement spécifique à la langue en prenant en compte les particularités de la langue d'entrée afin de mieux résoudre la tâche qui leur est donnée.Nous étudions ensuite si les modèles de PVC sont capables d'associer des mots isolés à leurs référents visuels. Cela nous permet d'examiner si le modèle a implicitement segmenté l'entrée parlée en sous-unités. Nous étudions ensuite comment les mots isolés sont stockés dans les poids des réseaux en empruntant une méthodologie issue de la linguistique, le paradigme de gating, et nous montrons que la partie initiale du mot joue un rôle majeur pour une activation réussie.Enfin, nous présentons une méthode simple pour introduire des informations sur les frontières des segments dans un modèle neuronal de traitement de la parole. Cela nous permet de tester si la segmentation implicite qui a lieu dans le réseau est aussi efficace qu'une segmentation explicite. Nous étudions plusieurs types de frontières, allant des frontières de phones aux frontières de mots, et nous montrons que ces dernières donnent les meilleurs résultats. Nous observons que donner au réseau plusieurs frontières en même temps est bénéfique. Cela permet au réseau de prendre en compte la nature hiérarchique de l'entrée linguistique.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 06/07/2021
- Sous la direction de
- Jean-Pierre Chevrot
- Laurent Besacier
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Marya-Initia Yammine
- Résumé
- Lire le résumé
- Langage, discours, cultures, médias, traduction et identité, six notions inextricablement liées constituent la pierre angulaire de notre recherche et guident notre réflexion qui admet que la langue n’est pas uniquement un système de sons et de signes, elle est plutôt un mode d’expression de la culture, et nous renvoie à notre identité, à l’altérité et à la collectivité.La présente étude se propose de faire une analyse lexico-discursive minutieuse et systématique de la manière dont les médias au Liban traitent les phénomènes migratoires surtout depuis la crise syrienne en 2011. En plus de se focaliser sur la valeur sémio-sémantique et lexico-grammaticale des mots désignant ou renvoyant aux migrants, elle tente de vérifier si le champ lexical du mot مهاجر (migrant) et ses variantes, dans ce contexte arabe, ressemble à celui des autres contextes non arabes, notamment français. Même si la traduction est une technique primordiale dans la compréhension du phénomène migratoire syrien depuis le début de la guerre en Syrie, nous avons opté pour la traduction en tant qu’interprétation et non en tant que technique. Cette étude tente aussi d’expliquer qu’une crise migrantoire constitue un phénomène socioculturel et géopolitique qu’il faut prendre en compte pour garantir une stabilité sociale dans les zones d’accueil.Il est à noter que cette thèse comprend deux volumes. Le premier volume s’intéresse à la partie théorique et pratique et le deuxième volume regroupe les données du corpus et les conditions de l’enquête de terrain.Le premier volume se consacre à l’étude des théories lexicales et énonciatives, spécifiquement celles qui traitent de la subjectivité du langage pour s’articuler ensuite sur la sémantique et la pragmatique. Elle prend comme support d’étude un corpus de presse écrite et numérique réunissant des articles de presse arabophones et francophones publiés au Liban entre 2013 et 2018. Après extraction des des occurrences, cooccurences, collocations et locutions portant sur le rapport réfugiés-migrants-déplacés, notre étude classe ces derniers puis les analyse en respactant l’ordre chronologique de leurs apparitions dans les discours politique et médiatiques libanais. Elle rend compte de l’ambiguïté, de l’opacité et de la confusion sémantiques marquant l’emploi du mot « migrant » et ses équivalents dans ces genres de discursifs. Notre étude se fonde donc sur l’analyse du discours, tout en s’inscrivant dans le cadre de la sémantique lexicale discursive et interprétative d’une part, et de la linguistique de corpus et de terrain, d’autre part. Elle compare les différentes catégorisations et représentations du mot « migrant » et ses resignifiants dans les discours politiques et médiatiques au Liban et en France. Les témoignages des « réfugiés » syriens au Liban que cette recherche expose permettent de comprendre le contexte géopolitique de la présence syrienne « bien justifiée » au Liban. Les résultats de l’analyse vont dans ce sens et démontrent la complexité du phénomène et son appréciation parodoxale par les sociétés d’accueil. Au début de la guerre, cet accueil était dominé par l’hospitalité des locaux mais qui s’est vite transformé en haine, colère, stigmatisation et criminalisation du migrant dans les discours identitaires, avec le temps.
- Disicipline
- Sciences du langage
- Date
- Soutenue le 01/12/2020
- Sous la direction de
- Abdenbi Lachkar
- Tanios Njeim
- Organisme
- Montpellier 3
- Université Saint-Esprit. Faculté de philosophie et des sciences humaines. Département des sciences de l'éducation (Kaslik, Liban)
- École doctorale 58, Langues, Littératures, Cultures, Civilisations

2020GRALM012
Une alternative aux modèles neuronaux séquence-à-séquence pour la traduction automatique
- Auteur
- Maha Elbayad
- Résumé
- Lire le résumé
- L'apprentissage profond a permis des avancées significatives dans le domaine de la traduction automatique.La traduction automatique neuronale (NMT) s'appuie sur l'entrainement de réseaux de neurones avec un grand nombre de paramètres sur une grand quantité de données parallèles pour apprendre à traduire d'une langue à une autre.Un facteur primordial dans le succès des systèmes NMT est la capacité de concevoir des architectures puissantes et efficaces. Les systèmes de pointe sont des modèles encodeur-décodeurs qui, d'abord, encodent une séquence source sous forme de vecteurs de caractéristiques, puis décodent de façon conditionne la séquence cible.Dans cette thèse, nous remettons en question le paradigme encodeur-décodeur et préconisons de conjointement encoder la source et la cible afin que les deux séquences interagissent à des niveaux d'abstraction croissants. À cette fin, nous introduisons Pervasive Attention, un modèle basé sur des convolutions bidimensionnelles qui encodent conjointement les séquences source et cible avec des interactions qui sont omniprésentes dans le réseau neuronal.Pour améliorer l'efficacité des systèmes NMT, nous étudions la traduction automatique simultanée où la source est lue de manière incrémentielle et le décodeur est alimenté en contextes partiels afin que le modèle puisse alterner entre lecture et écriture. Nous améliorons les agents déterministes qui guident l'alternance lecture / écriture à travers un chemin de décodage rigide et introduisons de nouveaux agents dynamiques pour estimer un chemin de décodage adapté au cas-par-cas.Nous abordons également l'efficacité computationnelle des modèles NMT et affirmons qu'ajouter plus de couches à un réseau de neurones n'est pas requis pour tous les cas.Nous concevons des décodeurs Transformer qui peuvent émettre des prédictions à tout moment dotés de mécanismes d'arrêt adaptatifs pour allouer des ressources en fonction de la complexité de l'instance.
- Disicipline
- Mathématiques et informatique
- Date
- Soutenue le 23/06/2020
- Sous la direction de
- Laurent Besacier
- Jakob Verbeek
- Organisme
- Université Grenoble Alpes
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Hani Aji
- Résumé
- Lire le résumé
- Ce travail vise à étudier les collocations à verbe support. Un phénomène qui a été introduit par Z. Harris (1964) et décrit par plusieurs chercheurs à la suite des travaux du laboratoire d’automatique documentaire et linguistique dirigés par M. Gross. L’un des principaux buts de ce travail est de savoir comment ces phénomènes sont construits et comment les modéliser et les anticiper. Il s’agira de donner les caractéristiques différenciant ce phénomène des autres constructions comme les locutions figées, en nous penchant sur sa charge sémantique considérée à tort comme vide de sens.Cette recherche est faite dans l’optique de créer un dictionnaire bilingue de verbes supports (arabe – français) (français – arabe). C’est en ce sens que cette recherche s’intéressera aussi à la traduction de ces verbes supports en arabe afin d’essayer de créer un nouveau type d’article dictionnairique spécialement conçu pour ces derniers. Pour créer cet article dictionnairique, nous chercherons à démontrer la possibilité de classer les noms prédicatifs et leurs verbes supports suivants des catégories. Les noms prédicatifs seront divisés suivant des catégories lexicales engendrées par une ontologie binaire construite avec quatre notions et dégageant onze catégories lexicales. Les verbes supports sont à leur tour divisés en catégories sémantiques de verbes supports « scénarios » suivants lesquelles ils sont classés et peuvent être anticipés. Ces scénarios répondront aux deux critères de la limitation en nombre de scénarios et de l’exhaustivité de l’application.
- Disicipline
- Lexicologie et terminologie multilingues
- Date
- Soutenue le 06/07/2019
- Sous la direction de
- Abdenbi Lachkar
- Organisme
- Lyon
- École doctorale Lettres, langues, linguistique, arts (Lyon)

2019GREAM006
Construction automatique d'outils et de ressources linguistiques à partir de corpus parallèles
- Auteur
- Othman Zennaki
- Résumé
- Lire le résumé
- Cette thèse porte sur la construction automatique d’outils et de ressources pour l’analyse linguistique de textes des langues peu dotées. Nous proposons une approche utilisant des réseaux de neurones récurrents (RNN - Recurrent Neural Networks) et n'ayant besoin que d'un corpus parallèle ou mutli-parallele entre une langue source bien dotée et une ou plusieurs langues cibles moins bien ou peu dotées. Ce corpus parallèle ou mutli-parallele est utilisé pour la construction d'une représentation multilingue des mots des langues source et cible. Nous avons utilisé cette représentation multilingue pour l’apprentissage de nos modèles neuronaux et nous avons exploré deux architectures neuronales : les RNN simples et les RNN bidirectionnels. Nous avons aussi proposé plusieurs variantes des RNN pour la prise en compte d'informations linguistiques de bas niveau (informations morpho-syntaxiques) durant le processus de construction d'annotateurs linguistiques de niveau supérieur (SuperSenses et dépendances syntaxiques). Nous avons démontré la généricité de notre approche sur plusieurs langues ainsi que sur plusieurs tâches d'annotation linguistique. Nous avons construit trois types d'annotateurs linguistiques multilingues: annotateurs morpho-syntaxiques, annotateurs en SuperSenses et annotateurs en dépendances syntaxiques, avec des performances très satisfaisantes. Notre approche a les avantages suivants : (a) elle n'utilise aucune information d'alignement des mots, (b) aucune connaissance concernant les langues cibles traitées n'est requise au préalable (notre seule supposition est que, les langues source et cible n'ont pas une grande divergence syntaxique), ce qui rend notre approche applicable pour le traitement d'un très grand éventail de langues peu dotées, (c) elle permet la construction d'annotateurs multilingues authentiques (un annotateur pour N langages).
- Disicipline
- Informatique
- Date
- Soutenue le 12/03/2019
- Sous la direction de
- Laurent Besacier
- Nasredine Semmar
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Alexandre Bérard
- Résumé
- Lire le résumé
- Cette thèse est centrée sur deux principaux objectifs : l'adaptation de techniques de traduction neuronale à de nouvelles tâches, et la reproduction de travaux de recherche existants. Nos efforts pour la reproductibilité ont résulté en la création de deux ressources : MultiVec, un outil permettant l'utilisation de plusieurs techniques liées au word embeddings; ainsi qu'un outil proposant plusieurs modèles pour la traduction automatique et d’autres tâches similaires (par ex. post-édition automatique). Nous travaillons ensuite sur plusieurs tâches liées à la traduction : la Traduction Automatique (TA), Traduction Automatique de la Parole, et la Post-Édition Automatique. Pour la tâche de TA, nous répliquons des travaux fondateurs basés sur les réseaux de neurones, et effectuons une étude sur des TED Talks, où nous avançons l'état de l'art. La tâche suivante consiste à traduire la parole dans une langue vers le texte dans une autre langue. Dans cette thèse, nous nous concentrons sur le problème inexploré de traduction dite « end-to-end », qui ne passe pas par une transcription intermédiaire dans la langue source. Nous proposons le premier modèle end-to-end, et l'évaluons sur deux problèmes : la traduction de livres audio, et d'expressions de voyage. Notre tâche finale est la post-édition automatique, qui consiste à corriger les sorties d'un système de traduction dans un scénario « boîte noire », en apprenant à partir de données produites par des post-éditeurs humains. Nous étendons des résultats publiés dans le cadre des tâches de WMT 2016 et 2017, et proposons de nouveaux modèles pour la post-édition automatique dans un scénario avec peu de données.
- Disicipline
- Informatique
- Date
- Soutenue le 16/06/2018
- Sous la direction de
- Olivier Pietquin
- Laurent Besacier
- Organisme
- Université de Lille (2018-2021)
- École doctorale Sciences pour l'ingénieur (Lille)

2018GREAM002
Advanced Quality Measures for Speech Translation
- Auteur
- Ngoc Tien Le
- Résumé
- Lire le résumé
- Le principal objectif de cette thèse vise à estimer de manière automatique la qualité de la traduction de langue parlée (Spoken Language Translation ou SLT), appelée estimation de confiance (Confidence Estimation ou CE). Le système de SLT génère les hypothèses représentées par les séquences de mots pour l'audio qui contient parfois des erreurs. En raison de multiples facteurs, la sortie de SLT, ayant une qualité insatisfaisante, pourrait causer différents problèmes pour les utilisateurs finaux. Par conséquent, il est utile de savoir combien de confiance les tokens corrects pourraient être trouvés au sein de l'hypothèse. L'objectif de l'estimation de confiance consistait à obtenir des scores qui quantifient le niveau de confiance ou à annoter les tokens cibles en appliquant le seuil de décision (par exemple, seuil par défaut = 0,5). Dans le cadre de cette thèse, nous avons proposé un boîte à outils, qui consiste en un framework personnalisable, flexible et en une plate-forme portative, pour l'estimation de confiance au niveau de mots (Word-level Confidence Estimation ou WCE) de SLT.En premier lieu, les erreurs dans le SLT ont tendance à se produire sur les hypothèses de la reconnaissance automatique de la parole (Automatic Speech Recognition ou ASR) et sur celles de la traduction automatique (Machine Translation ou MT), qui sont représentées par des séquences de mots. Ce phénomène est étudié par l'estimation de confiance (CE) au niveau des mots en utilisant les modèles de champs aléatoires conditionnels (Conditional Random Fields ou CRF). Cette tâche, relativement nouvelle, est définie et formalisée comme un problème d'étiquetage séquentiel dans lequel chaque mot, dans l'hypothèse de SLT, est annoté comme bon ou mauvais selon un ensemble des traits importants. Nous proposons plusieurs outils servant d’estimer la confiance des mots (WCE) en fonction de notre évaluation automatique de la qualité de la transcription (ASR), de la qualité de la traduction (MT), ou des deux (combiner ASR et MT). Ce travail de recherche est réalisable parce que nous avons construit un corpus spécifique, qui contient 6.7k des énoncés pour lesquels un quintuplet est normalisé comme suit : (1) sortie d’ASR, (2) transcription en verbatim, (3) traduction textuelle, (4) traduction vocale et (5) post-édition de la traduction. La conclusion de nos multiples expérimentations, utilisant les traits conjoints entre ASR et MT pour WCE, est que les traits de MT demeurent les plus influents, tandis que les traits de ASR peuvent apporter des informations intéressantes complémentaires.En deuxième lieu, nous proposons deux méthodes pour distinguer des erreurs susceptibles d’ASR et de celles de MT, dans lesquelles chaque mot, dans l'hypothèse de SLT, est annoté comme good (bon), asr_error (concernant les erreurs d’ASR) ou mt_error (concernant les erreurs de MT). Nous contribuons donc à l’estimation de confiance au niveau de mots (WCE) pour SLT par trouver la source des erreurs au sein des systèmes de SLT.En troisième lieu, nous proposons une nouvelle métrique, intitulée Word Error Rate with Embeddings (WER-E), qui est exploitée afin de rendre cette tâche possible. Cette approche génère de meilleures hypothèses de SLT lors de l'optimisation de l'hypothèse de N-meilleure hypothèses avec WER-E.En somme, nos stratégies proposées pour l'estimation de la confiance se révèlent un impact positif sur plusieurs applications pour SLT. Les outils robustes d’estimation de la qualité pour SLT peuvent être utilisés dans le but de re-calculer des graphes de la traduction de parole ou dans le but de fournir des retours d’information aux utilisateurs dans la traduction vocale interactive ou des scénarios de parole aux textes assistés par ordinateur.Mots-clés: Estimation de la qualité, Estimation de confiance au niveau de mots (WCE), Traduction de langue parlée (SLT), traits joints, Sélection des traits.
- Disicipline
- Informatique
- Date
- Soutenue le 30/01/2018
- Sous la direction de
- Laurent Besacier
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble)

- Auteur
- Aymene Zermane
- Résumé
- Lire le résumé
- L'objectif de ce travail de recherche est d’étudier la terminologie et la phraséologie multilingue (anglais, français, arabe) des textes de l’Organisation des Nations Unies sur le commerce électronique. Cette étude s’intéresse aux modes d’adaptation de la terminologie du commerce électronique dans la langue arabe. Dans la partie théorique, nous avons défini le domaine du commerce électronique, ses différents modèles et les différences et les liens qu’il a avec le business électronique et l’économie du savoir. L’objectif était d’établir l’arbre de domaine qui facilitera la compréhension de son système conceptuel. Par la suite, nous avons abordé les fondements et les théories de la terminologie et de la phraséologie, ainsi que les principes théoriques et pratiques de la linguistique de corpus. La finalité de cette étape était d’arriver à choisir la méthodologie d’analyse appliquée aux données recueillies du corpus de travail tiré du « Corpus Multilingue des Nations Unies ». Dans le volet pratique, nous avons analysé dans ce travail les problématiques suivantes: les modes de création lexicaux et sémantiques dont dispose la langue arabe pour adapter les nouveaux termes et les intégrer dans ses systèmes de nomination et de communication. Ensuite, nous avons procédé au traitement de la phraséologie et les différentes formes d’unités phraséologiques. À travers cette étude, nous avons attiré l’attention la question de la normalisation en terminologie. Dans une perspective d’enrichissement du contenu de la langue arabe sur le web, nous avons travaillé sur la localisation en arabe d’une ontologie d’une liste de termes du commerce électronique.
- Disicipline
- Lexicologie et terminologie multilingues
- Date
- Soutenue le 03/12/2017
- Sous la direction de
- Abdenbi Lachkar
- Organisme
- Lyon
- École doctorale Lettres, langues, linguistique, arts (Lyon)
