Affiner les résultats
- Sciences du langage220
- Informatique176
- Linguistique135
- Traductologie110
- Sciences du langage - linguistique32
- Lexicologie et terminologie multilingues26
- Lettres22
- Sciences appliquées16
- Sciences de l'information et de la communication14
- Études germaniques14
- Études anglaises13
- Langues et littératures anglaises et anglo-saxonnes12
- Sciences du langage : linguistique et didactique des langues12
- Anglais11
- Lettres classiques10
- Sciences du langage Spécialité Didactique et Linguistique10
- Sciences du langage Spécialité Informatique et sciences du langage[remove]10
- Sciences9
- Études du monde anglophone9
- Didactique des langues et des cultures7
- Espagnol7
- Etudes hispaniques7
- Linguistique théorique, descriptive et automatique7
- Paléontologie7
- Physique7
- Lexicologie et terminologie multilingues. Traduction6
- Pharmacie6
- Sciences biologiques et fondamentales appliquées6
- Sciences du langage et traductologie6
- Biochimie5
- Grec ancien5
- Littératures française et francophone5
- Mondes arabe, musulman et sémitique5
- Sciences du langage : linguistique et phonétique générales5
- Études arabo-islamiques5
- Études ibériques5
- Études médiévales5
- Etudes germaniques4
- Langues etrangeres appliquees4
- Lexicologie et terminologie multilingues Traduction4
- Lexicologie, terminologie multilingue, traduction4
- Linguistique allemande4
- Sciences biologiques fondamentales et appliquées4
- Sciences cognitives4
- Sciences de l'Information et de la Communication4
- Études africaines4
- Études hispaniques4
- Arabe3
- Bases fondamentales de l'oncogénèse3
- Biophysique3
Search
Votre recherche :
Disciplines Sciences du langage Spécialité Informatique et sciences du langage Retirer
1 - 10 sur 10
Nombre de résultats par page
2021GRALL011
Analyse automatique de micro-corpus de ressentis
- Auteur
- Pauline Soutrenon
- Résumé
- Lire le résumé
- Dans le cadre d’une thèse au sein d’une collaboration entre l’UMR Litt&Arts 5316 et la startup Comongo, nos recherches portent sur le domaine du Traitement Automatique des Langues (TAL) et plus particulièrement sur l’analyse automatique de production de ressentis. Le coeur de métier de l’entreprise est l’accompagnement et la gestion d’image des personnes morales et physiques. Notre démarche a consisté dans un premier temps à transposer une pratique de collecte de données en présentiel papier vers une pratique distancielle numérique. Les données langagières sur lesquelles nous travaillons sont des productions écrites sous forme de réponses à des questions ouvertes (ressentis). Dans un second temps, nous avons développé un outil de Traitement Automatique des Langues et intégré des ressources sémantiques à cette démarche professionnelle d’entreprise pour le traitement des données.Cette transformation d’une pratique métier nous a menée à poser deux grandes hypothèses : 1. les ressources sémantiques permettent une meilleure appréhension des données textuelles traitées, cependant une démarche incrémentale d’amélioration de ces ressources doit être envisagée afin d’obtenir des résultats optimaux 2. la transition numérique a un impact sur la qualité des données collectées et leur traitement.La finalité de l’outil est d’identifier et de regrouper des idées similaires dans des productions de très faible volumétrie (micro-corpus). Ce qui écarte toutes notions d’apprentissage et c’est pourquoi nous proposons une nouvelle façon d’aborder ce traitement pour répondre à un besoin industriel.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 09/07/2021
- Sous la direction de
- Thomas Lebarbé
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- William Havard
- Résumé
- Lire le résumé
- Ces dernières années, les méthodes d'apprentissage profond ont permis de créer des modèles neuronaux capables de traiter plusieurs modalités à la fois. Les modèles neuronaux de traitement de la Parole Visuellement Contextualisée (PVC) sont des modèles de ce type, capables de traiter conjointement une entrée vocale et une entrée visuelle correspondante. Ils sont couramment utilisés pour résoudre une tâche de recherche d'image à partir d'une requête vocale: c'est-à-dire qu'à partir d'une description orale, ils sont entraînés à retrouver l'image correspondant à la description orale passée en entrée. Ces modèles ont suscité l'intérêt des linguistes et des chercheurs en sciences cognitives car ils sont capables de modéliser des interactions complexes entre deux modalités --- la parole et la vision --- et peuvent être utilisés pour simuler l'acquisition du langage chez l'enfant, et plus particulièrement l'acquisition lexicale.Dans cette thèse, nous étudions un modèle récurrent de PVC et analysons les connaissances linguistiques que de tels modèles sont capables d'inférer comme sous-produit de la tâche principale pour laquelle ils sont entraînés. Nous introduisons un nouveau jeu de données qui convient à l'entraînement des modèles de PVC. Contrairement à la plupart des jeux de données qui sont en anglais, ce jeu de données est en japonais, ce qui permet d'étudier l'impact de la langue d'entrée sur les représentations apprises par les modèles neuronaux.Nous nous concentrons ensuite sur l'analyse des mécanismes d'attention de deux modèles de PVC, l'un entrainé sur le jeu de données en anglais, l'autre sur le jeu de données en japonais, et montrons que les modèles ont développé un comportement général, valable quelle que soit la langue utilisée, en utilisant leur poids d'attention pour se focaliser sur des noms spécifiques dans la chaîne parlée. Nos expériences révèlent que ces modèles sont également capables d'adopter un comportement spécifique à la langue en prenant en compte les particularités de la langue d'entrée afin de mieux résoudre la tâche qui leur est donnée.Nous étudions ensuite si les modèles de PVC sont capables d'associer des mots isolés à leurs référents visuels. Cela nous permet d'examiner si le modèle a implicitement segmenté l'entrée parlée en sous-unités. Nous étudions ensuite comment les mots isolés sont stockés dans les poids des réseaux en empruntant une méthodologie issue de la linguistique, le paradigme de gating, et nous montrons que la partie initiale du mot joue un rôle majeur pour une activation réussie.Enfin, nous présentons une méthode simple pour introduire des informations sur les frontières des segments dans un modèle neuronal de traitement de la parole. Cela nous permet de tester si la segmentation implicite qui a lieu dans le réseau est aussi efficace qu'une segmentation explicite. Nous étudions plusieurs types de frontières, allant des frontières de phones aux frontières de mots, et nous montrons que ces dernières donnent les meilleurs résultats. Nous observons que donner au réseau plusieurs frontières en même temps est bénéfique. Cela permet au réseau de prendre en compte la nature hiérarchique de l'entrée linguistique.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 06/07/2021
- Sous la direction de
- Jean-Pierre Chevrot
- Laurent Besacier
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Claire Wolfarth
- Résumé
- Lire le résumé
- Depuis peu, émerge une réelle dynamique de constitution et de diffusion de corpus d’écrits scolaires, notamment francophones. Ces corpus, qui appuient les travaux en didactique de l’écriture, sont souvent de taille restreinte et peu diffusés. Des corpus longitudinaux, c'est-à-dire réalisant le suivi d’une cohorte d’élèves et permettant de s’intéresser à la progressivité des apprentissages, n’existent pas à ce jour pour le français.Par ailleurs, bien que le traitement automatique des langues (TAL) ait outillé des corpus de natures très diverses, peu de travaux se sont intéressés aux écrits scolaires. Ce nouveau champ d’application représente un défi pour le TAL en raison des spécificités des écrits scolaires, et particulièrement les nombreux écarts à la norme qui les caractérisent. Les outils proposés à l’heure actuelle ne conviennent donc pas à l’exploitation de ces corpus. Il y a donc un enjeu pour le TAL à développer des méthodes spécifiques.Cette thèse présente deux apports principaux. D’une part, ce travail a permis la constitution d’un corpus d’écrits scolaires longitudinal (CP-CM2), de grande taille et numérisé, le corpus Scoledit. Par « constitution », nous entendons le recueil, la numérisation et la transcription des productions, l’annotation des données linguistiques et la diffusion de la ressource ainsi constituée. D’autre part, ce travail a donné lieu à l’élaboration d’une méthode d’exploitation de ce corpus, appelée approche par comparaison, qui s’appuie sur la comparaison entre la transcription des productions et une version normalisée de ces productions pour produire des analyses.Cette méthode a nécessité le développement d’un aligneur de formes, appelé AliScol, qui permet de mettre en correspondance les formes produites par l’élève et les formes normalisées. Cet outil représente un premier niveau d’alignement à partir duquel différentes analyses linguistiques ont été menées (lexicales, morphographiques, graphémiques). La conception d’un aligneur en graphèmes, appelé AliScol_Graph, a été nécessaire pour conduire une étude sur les graphèmes.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 10/12/2019
- Sous la direction de
- Catherine Brissaud
- Claude Ponton
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Sylvain Hatier
- Résumé
- Lire le résumé
- Cette thèse s’intéresse au lexique scientifique transdisciplinaire (LST), lexique inscrit dans le genre de l’article de recherche en sciences humaines et sociales. Le LST est fréquemment mobilisé dans les écrits scientifiques et constitue ainsi un objet d’importance pour l’étude de ce genre. Ce lexique trouve également des applications concrètes tant en indexation terminologique que pour l’aide à la rédaction/compréhension de textes scientifiques. Ces différents objectifs nous amènent à adopter une approche outillée pour identifier et caractériser les unités lexicales du LST, lexique complexe à circonscrire, situé entre lexique de la langue générale et terminologie. En nous basant sur les propriétés de spécificité et de transdisciplinarité ainsi que sur l’étude des propriétés lexico-syntaxiques de ses éléments, nous élaborons une ressource du LST intégrant informations lexicales, syntaxiques et sémantiques. L’analyse de la combinatoire à l’aide d’un corpus arboré autorise ainsi une caractérisation du LST ancrée sur l’usage dans le genre de l’article de recherche. Selon cette même approche, nous identifions les acceptions nominales transdisciplinaires et proposons une classification sémantique fondée sur la combinatoire en corpus pour intégrer à notre ressource lexicale une typologie nominale sur deux niveaux. Nous montrons enfin que cette structuration du LST nous permet d’aborder la dimension phraséologique et rhétorique du LST en faisant émerger du corpus des constructions récurrentes définies par leurs propriétés syntactico-sémantiques.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 08/12/2016
- Sous la direction de
- Agnès Tutin
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Jorge Mauricio Molina Mejia
- Résumé
- Lire le résumé
- Nous présentons, dans ce manuscrit, un dispositif informatique d'aide à la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche à améliorer le niveau linguistique des étudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondé sur un corpus textuel spécifiquement annoté et étiqueté grâce aux outils de traitement automatique de langues (TAL) et à des annotations manuelles en format XML. Ceci permet de développer des activités à visée formative, en tenant compte des besoins exprimés par les publics cibles (enseignants-formateurs et leurs étudiants en formation).Comme nous l'exposons tout au long de cette thèse, l'élaboration d'un système comme le nôtre est le produit de la mise en œuvre de connaissances et de compétences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingénierie pédagogique, linguistique générale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pédagogique pour la formation des étudiants en FLE dans le contexte de l'éducation supérieure en Colombie, un outil pensé en fonction des besoins et des objectifs de cet apprentissage. L'originalité de notre système repose sur le type de public choisi, le modèle didactique de formation mis en œuvre et la spécificité du corpus utilisé. À notre connaissance, il s'agit d'un des premiers systèmes d'ALAO fondé sur la linguistique textuelle s'adressant à la formation des futurs enseignants de FLE dans un contexte exolingue.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- Soutenue le 07/11/2015
- Sous la direction de
- Georges Antoniadis
- Organisme
- Université Grenoble Alpes (ComUE)
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Rim Abouwarda
- Résumé
- Lire le résumé
- Cette thèse ayant pour titre « La terminotique au service de la traduction spécialisée : étude dune terminologie médicale bilingue (français-arabe) » traite de la problématique suivante : comment, à partir du dépouillement dun corpus bilingue de textes comparables, extraire une terminologie médicale bilingue français-arabe et élaborer des outils de fouille de corpus et de gestion terminologique, au service des traducteurs et interprètes de conférence ? Cette thèse est constituée de deux volets, théorique et pratique. Dans un premier temps, nous passerons en revue les études antérieures dans le domaine en question. Nous aborderons également le lien indéfectible existant entre la terminographie et la traduction spécialisée tant au niveau didactique que professionnel. Dans un second temps, à laide des extracteurs de termes, nous entamerons lopération dextraction des termes à partir du corpus délimité. Après avoir mené un tri des termes générés selon des critères linguistiques bien définis, ces termes feront lobjet dune analyse lexicale et morphologique afin de souligner les moyens dont la langue arabe dispose pour la formation des termes ainsi que leffet de son contact avec les autres langues. De plus, nous mènerons une enquête de terrain, par le biais dun questionnaire destiné aux traducteurs et interprètes de conférence, dans le but dexaminer leurs besoins urgents en matière de terminologie médicale et évaluer leur usage des outils de gestion terminologique disponibles. Cette étude sest donc fixée plusieurs finalités à savoir, répondre aux besoins de dénominations urgents dans le domaine médical et mettre à la disposition des traducteurs et interprètes de conférence un outil de gestion terminologique aisément accessible pour les assister dans leur travail exigeant la pertinence et la rapidité. Elle tentera également à ouvrir de nouveaux horizons sur les méthodes denseignement de la traduction spécialisée en soulignant la contribution considérable de la terminotique dans lacquisition des compétences professionnelles dans ce domaine. Létude se penchera également sur lévaluation de lutilisation des logiciels du TAL afin de dénoter leurs apports et limites dans lextraction terminologique, ce qui pourrait guider les concepteurs pour améliorer la performance des outils développés.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- En préparation depuis le 03/11/2020
- Sous la direction de
- Olivier Kraif
- Sohir El shami
- Yasmine Barsoum
- Organisme
- Université Grenoble Alpes
- Université d'Alexandrie
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Judith Chambre
- Résumé
- Lire le résumé
- Lobjectif de ce travail de recherche est didentifier et dinterpréter les séquences récurrentes employées dans les romans de science-fiction en français et en anglais. La diversité des uvres de science-fiction rend la définition de ce genre difficile. Cependant, il est possible didentifier des caractéristiques communes à ces uvres : sensation démerveillement ou de décalage devant les mondes décrits, le sense of wonder, création dune encyclopédie propre à lunivers créé, distanciation cognitive. Nous pouvons nous demander si lensemble de ces éléments spécifiques ont une influence sur la phraséologie employée dans les romans de science-fiction. Plusieurs approches seront mises en uvre : segments répétés, arbres lexico-syntaxiques récurrents et motifs. Une typologie des séquences récurrentes sera établie en fonction de leur rôle dans le texte : caractérisation du sous-genre sur un plan thématique, discursif et/ou stylistique.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- En préparation depuis le 05/12/2017
- Sous la direction de
- Olivier Kraif
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Nicolas David
- Résumé
- Lire le résumé
- Située au cur de locéan Indien et ayant une superficie de 2 040 km2, la République de Maurice est un pays insulaire qui regroupe quatre îles : Maurice (lîle principale), Rodrigues, Agaléga et Saint-Brandon. Près de 1,3 million de personnes y habitent et constituent ensemble une communauté linguistique plurilingue au sein de laquelle plus de 10 langues sont pratiquées. En dépit de cette richesse linguistique, façonnée par son histoire propice au contact de langues, et des compétences linguistiques plurilingues des Mauriciens, la langue la plus couramment parlée, par 86,50 % de la population mauricienne au sein du domicile familial (selon le recensement ministériel de 2011), est le mauricien : une langue créole à base française. Les études sur le créole mauricien ont débuté pendant la période de colonisation. Au XIXe siècle, Baissac (1880) a proposé une « étude sur le patois créole mauricien » et au XXe siècle, après lindépendance en mars 1968, Baker (1972) a publié un ouvrage sur sa description linguistique. La seule grammaire contemporaine disponible est celle de Police-Michel et al. (2012). Diverses thèses ont aussi été soutenues sur les catégories syntaxiques du créole mauricien notamment sur le nom (Alleesaib, 2012), le verbe (Henri, 2010) et ladverbe (Hassamal, 2017). Toutefois, parmi tous les travaux recensés, aucun ne sest purement intéressé au domaine et à la thématique du Traitement Automatique des Langues (TAL). David (2019) a réalisé un travail de recherche sur létiquetage morphosyntaxique du créole mauricien, mais globalement les travaux en traitement automatique demeurent lacunaires pour cette langue peu dotée informatiquement. À partir de ces travaux en syntaxe ainsi que des méthodes et des outils de TAL développés par David (2019), cette thèse vise à construire et à exploiter un corpus arboré (un corpus écrit annoté syntaxiquement) pour le créole mauricien, à lexemple du French Treebank pour le français (Abeillé et al., 2003) et du Penn Treebank pour langlais (Taylor et al., 2003). La démarche méthodologique envisagée dans le cadre de ce travail se regroupera autour de 5 principales phases. Dabord, la première phase sattèlera à la constitution, à la normalisation, et à la structuration dun corpus électronique écrit. Les outils informatiques indispensables à ce travail seront développés ou réadaptés au cours de la deuxième phase. La troisième phase se consacrera à lannotation du corpus à partir dun schéma dannotation cohérent et structuré. Les expérimentations seront menées durant la quatrième phase. Enfin, la cinquième phase soccupera dévaluer la qualité des annotations réalisées et la performance des outils développés. Finalement, lobjectif ultime de cette thèse est de parvenir à la réalisation danalyses syntaxiques automatiques en créole mauricien, tout en dotant cette langue de tous les éléments nécessaires à son traitement automatique, en particulier dans une perspective danalyse syntaxique.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- En préparation depuis le 02/12/2019
- Sous la direction de
- Olivier Kraif
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Jonas Noblet
- Résumé
- Lire le résumé
- La présente thèse a pour objet lautomatisation du codage qualitatif de corpus de retours utilisateurs sur des produits ou services innovants. Le codage qualitatif suit celui décrit par la mesure psycho-cognitive EMINOSA, dont le but est dévaluer les chances de succès des innovations. Le codage automatique est inspiré par les techniques de létat de lart en matière de classification pour le traitement automatique du langage. Les techniques envisagées reposent notamment sur lapprentissage profond et les réseaux de neurones Transformers.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- En préparation depuis le 02/03/2022
- Sous la direction de
- Olivier Kraif
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)

- Auteur
- Ola El ghamry
- Résumé
- Lire le résumé
- Les ressources lexicographiques bilingues des expressions polylexicales (EPL) sont encore rares et elles le sont davantage pour le couple de langues français / arabe qui nous intéresse. Les recherches concernant ce couple de langues existent peu. Nous nous intéressons dans notre projet de recherche à extraire, à partir de corpus parallèle et comparable fr - ar spécialisés, des expressions polylexicales notamment à base verbale. Ces constructions, de notre point de vue, constituent un aspect pertinent à étudier dans les textes spécialisés. Le corpus constitué se rattachera au domaine médical, un domaine stratégique à lheure actuelle où le monde entier fait face à une pandémie. Nous profiterons donc de la disponibilité des articles scientifiques vulgarisés qui abondent en ce moment. Dans notre étude nous adopterons une approche contrastive qui consiste à recenser et analyser les EPL et leurs équivalences traductionnelles, et ceci dans une approche corpus based ou basé sur corpus. Notre objectif principal est d'approfondir les recherches sur ce couple de langues encore trop peu étudié dans ce domaine, et de fournir des ressources pour les traducteurs et les apprenants de la traduction spécialisée. Il sagira in fine dexploiter les résultats dans le domaine de lapprentissage de la traduction spécialisé assistée par ordinateur, en sinspirant de lapproche dApprentissage guidée par les données, ou Data Driven Learning. Toutes les étapes seront réalisées en exploitant les outils TAL appropriés à chaque langue et à chaque procédure.
- Disicipline
- Sciences du langage Spécialité Informatique et sciences du langage
- Date
- En préparation depuis le 02/09/2020
- Sous la direction de
- Olivier Kraif
- Salam Diab-Duranton
- Organisme
- Université Grenoble Alpes
- École doctorale langues, littératures et sciences humaines (Grenoble)
