Affiner les résultats
- Sciences du langage213
- Informatique165
- Linguistique135
- Traductologie105
- Sciences du langage - linguistique31
- Lexicologie et terminologie multilingues26
- Lettres22
- Sciences appliquées14
- Études anglaises13
- Sciences de l'information et de la communication12
- Anglais11
- Études germaniques11
- Lettres classiques10
- Sciences du langage Spécialité Informatique et sciences du langage10
- Etudes hispaniques8
- Langues et littératures anglaises et anglo-saxonnes8
- Littératures française et francophone8
- Physique8
- Sciences8
- Sciences du langage Spécialité Didactique et Linguistique8
- Espagnol7
- Linguistique théorique, descriptive et automatique7
- Paléontologie7
- Sciences du langage : linguistique et didactique des langues7
- Études du monde anglophone7
- Didactique des langues et des cultures6
- Lexicologie et terminologie multilingues. Traduction6
- Pharmacie6
- Sciences du langage et traductologie6
- Grec ancien5
- Sciences cognitives5
- Études arabo-islamiques5
- Études hispaniques5
- Études ibériques5
- Études médiévales5
- Biochimie4
- Langues etrangeres appliquees4
- Lexicologie et terminologie multilingues Traduction4
- Lexicologie, terminologie multilingue, traduction4
- Linguistique allemande4
- Mondes arabe, musulman et sémitique4
- Sciences biologiques fondamentales et appliquées4
- Sciences de l'Information et de la Communication4
- Sciences du langageSciences du langage4
- Études africaines4
- Arabe3
- Bases fondamentales de l'oncogénèse3
- Breton et celtique3
- Etudes germaniques3
- Etudes hispanophones3
Search
Votre recherche :
Disciplines Mathématiques, informatique et application aux sciences de l’homme Retirer
1 - 2 sur 2
Nombre de résultats par page
2020SORUL126
Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées
- Auteur
- Alice Millour
- Résumé
- Lire le résumé
- Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles.
- Disicipline
- Mathématiques, informatique et application aux sciences de l’homme
- Date
- Soutenue le 15/12/2020
- Sous la direction de
- Claude Montacié
- Karën Fort
- Organisme
- Sorbonne université
- École doctorale Concepts et langages (Paris)

- Auteur
- Aymen El Khelifi
- Résumé
- Lire le résumé
- Dans le cadre de notre thèse, nous avons proposé une approche générique d’extraction automatique des événements et de leur exploitation. L’approche est organisée en quatre composantes indépendantes et réutilisables. Une première composante de prétraitement, où les textes sont nettoyés et segmentés. Au cours de la seconde étape, les événements sont extraits en sebasant sur notre algorithme AnnotEC qui dispose d’une complexité polynomiale et qui est associé à des cartes sémantiques et des ressources linguistiques dédiées. Nous avons mis en place deux nouvelles mesures de similarité SimCatégoreille et SimEvent pour regrouper les événementssimilaires dans le cadre de la troisième composante de clustering. Les annotations, ajoutées tout au long des trois premières étapes, sont exploitées au niveau de la dernière composante par le bais des fichiers de synthèse paramétrables par l’utilisateur.L’approche a été évaluée sur un corpus issu du Web 2.0. Nous avons comparé les résultats avec des méthodes d’apprentissage automatique et des méthodes linguistiques par compilation et nous avons obtenu de meilleurs résultats.
- Disicipline
- Mathématiques, informatique et application aux sciences de l’homme
- Date
- Soutenue le 09/12/2012
- Sous la direction de
- Jean-Pierre Desclès
- Rim Faiz
- Organisme
- Paris 4
- École doctorale Concepts et langages (Paris)
