Affiner les résultats
- Lederer Marianne23
- Boitet Christian21
- Israël Fortunato17
- Cardey-Greenfield Sylviane16
- Durieux Christine16
- Hamzé Hassan13
- Depecker Loïc12
- Yvon François12
- Besacier Laurent11
- Dichy Joseph10
- Gile Daniel9
- Collombat Isabelle8
- Humbley John8
- Lerat Pierre8
- Seleskovitch Danica8
- Zinglé Henri8
- Gautier Laurent7
- Levet Jean-Pierre7
- القاسم فايزة7
- Ballard Michel6
- Blanchon Hervé6
- Ladmiral Jean-René6
- Morin Emmanuel6
- Schwenk Holger6
- Bosredon Bernard5
- Daille Béatrice5
- Danlos Laurence5
- Grass Thierry5
- Guillaume Jean-Patrick5
- Hassoun Mohamed5
- Ibrahim Amr Helmy5
- Jenn Ronald5
- Maniez François5
- Mejri Salah5
- Pergnier Maurice5
- Qasem Fayza El5
- Roman André5
- Szende Tamás5
- Tutin Agnès5
- Banoun Bernard4
- Barrault Loïc4
- Bensimon Paul4
- Cavalla Cristelle4
- Chiaramella Yves4
- Condamines Anne4
- Dalmas Martine4
- Desclès Jean-Pierre4
- Estève Yannick4
- Froeliger Nicolas4
- Gardes Joëlle4
Search
1 - 1 sur 1
Nombre de résultats par page
2020SORUL126
Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées
- Auteur
- Alice Millour
- Résumé
- Lire le résumé
- Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles.
- Disicipline
- Mathématiques, informatique et application aux sciences de l’homme
- Date
- Soutenue le 15/12/2020
- Sous la direction de
- Claude Montacié
- Karën Fort
- Organisme
- Sorbonne université
- École doctorale Concepts et langages (Paris)
