Affiner les résultats
- Linguistique[remove]1
- Lederer Marianne6
- Israël Fortunato4
- Seleskovitch Danica4
- François Frédéric3
- Ibrahim Amr Helmy3
- Lejosne Jean-Claude3
- Marque-Pucheu Christiane3
- Petit Jean-Pierre3
- Roman André3
- Tutin Agnès3
- Bourquin Guy2
- Cohen David2
- Danlos Laurence2
- GRECIANO GERTRUDE2
- Gaudin François2
- Guespin Louis2
- Guillemin-Flescher Jacqueline2
- Laroche-Bouvy Danielle2
- Lavault-Olléon Élisabeth2
- Muller François2
- Pergnier Maurice2
- Rossi Caroline2
- Thibault André2
- Viellard Stéphane2
- Zinglé Henri2
- Abd El Moneim Husseim Salwa Hussein1
- Alonso aldama Juan1
- Behr Irmtraud1
- Bensimon Paul1
- Bernhard Delphine1
- Bessière Bernard1
- Bouattour Mohamed1
- Boucher Paul1
- Brunel Pierre1
- Brunetière Valérie1
- Buridant Claude1
- Béchade Hervé-D1
- Cahuzac Philippe1
- Cardebat Dominique1
- Cavalla Cristelle1
- Cerquiglini Bernard1
- Chambon Jean-Pierre1
- Cohen-Steiner Olivier1
- Cortes Colette1
- Cortès Jacques1
- Cotte Pierre1
- Creissels Denis1
- Culioli Antoine1
- Dabène Louise1
- Dalmas Martine1
Search
Votre recherche :
Disciplines Sciences du langage Spécialité Didactique et Linguistique Retirer
Disciplines Linguistique Retirer
Directeurs de thèse Habert Benoît Retirer
1 - 1 sur 1
Nombre de résultats par page
- Auteur
- Adrien Barbaresi
- Résumé
- Lire le résumé
- Le premier chapitre s'ouvre par un description du contexte interdisciplinaire. Ensuite, le concept de corpus est présenté en tenant compte de l'état de l'art. Le besoin de disposer de preuves certes de nature linguistique mais embrassant différentes disciplines est illustré par plusieurs scénarios de recherche. Plusieurs étapes clés de la construction de corpus sont retracées, des corpus précédant l'ère digitale à la fin des années 1950 aux corpus web des années 2000 et 2010. Les continuités et changements entre la tradition en linguistique et les corpus tirés du web sont exposés. Le second chapitre rassemble des considérations méthodologiques. L'état de l'art concernant l'estimation de la qualité de textes est décrit. Ensuite, les méthodes utilisées par les études de lisibilité ainsi que par la classification automatique de textes sont résumées. Des dénominateurs communs sont isolés. Enfin, la visualisation de textes démontre l'intérêt de l'analyse de corpus pour les humanités numériques. Les raisons de trouver un équilibre entre analyse quantitative et linguistique de corpus sont abordées.Le troisième chapitre résume l'apport de la thèse en ce qui concerne la recherche sur les corpus tirés d'internet. La question de la collection des données est examinée avec une attention particulière, tout spécialement le cas des URLs sources. La notion de prétraitement des corpus web est introduite, ses étapes majeures sont brossées. L'impact des prétraitements sur le résultat est évalué. La question de la simplicité et de la reproducibilité de la construction de corpus est mise en avant.La quatrième partie décrit l'apport de la thèse du point de vue de la construction de corpus proprement dite, à travers la question des sources et le problèmes des documents invalides ou indésirables. Une approche utilisant un éclaireur léger pour préparer le parcours du web est présentée. Ensuite, les travaux concernant la sélection de documents juste avant l'inclusion dans un corpus sont résumés : il est possible d'utiliser les apports des études de lisibilité ainsi que des techniques d'apprentissage artificiel au cours de la construction du corpus. Un ensemble de caractéristiques textuelles testées sur des échantillons annotés évalue l'efficacité du procédé. Enfin, les travaux sur la visualisation de corpus sont abordés : extraction de caractéristiques à l'échelle d'un corpus afin de donner des indications sur sa composition et sa qualité.
- Disicipline
- Linguistique
- Date
- Soutenue le 20/06/2015
- Sous la direction de
- Benoît Habert
- Organisme
- Lyon, École normale supérieure
- École doctorale Lettres, langues, linguistique, arts (Lyon)
