Annotation linguistique

Ces dernières années ont vu le développement de nombreux corpus électroniques, littéraires ou non. Ces corpus doivent être annotés et enrichis pour être réellement intéressants et exploitables pour la recherche. Les linguistes s’intéressent ainsi particulièrement aux corpus annotés linguistiquement, afin de permettre la recherche de données attestées, plus ou moins complexes. Par exemple, les annotations syntaxiques permettent d’avoir accès à des informations de structure, par delà les simples séquences de surface. Les corpus annotés permettent aussi d’évaluer les phénomènes, de quantifier les observations et de mieux fonder les analyses linguistiques, surtout quand elles concernent la diachronie et/ou l’étude des changements linguistiques. Au-delà, l’analyse linguistique peut éclairer l’étude du texte à des fins d’analyse stylistique ou génétique.

Les masses de données disponibles se sont aussi révélées intéressantes pour mettre au point des systèmes d’analyse (« text mining ») et d’annotation automatique. L’apprentissage artificiel (un ensemble de techniques issues d’une branche de l’informatique appelée « Intelligence artificielle ») se fonde sur l’analyse de régularités et sur l’observation de contextes précis pour inférer des règles (dans le cas de la linguistique, des règles d’annotation de corpus par exemple). Les systèmes ainsi obtenus ne sont pas parfaits mais, liés à une expertise humaine pour la validation et la correction, ils permettent d’annoter beaucoup plus rapidement et systématiquement de vastes ensembles de données.



A quoi ça sert ?

  • En histoire et en religion : l’intérêt d’une annotation de nature linguistique est probablement moins évidente pour l’historien ou le chercheur en histoire des religion. L’annotation de texte peut toutefois permettre de repérer automatiquement une notion (à travers un ensemble d’expressions reflétant la notion en question), de contraster des corpus pour voir comment le vocabulaire employé dépend par exemple du point de vue du locuteur, etc.
  • En philologie : l’étude du texte est le propre de la philologie, donc l’apport d’une annotation automatique est ici évidente. Une fois le texte annoté sur le plan linguistique, le philologue peut chercher toutes les occurrences d’un mot, les variantes orthographiques, les usages de ce mot, les différents contextes d’utilisation, etc. Au-delà, les corpus électronique peuvent permettre de quantifier les phénomènes et d’essayer répondre à des questions nouvelles, par exemple concernant l’évolution des langues ou l’analyse contrastive de deux corpus. Pourquoi l’ordre des mots est progressivement devenu plus contraint en français médiéval ? Tel mot est-il davantage employé en prose ou en vers ? etc. Bien évidemment, pour pouvoir répondre à ces questions, il faut disposer de corpus annotées avec le bon niveau d’annotation. Un des buts du cours est aussi de permettre aux étudiants d’évaluer le niveau d’annotation adéquat, en fonction de son coût de mise en œuvre (le modèle envisagé est-il trop complexe ? peut-on l’automatiser complètement ? si non, quelle est la part d’annotation manuelle requise ? etc.).


Pour citer quelques exemples connus sur le plan international — il existe un ensemble innombrable d’outils et de projets d’annotation linguistique — :

  • Un grand corpus annoté : < a href="http://corpus.byu.edu/coca/" target="_blank">le corpus of Contemporary American English (COCA), qui comprends 450 millions de mots.
  • Le Corpus of Historical American English (COHA).
  • Un outil pour consulter des corpus annotés automatiquement (donc potentiellement avec des erreurs mais incluant plusieurs dizaines de langues et des corpus de milliards de mots provenant du Web en français par exemple) : https://www.sketchengine.co.uk
  • CorpTef.


Voir également l'annotation linguistique en TEI par Lou Burnard.

definition/annotation-linguistique.txt · Dernière modification: 2015/12/10 15:47 (modification externe)
CC Attribution-Noncommercial 3.0 Unported
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0