XML TEI

Vocabulaire :

XML1

XML (Extensible Markup Language) est un langage informatique qui permet l'ajout d'une couche supplémentaire à un fichier texte. Vous l'utilisez déjà sans le savoir en écrivant un fichier word ou en lisant un fichier pdf. Qu'une ligne de texte doit être affichée en tant que titre ou un mot en gras est indiqué par des balises avant et après cet élément textuel. Ces balises sont invisibles à l'utilisateur simple mais si on met ses mains dessus on reçoit en effet les clés pour un système très puissant. On peut ainsi enrichir le texte en identifiant par exemple des mots en tant que noms de personne ou toponymes ou donner des résolutions grammaticales ou lexicales pour chaque mot. Cela vous permet ensuite d'envoyer des requêtes automatiques à votre texte (voir XSLT / XPATH / XQUERY) et à retirer par exemple une liste de toutes les personnes qui apparaissent dans le même paragraphe avec une autre personne ou avec un lieu ou de trouver toutes les phrases avec un lexème ou une combinaison de lexèmes. Mais cela n'est que le début.

L'avantage essentiel est l'interopérabilité. Si on utilise le XML selon les normes internationales, cela peut vous permettre dans le cas idéal, d'utiliser les textes enrichis par d'autres et d'utiliser des outils crées par d'autres pour leurs textes (dans la pratique c'est actuellement encore un peu plus complexe). Pour les SHS ce sont les règles de la Transcription Encoding Initiative (TEI)...

Pour les néophytes, voici une vidéo qui offre une bonne introduction à XML :

TEI2

La TEI (Text Encoding Initiative) a pour objectif essentiel de développer et de maintenir un système de règles pour l'encodage de documents textuels. Par encodage, il faut notamment comprendre une sémantique adaptée aux SHS — évidemment il y a aussi des balises pour structurer le document électronique. La sémantique est choisie en fonction des objectifs scientifiques, et est schématiquement organisée en module : transcription de discours, dictionnaire, description de manuscrits, édition critique... Ces modules sont constitués d'éléments (˜210) et d'attributs (˜500) que l'on adapte facilement et librement selon les objectifs scientifiques de chacun.
En effet, comme le développement et les mises à jour de la TEI sont effectués par et pour des chercheurs en SHS, cela a pour conséquence immédiate d'une part de rendre bien plus aisée la sémantique, d'autre part une meilleure évaluation des besoins pour proposer des solutions adaptées et/ou adaptables. Par exemple dans le cadre d'une étude d'un corpus en cunéiforme, on peut partir d'éléments extraits d'un module language corpora de la TEI et l'adapter pour une étude lexicale d'un corpus en cunéiforme.

Autre avantage et non des moindres : nul besoin d'être développeur pour créer un document selon la TEI, preuve en est le profil des chercheurs issus des SHS — pour beaucoup n'ayant aucune connaissance en programmation —, chercheurs qui contribuent tous les jours aux développements et aux mises à jour de la TEI.
Egalement conçues pour guider les plus néophytes, les recommandations en ligne servent à chaque étape du “développement” en XML TEI — on parle de XML TEI parce que l'encodage se fait selon le principe du XML mais avec une sémantique adaptée aux SHS. Ces recommandations fourmillent d'exemples de plusieurs cas d'études scientifiques, et dictent les usages sémantiques pour l'interopérabilité. Ci-dessous un exemple d'étude de cas proposé par la communauté sur le site des recommandations de la TEI : il s'agit d'une traduction hébreu/anglais du morpheme havdalah ; tout est détaillé pour permettre d'appliquer ou d'adapter cet exemple à sa propre étude.

<entry type="foreign">
 <form>
  <orth>havdalah</orth>
  <orth>havdoloh</orth>
  <gramGrp>
   <gram type="pos">n.</gram>
  </gramGrp>
 </form>
 <sense>
  <usg type="dom">Judaism</usg>
  <def>the ceremony marking the end of the sabbath or of a festival,
     including the blessings over wine, candles and spices.</def>
 </sense>
 <cit type="translation" xml:lang="en">
  <usg type="style">literally</usg>
  <quote>separation</quote>
 </cit>
</entry>

Que veulent dire ces quelques lignes de codes ?
C'est beaucoup plus simple et intuitif qu'il n'y paraît. Avant toute chose, il faut considérer cet exemple de lignes de codes comme appartenant à une série d'encodages à la sémantique quasi identique, encodages dans le cadre d'une traduction d'un corpus. Dans l'exemple précis, il est indiqué avec les différents <éléments> de sémantique :

Un premier constat : la sémantique suit une logique SHS. Si l'on fait l'analyse oralement, on va suivre pratiquement la même structure et donner les mêmes informations.
Le choix de cette sémantique permet avec quelques autres éléments de langages de “dialoguer” avec d'autres documents sur l'internet, ceci pour compléter ou échanger les informations dans le but d'enrichir les contenus.
Dans un second stade, ce document sera converti, d'une manière tout aussi simple pour être affiché avec une interactivité possible. Par exemple au passage de la souris sur le morpheme havdalah la définition apparaîtra, ou encore, on peut tout à fait imaginer une entrée dans un lexique comme pour le cnrtl.

  Exemples de réalisation :


  En pratique :


Qui mieux que l'un de ses fondateurs peur expliquer la TEI ?

  Aperçu TEI :


@  Communautés :


  Videos des webinars et tutoriels oXygen (une des applications recommandées) :



definition/xml-tei.txt · Dernière modification: 2017/02/27 14:17 par Vanessa Juloux
CC Attribution-Noncommercial 3.0 Unported
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0