Un système de traitement informatique du sanskrit

Gérard Huet

INRIA

Journée ATALA Traitement automatique des langues anciennes

21 Mai 2005


Nous avons développé une base de données lexicale pour le sanskrit, utilisable comme plate-forme de développement d'outils de modélisation et d'analyse linguistique pour cette langue. Ces outils sont accessibles à partir du site sanskrit.inria.fr.

La première composante est un dictionnaire sanskrit-français. Ce dictionnaire est téléchargeable comme document pdf. Mais il peut aussi être consulté sous forme hypertexte, à partir d'un moteur d'indexation disponible sur la page d'index. Par exemple, vous pouvez rechercher le mot vi.s.nu, ce qui vous conduit à une page proposant :

First matching entry: viṣṇu

En cliquant sur le lien proposé, on est positionné sur l'entrée correspondante du dictionnaire. Vous remarquerez le grand nombre de liens hypertextes dans une telle entrée mythologique, permettant une navigation aisée suivant les concepts d'intérêt.

Si vous ne connaissez pas la représentation translittérée exacte, vous pouvez rechercher le mot avec une orthographe approximative en utilisant la fenêtre du milieu, qui ne nécessite pas l'utilisation précise de diacritiques. Par exemple, sur le mot vishnou, cet interface simplifié vous conduira au bon lien.

Enfin, la troisième fenêtre de saisie permet de chercher des formes fléchies. On peut ainsi chercher directement la forme vi.s.nunaa, et le lemmatiseur répond en indiquant qu'il s'agit de l'instrumental singulier masculin de vi.s.nu, où le lien hypertexte vous permet d'aller chercher le lexème dans le dictionnaire.

Remarquez qu'inversement, l'entrée vi.s.nu du dictionnaire porte l'indication du genre masculin de ce lexème sous la forme d'un lien hypertexte m qui permet d'invoquer le moteur grammatical, qui fournit alors la table de déclinaison correspondante.

Chaque mot est présenté avec un lien vers ses composantes morphologiques, jusqu'aux racines. Les racines sont indiquées avec l'indice de leur famille pour le système du présent. C'est ainsi qu'à l'entrée peya (buvable, boisson) on trouve comme étymologie participe futur passif de paa (boire), et que cette racine porte l'indication 1 fournissant le paradigme de conjugaison permettant au moteur grammatical de lister toutes ses formes.

Le moteur grammatical est un module indépendant qui peut être invoqué indépendamment du lexique, à l'URL grammaire. On peut notamment y lister toutes les formes fléchies d'un mot, en forme romanisée ou en écriture devanagari.

Un segmenteur permet de faire l'analyse d'euphonie (sandhi) d'une phrase, et proposer les découpages possibles d'une phrase en mots.

Il est disponible à l'URL segmenteur. Par exemple, en rentrant la phrase vi.s.nu.hsuraa.mpibati on obtient sa segmentation en trois mots, vi.s.nu.h, suraam, et pibati. On peut aussi décider de remonter la morphologie et obtenir une forme étiquetée comme suit. Finalement, on peut pour une solution de segmentation donnée en demander l'analyse sémantique, comme montré ici. On voit sur cet exemple la paraphrase en anglais "Subject drinks Object", avec Subject lié à vi.s.nu et Object lié à suraa (liqueur), permettant d'analyser la phrase de manière non ambigue "Vishnou boit de la liqueur (d'immortalité)".

Certaines phrases ont une forte ambiguité. Il est possible de réduire le nombre de solutions en invoquant l'analyseur sémantique comme filtre du segmenteur. Ainsi, sur la forme passive de notre phrase exemple, l'analyse de vi.s.nunaasuraapiiyate en mode "Parsing" fournit 41 solutions potentielles au lieu des 128 solutions de segmentation brute. L'analyseur fait un calcul de contraintes de régime et d'accord qui permet ainsi de rejeter les 2/3 des segmentations purement phonétiques. Ici la première solution est la bonne, on peut s'en convaincre en demandant sa paraphrase.

Le but final de cette plateforme est de fournir un outil assistant un philologue pour l'étiquetage d'un corpus, aux fins d'établir des éditions critiques, des concordances, et plus généralement des analyses statistiques. On peut espérer à terme construire pour le sanskrit une bibliothèque hypertexte du modèle que fournit le site Perseus pour le latin et le grec.