Direction des Relations Internationales (DRI)

Programme INRIA "Equipes Associées"
(Demande de prolongation)

 

I. DEFINITION

EQUIPE ASSOCIEE

Traitement informatique du Sanskrit
Sanskrit Computational Linguistics
sélection
2007

Equipe INRIA-Rocq : Sanskrit Organisme étranger partenaire : Université d'Hyderabad
Centre de recherche INRIA : Paris-Rocquencourt
Thème INRIA : Sym C
Pays : Inde
 
 
Coordinateur français
Coordinateur étranger
Nom, prénom Huet, Gérard Amba Kulkarni
Grade/statut Directeur de Recherches Reader, Head of Department
Organisme d'appartenance
INRIA, Centre de Paris-Rocquencourt Hyderabad University, Sanskrit Department    
Adresse postale Rocquencourt Department of Sanskrit Studies, School of Humanities, University of Hyderabad P.O. Central University, Hyderabad 500 046, India
URL Page personnelle University of Hyderabad
Téléphone   91-040-23133300 (School office)
Télécopie    
Courriel Gerard.Huet@inria.fr apksh@uohyd.ernet.in, ambapradeep@gmail.com

La proposition en bref
Titre de la thématique de collaboration : Traitement informatique du Sanskrit - Sanskrit Computational Linguistics

Descriptif : Les deux équipes ont développé des outils informatisés de traitement du sanskrit. Le première étape de la collaboration consistera à définir des standards de représentation des ressources linguistiques mutuelles, et notamment du jeu d'étiquettes morphologiques, ainsi qu'une notation pour les arbres d'analyse (tree banks), afin d'assurer une certaine inter-opérabilité des logiciels développés séparément. Une deuxième étape consistera en l'élaboration de protocoles d'évaluation de ces logiciels d'analyse, sur des jeux de tests communs tirés d'un corpus de textes étiquetés. En parallèle, l'équipe associée s'efforcera de rassembler la (petite) communauté de chercheurs travaillant sur l'informatisation du sanscrit au niveau mondial, en organisant des workshops spécialisés où seront conviés les principaux chercheurs du domaine. A plus long terme, nous visons à mettre en place pour le sanskrit l'équivalent du Trésor de la langue Française, ou de la bibliothèque digitale Perseus pour les textes grecs et latins

 


II. BILAN 2008

Changements majeurs survenus concernant l'Equipe Associée (modifications des objectifs scientifiques, des chercheurs impliqués): néant

 

Rapport scientifique de l'année 2008

Pour mémoire: on peut trouver le rapport 2007 ici.

Le premier objectif de cette équipe associée est de faire émerger une collaboration internationale sur cette thématique interdisciplinaire, qui nécessite des compétences en informatique, en linguistique, en philologie, et plus spécifiquement en linguistique du sanskrit, et notamment en techniques de grammaire paninéenne. Le second objectif est de valoriser les technologies développées au sein de l'équipe INRIA à Rocquencourt: transducteurs d'état fini implémentés dans la boîte à outils Zen, plus généralement machines d'Eilenberg. Ce dernier volet est le travail de thèse de Benoît Razet.

Afin de susciter la collaboration internationale autour du traitement informatique du sanskrit, nous avons organisé en octobre 1997 une manifestation scientifique, première du genre: le First International Sanskrit Computational Linguistics Symposium. Cette manifestation était co-patronnée par L'Ecole Pratique des Hautes Etudes et divers organismes indiens. Un volume des actes du symposium de 133 pages a été édité par G. Huet et A. Kulkarni. Le symposium a eu lieu au Centre INRIA de Paris-Rocquencourt du 29 au 31 Octobre 2007. Il a rassemblé une quarantaine de participants. L'équipe associée a contribué financièrement, notamment à l'invitation de 7 participants indiens, et à celle du Pr Kiparsky de Stanford University, qui a ouvert le colloque par une conférence invitée sur la structure de la grammaire de Panini. Une version révisée des communications a été éditée sur la bibliothèque numérique pérenne HAL.

Le succès de cette manifestation a dépassé nos espérances, car le Professeur Peter Scharf, du département de classiques de l'Université Brown (Providence, RI, USA) a proposé d'organiser la deuxième édition de cette manifestation en mai 2008 à Providence: Second International Sanskrit Computational Linguistics Symposium. Notre équipe associée y était bien sûr représentée par les deux co-responsables. Comme pour le premier symposium, une journée d'atelier permettait de confronter les progrès des différentes équipes travaillant sur des logiciels de traitement de la langue sanskrite.

A la suite de cette manifestation, nous avons été contactés par l'éditeur Springer-Verlag, qui a proposé de patronner cette série de conférences en en éditant les actes dans la série LNCS. De plus, on nous a proposé de faire une sélection des articles présentés aux deux premières manifestations, et d'y adjoindre quelques papiers invités, pour réaliser un volume Topics in Sanskrit Computational Linguistics. Ce volume, dont les éditeurs sont Gérard Huet, Amba Kulkarni et Peter Scharf, est en cours de finition (environ 450 pages).

Le volume sera disponible en même temps que les actes du Third International Sanskrit Computational Linguistics Symposium, qui aura lieu chez notre partenaire, à l'Université d'Hyderabad, à la mi-janvier 2009. L'INRIA financera la mission d'un conférencier invité, le Pr Jan Houben, maître d'études à l'EPHE.

La collaboration internationale est donc bien démarrée. Cette série de manifestations survivra à notre équipe associée, et se poursuivra dans le futur. Nous avons formé un "Steering Committee" pour l'animer, comprenant, outre les deux responsables de notre EA, les professeurs Brendan Gillon (McGill University, Montréal), Malhar Kulkarni (IIT Mumbai, Inde) et Peter Scharf (Brown University). Nous débattons en cette fin d'année de la 4ème édition du symposium, qui aura lieu vraisemblablement à Delhi en 2010.

Ces différentes manifestations sont l'objet d'échanges d'une ou deux semaines entre nos deux sites, complétés par un travail collaboratif continu par courrier électronique, visant à valider les bases de données morphologiques développés par nos deux sites mais également par l'effort commun sur la Sanskrit Library (Peter Scharf à Brown et Malcolm Hyman à Max Planck Berlin).

Notre équipe associée a invité l'été 2008 un étudiant indien de l'IIT de Kharagpur, Bibek Behera, dans le cadre du programme internship. Bibek a travaillé sur la compilation d'expressions régulières en automates finis. Il était encadré par Benoît Razet, qui est en 3ème année de thèse dans notre équipe à Rocquencourt, et qui travaille sur les Machines d'Eilenberg, un formalisme élégant généralisant les automates et transducteurs d'état fini à un cadre très général de programmation de processus non déterministes. Cette recherche a fait l'objet de deux publications internationales cette année :

[1]Finite Eilenberg Machines. CIAA 2008.Springer LNCS 5148, 2008, pp. 242-251. [ pdf ].

[2]Simulating Finite Eilenberg Machines with a Reactive Engine. MFSP 2008.To appear in Electronic Notes in Theoretical Computer Science. [ pdf ].

Notons que G. Huet et B. Razet présenteront un tutoriel sur les machines d'Eilenberg en décembre 2008 à la 6th INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING (ICON 2008) à Pune (Maharashra).

 

Rapport financier 2008

1. Dépenses EA (effectuées sur les crédits de l'Equipe Associée)
Montant dépensé
Invitations des partenaires  
Missions INRIA USA et Islande5K€
Missions INRIA Inde4K€
Invitation Houben Hyderabad3K€
Stage Bibek Behera (y compris PC)5K€
Frais Springer-Verlag (à imputer)2K€
Divers1K€
Total
20K€

2. Dépenses externes (effectuées sur des financements hors EA)
Montant dépensé
Département de Sanskrit, Université d'Hyderabad:
Séjours de G. Huet à Hyderabad en janvier 2008 et janvier 2009. Maison d'hôtes
Total
X roupies
Conférence ICON 2008:
Séjours de G. Huet et B. Razet à Pune en décembre 2008. Hôtel
Total
Y roupies
Brown University, Providence:
Organisation du 2ème symposium (sur financement contractuel NSF)  
   
Total
Z dollars

Total des financements externes dépensés

Total des financements EA et externes dépensés


III. PREVISIONS 2009

Programme de travail

Programme scientifique de travail
pour l'année 2009

Tout d'abord, nous allons travailler avec l'ensemble des partenaires internationaux lors du symposium à Hyderabad en janvier 2009. L'atelier portera notamment sur la définition d'un jeu d'étiquettes standardisé pour les banques de données morphologiques, et sur une première proposition de représentation de l'interface syntaxe-sémantique d'un discours en sanskrit classique.

Nous espérons également commencer à mettre en place l'évaluation réciproque de nos données linguistiques, afin d'en déterminer la couverture et la qualité. Un corpus de référence sera mis au point pour permettre de commencer à évaluer les analyseurs existants.

Programme d'échanges avec budget prévisionnel

1. Echanges

Un séjour à Paris d'une quinzaine de jours de notre partenaire Amba Kulkarni est prévu. Peter Scharf a également émis le souhait de passer une partie de sa sabbatique en France l'an prochain. Gérard Huet retournera travailler avec les collègues indiens lors d'un séjour supplémentaire prévu en fin d'année. Selon les disponibilités, l'invitation à Paris d'un autre scientifique indien pour une semaine est également envisagée, si le budget accordé le permet. Enfin, une visite de Brendan Gillon, avec qui nous sommes en contact suivi depuis plusieurs années, est très probable.

Une interaction approfondie est prévue à Paris avec le Pr Paul Smolensky, créateur de la méthode optimality theory. Il est pour l'année en visite au Laboratoire de Neuroscience Cognitive de l'Ecole Normale Supérieure, dans le cadre d'une Chaire Blaise Pascal sur "Formal Foundations of Abstraction in Linguistic Cognitive Science". Il a notamment utilisé l'optimality theory pour modéliser la stratégie de choix des règles de la grammaire de Panini.

L'invitation d'un étudiant indien à un stage d'été à Rocquencourt est également à l'étude, si le budget accordé le permet.

2. Cofinancement

Nous comptons faire une demande de financement à la Commission Européenne, dans le cadre de son programme Inde-EU, afin de préparer la continuation de l'équipe associée dans un cadre élargi à plusieurs partenaires européens et indiens. Plusieurs sites allemands sont actifs, il semble plausible d'intéresser un partenaire allemand à participer à un consortium autour de ce thème. L'implication d'autres partenaires européens n'est par contre pas évidente. Il y a plusieurs équipes indiennes qui pourraient s'impliquer dans un tel projet, bien sûr d'abord notre partenaire d'Hyderabad, mais aussi les IITs de Kanpur et de Mumbai, ainsi que Jawaharal Nehru University à Delhi. Un partenaire français supplémentaire en Sciences Humaines, ayant compétence en grammaire et littérature sanskrite, serait approprié à compléter l'INRIA.

La coopération internationale pourrait s'appuyer sur des partenaires naturels en Amérique du Nord. Peter Scharf, tout d'abord, à Brown University, qui a obtenu ces dernières années un financement conséquent de la NSF lui permettant notamment d'avoir organisé cette année le 2ème symposium. Peter Scharf a créé cette année l'International Sanskrit Computational Linguistics Consortium. L'élargissement de ce consortium à un ensemble de partenaires est en discussion. D'autre part, Brendan Gillon, professeur à McGill University, est un linguiste spécialiste de syntaxe du sanskrit particulièrement actif dans notre communauté. Il fait notamment partie du Steering Committee de notre symposium. Une demande de financement complémentaire à une agence de financement canadienne permettrait sa participation pérenne à l'effort international.

3. Demande budgétaire

Indiquez, dans le tableau ci-dessous, le coût global estimé de la proposition et le budget demandé à la DRI dans le cadre de cette Equipe Associée.
(maximum 20 K€ pour une prolongation en 2e année et 10 K€ pour une 3e année).

Commentaires
Montant
A. Coût global de la proposition (total des tableaux 1 et 2 : invitations, missions, ...) 20 K&euro
B. Organisation du 3ème symposium à Hyderabad par les divers partenaires indiens 10 K€

Financement "Équipe Associée" demandé (A.-B.)

10 K€

 

 

 

© INRIA - mise à jour le 15/10/2008