Le
Lefff
(Lexique des Formes Fléchies du Français) est un lexique morphologique
et syntaxique à large couverture, distribué sous licence libre LGPL-LR (Lesser
General Public License For Linguistic Resources).
Le Lefff
est développé au sein de l'architecture Alexina
(Architecture pour les LEXiques INformatiques et leur Acquisition), en
parallèle à d'autres lexiques utilisant le même format (en particulier
le Leffe pour l'espagnol). Cette architecture est à deux niveaux :
- lexique
intensionnel,
qui décrit pour chaque entrée lexicale son lemme (forme canonique +
table de flexion) et des informations de syntaxe profonde (cadre de
sous-catégorisation en fonctions syntaxiques profondes et réalisations
possibles + constructions/reformulations/diathèses admissibles)
- lexique
extensionnel, compilé automatiquement à partir du lexique
intensionnel ;
ce processus de génération comporte une phase de flexion, en fonction
de la classe morphologique associée à l’entrée intensionnelle, puis une
phase de construction de la structure syntaxique associée à chacune des
formes fléchie obtenues (les informations syntaxiques variant d’une
forme à une autre, en particulier pour les formes infinitives et
participiales, et en fonction de chaque construction associée à
l'entrée).
Les informations lexicales présentes dans le Lefff sont issues de
divers travaux :
- acquisition
automatique
(avec validation manuelle) à l'aide de techniques statistiques
appliquées sur des corpus bruts (Clément, Sagot et Lang 2004, Sagot
2005),
- acquisition automatique (avec validation manuelle)
d'informations syntaxiques atomiques (cf thèse de Sagot, 2006, ch 7)
- correction
et ajout manuel ou guidé par des techniques automatiques,
comme par exemple la fouille d'erreurs dans les sorties d'analyseurs
syntaxiques (Sagot et de La Clergerie, 2006),
- comparaison
avec d'autres ressources, et notamment les Tables du
Lexique-Grammaire: constructions impersonnelles, adverbes en -ment,
quelques classes d'expressions verbales figées (Sagot et Danlos 2006,
Danlos et Sagot 2007, Sagot et Danlos 2007, Sagot et Fort 2007) ; par
ailleurs, un certain nombre des noms et adjectifs viennent initialement
du lexique morphologique Multext pour le français (Véronis 1998).
|
Téléchargement
Dernière version distribuée (3.0.3)
Les anciennes versions sont téléchargeables sur la page
"fichiers" du projet Alexina. |