Problème du cours 2-27-1

Le problème porte sur le traitement informatique de poèmes phonétiques, en utilisant la bibliothèque Zen.

Un premier exercice consiste à reconnaître le poème-anagramme "Gal, amant de la Reine, alla, tour magnanime, galamment de l'arène à la tour Magne à Nimes."

La solution de l'exercice suppose la construction d'un lexique phonétique des mots apparaissant dans la phrase. On suggère d'employer la structure de données "deco" pour construire d'une part, le lexique phonétique, et d'autre part son inverse, qui servira à l'algorithme de segmentation.

La première difficulté consiste à définir l'alphabet des phonèmes du français. En l'absence de disponibilité de ressources phonétiques libres du français, et notamment des tables phonétiques du LADL, on devra faire une modélisation simpliste. Il est conseillé de se conformer à la transcription phonétique donnée au début du petit Robert, avec [i] = 1, [e] = 2, ..., [x] = 40.

Un petit analyseur lexical permettrait de saisir plus rapidement le lexique, pour pouvoir analyser en Ocaml/Camlp4 des chaînes de caractères ASCII codant ces phonèmes, pour pouvoir associer rapidement par exemple le mot écrit "amant" à son signifiant "am~a". Les signifiants des mots communs seront trouvés à leur entrée du Petit Robert. Ceux des noms propres, comme "Gal", seront intuités.

Une fois le lexique phonétique établi, il est facile d'écrire le transducteur qui lit la phrase, la segmente en mots en reconnaissant les blancs et en ignorant les virgules, et produit la liste ["gal"; "amant"; ... ]. Un deuxième transducteur produira la liste concaténée des signifiants comme liste d'entiers S = [n1; n2; ... ]. Ou bien on écrira directement la composition des deux transducteurs pour produire S. Ensuite, on vérifie que S est un doublon phonétique de la forme X @ X. La dernière vérification consiste à segmenter X à l'aide du lexique inverse pour montrer que X ne peut se segmenter en mots du lexique que par les deux décompositions qui constituent les deux vers du poème.

Cet exercice peut être réalisé individuellement ou en binôme. Le reste du problème est plus conséquent, il est proposé comme problème collectif à la classe. Une réunion de coordination est fixée à 13h le 16 janvier dans la salle du cours pour tirer les enseignements du premier exercice et découper les tâches du problème qui suit entre les équipes participantes.

Le problème est une modélisation de la forme littéraire appelée "contrepet" ou "contrepèterie". Cette forme généralise directement l'exercice, par insertion d'une permutation phonétique. Au lieu d'avoir simplement deux vers X et X phonétiquement identiques, le poème ne comporte qu'un vers X, de sens relativement banal, et le contrepet consiste en trouver une permutation X' de X correspondant à une phrase grammatiquement bien formée, mais de sens choquant. Les contrepèteries sont des charades dont on ne donne pas la solution. Notamment, seul X est énoncé, la phrase X' étant seulement suggérée. L'art du contrepet consiste d'ailleurs à énoncer X en public dans des réunions sérieuses, sans les signaler particulièrement - seuls les initiés apprécient le double sens. Comme l'indique Luc Etienne, le contrepet exprime décemment l'obscénité.

La préparation à la résolution du problème comprend une étude bibliographique du sujet. Sans remonter à Estienne Tabourot, qui fit paraître en 1572 le premier recueil de ses Bigarrures, le bréviaire du sujet est sans conteste "La redoute des contrepèteries", de Louis Perceau (1883-1942), publiée en 1934 par Georges Briffaut, et constamment rééditée. La bible en est "L'art du contrepet" de Luc Etienne (1908-1984), parue chez Pauvert en 1957, puis en Livre de poche en 1971 (numéo 3392). Joël Martin, qui a tenu la rubrique "Sur l'album de la Contesse" dans l'hebdomadaire Le Canard Enchaîné de 1988 à 1996, a fait paraître chez Albin Michel en 1986 un "Manuel de contrepet, l'art de décaler les sons", puis aux Presses Universitaires de France en 2005 une monographie "La contrepèterie", qui donne l'état actuel de l'art du contrepet. Ces différents ouvrages esquissent des théories du contrepet, qui permettent notamment de classifier les contrepets suivant leur difficulté mais aussi suivant leurs qualités esthétiques. Ils proposent aussi un florilège de contrepets savoureux, qui fournira la base du corpus étudié.

Les différentes équipes devront se répartir la saisie de ce corpus, notamment la liste des mots utilisés et de leur signifiants. Cette liste doit comprendre, pour chaque contrepet X, l'union des mots de X et de X'. Il conviendra d'associer des indices d'homonymie pour séparer par exemple couvent1 et couvent2 dans la phrase "Les poules du couvent couvent" (qui n'est pas un contrepet, juste un exemple montrant l'absurdité de la représentation écrite du français). Remarquons que le lexique ainsi collationné est un lexique des mots fléchis du français, comportant des pluriels et des formes conjuguées. Mais il n'est pas besoin d'étiqueter les mots par leur paradigme morphologique, il n'y aura aucune vérification grammaticale des phrases considérées.

Un premier exercice consistera à vérifier qu'une contrepèterie C (liste de mots) de chaîne phonique X (suite concaténée des signifiants), munie d'une permutation π des phonèmes constituant X, est telle que X'=π(X) est segmentable à l'aide des signifiants du lexique, ce qui donne la phrase cachée C'. La difficulté du contrepet s'exprime alors par la complexité de la permutation, en termes de transpositions de phonèmes simples, de phonèmes multiples constituant des syllabes, etc. On retrouvera les classifications des ouvrages mentionnés, mais aussi des difficultés. Par exemple, la prise en compte des liaisons nécessitera, pour leur traitement, d'exprimer la liaison comme transduction rationnelle sur la chaîne des phonèmes.

Un exercice plus avancé consistera à trouver mécaniquement les permutations π menant à contrepet pour une phrase C donnée. Pour limiter la sur-génération, il conviendra d'établir un critère de bonus privilégiant les permutations menant à des mots grossiers, érotiques, ou qualifiant des fonctions d'autorité, notamment militaires et ecclésiastiques. Ceci est une première ébauche d'évaluation esthétique: le contrepet est l'art de se moquer de l'autorité établie, dans la tradition pataphysique de l'OuLiPo.

Le bonus sera exprimé par l'apparition, dans les mots de C' créés par la permutation, de mots appartenant d'une part au registre obscène ou scatologique, d'autre part référant aux différents grades militaires, ecclésiatiques et plus généralement d'autorité. Les meilleurs contrepets sont ceux qui bafouent l'autorité en l'associant à un acte obscène : "Le général est arrivé à pied par la Chine", "La petite Rachel glisse sur la berge du ravin", etc.

Il est proposé la création d'un wiki permettant le travail coopératif sur ce problème. Il restera ensuite comme œuvre collective de la classe. A la mi-février, chaque étudiant désirant être noté devra soumettre un court rapport expliquant sa participation à l'exercice et au problème, accompagné des réflexions qu'il jugera utiles sur une modélisation linguistique plus poussée des phénomènes étudiés.

IMPORTANT Lire les informations pratiques ici.


© Gérard Huet 2005 Top | MPRI fr | MPRI en |