Nabil Hathout
Glawinette est un lexique dérivationnel du français créé à partir du dictionnaire électronique GLAWI. Les entrées de Glawinette sont des couples de lexèmes morphologiquement apparentés comme accomplir_V:accomplissement_N
où V et N sont les catégories des lexèmes
. Glawinette fournit la famille de mots (famille morphologique) de chacune de ses entrées et une caractérisation de la relation dérivationnelle dans laquelle se trouvent les lexèmes du couple.
Les relations sont décrites au moyen de deux patrons : un patron d’alternance général (broad alternation pattern, BAP) qui décrit au moyen de deux expressions régulières la relation de forme la plus générale qui existe entre les deux mots comme ^(.+)r:^(.+)ssement
pour accomplir_V:accomplissement_N
, où la séquence (.+)
représente la chaîne de caractère accompli ; un patron d’alternance fin (fine-grained alternation pattern, FAP) qui décrit au moyen de deux expressions régulières une relation de forme entre les deux mots qui utilise des exposants dérivationnels mieux motivés d’un point de vue linguistique comme ^(.+)ir:^(.+)issement
pour accomplir_V:accomplissement_N
, où la séquence (.+)
représente la chaîne de caractère accompl.
Glawinette contient 156090 couples de lexèmes qui se répartissent en 15843 familles de mots et 5384 séries dérivationnelles.
La ressource a été construite à partir des relations décrites dans les sections morphologiques de GLAWI et dans les définitions morphologiques du dictionnaire, c’est-à-dire des définitions comme celle d’accomplissement qui contiennent un membre de la famille dérivationnelle du défini (en l’occurrence accomplir) :
accomplissement : action d’accomplir ou résultat de cette action
La création de Glawinette utilise dans les fait toutes les couples mots (défini, mot de la définition) qu’il est possible de constituer à partir des définitions de GLAWI. Cette liste est ensuite filtrée de sorte que seuls les couples de mots morphologiquement apparentés soient conservés. Le filtrage des couples et le calculs des patrons est réalisés au moyen d’analogies proportionnelles. Dans un premier temps, une signature analogique de type BAP est assignée à chaque couple. Ces signatures permettent d’exclure les couples qui forment moins de 5 analogies avec d’autres couples extraits du dictionnaire. Dans un second temps, nous raffinons les couples restants et calculons les FAP de la manière suivante : 1. les couples de chaque série analogique sont séparés en deux séries de mots ; 2. nous calculons pour chaque série de mots les patrons (expressions régulières) qui décrivent au moins 5 mots de la série ; 3. les patrons de mots sont alignés pour former des patrons de couples ; 4. seuls les couples dont les patrons décrivent au moins 10 % des couples de la série sont conservés ; 5. les FAP sont calculés en sélectionnant pour chaque couple de mots qui dispose d’un ou plusieurs patrons, celui qui est le plus fortement connecté aux patrons d’autres couples.
Une évaluation manuelle de Glawinette réalisée sur 200 couples sélectionnés aléatoirement montre que plus de 99 % des couples de mots de la ressource sont morphologiquement apparentés et que 75 % d’entre eux ont un FAP qui correspond à ce qu’un linguiste assignerait comme exposants aux deux mots du couple.
Glawinette est mise à disposition sous formes tsv et json. Elle est diffusée sous une licence Creative Commons By-SA 3.0.