La base de données Démonette

Présentation Générale

A ce jour, la table des lexèmes compte 287 630 lexèmes. Parmi eux, 66 992 sont impliqués dans quelque 80 000 relations dérivationnelles distinctes, dans la table des relations.

Démonette est constituée d’informations émanant de différentes bases de données élaborées dans des travaux ou projets de recherche publique antérieurs :  Converts, Démonette 1.2, Dénom (lui-même scindé en 11 sous-bases), Dérif (composé de 9 sous bases), DiMoc (9 sous-bases) et Mordan. Les informations issues de ces différentes bases, hétérogènes dans leur conception même et, par conséquent, dans les champs qu’elles comportent, ont nécessité un travail préalable d’harmonisation, d’analyse et de complétion, avant leur déversement dans la base Démonette selon le format attendu. Des choix, nécessairement discutables, ont par ailleurs été faits : par exemple, en ce qui concerne les noms d’animés, seuls les masculins ont été saisis (par exemple, épicier), avec une coindexation avec le féminin (ici : épicière), tandis que les variantes orthographiques ont fait l’objet d’autant d’entrées différentes dans la base (par ex. volètement ou volettement). Les cas trop problématiques en termes d’analysabilité sémantique ou formelle ont été mis de côté.

Ont ainsi été traités 117 exposants (autrement dit procédés de formation) correspondant, dans Démonette, à 81 232 relations pour lesquelles il est possible d’interroger la construction de chacun des lexèmes l’un par rapport à l’autre, la complexité de la relation entre deux lexèmes, ainsi que l’orientation qui relie les lexèmes.

Parmi les 117 exposants traités :

  • 91 sont impliqués dans une construction adjectivale (par ex. suffixe –ique présent dans cyclonique)
  • 13 dans une construction nominale (par ex. suffixe –at présent dans professorat)
  • 5 dans une construction verbale (par ex. suffixe –ifier présent dans simplifier)
  • 7 dans une construction nominale et/ou adjectivale (par ex. suffixe –iste présent dans arriviste, nom et adjectif)
  • les cas de conversion, qui peuvent construire des noms, adjectifs ou verbes, sans impliquer de matériel sonore ni graphique.

D’un point de vue formel, l’option prise lors du codage a été de considérer que le radical d’un lexème construit correspond à la séquence apparaissant dans son paradigme flexionnel, et de considérer le reste l’affixe ou une variante de ce dernier. Cette option est purement pragmatique et ne préjuge d’aucun traitement linguistique argumenté, qui peut différer selon les cas. Par exemple, dans Démonette, blanchelet est analysé comme construit sur le radical blanche qui sert à former le féminin de l’adjectif blanc et le segment -elet comme une variante du suffixe –et. Les 117 exposants traités regroupent ainsi 448 variantes.

Ensemble des traits utilisés

La relation entre deux lexèmes (W1,W2) de la même famille dérivationnelle est caractérisée par deux traits (voir illustration, Famille de « laver »).

Les notations des relations et de leur complexité sont les suivantes :

  • Une relation dite simple directe (en raccourci, on parlera de relation simple) connecte un dérivé et sa base. Si W1 est le dérivé et, donc, W2 la base (lavageN-laverV), alors la relation est descendante (des2as). Dans l’orientation contraire (base vers dérivé : laverV -lavageN), la relation est ascendante (as2des). Elle est considérée comme non orientée (NA) quand il n’est pas possible de déterminer formellement la base du dérivé (volN-volerV).
  • Une relation simple est notée comme indirecte quand elle connecte deux dérivés d’une même base (lavageN-lavableA) sans que l’un ne dérive de l’autre.
  • Une relation dite complexe directe relie un descendant et son ascendant dès lors qu’entre les deux existe au moins une étape dérivationnelle (par ex., le passage entre laverV et relavageN requiert une étape intermédiaire, soit par lavageN, soit par relaverV). Elle peut-être as2des (laverV-relavageN) ou des2as (relavageN-laverV).
  • Une relation dite complexe indirecte relie deux lexèmes W1 et W2 dès lors qu’elle met en jeu au moins deux étapes et que ni W1, ni W2 (et réciproquement) ne sont l’ascendant de l’autre (relavageN– lavableA).
  • Une relation accidentelle ne concerne qu’un seul couple (i) soit d’un point de vue morphologique : dans mentirVmensongeN, la séquence finale –onge du nom n’est attestée nulle part ailleurs en tant que suffixe dans le lexique du français, (ii) ou du point de vue sémantique : le verbe asperger et le nom asperge sont formellement reliés, mais pas sémantiquement.

L’ensemble des relations détermine la série morphologique des lexèmes connectés. Ces relations sont représentées par le radical commun (X) et un exposant le cas échéant : (X,Xable) pour (laverV, lavableA).

Chaque série appartient à un type constructionnel : suf (Xable), pre (antiX), NA (X), pre-suf (reXage).

Certaines relations dérivationnelles sont atypiques : le sens et la forme ne coïncident pas. Pour exprimer ce déséquilibre, deux nouveaux traits sont ajoutés à l’ensemble des valeurs qui caractérisent la description de la complexité entre W1 et W2 . C’est ce qui est illustré dans la figure ci-dessous (Famille de « école »)

  • Une relation entre W1 et W2 est motivée formellement (motiv-form) mais non sémantiquement quand la séquence formelle du dérivé (par ex. W2) est construite sur celle de la base (ex. W1) mais que le sens de W2 n’est pas déductible de celui de W1. Par exemple, scolariserV est formellement construit sur scolaireA par adjonction de -iser (modulo la variation /ɛ/ – /a/ sur la dernière syllabe du radical de la base) mais le verbe ne signifie pas « rendre scolaire ».
  • Réciproquement, une relation entre W1 et W2 est motivée sémantiquement (motiv-sem) mais non formellement quand le sens du dérivé (ex. W2) est déductible de celui de la base (ex. W1), mais que la relation formelle entre W2 et W1 est soit indirecte, soit complexe. Par exemple, scolariserV est directement définissable à partir d’écoleN (scolariser un enfant, c’est le « mettre dans une école ») mais il n’y a pas de lien formel direct entre W1 et W2.

Les relations permettent de réunir les lexèmes de la base en familles dérivationnelles. Quelques illustrations ci-dessous:

  1. Famille dérivationnelle « classique » :
Famille du verbe « laver »

  1. Famille dérivationnelle « atypique » :
Famille du nom « école »

Les 81 232 relations dans Démonette sont réparties de la façon suivante, suivant leur complexité et leur orientation :

Complexité 

  • 76270 relations simples
  • 116 relations complexes
  • 3913 relations motivées sémantiquement
  • 769 relations motivées formellement
  • 164 relations accidentelles

Orientation

  • des2as : 70123
  • indirect : 8345
  • NA : 2687

Echantillons

On trouvera ci-dessous des échantillons d’entrées de la base, correspondant aux principaux procédés dérivationnels représentés à l’heure actuelle dans ces relations. Ce sont :

  • Ici : la conversion V > N et N > V, ainsi que la dérivation à base verbe de noms d’agents en -eur, -euse, -rice, de noms d’actions en -ion, -ment, -age, d’adjectifs en -if, en -able
  • la formation
    • Ici : d’adjectifs dénominaux suffixés en -ique, en -al, en -aire ou préfixés par anti-
    • Ici : de diminutifs nominaux et adjectivaux en -et et -ette
    • Ici : de verbes dénominaux, déverbaux et désadjectivaux préfixés par en-, dé-, et suffixés par -iser
    • Ici : de noms suffixés en -aie, en -at, -en -ier