Objectifs

Résumé

Demonext consiste en la construction d’une base de données morphologiques (BDM) du français qui décrit les propriétés dérivationnelles des mots de manière systématique. La BDM répondra à des besoins multiples, comme la confirmation empirique et l’élaboration d’hypothèses en morphologie, le développement d’outils en traitement automatique des langues (TAL), l’enseignement du vocabulaire et le traitement des troubles du langage développementaux ou acquis.

Enjeux et Objectifs

Le lexique d’une langue comme le français est composé majoritairement de mots morphologiquement complexes : préfixés, suffixés, convertis ou composés. Cette information structurelle est généralement disponible dans les rubriques étymologiques des dictionnaires, mais la variabilité de sa formulation la rend difficile à exploiter. Pour des langues comme l’anglais, l’allemand, le néerlandais ou le tchèque, il existe des bases de données morphologiques (BDM) qui décrivent les propriétés dérivationnelles des mots de manière systématique : CELEX, CatVar, DerivBase, etc. Ces informations sont essentielles car plusieurs autres peuvent en être inférées, la plus importante étant le sens de ces mots. À l’heure actuelle, il existe en français un prototype de BDM, la base Démonette (voir ici et ici), développée par les deux partenaires principaux du projet et que l’on peut considérer comme une étude exploratoire du présent projet. Disposer en français d’une BDM à large couverture comportant des descriptions riches et fiables permettrait de répondre à des besoins multiples, comme la confirmation empirique et l’élaboration d’hypothèses en morphologie, le développement d’outils de TAL, l’enseignement du vocabulaire, et le diagnostic et le traitement des troubles lexicaux développementaux ou acquis.

C’est pour répondre à ces enjeux que nous proposons de construire la BDM Demonext. Cette ressource de grande ampleur disposera de descriptions riches des lexèmes (i.e. unités lexicales) et des relations dérivationnelles et des paradigmes où elles s’insèrent, représentera les informations de façon explicite et uniforme, garantira une traçabilité systématique de toutes les informations qu’elle fournit, et sera compatible avec les principales théories morphologiques actuelles (morphématiques ; lexématiques ; paradigmatiques).

Méthodes / Approches

Les principes qui sous-tendent Demonext lui donneront une organisation originale par rapport aux BDM existantes. Une entrée de Demonext correspond à une relation morphologique dérivationnelle entre deux lexèmes. L’ensemble des relations que partage un lexème avec ses « parents » morphologiques définira sa famille dérivationnelle. Par exemple, nation forme une famille avec national, international, nationaliser, nationalité, internationaliser, etc. Une autre caractéristique de Demonext est qu’elle décrira à grande échelle les paradigmes dérivationnels qui structurent le lexique et qui l’organisent en réseaux interconnectés (par exemple, toute relation obéissant au schéma X ↔ Xal, où X est un nom, s’inscrit dans un réseau que l’on peut généraliser sous la forme du quadruplet {X, Xal, Xaliser, Xalisation}).

Demonext se distingue aussi des BDM existantes par une autre caractéristique remarquable, qui est que chaque entrée sera munie d’un ensemble d’informations sémantiques : les relations morphologiques sont annotées sémantiquement et les mots qu’elles relient rattachés à des types sémantiques. L’annotation des relations sera réalisée au moyen de gloses définissant l’un des mots relativement au sens de l’autre. Par exemple, nationalisation peut être défini relativement à nationaliser par une glose comme « action de nationaliser ». Le typage morpho-sémantique des lexèmes connectés par une relation (comme CAUSE_CHANGE pour nationaliser ou ACTION pour nationalisation) s’inspirera du contenu du réseau Framenet, qui dispose d’un jeu de types étendu.

L’un des principes qui guidera la conception de Demonext est qu’elle puisse être alimentée par une variété de ressources lexicales du français, dès lors que celles-ci peuvent être redistribuées librement. Ces ressources seront intégrées de manière cumulative à Demonext ; le format des connaissances qu’elles contiennent sera unifié ; les informations importantes manquantes seront calculées automatiquement lorsque cela est possible.

Résultats attendus

Demonext sera ainsi une BDM de grande envergure disposant d’une structure originale de réseaux interconnectés, dont les arcs et les sommets seront munis d’informations variées : morphosémantiques, morphophonologiques, dérivationnelles, statistiques, etc.

Un deuxième résultat du projet est constitué d’un ensemble d’outils et de matériels pédagogiques, tels que des recueils d’exercices et de tests. Ces produits dérivés exploitant Demonext seront autant d’exemples de ses utilisations possibles et de son impact sociétal escompté à destination des enseignants du primaire et secondaire, des étudiants et enseignants du supérieur, des praticiens orthophonistes, des spécialistes de morphologie constructionnelle et de modélisation statistique du lexique.

Demonext sera distribuée sous licence libre Creative Commons et sera rendue accessible aux différentes catégories d’utilisateurs, qui disposeront d’interfaces selon l’usage visé : interfaces d’interrogation, d’édition et de visualisation pour les publics spécialisés ; accès simplifié et ergonomique à destination du grand public. Elle sera téléchargeable via l’EQUIPEX Ortolang et la plateforme REDAC.

Nous nous attendons à ce que Demonext, base de donnée hébergeant un réseau morphologique annoté de descriptions dérivationnelles, formelles, sémantiques, fréquentielles, ait un impact dans plusieurs domaines scientifiques et sociaux. Demonext offrira en effet aux linguistes (morphologues, psycholinguistes, didacticiens LM ou LS) un terrain expérimental disposant d’une couverture importante, et offrira une palette d’informations variées, allant des mesures statistiques aux propriétés sémantiques, en passant par les décompositions morphologiques, les caractéristiques catégorielles et phonologiques.

Perspectives

En recherche en morphologie, Demonext contribuera à l’émergence d’une morphologie plus quantitative et expérimentale, en permettant de tester des hypothèses à large échelle et d’en élaborer de nouvelles. Elle permettra également une amélioration de la visibilité des résultats des études sur la morphologie dérivationnelle du français et probablement une évolution vers des analyses plus formalisées.

La tâche de modélisation statistique de la concurrence entre procédés apportera non seulement une meilleure compréhension de la structuration et des dynamiques caractérisant le système dérivationnel du français, mais également des outils et des méthodes permettant d’explorer ce système et de le modéliser.

Dans l’enseignement supérieur, la production de représentations dans une variété de formalismes permettra le développement d’exercices pour des MOOC.

En traitement automatique des langues (TAL), l’étendue de sa couverture et la richesse de son contenu favoriseront son intégration dans des chaînes de traitement en recherche d’information, fouille de données, analyse de documents, etc. Les descriptions sémantiques seront utiles pour la création de terminologies et l’exploitation de corpus.

En pédagogie, Demonext participera à la diversification des techniques d’enseignement du vocabulaire au service des professeurs des écoles du premier degré, et en particulier ceux du cycle 2, par la mise en place de techniques spécifiques d’acquisition lexicale issues des données de la recherche.

Enfin, en remédiation orthophonique, la ressource permettra la mise au point de matériel d’évaluation et de thérapie ciblé sur le niveau morphologique, que ce soit pour améliorer ce niveau de traitement, quand il est déficitaire ou au contraire pour le mobiliser, quand il est préservé, dans l’élaboration de stratégies compensatoires.