Morphologie et analyse statistique

Marine Wauquier

Télécharger le Tutoriel NoteBook (Thuilier, J., Tribout, D., Wauquier, M.)

Ce travail est consacré à l’exploitation quantitative de la base Démonette et s’est principalement construit autour de la concurrence entre procédés morphologiques dérivationnels en français et de sa modélisation. Il met plus spécifiquement en regard les suffixes –euse et –rice pour la formation de noms d’agent féminins, –eur pour la formation de noms d’agent masculins, et –age et –ion pour la formation de noms d’action.

Ce travail innove dans l’analyse d’une différence sémantique et notamment axiologique entre les noms d’agent féminins déverbaux en –euse et -rice par la mise en parallèle de cette distinction sémantique avec une différence morphologique liée au type – populaire ou savant – de la base (ou thèmes présent et supin chez Anscombre 2001, hidden stem chez Bonami et al. 2009). Peu voire pas discutée, cette propriété se retrouve pourtant au travers du lexique, notamment chez les noms d’agent masculins en –eur (serveur vs serviteur), chez les noms d’action (datage vs datation), mais aussi dans d’autres catégories (portatif et portable). L’objectif est donc (i) de valider l’existence d’un lien entre spécificités sémantiques et morphologiques des constructions populaires et savantes, et (ii) d’évaluer la stabilité de ce lien à travers le lexique.

La porte d’entrée est la sémantique distributionnelle et la représentation quantitative du sens qu’elle offre, le postulat étant que la similarité sémantique de deux mots peut être quantifiée au regard de la similarité de leur distribution. La question qui se pose à ce titre est de savoir si les constructions populaires et savantes présentent des propriétés distributionnelles distinctes, et donc, par extension, si cette différence morphologique est sémantiquement pertinente. Le cas échéant, l’une des hypothèses est que les représentations distributionnelles des constructions populaires et savantes peuvent être discriminées pour deux procédés concurrents donnés. D’autre part, si cette différence morphologique est effectivement transversale, la seconde hypothèse est que son expression devrait être stable quelles que soient les catégories sémantiques ou grammaticales considérées. Les constructions populaires et savantes devraient donc être discriminées de façon similaire pour les différentes paires de procédés considérés.

Ces hypothèses sont testées sur la base des noms d’agent féminins en –euse et –rice, des noms d’agent masculins en –eur et des noms d’action en –age et –ion issus de la base de données morphologiques. L’expérience consiste à entraîner des classifieurs visant à prédire le type de construction (populaire ou savant) d’un lexème à partir de sa représentation distributionnelle. Avec une précision allant de 0.77 pour les noms d’agent masculins en –eur à 0.83 pour les noms d’action en –age et –ion, ces classifieurs montrent l’existence de propriétés distributionnelles distinctes pour les constructions populaires et savantes. L’utilisation de ces classifieurs entraînés sur une paire de procédés concurrents donnée (ex. –euse et –rice) pour la discrimination d’une autre paire de procédés (ex. –age et –ion) montre par ailleurs des résultats similaires, avec une précision allant de 0.77 à 0.82 en fonction des configurations. Ces résultats montrent que les déverbaux populaires et savants sont distributionnellement distincts, mais que cette distinction est relativement stable pour les différents types de déverbaux considérés, puisque la distinction apprise sur une paire de procédés donnée permet de discriminer de façon similaire une autre paire de procédés. Une analyse qualitative des propriétés sémantiques des noms formés par les différents procédés, au moyen de l’observation des voisins distributionnels du vecteur moyen de chaque procédé, montre cependant que cette distinction entre constructions populaires et savantes se traduit par des propriétés sémantiques spécifiques aux procédés (biais de genre distincts pour les noms d’agent féminins et masculins, domaines référentiels pour les noms d’action).

Ce travail a fait l’objet d’une présentation (Wauquier et Bonami 2021) et un article est en préparation.

L’auteur contribue en parallèle à l’étude de la concurrence affixale pour la formation de gentilés en –ais, –éen, –ien et –ois en français. La modélisation de cette concurrence repose sur l’entraînement d’arbres d’inférence conditionnelle et de forêts aléatoires à partir de propriétés morphologiques, phonologiques et géographiques, sur la base d’un échantillon de 2218 gentilés annotés. Si les données elles-mêmes ne sont pas issues de Démonette, cette étude donne lieu néanmoins au développement d’un tutoriel au travers de notebooks Jupyter visant à guider le linguiste dans la modélisation statistique de la concurrence affixale dans l’environnement R.

Ce travail a fait l’objet d’une présentation (Thuilier et al. 2021) et d’un article (en cours de révision). Les notebooks seront par ailleurs diffusés dans le cadre du projet.

Références

Anscombre, J. C. (2001). À propos des mécanismes sémantiques de formation de certains noms d’agent en français et en espagnol. Langages (143), 28-48.

Bonami, O., Boyé, G. & Kerleroux, F. (2009). L’allomorphie radicale et la relation flexion-construction. In Bernard Fradin, Françoise Kerleroux & Marc Plénat (eds.), Aperçus de morphologie du français, 103–125. Saint-Denis: Presses de l’Université de Vincennes.

Thuilier, J., Tribout, D. & Wauquier, M. (2021). Affixal rivalry in demonym formation. Workshop on affix rivalry, en ligne.

Wauquier, M. & Bonami, O. (2021). Social gender and derivational morphology: a distributional study of the gendered import of learned morphology in French. ISMo, en ligne.

Demonext

Dérivation en extension / Derivation in extension

Morphologie et analyse statistique