Lucie Barque, Pauline Haas, Mathilde Huguin, Delphine Tribout
Annotation sémantique des noms dans le projet Demonext : bilan
La première étape du travail a consisté à définir le jeu d’étiquettes pour l’annotation sémantique des noms de la base Demonette. Nous sommes parties d’un jeu d’étiquettes existant, adapté des Unique Beginners de Wordnet (Miller et al. 1990, Fellbaum 1998) et utilisé pour le français dans le cadre d’un projet d’annotation en corpus (Barque et al. 2020).
Ce jeu, constitué de 22 étiquettes simples (Entity, Animal, Person, Artifact, Cognition, State, Attribute, Event, Act, etc.) et de 21 étiquettes complexes (GroupxPerson, Act+Cognition, etc), présente un grain suffisant pour décrire les sens construits par la morphologie et permet de capter l’essentiel des alternances de sens observées au sein du lexique construit (par ex. l’alternance Person / Artifact pour les dérivés en -eur ou encore l’alternance Act / State pour dérivés en -ment).
Une fois stabilisé le jeu d’étiquette, un travail d’appariement avec les bases morphologiques existantes incluant des informations sémantiques (Demonette-1, Dimoc, Denom, Convert et Mordan) a été effectué. Par exemple, les noms typés “AGF” (agent féminin) ou “AGM” (agent masculin) dans Demonette-1, les noms typés “Ah” (humain) et “Ahg” (gentilé) dans Dimoc, “Nc personne” dans Denom, ou encore “animé” dans Convert se sont vus attribuer automatiquement l’étiquette Person. Au total, 28 204 noms issus des ressources disposant d’informations sémantiques se sont vus attribuer, sur la base de cet appariement, une ou plusieurs étiquettes normalisées. Certains noms n’ont reçu aucune étiquette, le type proposé dans le lexique source regroupant des noms sémantiquement trop hétérogènes pour être appariés de manière automatique. Parmi les noms ayant reçu plusieurs étiquettes, on distingue les cas où la forme est effectivement polysémique et apparaît donc avec des types distincts dans les lexiques sources (p.ex. administrariat, typé “activité” et “collectif humain” dans Dimoc), des cas où l’étiquette proposée dans le lexique source est sous-spécifiée, donnant lieu à une polysémie le plus souvent artificielle (p. ex. Comme les types AGM et AGF dans Demonette-1 regroupent les agents et les instruments, les noms typés AGM et AGF reçoivent les deux étiquettes Person et Artefact). 7 437 appariements automatiques ont été validés et / ou corrigés manuellement.
La troisième et dernière étape a consisté à annoter manuellement un ensemble de noms de la base. Une première annotation-test, effectuée en double aveuble sur un échantillon de 145 noms (intersection des 5 bases morphologiques citées ci-dessus), a permis d’identifier les difficultés inhérentes à l’annotation lexicale (notamment la question de savoir quels sens du N décrire) et d’affiner le guide d’annotation (Huguin et al. 2022) : les frontières entre classes sémantiques ont été précisées afin d’éviter des doubles étiquetages qui ne relèveraient pas de polysémies réelles, des tests d’identification des types et des exemples illustratifs permettant les raisonnements par analogie ont été ajoutés pour guider l’annotation. Après cette annotation test, les annotations des 2674 N du corpus FrSemcor figurant dans la base Demonette ont été reprises, révisées et complétées pour décrire extensivement leur polysémie. Enfin, 5000 N du lexique Échantinom (Bonami et Tribout 2021) ont été annotés. En tout, 15 112 (7 437 + 145 + 2 674 + 5 000) N de la base auront donc été annotés manuellement.
Références
Barque, L., Haas, P., Huyghe, R., Tribout, D., Candito, M., Crabbé, B., & Segonne, V. (2020, May). FrSemCor: Annotating a French corpus with supersenses. In LREC-2020.
Bonami, O., & Tribout, D. (2021, September). Échantinom: a hand-annotated morphological lexicon of French nouns. In: F. Namer, N. Hathout, S. Lignon, M. Ševčíková and Z. Žabokrtský (eds), Proceedings of the 3rd International Workshop on Resources and Tools for Derivational Morphology, pp. 42-51.
Dugas, E., Haas, P. & Marín, R. (2021). Héritage sémantique des noms aux verbes : étude des verbes dénominaux en français. Verbum, XLIII-1 : 69-95. [Travail préliminaire présenté lors de la Journée d’Études Sémantique pour les ressources morphologiques dérivationnelles, organisée par Demonext le 8 juillet 2019, Université de Toulouse Jean-Jaurès]
Fellbaum C. (ed.) (1998), WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.
Huguin M., Barque L, Haas P., Namer F. et Tribout D. (2022) Guide d’annotation sémantique des noms construits, Projet ANR Demonext, https://hal.archives-ouvertes.fr/hal-03638962.
Huguin M. (2021). The MoNoPoli database. Or how to catch Macronitis. In: F. Namer, N. Hathout, S. Lignon, M. Ševčíková and Z. Žabokrtský (eds), Proceedings of the Third International Workshop on Resources and Tools for Derivational Morphology (DeriMo 2021), 9-10 septembre 2021, Nancy, 76-85, https://hal.archivesouvertes.fr/hal-03374883.
Huguin M. (2022, à paraître). Analyse morphologique des mots construits sur base de noms de personnalités politiques. In L’Information Grammaticale.
Miller G., Beckwith R., Fellbaum C., Gross D. et Miller K. (1990), « WordNet: An online lexical database », International Journal of Lexicography, 3(4), 235-244.