WordNet

De Didaquest
Aller à la navigationAller à la recherche

WordNet c'est Quoi ?

  • Un dictionnaire informatisé dont l’unité de base est le concept (non le mot)
WordNet est une base de données lexicale pour la langue anglaise basée sur la recherche conceptuelle.
  • WordNet peut être vu comme une combinaison de dictionnaire et de thésaurus. Une utilisation courante de WordNet est de déterminer la similitude entre les mots. C'est un réseau de mots liés par des relations lexicales et sémantiques. Les noms, les verbes, les adjectifs et les adverbes sont regroupés en ensembles de synonymes cognitifs (synsets), chacun exprimant un concept distinct.
  • Les synsets sont interconnectés au moyen de relations conceptuelles-sémantiques et lexicales. Le réseau résultant de mots et de concepts significativement liés peut être parcouru avec le navigateur en ligne wordnetweb.

À quoi sert WordNet ?

La structure de WordNet en fait un outil utile pour de nombreuses tâches en linguistique informatique et traitement du langage naturel:

  • En tant que ressource lexicale, un dictionnaire en ligne.
  • Désambiguïsation du sens du mot.
  • Récupération de l'information.
  • Classification automatique des textes / documents.
  • Traduction automatique.
  • Génération automatique de mots croisés.
  • Améliorez les résultats des moteurs de recherche.
  • Récupération de documents

Quelle est la distinction entre WordNet et un thésaurus ?

Structure arborescence
  • WordNet ne relie pas seulement des formes de mots - des chaînes de lettres - mais des sens spécifiques des mots. En conséquence, les mots qui se trouvent à proximité les uns des autres dans le réseau sont sémantiquement ambigus.
  • WordNet étiquette les relations sémantiques entre les mots, tandis que les regroupements de mots dans un thésaurus ne suivent aucun modèle explicite autre que la similitude de sens.
  • La conception de WordNet ressemble à celle d'un thésaurus en ce que son bloc de construction est un synset composé de tous les mots qui expriment un concept donné. Ainsi, l'utilisateur de WordNet qui a un concept donné à l'esprit peut trouver, en appelant l'un des mots exprimant cela concept, d'autres mots qui lexicalisent le même concept.
  • WordNet fait bien plus que les concepts de liste sous forme de synsets. Les synsets sont liés au moyen d'un certain nombre de relations, y compris l'hyponymie, la méronymie et l'implication.
  • Contrairement à un thésaurus, les relations entre les concepts et les mots dans WordNet sont rendues explicites et étiquetées.

Organisation des résultats

  • Les concepts sont organisés en 5 catégories : noms, verbes, adjectifs, adverbes, mots, grammaticaux (les mots gr. ne sont pas inclus dans le système)
  • Répertorie mots, collocations et idiomes

Wordnet distingue les noms, les verbes, les adjectifs et les adverbes en quatre grandes catégories syntaxiques:

WordNet contient des unités de base

  • Composés
  • Verbes à phrase
  • Collocations
  • Phrases idiomatiques

WordNet en tant que dictionnaire

  • Donner des définitions
  • Exemples de phrases
  • Contient des ensembles de synonymes

WordNet comme thésaurus

  • Niveau conceptuel: relations conceptuelles sémantiques
  • Niveau lexical: relation lexicale

Sens lexical

Wordnet utilise deux moyens pour définir le sens d’un mot :

  • Les synsets
  • Les relations lexical

Synsets

Le sens d’un mot est représenté par (i) l’ensemble des mots utilisés pour exprimer ce sens i.e., par un ensemble de synonymes (les synsets) et (ii) une définition.

  • Exemple : Pour la recherche du mot color (couleur)

S: (n) color, colour, coloring, colouring (a visual attribute of things that results from the light they emit or transmit or reflect) "a white color is made up of many different wavelengths of light"

En cliquant sur S:

S: (n) color, colour, coloring, colouring (a visual attribute of things that results from the light they emit or transmit or reflect) "a white color is made up of many different wavelengths of light"

  • direct hyponym / full hyponym
  • attribute
  • direct hypernym / inherited hypernym / sister term
  • antonym
  • derivationally related form

Quelles sont les relations lexicales majeures ?

Wordnet-strucure.jpg

Relations lexicales: Le sens d’un mot est aussi déterminé par ses relations sémantiques avec d’autres sens (ex: chien/caniche,doberman etc.)

Wordnet est structuré par des relations entre synsets et entre mots;
Les principales relations lexicales utilisées sont les suivantes:
  • Synonymie - (Deux mots sont synonymes s’ils sont interchangeables dans certains contextes linguistiques) Les synonymes sont des mots qui ont des significations similaires. Différentes façons d'exprimer des concepts connexes. Utilisé dans différents contextes, il a des implications différentes. Un ensemble de synonymes ou synset est un groupe de synonymes. par exemple: chat, félin, chat siamois.
  • Polysémie - La plupart des mots ont plus d'un sens. Homonyme même son et orthographe avec une signification différente, comme, banque (rivière) contre banque (financière). Polysémie différents sens du même mot.
  • Métonymie - Utilisez un aspect de quelque chose pour représenter l'ensemble. La plupart des noms collectifs relèvent de cela.
  • Hyponymie / Hypernymie - relation ISA. Lié aux catégories de niveau super ordonné et subordonné. Les hypernymes sont les synsets qui sont plus généraux, les hyponymes sont les synsets qui sont plus spécifiques. par exemple: hyponyme (émeu, brid), hyponyme (oiseau, animal), hypernyme (animal, oiseau). relation lexicale entre sens; X est un hyponyme de Y si Un X est une sorte de Y est vrai; relation transitive et asymmétrique qui génère une hierarchie d’héritage; centrale pour l’organisation des noms
  • Méronymie / Holonymie - Relation partie / ensemble. Les holonymes sont l'inverse des méronymes. Les holonymes sont des éléments dans lesquels l'élément est contenu. Les méronymes sont des composants ou des substances qui composent l'élément. par exemple: meronym (écorce, arbre), holonym (arbre, écorce). Méronymie : relation lexicale entre sens; X est un méronyme de Y si Un Y a une X (comme partie) ou Un X est une partie de Y est vrai; relation transitive et asymmétrique qui génère une hierarchie d’héritage;
  • Antonymy (Antonymie) - contraires lexicaux. par exemple: antonyme (grand, petit). Très importantes pour les adjectifs et les adverbes

Bref historique et version

1928

Le Oxford English Dictionary (OED) de Murray est compilé "selon des principes historiques". En se concentrant sur des preuves historiques, l'OED, comme d'autres dictionnaires standard, néglige les questions concernant l'organisation synchronique des connaissances lexicales.

1976

Les linguistes et les psycholinguistes ont exploré en profondeur les facteurs qui déterminent la structure contemporaine (synchronique) des connaissances linguistiques en général, et des connaissances lexicales en particulier - Miller et Johnson-Laird ont proposé que la recherche portant sur la composante lexicale du langage soit appelée psycholexicologie.

Un groupe de psychologues et de linguistes de l'Université de Princeton a entrepris de développer une base de données lexicales dans le sens suggéré par ces investigations (Miller) .L'idée initiale était de fournir une aide à utiliser pour rechercher des dictionnaires de manière conceptuelle, plutôt que simplement alphabétique. On peut dire que WordNet est un dictionnaire basé sur des principes psycholinguistiques.

Juin 1991

WordNet version 1.0 est sorti en juin 1991. Randee Tengi a supervisé une série de versions jusqu'à la v1.5 en mars 1995.

  • Dans la Version 1.2 (1992) : 102 000 mots et 52 000 synsets; 100 utilisateur
  • Dans la Version 1.5 (1997) : 168 000 mots et 91 600 synsets; 1000 utilisateurs; site
  • Dans la Version 1.6 : 94.000 formes nominales, 10.000 formes verbales, 20.000 formes adjectivales et 4.500 formes adverbiales

1998

L'Euro WordNet a été construit sur 3 ans - structure liée à WordNet en langue européenne.

Mars 2005

La version Windows la plus récente de WordNet est 2.1, sortie en mars 2005, avec deux versions disponibles de la conversion: Basic et Full.

Décembre 2006

Version 3.0 pour Unix / Linux / Solaris / etc. a été publiée en décembre 2006. La version 3.1 n'est actuellement disponible qu'en ligne. Certaines modifications ont été apportées à l'interface graphique et à la bibliothèque WordNet en ce qui concerne les recherches d'adjectifs et d'adverbes. La recherche de l'adjectif "Synonymes / Noms associés" a été renommée "Synonymes" et de la même manière, la recherche adverbe "Synonymes / Adjectifs de tige" a été renommée "Synonymes". Une recherche distincte de "noms associés" a été insérée pour les adjectifs, et une recherche distincte "d'adjectif de base" a été ajoutée pour les adverbes.

Dernière version

La dernière base de données en ligne de WordNet version 3.1 contient 1 555 327 mots organisés en 1 75 979 synsets pour un total de 2 077 016 paires de mots; sous forme compressée, il fait environ 12 mégaoctets.

Quelles sont les limites de WordNet?

  • WordNet ne comprend pas d'informations sur l' étymologie (c'est l'étude de l'histoire des mots, leur origine et comment leur forme et leur signification ont changé au fil du temps)
  • Par d'information sur la prononciation des mots
  • Il ne contient que des informations limitées sur l'utilisation.
  • WordNet vise à couvrir la plupart de l'anglais courant et n'inclut pas beaucoup de terminologie spécifique au domaine.
  • The tennis problem : il est impossible d’identifier dans WN un vocabulaire spécifique e.g., le vocabulaire du tennis.
  • WN ne contient aucun savoir syntagmatique i.e., aucune information sur les contextes dans lesquels les mots apparaissent
  • WN ne dit rien sur les exceptions Exemple : les pingouins sont des oiseaux mais ne volent
  • La relation d’hyponymie implémentée dans WN correspond en fait à plusieurs relations sémantiques distinctes e.g., IS A KIND OF (reln formelle/taxonomique) et IS USED AS A KIND OF (relation télique/fonctionnelle)
Exemples : a thrush IS A KIND OF bird; an adornment IS USED AS A KIND OF decoration
  • WN n’utilise pas un nombre suffisamment grand de relations sémantiques pour réellement définir le sens des mots; chaque synset est donc pourvu d’une glose décrivant son sens

Qui utilise WordNet ?

  • Scientifique en linguistique
  • Psychologue
  • Scientifique en intelligence artificielle
  • Scientifique en traitement du langage naturel
  • Didacticien

De Façon plus générale, WordNet est principalement utilisé dans les applications d'analyse automatique de texte et d'intelligence artificielle.

Exemple d'utilisation

  • Utilisation simple: https://ilot.hypotheses.org/tag/ontologie
  • Utilisation plus approffondie : WordNet fait partie du corpus NLTK. Le Natural Language Toolkit (NLTK) est une bibliothèque Python open source pour le traitement du langage naturel. Vous pouvez utiliser WordNet avec le module NLTK pour trouver la signification des mots, des synonymes, des antonymes, etc.

Liens aux interfaces WorNet

WordNets sous licence - La communauté mondiale WordNet a lentement renouvelé la licence de ses WordNets à un domaine ouvert où les chercheurs et les développeurs peuvent facilement accéder et utiliser WordNets comme ressources linguistiques pour fournir des connaissances ontologiques et lexicales dans les tâches de traitement du langage naturel. (La version Europe et encore à l'heure actuelle en licence privée)


Ressources