Transformateurs Pré-entraînés Génératifs - Glossaire

De Didaquest
Aller à la navigationAller à la recherche


Blue-circle-target.png Concept principal

Transformer Pré-entraîné Génératif

Le Transformer pré-entraîné génératif est un modèle d'apprentissage automatique faisant partie de la famille des réseaux de neurones artificiels. Il s'agit d'une architecture basée sur le Transformer, qui est une architecture de réseau de neurones révolutionnaire introduite par Vaswani et al. en 2017. Le Transformer a été initialement conçu pour le traitement du langage naturel, mais son architecture flexible et parallèle lui permet d'être adapté à diverses tâches dans le domaine de l'apprentissage automatique. Le modèle pré-entraîné génératif combine les avantages du pré-entraînement et de la génération de texte. Il est généralement pré-entraîné sur de grandes quantités de données non étiquetées, puis finement réglé pour des tâches spécifiques telles que la traduction automatique, la génération de texte, ou d'autres tâches de traitement du langage naturel.


Blue-circle-target.png Concepts fondamentaux

Réseaux de neurones artificiels

Les réseaux de neurones artificiels sont des modèles informatiques inspirés du fonctionnement du cerveau humain. Ils sont composés de couches de neurones interconnectés, chacun effectuant des opérations mathématiques sur les entrées qu'il reçoit et transmettant le résultat à la couche suivante. Les réseaux de neurones sont capables d'apprendre à partir de données en ajustant les poids des connexions entre les neurones lors du processus d'entraînement.

Intelligence artificielle

L'intelligence artificielle (IA) est un domaine de l'informatique qui vise à créer des systèmes informatiques capables d'effectuer des tâches qui nécessitent généralement l'intelligence humaine. Ces tâches peuvent inclure la perception, le raisonnement, l'apprentissage, la compréhension du langage naturel, entre autres. L'IA comprend un large éventail de techniques et d'approches, y compris les réseaux de neurones, l'apprentissage automatique, le traitement du langage naturel, la vision par ordinateur, et bien d'autres. L'objectif de l'IA est de développer des systèmes capables de prendre des décisions autonomes et de résoudre des problèmes de manière similaire à celle des humains, voire de façon plus efficace.

Apprentissage automatique

L'apprentissage automatique est une branche de l'intelligence artificielle qui concerne le développement de techniques permettant aux ordinateurs d'apprendre à partir de données. Plutôt que d'être explicitement programmés pour effectuer une tâche spécifique, les algorithmes d'apprentissage automatique sont conçus pour apprendre à partir de l'expérience et à améliorer leurs performances au fil du temps.

Réseaux de neurones récurrents

Les réseaux de neurones récurrents (RNN) sont une architecture de réseau de neurones qui introduit des connexions récurrentes, permettant aux informations de circuler dans le réseau dans un sens cyclique. Cette rétroaction récurrente permet aux RNN de modéliser des séquences de données, ce qui les rend particulièrement adaptés pour le traitement du langage naturel, la traduction automatique, la génération de texte, entre autres tâches.

Apprentissage par transfert

L'apprentissage par transfert est une technique d'apprentissage automatique où un modèle pré-entraîné sur une tâche source est réutilisé ou ajusté pour une tâche cible similaire. Cette approche permet de tirer parti des connaissances acquises lors de l'apprentissage sur la tâche source pour améliorer les performances sur la tâche cible, même lorsque les ensembles de données sont différents.

Traitement du langage naturel

Le traitement du langage naturel (NLP) est un domaine de l'intelligence artificielle qui concerne l'interaction entre les ordinateurs et le langage humain. Il englobe un large éventail de tâches telles que la compréhension du langage naturel, la génération de texte, la traduction automatique, l'analyse des sentiments, entre autres.

Architecture de réseau de neurones

L'architecture d'un réseau de neurones fait référence à sa structure organisationnelle, y compris le nombre de couches, le nombre de neurones dans chaque couche, les types de connexions entre les neurones, et les fonctions d'activation utilisées. Le choix de l'architecture peut avoir un impact significatif sur les performances et la capacité d'adaptation du réseau de neurones à une tâche donnée.

Modèles pré-entraînés

Les modèles pré-entraînés sont des modèles d'apprentissage automatique qui ont été pré-entraînés sur de grandes quantités de données non étiquetées. Ces modèles sont souvent utilisés comme point de départ pour des tâches spécifiques, où ils sont fine-tunés sur des données étiquetées pour améliorer leurs performances.

Apprentissage profond

L'apprentissage profond est une branche de l'apprentissage automatique qui concerne les réseaux de neurones artificiels à plusieurs couches. Les réseaux de neurones profonds sont capables d'apprendre des représentations hiérarchiques des données, ce qui leur permet de capturer des caractéristiques complexes et abstraites à partir de données brutes.

Génération de texte

La génération de texte est une tâche d'apprentissage automatique qui implique la création de texte à partir de modèles de langage. Cela peut inclure la génération de texte à partir de zéro ou la continuation de textes existants.

Pré-entraînement et fine-tuning

Le pré-entraînement fait référence à l'étape où un modèle est entraîné sur une grande quantité de données non étiquetées pour apprendre des représentations générales des données. Le fine-tuning, ou réglage fin, consiste à ajuster les paramètres du modèle pré-entraîné sur des données étiquetées spécifiques à une tâche pour améliorer ses performances sur cette tâche.


ChatBot AI

Les ChatBots AI, abréviation de "Chat Robots" utilisant l'Intelligence Artificielle, sont des programmes informatiques conçus pour simuler une conversation humaine, souvent en langage naturel, via des interfaces textuelles ou vocales. Ils sont alimentés par des modèles d'IA, tels que des réseaux de neurones, qui leur permettent de comprendre les questions posées par les utilisateurs et de fournir des réponses appropriées. Les ChatBots AI peuvent être utilisés dans une variété de domaines, y compris le service client, le support technique, la vente au détail, l'éducation, et bien d'autres encore. Ils sont souvent intégrés dans les sites web, les applications mobiles, les plateformes de médias sociaux, et les systèmes de messagerie instantanée pour fournir une assistance automatique et améliorer l'expérience utilisateur.


Blue-circle-target.png Concepts complémentaires

Techniques d'attention

Les techniques d'attention sont utilisées dans les réseaux de neurones pour donner plus de poids à certaines parties de l'entrée lors de la prise de décision. Cela permet aux modèles de se concentrer sur les parties les plus importantes des données d'entrée, ce qui peut améliorer les performances sur certaines tâches, notamment la traduction automatique et la génération de texte.

Techniques de régularisation

Les techniques de régularisation sont utilisées pour prévenir le surapprentissage dans les modèles d'apprentissage automatique en limitant la complexité du modèle ou en réduisant le nombre de paramètres. Cela peut inclure l'utilisation de la pénalisation L1 ou L2, l'abandon aléatoire, ou d'autres méthodes visant à limiter la capacité du modèle à mémoriser les données d'entraînement.

Réseaux adverses génératifs

Les réseaux adverses génératifs (GAN) sont une architecture de réseau de neurones composée de

deux réseaux, un générateur et un discriminateur, qui s'affrontent dans un jeu adversarial. Le générateur tente de créer des données réalistes, tandis que le discriminateur tente de distinguer les données générées des données réelles. Cette approche est utilisée pour générer des données réalistes dans divers domaines, y compris la génération de texte.

Méthodes d'évaluation des modèles de langage

Les méthodes d'évaluation des modèles de langage sont utilisées pour mesurer la qualité des prédictions faites par un modèle de langage. Cela peut inclure des métriques telles que la perplexité, qui mesure à quel point un modèle est surpris par de nouvelles données, ou des évaluations humaines pour évaluer la qualité perçue du texte généré.

Techniques de génération de texte conditionnelle

Les techniques de génération de texte conditionnelle sont utilisées pour générer du texte en tenant compte d'une condition spécifique. Cela peut inclure la génération de texte en réponse à une question ou à un contexte donné, ou la génération de texte dans un style ou un ton spécifique.

Adaptation de modèles de langage à des domaines spécifiques

L'adaptation de modèles de langage à des domaines spécifiques consiste à ajuster un modèle de langage pré-entraîné pour qu'il soit plus performant dans un domaine ou un domaine d'application particulier. Cela peut nécessiter le fine-tuning du modèle sur des données spécifiques au domaine ou l'ajout de couches spécialisées pour capturer les caractéristiques pertinentes du domaine.

Techniques de génération de texte à partir d'images

Les techniques de génération de texte à partir d'images sont utilisées pour générer des descriptions textuelles à partir d'images. Cela peut inclure la génération de légendes automatiques pour des images ou la génération de texte à partir de la reconnaissance d'objets ou de scènes dans des images.

Analyse de sensibilité des modèles de langage

L'analyse de sensibilité des modèles de langage est utilisée pour évaluer la façon dont les prédictions d'un modèle de langage changent en réponse à des variations dans les données d'entrée ou les paramètres du modèle. Cela peut aider à identifier les domaines où le modèle est le plus performant ou les facteurs qui influent le plus sur ses prédictions.

Adaptation de domaine

L'adaptation de domaine est le processus d'ajustement d'un modèle pré-entraîné pour qu'il soit plus performant dans un domaine ou une distribution de données différente de celle sur laquelle il a été initialement formé. Cela peut être nécessaire lorsque les données d'entraînement et de test proviennent de distributions différentes, ce qui peut entraîner une baisse de performance du modèle.