Etymologie

[GPT] : L'acronyme "GPT" signifie "Generative Pre-trained Transformer".

Cette appellation se décompose ainsi :

"Generative" : du terme anglais "generate" signifiant "générer", fait référence à la capacité du modèle à produire du texte de manière autonome.
"Pre-trained" : traduit de l'anglais, indique que le modèle est pré-entraîné sur de grandes quantités de données textuelles avant d'être utilisé pour des tâches spécifiques.
"Transformer" : se réfère à l'architecture de réseau neuronal utilisée dans ces modèles, appelée "transformer", qui a été introduite par le papier fondateur "Attention is All You Need" de Vaswani et al. en 2017.

Quelques Scientifiques de référence

Geoffrey Hinton (né en 1947) : Connu pour ses travaux pionniers dans le domaine des réseaux de neurones profonds, Hinton a contribué de manière significative au développement des modèles de langage pré-entraînés comme les GPT.

Yann LeCun (né en 1960) : Un autre pionnier dans le domaine de l'apprentissage profond, LeCun a développé des architectures de réseaux neuronaux convolutionnels (CNN) qui ont influencé les avancées dans le traitement du langage naturel et ont contribué aux fondements des GPT.

Juergen Schmidhuber (né en 1963) : Schmidhuber est un chercheur reconnu pour ses contributions à l'apprentissage profond et aux réseaux de neurones récurrents (RNN), des techniques essentielles dans le développement des GPT.

Yoshua Bengio (né en 1964) : Pionnier de l'apprentissage profond et de l'apprentissage par renforcement, Bengio a apporté des contributions majeures à la compréhension des architectures de réseaux neuronaux et à leur utilisation dans les modèles de langage.

Ilya Sutskever (né en 1984) : Co-auteur de la première architecture de réseau neuronal à encoder-décoder avec mécanisme d'attention, Sutskever a influencé le développement des architectures transformer, dont les GPT sont basés.

Radford Neal (né en 1965) : Expert en apprentissage automatique, Neal a contribué à la compréhension des modèles probabilistes et des méthodes d'apprentissage non supervisé, des concepts clés utilisés dans les GPT.

Ian Goodfellow (né en 1985) : Connu pour avoir introduit le concept des réseaux génératifs antagonistes (GAN), Goodfellow a ouvert de nouvelles perspectives dans la génération de texte et a influencé le développement des GPT.

Alec Radford : (Dates inconnues) Co-auteur de GPT-2 et GPT-3, Radford a contribué à l'avancement des architectures transformer et à leur adaptation à des tâches spécifiques de traitement du langage naturel.

Samy Bengio (né en 1965) : Expert en apprentissage automatique, Bengio a contribué à la recherche sur les réseaux de neurones récurrents et les architectures transformer, des technologies clés utilisées dans les GPT.

Andrey Karpathy (né en 1986) : Karpathy a contribué à la recherche sur les modèles de langage et à l'utilisation des réseaux neuronaux dans le traitement du langage naturel, des domaines cruciaux pour les avancées dans les GPT.

Dates et événements importants dans l'histoire des connaissances

2017 : Publication du papier fondateur "Attention is All You Need" par Vaswani et al. qui introduit l'architecture transformer, sur laquelle sont basés les GPT.
2018 : Sortie du modèle GPT-1 par OpenAI, marquant le début de l'ère des modèles de langage pré-entraînés.
2018 : Introduction de GPT-2 par OpenAI, caractérisé par sa grande taille et sa capacité à générer du texte de qualité humaine.
2019 : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres.
2019 : Publication de l'article "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" par Devlin et al., qui propose une méthode de pré-entraînement de modèle de langage concurrente à celle de GPT.
2019 : Annonce de la version 2.0 de GPT-2 par OpenAI, qui libère les versions plus grandes du modèle.
2019 : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres.
2019 : Publication de "The Illustrated Transformer" par Jay Alammar, une explication visuelle détaillée de l'architecture transformateur.
2019 : Introduction de GPT-2.7B, une version plus grande et plus performante de GPT-2.
2020 : Sortie de GPT-3 par OpenAI, un modèle massif avec 175 milliards de paramètres, représentant une avancée majeure dans les modèles de langage pré-entraînés.
2020 : Publication de "Attention is All You Need" traduit en français par Alexis Gallagher, permettant une diffusion plus large de l'architecture transformer.
2020 : Annonce de GPT-3.5 par OpenAI, une mise à jour de GPT-3 avec de meilleures performances et des capacités améliorées.
2020 : Introduction de la version 6.7B de GPT-2, offrant des améliorations significatives par rapport aux versions précédentes.
2020 : Publication de "BERTology Meets Biology: Interpreting Attention in Protein Sequences" par Trey Ideker et al., montrant l'applicabilité des modèles transformer à la biologie.
2021 : Annonce de la sortie de GPT-4 par OpenAI, représentant une nouvelle itération des modèles de langage pré-entraînés.
2021 : Publication de "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" par Dosovitskiy et al., étendant l'utilisation des architectures transformer à la vision par ordinateur.
2021 : Sortie de "T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" par Raffel et al., une approche de modèle transformer qui peut être appliquée à une variété de tâches de traitement du langage naturel.
2021 : Introduction de la version 13B de GPT-3, avec des performances améliorées et une meilleure généralisation.
2021 : Publication de "Scaling Laws for Neural Language Models" par Kaplan et al., qui analyse les tendances de l'évolution des modèles de langage, y compris les GPT.
2022 : Annonce de la sortie de GPT-5 par OpenAI, marquant une nouvelle itération des modèles de langage pré-entraînés.

Transformateurs Pré-entraînés Génératifs - Historique

Etymologie

Quelques Scientifiques de référence

Dates et événements importants dans l'histoire des connaissances

Menu de navigation

Actions des pages

Actions des pages

Outils personnels

Navigation

Rechercher

Outils

Imprimer / exporter