Transformateurs Pré-entraînés Génératifs - Historique

De Didaquest
Aller à la navigationAller à la recherche


Blue-circle-target.png Etymologie

  • [GPT] : L'acronyme "GPT" signifie "Generative Pre-trained Transformer".

Cette appellation se décompose ainsi :

  • "Generative" : du terme anglais "generate" signifiant "générer", fait référence à la capacité du modèle à produire du texte de manière autonome.
  • "Pre-trained" : traduit de l'anglais, indique que le modèle est pré-entraîné sur de grandes quantités de données textuelles avant d'être utilisé pour des tâches spécifiques.
  • "Transformer" : se réfère à l'architecture de réseau neuronal utilisée dans ces modèles, appelée "transformer", qui a été introduite par le papier fondateur "Attention is All You Need" de Vaswani et al. en 2017.


Blue-circle-target.png Quelques Scientifiques de référence

  • Geoffrey Hinton (né en 1947) : Connu pour ses travaux pionniers dans le domaine des réseaux de neurones profonds, Hinton a contribué de manière significative au développement des modèles de langage pré-entraînés comme les GPT.
  • Yann LeCun (né en 1960) : Un autre pionnier dans le domaine de l'apprentissage profond, LeCun a développé des architectures de réseaux neuronaux convolutionnels (CNN) qui ont influencé les avancées dans le traitement du langage naturel et ont contribué aux fondements des GPT.
  • Juergen Schmidhuber (né en 1963) : Schmidhuber est un chercheur reconnu pour ses contributions à l'apprentissage profond et aux réseaux de neurones récurrents (RNN), des techniques essentielles dans le développement des GPT.
  • Yoshua Bengio (né en 1964) : Pionnier de l'apprentissage profond et de l'apprentissage par renforcement, Bengio a apporté des contributions majeures à la compréhension des architectures de réseaux neuronaux et à leur utilisation dans les modèles de langage.
  • Ilya Sutskever (né en 1984) : Co-auteur de la première architecture de réseau neuronal à encoder-décoder avec mécanisme d'attention, Sutskever a influencé le développement des architectures transformer, dont les GPT sont basés.
  • Radford Neal (né en 1965) : Expert en apprentissage automatique, Neal a contribué à la compréhension des modèles probabilistes et des méthodes d'apprentissage non supervisé, des concepts clés utilisés dans les GPT.
  • Ian Goodfellow (né en 1985) : Connu pour avoir introduit le concept des réseaux génératifs antagonistes (GAN), Goodfellow a ouvert de nouvelles perspectives dans la génération de texte et a influencé le développement des GPT.
  • Alec Radford : (Dates inconnues) Co-auteur de GPT-2 et GPT-3, Radford a contribué à l'avancement des architectures transformer et à leur adaptation à des tâches spécifiques de traitement du langage naturel.
  • Samy Bengio (né en 1965) : Expert en apprentissage automatique, Bengio a contribué à la recherche sur les réseaux de neurones récurrents et les architectures transformer, des technologies clés utilisées dans les GPT.
  • Andrey Karpathy (né en 1986) : Karpathy a contribué à la recherche sur les modèles de langage et à l'utilisation des réseaux neuronaux dans le traitement du langage naturel, des domaines cruciaux pour les avancées dans les GPT.


Blue-circle-target.png Dates et événements importants dans l'histoire des connaissances

  • 2017 : Publication du papier fondateur "Attention is All You Need" par Vaswani et al. qui introduit l'architecture transformer, sur laquelle sont basés les GPT.
  • 2018 : Sortie du modèle GPT-1 par OpenAI, marquant le début de l'ère des modèles de langage pré-entraînés.
  • 2018 : Introduction de GPT-2 par OpenAI, caractérisé par sa grande taille et sa capacité à générer du texte de qualité humaine.
  • 2019 : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres.
  • 2019 : Publication de l'article "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" par Devlin et al., qui propose une méthode de pré-entraînement de modèle de langage concurrente à celle de GPT.
  • 2019 : Annonce de la version 2.0 de GPT-2 par OpenAI, qui libère les versions plus grandes du modèle.
  • 2019 : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres.
  • 2019 : Publication de "The Illustrated Transformer" par Jay Alammar, une explication visuelle détaillée de l'architecture transformateur.
  • 2019 : Introduction de GPT-2.7B, une version plus grande et plus performante de GPT-2.
  • 2020 : Sortie de GPT-3 par OpenAI, un modèle massif avec 175 milliards de paramètres, représentant une avancée majeure dans les modèles de langage pré-entraînés.
  • 2020 : Publication de "Attention is All You Need" traduit en français par Alexis Gallagher, permettant une diffusion plus large de l'architecture transformer.
  • 2020 : Annonce de GPT-3.5 par OpenAI, une mise à jour de GPT-3 avec de meilleures performances et des capacités améliorées.
  • 2020 : Introduction de la version 6.7B de GPT-2, offrant des améliorations significatives par rapport aux versions précédentes.
  • 2020 : Publication de "BERTology Meets Biology: Interpreting Attention in Protein Sequences" par Trey Ideker et al., montrant l'applicabilité des modèles transformer à la biologie.
  • 2021 : Annonce de la sortie de GPT-4 par OpenAI, représentant une nouvelle itération des modèles de langage pré-entraînés.
  • 2021 : Publication de "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" par Dosovitskiy et al., étendant l'utilisation des architectures transformer à la vision par ordinateur.
  • 2021 : Sortie de "T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" par Raffel et al., une approche de modèle transformer qui peut être appliquée à une variété de tâches de traitement du langage naturel.
  • 2021 : Introduction de la version 13B de GPT-3, avec des performances améliorées et une meilleure généralisation.
  • 2021 : Publication de "Scaling Laws for Neural Language Models" par Kaplan et al., qui analyse les tendances de l'évolution des modèles de langage, y compris les GPT.
  • 2022 : Annonce de la sortie de GPT-5 par OpenAI, marquant une nouvelle itération des modèles de langage pré-entraînés.