Différences entre versions de « Transformateurs Pré-entraînés Génératifs - Historique »
De Didaquest
Aller à la navigationAller à la rechercheLigne 27 : | Ligne 27 : | ||
*'''[[Andrey Karpathy]]''' (né en 1986) : Karpathy a contribué à la recherche sur les modèles de langage et à l'utilisation des réseaux neuronaux dans le traitement du langage naturel, des domaines cruciaux pour les avancées dans les GPT. | *'''[[Andrey Karpathy]]''' (né en 1986) : Karpathy a contribué à la recherche sur les modèles de langage et à l'utilisation des réseaux neuronaux dans le traitement du langage naturel, des domaines cruciaux pour les avancées dans les GPT. | ||
+ | |||
+ | = {{@}} Dates et événements importants dans l'histoire des connaissances = | ||
+ | *'''[[2017]]''' : Publication du papier fondateur "Attention is All You Need" par [[Vaswani et al.]] qui introduit l'architecture transformer, sur laquelle sont basés les GPT. | ||
+ | *'''[[2018]]''' : Sortie du modèle GPT-1 par OpenAI, marquant le début de l'ère des modèles de langage pré-entraînés. | ||
+ | *'''[[2018]]''' : Introduction de GPT-2 par OpenAI, caractérisé par sa grande taille et sa capacité à générer du texte de qualité humaine. | ||
+ | *'''[[2019]]''' : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres. | ||
+ | *'''[[2019]]''' : Publication de l'article "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" par [[Devlin et al.]], qui propose une méthode de pré-entraînement de modèle de langage concurrente à celle de GPT. | ||
+ | *'''[[2019]]''' : Annonce de la version 2.0 de GPT-2 par OpenAI, qui libère les versions plus grandes du modèle. | ||
+ | *'''[[2019]]''' : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres. | ||
+ | *'''[[2019]]''' : Publication de "The Illustrated Transformer" par [[Jay Alammar]], une explication visuelle détaillée de l'architecture transformateur. | ||
+ | *'''[[2019]]''' : Introduction de GPT-2.7B, une version plus grande et plus performante de GPT-2. | ||
+ | *'''[[2020]]''' : Sortie de GPT-3 par OpenAI, un modèle massif avec 175 milliards de paramètres, représentant une avancée majeure dans les modèles de langage pré-entraînés. | ||
+ | *'''[[2020]]''' : Publication de "Attention is All You Need" traduit en français par [[Alexis Gallagher]], permettant une diffusion plus large de l'architecture transformer. | ||
+ | *'''[[2020]]''' : Annonce de GPT-3.5 par OpenAI, une mise à jour de GPT-3 avec de meilleures performances et des capacités améliorées. | ||
+ | *'''[[2020]]''' : Introduction de la version 6.7B de GPT-2, offrant des améliorations significatives par rapport aux versions précédentes. | ||
+ | *'''[[2020]]''' : Publication de "BERTology Meets Biology: Interpreting Attention in Protein Sequences" par [[Trey Ideker]] et al., montrant l'applicabilité des modèles transformer à la biologie. | ||
+ | *'''[[2021]]''' : Annonce de la sortie de GPT-4 par OpenAI, représentant une nouvelle itération des modèles de langage pré-entraînés. | ||
+ | *'''[[2021]]''' : Publication de "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" par [[Dosovitskiy et al.]], étendant l'utilisation des architectures transformer à la vision par ordinateur. | ||
+ | *'''[[2021]]''' : Sortie de "T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" par [[Raffel et al.]], une approche de modèle transformer qui peut être appliquée à une variété de tâches de traitement du langage naturel. | ||
+ | *'''[[2021]]''' : Introduction de la version 13B de GPT-3, avec des performances améliorées et une meilleure généralisation. | ||
+ | *'''[[2021]]''' : Publication de "Scaling Laws for Neural Language Models" par [[Kaplan et al.]], qui analyse les tendances de l'évolution des modèles de langage, y compris les GPT. | ||
+ | *'''[[2022]]''' : Annonce de la sortie de GPT-5 par OpenAI, marquant une nouvelle itération des modèles de langage pré-entraînés. | ||
+ | |||
+ | [[Category: ChatBot AI]] | ||
+ | [[Category: Intelligence artificielle]] | ||
+ | [[Category: TICE]] | ||
+ | [[Category: EIAH]] | ||
+ | [[Category: Historique]] |
Version actuelle datée du 23 février 2024 à 08:30
Etymologie
- [GPT] : L'acronyme "GPT" signifie "Generative Pre-trained Transformer".
Cette appellation se décompose ainsi :
- "Generative" : du terme anglais "generate" signifiant "générer", fait référence à la capacité du modèle à produire du texte de manière autonome.
- "Pre-trained" : traduit de l'anglais, indique que le modèle est pré-entraîné sur de grandes quantités de données textuelles avant d'être utilisé pour des tâches spécifiques.
- "Transformer" : se réfère à l'architecture de réseau neuronal utilisée dans ces modèles, appelée "transformer", qui a été introduite par le papier fondateur "Attention is All You Need" de Vaswani et al. en 2017.
Quelques Scientifiques de référence
- Geoffrey Hinton (né en 1947) : Connu pour ses travaux pionniers dans le domaine des réseaux de neurones profonds, Hinton a contribué de manière significative au développement des modèles de langage pré-entraînés comme les GPT.
- Yann LeCun (né en 1960) : Un autre pionnier dans le domaine de l'apprentissage profond, LeCun a développé des architectures de réseaux neuronaux convolutionnels (CNN) qui ont influencé les avancées dans le traitement du langage naturel et ont contribué aux fondements des GPT.
- Juergen Schmidhuber (né en 1963) : Schmidhuber est un chercheur reconnu pour ses contributions à l'apprentissage profond et aux réseaux de neurones récurrents (RNN), des techniques essentielles dans le développement des GPT.
- Yoshua Bengio (né en 1964) : Pionnier de l'apprentissage profond et de l'apprentissage par renforcement, Bengio a apporté des contributions majeures à la compréhension des architectures de réseaux neuronaux et à leur utilisation dans les modèles de langage.
- Ilya Sutskever (né en 1984) : Co-auteur de la première architecture de réseau neuronal à encoder-décoder avec mécanisme d'attention, Sutskever a influencé le développement des architectures transformer, dont les GPT sont basés.
- Radford Neal (né en 1965) : Expert en apprentissage automatique, Neal a contribué à la compréhension des modèles probabilistes et des méthodes d'apprentissage non supervisé, des concepts clés utilisés dans les GPT.
- Ian Goodfellow (né en 1985) : Connu pour avoir introduit le concept des réseaux génératifs antagonistes (GAN), Goodfellow a ouvert de nouvelles perspectives dans la génération de texte et a influencé le développement des GPT.
- Alec Radford : (Dates inconnues) Co-auteur de GPT-2 et GPT-3, Radford a contribué à l'avancement des architectures transformer et à leur adaptation à des tâches spécifiques de traitement du langage naturel.
- Samy Bengio (né en 1965) : Expert en apprentissage automatique, Bengio a contribué à la recherche sur les réseaux de neurones récurrents et les architectures transformer, des technologies clés utilisées dans les GPT.
- Andrey Karpathy (né en 1986) : Karpathy a contribué à la recherche sur les modèles de langage et à l'utilisation des réseaux neuronaux dans le traitement du langage naturel, des domaines cruciaux pour les avancées dans les GPT.
Dates et événements importants dans l'histoire des connaissances
- 2017 : Publication du papier fondateur "Attention is All You Need" par Vaswani et al. qui introduit l'architecture transformer, sur laquelle sont basés les GPT.
- 2018 : Sortie du modèle GPT-1 par OpenAI, marquant le début de l'ère des modèles de langage pré-entraînés.
- 2018 : Introduction de GPT-2 par OpenAI, caractérisé par sa grande taille et sa capacité à générer du texte de qualité humaine.
- 2019 : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres.
- 2019 : Publication de l'article "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" par Devlin et al., qui propose une méthode de pré-entraînement de modèle de langage concurrente à celle de GPT.
- 2019 : Annonce de la version 2.0 de GPT-2 par OpenAI, qui libère les versions plus grandes du modèle.
- 2019 : Sortie de GPT-2.5B, une version de GPT-2 intermédiaire, avec 1,5 milliard de paramètres.
- 2019 : Publication de "The Illustrated Transformer" par Jay Alammar, une explication visuelle détaillée de l'architecture transformateur.
- 2019 : Introduction de GPT-2.7B, une version plus grande et plus performante de GPT-2.
- 2020 : Sortie de GPT-3 par OpenAI, un modèle massif avec 175 milliards de paramètres, représentant une avancée majeure dans les modèles de langage pré-entraînés.
- 2020 : Publication de "Attention is All You Need" traduit en français par Alexis Gallagher, permettant une diffusion plus large de l'architecture transformer.
- 2020 : Annonce de GPT-3.5 par OpenAI, une mise à jour de GPT-3 avec de meilleures performances et des capacités améliorées.
- 2020 : Introduction de la version 6.7B de GPT-2, offrant des améliorations significatives par rapport aux versions précédentes.
- 2020 : Publication de "BERTology Meets Biology: Interpreting Attention in Protein Sequences" par Trey Ideker et al., montrant l'applicabilité des modèles transformer à la biologie.
- 2021 : Annonce de la sortie de GPT-4 par OpenAI, représentant une nouvelle itération des modèles de langage pré-entraînés.
- 2021 : Publication de "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" par Dosovitskiy et al., étendant l'utilisation des architectures transformer à la vision par ordinateur.
- 2021 : Sortie de "T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" par Raffel et al., une approche de modèle transformer qui peut être appliquée à une variété de tâches de traitement du langage naturel.
- 2021 : Introduction de la version 13B de GPT-3, avec des performances améliorées et une meilleure généralisation.
- 2021 : Publication de "Scaling Laws for Neural Language Models" par Kaplan et al., qui analyse les tendances de l'évolution des modèles de langage, y compris les GPT.
- 2022 : Annonce de la sortie de GPT-5 par OpenAI, marquant une nouvelle itération des modèles de langage pré-entraînés.