Le développement récent de l'industrie de l'intelligence artificielle est perçu par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, des recherches indiquent que le GPT a permis aux États-Unis d'augmenter d'environ 20 % leur efficacité au travail. Parallèlement, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle. Contrairement à la conception de code précise du passé, la conception logicielle actuelle consiste davantage à intégrer des cadres de grands modèles généralisés dans les logiciels, lesquels peuvent offrir de meilleures performances et prendre en charge une gamme plus large d'entrées et de sorties de modalités. La technologie d'apprentissage profond a effectivement apporté une nouvelle prospérité à l'industrie de l'IA, et cette vague s'est également étendue à l'industrie des cryptomonnaies.
Ce rapport explorera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Ensuite, il analysera en profondeur la chaîne industrielle en amont et en aval de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données, les dispositifs en périphérie, ainsi que l'état actuel et les tendances de leur développement. Ensuite, nous examinerons en détail la relation entre les cryptomonnaies et l'industrie de l'IA, et nous dresserons un bilan de la structure de la chaîne industrielle de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et l'industrie ont développé, à différentes époques et dans différents contextes disciplinaires, de nombreuses écoles de pensée pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme « apprentissage automatique ». Le concept de cette technologie est de permettre aux machines d'itérer plusieurs fois sur des tâches en s'appuyant sur des données pour améliorer les performances du système. Les étapes principales consistent à soumettre des données à un algorithme, à entraîner un modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles, à savoir le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en faveur ( également connu sous le nom d'apprentissage profond ). La principale raison est que cette architecture dispose d'une couche d'entrée, d'une couche de sortie, mais de plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( paramètres ) deviennent suffisamment élevés, il y a suffisamment d'opportunités pour modéliser des tâches complexes et générales. Grâce à l'entrée des données, il est possible d'ajuster en continu les paramètres des neurones, et après avoir traité de nombreuses données, ce neurone atteindra finalement un état optimal ( paramètres ), ce qui est ce qu'on appelle "beaucoup d'efforts pour des miracles", et c'est aussi l'origine du mot "profondeur" - un nombre suffisant de couches et de neurones.
Et la technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, les RNN, les CNN, les GAN, pour finalement évoluer vers les modèles modernes comme le GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ces données sont ensuite saisies dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, dix ans après la proposition de la technologie de l'IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu les problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts sont nés, dont le système expert DENRAL a été réalisé sous la supervision de l'Université de Stanford et de la NASA. Ce système possède des connaissances chimiques très avancées et génère des réponses semblables à celles d'un expert en chimie par le biais d'inférences à partir de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également connus sous le nom de réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, le système IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme une étape marquante pour l'intelligence artificielle, marquant le début d'un nouvel essor pour la technologie AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois grands du deep learning, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept de deep learning, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes de deep learning ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est aussi l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, notamment :
En 2011, le Watson) d'IBM a remporté le championnat du jeu télévisé « Jeopardy( » en battant des humains.
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN), Generative Adversarial Network(, qui apprend en faisant jouer deux réseaux de neurones l'un contre l'autre, capable de générer des photos indiscernables des vraies. Parallèlement, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", et la présentation de cette méthode d'apprentissage profond a immédiatement suscité un grand émoi dans le monde académique et industriel.
En 2015, OpenAI a été créé, et plusieurs personnalités célèbres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté la bataille homme-machine de go contre le champion du monde de go et joueur professionnel de 9e dan, Lee Sedol, avec un score total de 4 à 1.
En 2017, la société Hanson Robotics de Hong Kong )Hanson Robotics( a développé le robot humanoïde Sophia, qui est considéré comme le premier robot au monde à avoir obtenu le statut de citoyen à part entière, possédant une riche gamme d'expressions faciales et des capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'un riche réservoir de talents et de technologies dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" proposant l'algorithme Transformer, et les modèles de langage à grande échelle ont commencé à apparaître.
En 2018, OpenAI a publié le GPT) Generative Pre-trained Transformer( construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google Deepmind a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un énorme jalon dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel), y compris la réponse à des questions, la traduction et la rédaction d'articles(.
En 2021, OpenAI a publié GPT-4, ce modèle possède 1,76 trillion de paramètres, ce qui représente 10 fois celui de GPT-3.
En janvier 2023, l'application ChatGPT basée sur le modèle GPT-4 a été lancée, et en mars, ChatGPT a atteint un million d'utilisateurs, devenant l'application la plus rapide de l'histoire à atteindre un million d'utilisateurs.
En 2024, OpenAI lancera GPT-4 omni.
![Nouveaux venus - AI x Crypto : de zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont engendré une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne d'approvisionnement des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment se composent les acteurs en amont et en aval, et quel est l'état actuel de ces acteurs ainsi que la relation entre l'offre et la demande, sans oublier le développement futur.
Tout d'abord, il est important de clarifier que, lors de l'entraînement de grands modèles tels que les LLMs dirigés par GPT basés sur la technologie Transformer ), cela se fait en trois étapes.
Avant l'entraînement, étant basé sur Transformer, le convertisseur doit transformer les entrées de texte en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour le calcul des coûts de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme dans l'exemple donné dans la première partie du rapport (X,Y), pour trouver les meilleurs paramètres pour chaque neurone du modèle, il faut une grande quantité de données à ce stade, et ce processus est également le plus coûteux en termes de calcul, car il nécessite de faire des itérations répétées des neurones en essayant divers paramètres. Une fois qu'un lot de paires de données a été entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à fournir un lot de données moins volumineux mais de très haute qualité pour l'entraînement. Ce changement permet d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
Étape trois, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", et l'objectif de ce modèle est très simple : classer les résultats de sortie. Par conséquent, la réalisation de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité des sorties du modèle ).
En résumé, lors du processus de formation des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises via un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple de la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres changent, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi la raison pour laquelle on les appelle communément de grands modèles, qui sont essentiellement constitués d'une quantité massive de neurones et de paramètres, ainsi que d'une énorme quantité de données, tout en nécessitant une puissance de calcul considérable.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats et la capacité de généralisation des grands modèles. Supposons que le nombre de paramètres soit p, la quantité de données soit n( calculée en fonction du nombre de tokens), alors nous pouvons estimer la quantité de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permettra d'estimer la puissance de calcul que nous devons acheter ainsi que le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, représentant une opération de calcul à virgule flottante. Les opérations à virgule flottante sont un terme générique pour les opérations d'addition, de soustraction, de multiplication et de division sur des nombres non entiers, comme 2.5 + 3.557. La virgule flottante indique la capacité d'avoir un point décimal, tandis que FP16 représente la précision qui supporte les décimales, et FP32 est une précision plus courante. Selon les règles d'expérience pratiques, le pré-entraînement (Pre-traning) nécessite généralement plusieurs entraînements ( pour un grand modèle, nécessitant environ 6np Flops, 6 étant appelé constante industrielle. L'inférence )Inference est le processus où nous entrons des données et attendons la sortie du grand modèle (, divisée en deux parties : entrée de n tokens, sortie de n tokens, nécessitant environ un total de 2np Flops.
Dans les premiers temps, des puces CPU étaient utilisées pour l'entraînement afin de fournir un soutien en puissance de calcul, mais par la suite, on a commencé à remplacer progressivement par des GPU, tels que les puces A100 et H100 de certaines entreprises. En effet, le CPU existe en tant que calcul général, tandis que le GPU peut être utilisé comme calcul spécialisé, dépassant de loin le CPU en termes d'efficacité énergétique. Le GPU exécute des calculs flottants principalement via un module appelé Tensor Core. Ainsi, les puces générales ont des données Flops sous les précisions FP16 / FP32, ce qui
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Fusion de l'IA et des cryptoactifs : analyse panoramique de la chaîne industrielle de l'apprentissage profond
IA x Crypto : de zéro au sommet
Introduction
Le développement récent de l'industrie de l'intelligence artificielle est perçu par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, des recherches indiquent que le GPT a permis aux États-Unis d'augmenter d'environ 20 % leur efficacité au travail. Parallèlement, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle. Contrairement à la conception de code précise du passé, la conception logicielle actuelle consiste davantage à intégrer des cadres de grands modèles généralisés dans les logiciels, lesquels peuvent offrir de meilleures performances et prendre en charge une gamme plus large d'entrées et de sorties de modalités. La technologie d'apprentissage profond a effectivement apporté une nouvelle prospérité à l'industrie de l'IA, et cette vague s'est également étendue à l'industrie des cryptomonnaies.
Ce rapport explorera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Ensuite, il analysera en profondeur la chaîne industrielle en amont et en aval de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données, les dispositifs en périphérie, ainsi que l'état actuel et les tendances de leur développement. Ensuite, nous examinerons en détail la relation entre les cryptomonnaies et l'industrie de l'IA, et nous dresserons un bilan de la structure de la chaîne industrielle de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et l'industrie ont développé, à différentes époques et dans différents contextes disciplinaires, de nombreuses écoles de pensée pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme « apprentissage automatique ». Le concept de cette technologie est de permettre aux machines d'itérer plusieurs fois sur des tâches en s'appuyant sur des données pour améliorer les performances du système. Les étapes principales consistent à soumettre des données à un algorithme, à entraîner un modèle avec ces données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles, à savoir le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en faveur ( également connu sous le nom d'apprentissage profond ). La principale raison est que cette architecture dispose d'une couche d'entrée, d'une couche de sortie, mais de plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( paramètres ) deviennent suffisamment élevés, il y a suffisamment d'opportunités pour modéliser des tâches complexes et générales. Grâce à l'entrée des données, il est possible d'ajuster en continu les paramètres des neurones, et après avoir traité de nombreuses données, ce neurone atteindra finalement un état optimal ( paramètres ), ce qui est ce qu'on appelle "beaucoup d'efforts pour des miracles", et c'est aussi l'origine du mot "profondeur" - un nombre suffisant de couches et de neurones.
Et la technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, les RNN, les CNN, les GAN, pour finalement évoluer vers les modèles modernes comme le GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), destiné à encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes pour les représenter. Ces données sont ensuite saisies dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, dix ans après la proposition de la technologie de l'IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu les problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts sont nés, dont le système expert DENRAL a été réalisé sous la supervision de l'Université de Stanford et de la NASA. Ce système possède des connaissances chimiques très avancées et génère des réponses semblables à celles d'un expert en chimie par le biais d'inférences à partir de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également connus sous le nom de réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, le système IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme une étape marquante pour l'intelligence artificielle, marquant le début d'un nouvel essor pour la technologie AI.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois grands du deep learning, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept de deep learning, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes de deep learning ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est aussi l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, notamment :
En 2011, le Watson) d'IBM a remporté le championnat du jeu télévisé « Jeopardy( » en battant des humains.
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN), Generative Adversarial Network(, qui apprend en faisant jouer deux réseaux de neurones l'un contre l'autre, capable de générer des photos indiscernables des vraies. Parallèlement, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature", et la présentation de cette méthode d'apprentissage profond a immédiatement suscité un grand émoi dans le monde académique et industriel.
En 2015, OpenAI a été créé, et plusieurs personnalités célèbres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté la bataille homme-machine de go contre le champion du monde de go et joueur professionnel de 9e dan, Lee Sedol, avec un score total de 4 à 1.
En 2017, la société Hanson Robotics de Hong Kong )Hanson Robotics( a développé le robot humanoïde Sophia, qui est considéré comme le premier robot au monde à avoir obtenu le statut de citoyen à part entière, possédant une riche gamme d'expressions faciales et des capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'un riche réservoir de talents et de technologies dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" proposant l'algorithme Transformer, et les modèles de langage à grande échelle ont commencé à apparaître.
En 2018, OpenAI a publié le GPT) Generative Pre-trained Transformer( construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google Deepmind a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un énorme jalon dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel), y compris la réponse à des questions, la traduction et la rédaction d'articles(.
En 2021, OpenAI a publié GPT-4, ce modèle possède 1,76 trillion de paramètres, ce qui représente 10 fois celui de GPT-3.
En janvier 2023, l'application ChatGPT basée sur le modèle GPT-4 a été lancée, et en mars, ChatGPT a atteint un million d'utilisateurs, devenant l'application la plus rapide de l'histoire à atteindre un million d'utilisateurs.
En 2024, OpenAI lancera GPT-4 omni.
![Nouveaux venus - AI x Crypto : de zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont engendré une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne d'approvisionnement des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment se composent les acteurs en amont et en aval, et quel est l'état actuel de ces acteurs ainsi que la relation entre l'offre et la demande, sans oublier le développement futur.
Tout d'abord, il est important de clarifier que, lors de l'entraînement de grands modèles tels que les LLMs dirigés par GPT basés sur la technologie Transformer ), cela se fait en trois étapes.
Avant l'entraînement, étant basé sur Transformer, le convertisseur doit transformer les entrées de texte en valeurs numériques, ce processus est appelé "Tokenization", après quoi ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour le calcul des coûts de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme dans l'exemple donné dans la première partie du rapport (X,Y), pour trouver les meilleurs paramètres pour chaque neurone du modèle, il faut une grande quantité de données à ce stade, et ce processus est également le plus coûteux en termes de calcul, car il nécessite de faire des itérations répétées des neurones en essayant divers paramètres. Une fois qu'un lot de paires de données a été entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le réglage fin. Le réglage fin consiste à fournir un lot de données moins volumineux mais de très haute qualité pour l'entraînement. Ce changement permet d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais de nombreuses données peuvent contenir des erreurs ou être de faible qualité. L'étape de réglage fin peut améliorer la qualité du modèle grâce à des données de qualité.
Étape trois, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", et l'objectif de ce modèle est très simple : classer les résultats de sortie. Par conséquent, la réalisation de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité des sorties du modèle ).
En résumé, lors du processus de formation des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. Le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres, et l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises via un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple de la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres changent, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi la raison pour laquelle on les appelle communément de grands modèles, qui sont essentiellement constitués d'une quantité massive de neurones et de paramètres, ainsi que d'une énorme quantité de données, tout en nécessitant une puissance de calcul considérable.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats et la capacité de généralisation des grands modèles. Supposons que le nombre de paramètres soit p, la quantité de données soit n( calculée en fonction du nombre de tokens), alors nous pouvons estimer la quantité de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permettra d'estimer la puissance de calcul que nous devons acheter ainsi que le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, représentant une opération de calcul à virgule flottante. Les opérations à virgule flottante sont un terme générique pour les opérations d'addition, de soustraction, de multiplication et de division sur des nombres non entiers, comme 2.5 + 3.557. La virgule flottante indique la capacité d'avoir un point décimal, tandis que FP16 représente la précision qui supporte les décimales, et FP32 est une précision plus courante. Selon les règles d'expérience pratiques, le pré-entraînement (Pre-traning) nécessite généralement plusieurs entraînements ( pour un grand modèle, nécessitant environ 6np Flops, 6 étant appelé constante industrielle. L'inférence )Inference est le processus où nous entrons des données et attendons la sortie du grand modèle (, divisée en deux parties : entrée de n tokens, sortie de n tokens, nécessitant environ un total de 2np Flops.
Dans les premiers temps, des puces CPU étaient utilisées pour l'entraînement afin de fournir un soutien en puissance de calcul, mais par la suite, on a commencé à remplacer progressivement par des GPU, tels que les puces A100 et H100 de certaines entreprises. En effet, le CPU existe en tant que calcul général, tandis que le GPU peut être utilisé comme calcul spécialisé, dépassant de loin le CPU en termes d'efficacité énergétique. Le GPU exécute des calculs flottants principalement via un module appelé Tensor Core. Ainsi, les puces générales ont des données Flops sous les précisions FP16 / FP32, ce qui