El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha aumentado significativamente la eficiencia en diversas industrias; según investigaciones, se estima que GPT ha mejorado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software. En comparación con el diseño de código preciso del pasado, el diseño de software actual se basa más en la incorporación de marcos de grandes modelos generalizados, los cuales pueden ofrecer un mejor rendimiento y soportar una gama más amplia de entradas y salidas modales. La tecnología de aprendizaje profundo ha traído efectivamente una nueva ola de prosperidad a la industria de la IA, y esta ola también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, las categorías tecnológicas y el impacto de la tecnología de aprendizaje profundo en la industria. Luego se analizarán en profundidad la cadena de suministro de la industria en relación con GPU, computación en la nube, fuentes de datos, dispositivos de borde, así como su estado de desarrollo y tendencias. Después, discutiremos en detalle la relación entre las criptomonedas y la industria de la IA, y organizaremos el panorama de la cadena de suministro de IA relacionada con las criptomonedas.
La historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado muchas corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinares.
Las tecnologías modernas de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema mediante iteraciones repetidas en tareas basadas en datos. Los pasos principales son enviar datos a un algoritmo, usar esos datos para entrenar un modelo, probar e implementar el modelo, y utilizar el modelo para completar tareas de predicción automatizada.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humanos.
Y actualmente, el conexionismo representado por redes neuronales ocupa la ventaja (, también conocido como aprendizaje profundo ). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas ( y los parámetros ) se vuelven lo suficientemente grandes, hay suficientes oportunidades para ajustar tareas complejas y generales. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y al final, después de haber pasado por múltiples datos, esa neurona alcanzará un estado óptimo (, que es lo que se denomina "hacer un gran milagro", y esta es también la razón de las palabras "profundidad" - un número suficiente de capas y neuronas.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, que incluyen las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN y GAN, evolucionando finalmente hacia los modelos grandes modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección evolutiva de las redes neuronales, que añade un convertidor ) Transformer (, para codificar todos los modos ) como audio, video, imágenes, etc. ( en valores numéricos correspondientes para representarlos. Luego, se introducen en la red neuronal, lo que permite que la red neuronal ajuste cualquier tipo de datos, es decir, lograr la multimodalidad.
![Nuevos Conocimientos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió los problemas del procesamiento del lenguaje natural y la conversación hombre-máquina. En ese mismo periodo, nació el sistema experto, el sistema DENRAL, completado bajo la supervisión de la NASA por la Universidad de Stanford. Este sistema posee un conocimiento químico muy fuerte y genera respuestas similares a las de un experto en química a través de inferencias basadas en preguntas. Este sistema experto en química puede verse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ) propuso las redes bayesianas, también conocidas como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue venció al campeón de ajedrez Garry Kasparov con un marcador de 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el segundo auge del desarrollo de la tecnología AI.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también fue el período de esplendor del conexionismo.
Muchos eventos emblemáticos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM( ganó el campeonato en el programa de preguntas y respuestas "Jeopardy") al vencer a los humanos.
En 2014, Goodfellow propuso la red generativa adversarial GAN(, Generative Adversarial Network), que aprende a generar fotos tan realistas que son indistinguibles de las verdaderas al hacer que dos redes neuronales compitan entre sí. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de la flor, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que provocó una gran repercusión en la academia y la industria.
En 2015, OpenAI fue creado, y varias personalidades conocidas anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnologías de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics en Hong Kong, (Hanson Robotics), desarrolló el robot humanoide Sofía, conocido como el primer robot en la historia en obtener la ciudadanía de primer nivel, que posee una rica gama de expresiones faciales y habilidades de comprensión del lenguaje humano.
En 2017, Google, con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" proponiendo el algoritmo Transformer, y comenzaron a aparecer grandes modelos de lenguaje.
En 2018, OpenAI lanzó el GPT( Generative Pre-trained Transformer) construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, un modelo que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural (, como responder preguntas, traducción y redacción de artículos ).
En 2021, OpenAI lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Cadena de la industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo impulsados por redes neuronales. Con GPT a la cabeza, los grandes modelos han generado una ola de entusiasmo en la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado que la demanda de datos y capacidad de cálculo ha aumentado considerablemente en el mercado. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de IA dominada por algoritmos de aprendizaje profundo, ¿cómo están compuestas las partes superior e inferior de la cadena? Además, ¿cuál es el estado actual y la relación de oferta y demanda, así como el desarrollo futuro de estas partes?
Primero, necesitamos aclarar que al llevar a cabo el entrenamiento de grandes modelos LLMs, liderados por GPT, basados en la tecnología Transformer (, se divide en tres pasos.
Antes de la formación, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenización", y después estos valores se conocen como Tokens. Según una regla empírica general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, como el ejemplo mencionado en la primera parte del informe )X,Y(, se buscan los mejores parámetros para cada neurona en el modelo. En este momento, se requiere una gran cantidad de datos, y este proceso también es el más intensivo en cuanto a cálculo, ya que se itera repetidamente sobre las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento. Este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo mediante datos de alta calidad.
El tercer paso, aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa", el propósito de este modelo es muy simple, es clasificar los resultados de salida, por lo que implementar este modelo será relativamente sencillo, ya que el escenario empresarial es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, así podemos usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ) Sin embargo, a veces también es necesario que la intervención humana participe en la evaluación de la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una alta demanda de cantidad de datos, y la potencia de cálculo de GPU requerida también es la más alta. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para obtener resultados de mayor calidad.
Durante el proceso de entrenamiento, cuántos más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el caso que ejemplificamos con la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo cambian los parámetros, los datos que pueden ajustarse son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, entonces se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros y también la razón por la que se les llama coloquialmente grandes modelos; en esencia, se trata de una enorme cantidad de neuronas y parámetros, así como una cantidad masiva de datos, lo que también requiere una gran potencia de cálculo.
Por lo tanto, el rendimiento de los modelos grandes está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del modelo grande. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens (, entonces podemos calcular la cantidad de cálculo necesaria a través de una regla empírica general, lo que nos permitirá estimar aproximadamente la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. La operación de punto flotante es el término general para la suma, resta, multiplicación y división de valores no enteros, como 2.5+3.557. El punto flotante representa la capacidad de incluir un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es una precisión más común. Según la regla empírica en la práctica, el preentrenamiento )Pre-traning( generalmente entrena múltiples veces ) un gran modelo, y se necesita aproximadamente 6np Flops, donde 6 se conoce como constante de la industria. Y el razonamiento (Inference, es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: se ingresan n tokens y se generan n tokens de salida, por lo que se necesitan aproximadamente 2np Flops en total.
En los primeros días, se utilizaban chips de CPU para el entrenamiento que proporcionaban soporte de cálculo, pero luego se comenzó a utilizar gradualmente GPU como reemplazo, como los chips A100 y H100 de algunas empresas. Esto se debe a que la CPU existe como un cálculo general, mientras que la GPU puede funcionar como un cálculo especializado, superando con creces a la CPU en términos de eficiencia energética. La GPU realiza operaciones de punto flotante principalmente a través de un módulo llamado Tensor Core. Por lo tanto, los chips generales tienen datos de Flops en precisión FP16 / FP32, este
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 me gusta
Recompensa
13
2
Compartir
Comentar
0/400
VirtualRichDream
· hace7h
bull run va a llegar
Ver originalesResponder0
OnchainGossiper
· hace7h
¡Guau, la IA está haciendo grandes noticias otra vez!
La fusión de la IA con los Activos Cripto: análisis panorámico de la cadena de industria de la encriptación profunda
AI x Crypto: De cero a la cima
Introducción
El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha aumentado significativamente la eficiencia en diversas industrias; según investigaciones, se estima que GPT ha mejorado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software. En comparación con el diseño de código preciso del pasado, el diseño de software actual se basa más en la incorporación de marcos de grandes modelos generalizados, los cuales pueden ofrecer un mejor rendimiento y soportar una gama más amplia de entradas y salidas modales. La tecnología de aprendizaje profundo ha traído efectivamente una nueva ola de prosperidad a la industria de la IA, y esta ola también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, las categorías tecnológicas y el impacto de la tecnología de aprendizaje profundo en la industria. Luego se analizarán en profundidad la cadena de suministro de la industria en relación con GPU, computación en la nube, fuentes de datos, dispositivos de borde, así como su estado de desarrollo y tendencias. Después, discutiremos en detalle la relación entre las criptomonedas y la industria de la IA, y organizaremos el panorama de la cadena de suministro de IA relacionada con las criptomonedas.
La historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado muchas corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinares.
Las tecnologías modernas de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema mediante iteraciones repetidas en tareas basadas en datos. Los pasos principales son enviar datos a un algoritmo, usar esos datos para entrenar un modelo, probar e implementar el modelo, y utilizar el modelo para completar tareas de predicción automatizada.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humanos.
Y actualmente, el conexionismo representado por redes neuronales ocupa la ventaja (, también conocido como aprendizaje profundo ). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas ( y los parámetros ) se vuelven lo suficientemente grandes, hay suficientes oportunidades para ajustar tareas complejas y generales. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y al final, después de haber pasado por múltiples datos, esa neurona alcanzará un estado óptimo (, que es lo que se denomina "hacer un gran milagro", y esta es también la razón de las palabras "profundidad" - un número suficiente de capas y neuronas.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, que incluyen las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN y GAN, evolucionando finalmente hacia los modelos grandes modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección evolutiva de las redes neuronales, que añade un convertidor ) Transformer (, para codificar todos los modos ) como audio, video, imágenes, etc. ( en valores numéricos correspondientes para representarlos. Luego, se introducen en la red neuronal, lo que permite que la red neuronal ajuste cualquier tipo de datos, es decir, lograr la multimodalidad.
![Nuevos Conocimientos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió los problemas del procesamiento del lenguaje natural y la conversación hombre-máquina. En ese mismo periodo, nació el sistema experto, el sistema DENRAL, completado bajo la supervisión de la NASA por la Universidad de Stanford. Este sistema posee un conocimiento químico muy fuerte y genera respuestas similares a las de un experto en química a través de inferencias basadas en preguntas. Este sistema experto en química puede verse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ) propuso las redes bayesianas, también conocidas como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue venció al campeón de ajedrez Garry Kasparov con un marcador de 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el segundo auge del desarrollo de la tecnología AI.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también fue el período de esplendor del conexionismo.
Muchos eventos emblemáticos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM( ganó el campeonato en el programa de preguntas y respuestas "Jeopardy") al vencer a los humanos.
En 2014, Goodfellow propuso la red generativa adversarial GAN(, Generative Adversarial Network), que aprende a generar fotos tan realistas que son indistinguibles de las verdaderas al hacer que dos redes neuronales compitan entre sí. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de la flor, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que provocó una gran repercusión en la academia y la industria.
En 2015, OpenAI fue creado, y varias personalidades conocidas anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnologías de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics en Hong Kong, (Hanson Robotics), desarrolló el robot humanoide Sofía, conocido como el primer robot en la historia en obtener la ciudadanía de primer nivel, que posee una rica gama de expresiones faciales y habilidades de comprensión del lenguaje humano.
En 2017, Google, con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" proponiendo el algoritmo Transformer, y comenzaron a aparecer grandes modelos de lenguaje.
En 2018, OpenAI lanzó el GPT( Generative Pre-trained Transformer) construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, un modelo que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural (, como responder preguntas, traducción y redacción de artículos ).
En 2021, OpenAI lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Cadena de la industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo impulsados por redes neuronales. Con GPT a la cabeza, los grandes modelos han generado una ola de entusiasmo en la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado que la demanda de datos y capacidad de cálculo ha aumentado considerablemente en el mercado. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de IA dominada por algoritmos de aprendizaje profundo, ¿cómo están compuestas las partes superior e inferior de la cadena? Además, ¿cuál es el estado actual y la relación de oferta y demanda, así como el desarrollo futuro de estas partes?
Primero, necesitamos aclarar que al llevar a cabo el entrenamiento de grandes modelos LLMs, liderados por GPT, basados en la tecnología Transformer (, se divide en tres pasos.
Antes de la formación, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenización", y después estos valores se conocen como Tokens. Según una regla empírica general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, como el ejemplo mencionado en la primera parte del informe )X,Y(, se buscan los mejores parámetros para cada neurona en el modelo. En este momento, se requiere una gran cantidad de datos, y este proceso también es el más intensivo en cuanto a cálculo, ya que se itera repetidamente sobre las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento. Este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo mediante datos de alta calidad.
El tercer paso, aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa", el propósito de este modelo es muy simple, es clasificar los resultados de salida, por lo que implementar este modelo será relativamente sencillo, ya que el escenario empresarial es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, así podemos usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ) Sin embargo, a veces también es necesario que la intervención humana participe en la evaluación de la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una alta demanda de cantidad de datos, y la potencia de cálculo de GPU requerida también es la más alta. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para obtener resultados de mayor calidad.
Durante el proceso de entrenamiento, cuántos más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el caso que ejemplificamos con la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo cambian los parámetros, los datos que pueden ajustarse son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, entonces se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros y también la razón por la que se les llama coloquialmente grandes modelos; en esencia, se trata de una enorme cantidad de neuronas y parámetros, así como una cantidad masiva de datos, lo que también requiere una gran potencia de cálculo.
Por lo tanto, el rendimiento de los modelos grandes está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del modelo grande. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens (, entonces podemos calcular la cantidad de cálculo necesaria a través de una regla empírica general, lo que nos permitirá estimar aproximadamente la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. La operación de punto flotante es el término general para la suma, resta, multiplicación y división de valores no enteros, como 2.5+3.557. El punto flotante representa la capacidad de incluir un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es una precisión más común. Según la regla empírica en la práctica, el preentrenamiento )Pre-traning( generalmente entrena múltiples veces ) un gran modelo, y se necesita aproximadamente 6np Flops, donde 6 se conoce como constante de la industria. Y el razonamiento (Inference, es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: se ingresan n tokens y se generan n tokens de salida, por lo que se necesitan aproximadamente 2np Flops en total.
En los primeros días, se utilizaban chips de CPU para el entrenamiento que proporcionaban soporte de cálculo, pero luego se comenzó a utilizar gradualmente GPU como reemplazo, como los chips A100 y H100 de algunas empresas. Esto se debe a que la CPU existe como un cálculo general, mientras que la GPU puede funcionar como un cálculo especializado, superando con creces a la CPU en términos de eficiencia energética. La GPU realiza operaciones de punto flotante principalmente a través de un módulo llamado Tensor Core. Por lo tanto, los chips generales tienen datos de Flops en precisión FP16 / FP32, este