A fusão de AI com ativos de criptografia: uma análise panorâmica da cadeia de indústria de profundidade

AI x Crypto: do zero ao auge

Introdução

O recente desenvolvimento da indústria de inteligência artificial é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em vários setores, com estudos indicando que o GPT melhorou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Além disso, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; em comparação com o design de código preciso do passado, o design de software atual integra mais frequentemente estruturas de grandes modelos generalizados, que podem apresentar um desempenho melhor e suportar uma gama mais ampla de entradas e saídas de modalidades. As tecnologias de aprendizado profundo realmente trouxeram uma nova onda de prosperidade para a indústria de IA, e essa onda também se estendeu à indústria de criptomoedas.

Este relatório irá explorar detalhadamente a história de desenvolvimento da indústria de IA, a classificação das tecnologias e o impacto da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente a cadeia de suprimentos e demanda da indústria de aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, bem como seu estado atual e tendências de desenvolvimento. Depois, discutiremos detalhadamente a relação entre criptomoeda e a indústria de IA, e organizaremos o padrão da cadeia de suprimentos relacionada à IA e criptomoeda.

Novos Conhecimentos丨AI x Crypto: Do Zero ao Pico

História do desenvolvimento da indústria de IA

A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram muitas correntes para alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.

A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina". A ideia dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas em tarefas, baseando-se em dados. Os principais passos incluem enviar dados para o algoritmo, treinar um modelo com esses dados, testar e implementar o modelo, e utilizar o modelo para realizar tarefas de previsão automatizadas.

Atualmente, a aprendizagem de máquinas tem três principais correntes: o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.

Atualmente, o conexionismo, representado por redes neurais, está em ascensão ( também é conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura tem uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios ( parâmetros ) se tornam suficientes, há oportunidades suficientes para ajustar tarefas complexas e gerais. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, então, após passar por muitos dados, o neurônio alcançará um estado ótimo ( parâmetros ), que é o que se chama de "grande esforço, grandes milagres", e isso também é a origem da palavra "profundo" - um número suficiente de camadas e neurônios.

E a tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções, como as redes neurais mais antigas, redes neurais feedforward, RNN, CNN, GAN, até evoluir para os modernos grandes modelos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todos os modos (, como áudio, vídeo, imagens, etc., em valores numéricos correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realiza multimodalidade.

![Novato Ciência丨AI x Crypto: Do Zero ao Pico])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 60 do século XX, dez anos após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, como o sistema especialista DENRAL, desenvolvido sob a supervisão da NASA pela Universidade de Stanford. Este sistema possui um conhecimento químico muito forte e utiliza perguntas para fazer inferências, gerando respostas semelhantes às de um especialista em química. Este sistema especialista em química pode ser visto como uma combinação de banco de dados de conhecimento químico e sistema de inferência.

Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl ) Judea Pearl ( propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o surgimento do behaviorismo.

Em 1997, o IBM Deep Blue venceu o campeão de xadrez Garry Kasparov por 3,5 a 2,5, e essa vitória é considerada um marco para a inteligência artificial, marcando o auge do segundo desenvolvimento da tecnologia de IA.

A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, introduziram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como arquitetura para a aprendizagem de representações de dados. Desde então, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conexionismo.

Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:

  • Em 2011, o Watson) da IBM venceu humanos e conquistou o campeonato no programa de quiz "Jeopardy(".

  • Em 2014, Goodfellow propôs a GAN) Rede Generativa Adversarial, Generative Adversarial Network(, que aprende a gerar fotos quase indistinguíveis da realidade, permitindo que duas redes neurais competem entre si. Ao mesmo tempo, Goodfellow também escreveu um livro chamado "Deep Learning", conhecido como "livro das flores", que é um dos livros introdutórios importantes na área de aprendizado profundo.

  • Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a proposta desse método de aprendizado profundo gerou uma enorme repercussão tanto na academia quanto na indústria.

  • Em 2015, a OpenAI foi criada, com várias personalidades conhecidas anunciando um investimento conjunto de 1 bilhão de dólares.

  • Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1 no total.

  • Em 2017, a empresa de tecnologia Hanson Robotics de Hong Kong, )Hanson Robotics(, desenvolveu o robô humanoide Sophia, que é conhecido como o primeiro robô na história a obter cidadania de pleno direito, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.

  • Em 2017, a Google, com uma rica reserva de talentos e tecnologia na área da inteligência artificial, publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, e modelos de linguagem em larga escala começaram a surgir.

  • Em 2018, a OpenAI lançou o GPT)Generative Pre-trained Transformer(, construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.

  • Em 2018, a equipe do Google Deepmind lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo visto como um grande marco de progresso no campo da inteligência artificial.

  • Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.

  • Em 2020, o GPT-3 desenvolvido pela OpenAI, com 175 bilhões de parâmetros, é 100 vezes maior do que a versão anterior GPT-2. Este modelo foi treinado com 570GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP), como resposta a perguntas, tradução e redação de artigos(.

  • Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 triliões de parâmetros, sendo 10 vezes maior do que o GPT-3.

  • Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4. Em março, o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.

  • Em 2024, a OpenAI lançou o GPT-4 omni.

![Novos Conhecimentos丨AI x Crypto: Do Zero ao Topo])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(

Cadeia de Indústria de Aprendizagem Profunda

Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Com o GPT à frente, esses grandes modelos criaram uma onda de entusiasmo em inteligência artificial, atraindo muitos jogadores para este setor. Também constatamos que a demanda do mercado por dados e poder de cálculo explodiu, portanto, nesta parte do relatório, estamos principalmente explorando a cadeia industrial dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como se compõem as suas partes superiores e inferiores, e como está a situação atual e a relação de oferta e demanda dessas partes, além do seu desenvolvimento futuro.

Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs baseados na tecnologia Transformer, liderados pelo GPT ), dividimos o processo em três etapas.

Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", após o qual esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada para precificação do GPT.

Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo mencionado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros para cada neurônio sob este modelo, é necessário uma grande quantidade de dados, e esse processo também é o que mais consome poder computacional, pois os neurônios precisam iterar repetidamente tentando vários parâmetros. Após completar o treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.

Segundo passo, ajuste fino. O ajuste fino é dado a um lote menor, mas de dados de qualidade muito alta, para treinar, essa mudança fará com que a saída do modelo tenha uma qualidade mais alta, porque o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou baixa qualidade. A etapa de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.

Terceiro passo, aprendizado por reforço. Primeiro, será criado um modelo totalmente novo, que chamamos de "modelo de recompensa", e o objetivo deste modelo é muito simples: classificar os resultados da saída. Portanto, implementar este modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usaremos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim poderemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes é necessário que a participação humana avalie a qualidade da saída do modelo ).

Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de GPU necessária é também a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.

Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade, existem dois neurônios, X e X0. Assim, como os parâmetros mudam, os dados que podem ser ajustados são extremamente limitados, porque, em essência, ainda é uma linha reta. Se houver mais neurônios, mais parâmetros podem ser iterados, permitindo o ajuste de mais dados. Esta é a razão pela qual grandes modelos produzem milagres, e também é por isso que o termo "grande modelo" é popularmente adotado. Em essência, trata-se de uma enorme quantidade de neurônios e parâmetros, além de uma quantidade colossal de dados, exigindo, ao mesmo tempo, um poder computacional imenso.

Assim, o desempenho de grandes modelos é principalmente determinado por três fatores: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade computacional. Supomos que o número de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de Tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, permitindo-nos estimar a capacidade computacional que precisamos adquirir e o tempo de treinamento.

A capacidade de computação é geralmente medida em Flops, que representa uma operação de ponto flutuante. As operações de ponto flutuante são um termo genérico para adição, subtração, multiplicação e divisão de números não inteiros, como 2.5 + 3.557. O termo flutuante refere-se à capacidade de incluir casas decimais, enquanto FP16 representa a precisão que suporta casas decimais, e FP32 é uma precisão mais comum. De acordo com regras práticas, o pré-treinamento ( Pre-traning ) é geralmente realizado várias vezes ( em grandes modelos, e normalmente requer 6np Flops, sendo 6 conhecido como uma constante da indústria. A inferência ) Inference é o processo em que inserimos um dado e aguardamos a saída do grande modelo (, dividindo-se em duas partes: entrada de n tokens e saída de n tokens, o que requer aproximadamente 2np Flops.

No início, usavam-se chips CPU para treinamento, fornecendo suporte de poder computacional, mas depois começaram a substituir gradualmente por GPU, como os chips A100 e H100 de algumas empresas. Isso porque a CPU existe como computação genérica, enquanto a GPU pode ser usada como computação dedicada, superando em muito a eficiência energética da CPU. A GPU realiza operações de ponto flutuante principalmente através de um módulo chamado Tensor Core. Portanto, chips comuns têm dados de Flops sob precisões FP16 / FP32, este

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 2
  • Compartilhar
Comentário
0/400
VirtualRichDreamvip
· 7h atrás
bull run要来咯
Ver originalResponder0
OnchainGossipervip
· 7h atrás
Uau, a IA está fazendo grandes notícias novamente.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)