AIと暗号通貨の融合:ディープラーニング業界チェーンのパノラマ分析

AI x Crypto: ゼロからピークまで

はじめに

人工知能業界の最近の発展は、一部の人々によって第四次産業革命と見なされています。大規模モデルの出現は、さまざまな業界の効率を著しく向上させ、研究によるとGPTはアメリカの作業効率を約20%向上させたとされています。同時に、大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされており、過去の正確なコード設計に比べて、現在のソフトウェア設計は一般化された大規模モデルのフレームワークをソフトウェアに組み込むことが多く、これらのソフトウェアはより良いパフォーマンスを持ち、より広範なモードの入力と出力をサポートできるようになっています。深層学習技術は確かにAI業界に新たな繁栄をもたらし、この波は暗号通貨業界にも広がっています。

本報告では、AI業界の発展の歴史、技術の分類、そして深層学習技術が業界に与える影響について詳しく探ります。その後、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流、およびその発展状況とトレンドを深く分析します。その後、暗号通貨とAI業界の関係について本質的に詳しく探り、暗号通貨に関連するAI産業チェーンの構造を整理しました。

! 新人科学丨AI×暗号:ゼロからピークまで

AI業界の歴史

AI産業は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景のもとで、人工知能を実現するための多くの流派を発展させてきました。

現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに基づいてタスクを繰り返し反復し、システムの性能を改善することです。主なステップは、データをアルゴリズムに送信し、このデータを使用してモデルを訓練し、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。

現在、機械学習には3つの主要な流派があり、それぞれ接続主義、シンボリズム、行動主義であり、人間の神経系、思考、行動を模倣しています。

現在、神経ネットワークを代表とする結合主義が優位を占めています(、これを深層学習とも呼びます)。その主な理由は、このアーキテクチャが入力層と出力層を持っている一方で、複数の隠れ層を持っているためです。層の数や神経元(の数が十分に多くなると、複雑な汎用タスクにフィットする機会が十分に得られます。データを入力することで、神経元のパラメータを調整し続けることができます。最終的に多くのデータを経て、この神経元は最適な状態)のパラメータ(に達することになります。これがいわゆる「大きな力で奇跡を起こす」と呼ばれるものであり、これが「深さ」という言葉の由来でもあります——十分な層数と神経元があるためです。

神経ネットワークに基づく深層学習技術は、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化を経て、最終的に現代の大規模モデルであるGPTなどで使用されるTransformer技術に進化しました。Transformer技術は神経ネットワークの一つの進化の方向であり、変換器)Transformer(を追加して、音声、動画、画像などのすべてのモーダリティ)のデータを対応する数値にエンコードして表現します。そして、その後に神経ネットワークに入力されるため、神経ネットワークはあらゆるタイプのデータに適合できるようになり、すなわちマルチモーダルを実現します。

! 新参者科学人気丨AI×暗号:ゼロからピークまで

AIの発展は三回の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提案されてから十年後のことです。この波は記号主義技術の発展によって引き起こされ、一般的な自然言語処理や人と機械の対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ国家航空宇宙局の督促の下で完成させたDENRAL専門家システムであり、このシステムは非常に強力な化学知識を持ち、問題を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学の知識ベースと推論システムの結合と見なすことができます。

専門家システムの後、1990年代にイスラエル系アメリカの科学者で哲学者であるジュディア・パール(Judea Pearl)は、ベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動主義に基づくロボティクスを提唱し、行動主義の誕生を示しました。

1997年、IBMの深蓝「Blue」が3.5:2.5でチェスチャンピオンのカスパロフ(Kasparov)に勝利した。この勝利は人工知能の一つのマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えた。

第三次AI技術浪潮は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工神経ネットワークを基盤としたデータの表現学習アルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformer、Stable Diffusionへと至りました。この二つのアルゴリズムが第三の技術浪潮を共に形成し、これは結合主義の全盛期でもありました。

多くの象徴的な出来事は、深層学習技術の探求と進化に伴って次第に現れています。これには次のものが含まれます:

  • 2011年、IBMのワトソン(Watson)は『危険な境界』(Jeopardy)のクイズ番組で人間を打ち負かし、優勝しました。

  • 2014年、GoodfellowはGAN(生成的対抗ネットワーク、Generative Adversarial Network)を提案しました。これは、2つの神経ネットワークを互いに競い合わせる方法で学習を行い、リアルに見える写真を生成することができます。同時に、Goodfellowは「Deep Learning」という本を書き、これを「花書」と呼ばれ、深層学習分野の重要な入門書の1つです。

  • 2015年、ヒントンらは『ネイチャー』誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界で直ちに大きな反響を呼び起こしました。

  • 2015年、OpenAIが設立され、多くの著名人が共同で10億ドルの出資を発表しました。

  • 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンであるプロ九段棋士の李世石と対局し、4対1の総スコアで勝利しました。

  • 2017年、中国香港のハンソンロボティクス社(Hanson Robotics)が開発したヒューマノイドロボット、ソフィアは、歴史上初めて市民権を取得したロボットとされており、豊かな表情と人間の言語理解能力を備えています。

  • 2017年、人工知能の分野で豊富な才能と技術的予備力を持つGoogleは、Transformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。

※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT(Generative Pre-trained Transformer)をリリースしました。

  • 2018年、GoogleチームのDeepmindは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野における大きな進歩の象徴と見なされている。

  • 2019年、OpenAIはGPT-2を発表しました。このモデルは15億のパラメータを持っています。

  • 2020年、OpenAIが開発したGPT-3は、1750億のパラメータを持ち、以前のバージョンであるGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練され、複数のNLP(自然言語処理)タスク(において、質問応答、翻訳、文章作成)の最先端の性能を達成しています。

  • 2021年にOpenAIがGPT-4を発表し、このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。

  • 2023年1月にGPT-4モデルに基づいたChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。

※2024年、OpenAIはGPT-4 omniを発売します。

! 【新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp)

ディープラーニング産業チェーン

現在の大規模モデル言語は、すべて神経ネットワークに基づく深層学習方法を使用しています。GPTを筆頭にした大規模モデルは、人工知能の熱潮を生み出し、多くのプレイヤーがこの分野に参入しています。私たちはまた、市場におけるデータや計算能力の需要が急増していることを発見しました。したがって、報告のこの部分では、主に深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界の上流と下流はどのように構成されているのか、そして上流と下流の現状と需給関係、将来の発展がどのようなものであるかを見ていきます。

まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs(大規模モデル)のトレーニングは、合計で3つのステップに分かれているということです。

トレーニングの前に、Transformerに基づいているため、コンバーターはテキスト入力を数値に変換する必要があります。このプロセスは「トークナイゼーション」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則として、1つの英単語または文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なされます。これがGPTの評価に使用される基本単位でもあります。

第一歩、事前トレーニング。入力層に十分なデータペアを与えることで、報告の第一部で示された(X,Y)のように、このモデルの各ニューロンの最適なパラメータを見つける。この時、多くのデータが必要であり、このプロセスは最も計算力を消費するプロセスでもある。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復するからである。一批のデータペアのトレーニングが完了した後、一般的に同じデータセットを使用してパラメータを反復するために二次トレーニングを行う。

第二ステップ、ファインチューニング。ファインチューニングは、量は少ないが非常に質の高いデータを与えてトレーニングすることで、モデルの出力の質を向上させる変更をもたらします。事前トレーニングには大量のデータが必要ですが、多くのデータにはエラーや低品質のものが含まれている可能性があります。ファインチューニングのステップは、質の高いデータを通じてモデルの品質を向上させることができます。

第三ステップ、強化学習。まず全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果を順位付けすることです。このため、このモデルを実現するのは比較的簡単です。なぜなら、ビジネスシーンが比較的垂直だからです。その後、このモデルを使用して我々の大規模モデルの出力が高品質であるかどうかを判断します。こうすることで、報酬モデルを使用して大規模モデルのパラメータを自動的に反復することができます。(しかし、時には人間の参加が必要で、モデルの出力品質を評価する必要があります)

要するに、大規模モデルのトレーニングプロセスでは、事前トレーニングにはデータの量に対して非常に高い要求があり、必要なGPU計算能力も最も多いです。また、ファインチューニングにはパラメータを改善するためにより高品質のデータが必要です。強化学習は報酬モデルを通じてパラメータを反復的に更新し、より高品質の結果を出力することができます。

トレーニングの過程において、パラメータが多ければ多いほど、その一般化能力の上限は高くなります。例えば、関数の例を挙げると、Y = aX + b の場合、実際には2つのニューロン X および X0 が存在します。したがって、パラメータがどのように変化しても、フィッティングできるデータは非常に限られています。なぜなら、本質的には一つの直線だからです。ニューロンが増えれば、より多くのパラメータを反復処理できるようになり、より多くのデータをフィッティングできるようになります。これが大規模モデルが奇跡を生む理由であり、一般的に「大モデル」と呼ばれる理由でもあります。本質的には、大量のニューロンとパラメータ、大量のデータ、そして同時に大量の計算能力が必要です。

したがって、大規模モデルのパフォーマンスに影響を与える要素は主に3つあり、パラメータ数、データ量と質、計算能力です。この3つが共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータ数をp、データ量をn(トークン数で計算すると仮定すると、一般的な経験則を用いて必要な計算量を算出でき、これにより大まかに必要な計算能力とトレーニング時間を予測できます。

計算能力は一般的にFlopsを基本単位として表され、これは1回の浮動小数点演算を示します。浮動小数点演算は、整数でない数値の加減乗除の総称であり、例えば2.5+3.557のようなものです。浮動小数点は小数点を持つことができることを示し、FP16は小数を扱う精度をサポートし、FP32は一般的によりよく使用される精度です。実践に基づく経験則によれば、事前訓練)Pre-traning(は通常)大規模モデルを何度も訓練する必要があり、概ね6np Flopsが必要です。6は業界常数と呼ばれています。そして推論(Inferenceは、データを入力し、大規模モデルの出力を待つプロセスです)、これは2つの部分に分かれ、n個のトークンを入力し、n個のトークンを出力するため、合計で約2np Flopsが必要です。

初期には、トレーニングのためにCPUチップが計算能力を提供していましたが、その後、徐々にGPUに置き換えられるようになりました。例えば、ある企業のA100やH100チップなどです。CPUは汎用計算として存在しますが、GPUは専用計算として機能し、エネルギー効率の面でCPUを大きく上回ります。GPUは浮動小数点演算を主にTensor Coreと呼ばれるモジュールを通じて実行します。したがって、一般的なチップはFP16 / FP32精度でのFlopsデータを持っています。

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • 2
  • 共有
コメント
0/400
VirtualRichDreamvip
· 6時間前
ブル・マーケットが来るぞ
原文表示返信0
OnchainGossipervip
· 6時間前
わあ、AIがまた大ニュースを作っている。
原文表示返信0
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)