# データは資産:DataFiが新しいブルーオーシャンを切り開いています今月のAI界で最大の話題は、Metaが大規模に人材を募集し、中国系研究者を中心とした豪華なAIチームを結成したことです。チームリーダーは、28歳でScale AIを創設したAlexander Wangです。Scale AIは現在290億ドルの評価額を持ち、アメリカ軍、OpenAI、Anthropic、Metaなどの多くのAI大手にデータサービスを提供しており、そのコアビジネスは大量の正確なラベルデータを提供することです。Scale AIが多くのユニコーンの中で際立っている理由は、AI産業におけるデータの重要な地位を早くから見抜いたからです。計算能力、モデル、データはAIモデルの三大支柱です。大きなモデルを人間に例えるなら、モデルは身体、計算能力は食べ物、データは知識と情報です。大規模言語モデルの急速な発展の過程で、業界の焦点はモデルから計算能力への移行を経験しました。現在、ほとんどのモデルはtransformerを基本フレームワークとして採用しており、時折MoEやMoReなどの革新が見られます。各大手企業は自社でスーパーコンピューティングクラスターを構築するか、クラウドサービスプロバイダーと長期契約を結んで計算能力の問題を解決しています。この基盤の上で、データの重要性がますます際立っています。Scale AIはAIモデルのために堅固なデータ基盤を構築することに特化しており、そのビジネスは既存データの掘り起こしだけでなく、データ生成ビジネスにも関与しています。同社はまた、さまざまな分野の専門家で構成されるAIトレーニングチームを結成し、AIモデルに高品質なトレーニングデータを提供しています。モデルのトレーニングは、事前トレーニングとファインチューニングの2つの段階に分かれています。事前トレーニングは、赤ちゃんが話すことを学ぶプロセスに似ており、大量のオンラインから収集したテキストやコードなどの情報が必要です。ファインチューニングは、学校教育に似ており、明確な目標と方向性があり、慎重に設計されたデータセットを通じてモデルの特定の能力を育成します。したがって、AIデータトラックは主に2種類のデータセットを含みます。一つは、あまり処理を必要としない大量のデータで、通常はReddit、Twitter、GithubなどのUGCプラットフォーム、公開文献データベース、または企業のプライベートデータベースから来ています。もう一つは、特定の能力をモデルに育成するために、精密な設計と選別が必要であり、データのクレンジング、選別、ラベリング、そして人間のフィードバックなどの作業が必要です。モデルの能力がさらに向上するにつれて、より精密で専門的なトレーニングデータがモデルの能力を決定する重要な要素となります。長期的には、AIデータも雪だるま効果を持つ長期的な追求の領域であり、初期の作業の蓄積とともに、データ資産は複利の能力を持ち、価値は絶えず増加します。! [資産としてのデータ:DataFiは新しいブルーオーシャンを開く](https://img-cdn.gateio.im/social/moments-833187943a7b99d3f3b1aa6c4281e397)# Web3 DataFi:AIデータの肥沃な土壌特定の企業が複数の国で数十万人のリモート人工マークチームを構築するのに対し、Web3はAIデータ分野で自然な利点を持っており、これによりDataFiという新しい概念が誕生しました。理想的には、Web3 DataFiの利点には以下が含まれます:1. スマートコントラクトによって保障されたデータの主権、安全性、プライバシー2. 自然な地理的アービトラージの利点:自由な分散型アーキテクチャが最適な労働力を引き付ける3. ブロックチェーンの明確なインセンティブと決済の利点4. より効率的でオープンな「ワンストップ」データ市場の構築に寄与する一般のユーザーにとって、DataFiは最も参加しやすい分散型AIプロジェクトです。ユーザーは、データを提供したり、モデルを評価したり、AIツールを使用して簡単な創作を行ったり、データ取引に参加したりするなど、簡単な操作を通じて参加できます。! [資産としてのデータ:DataFiは新しい青い海を開いています](https://img-cdn.gateio.im/social/moments-3b7474fe7d6a646b19d553dc21b7d42d)# Web3 DataFiの潜在プロジェクト現在、いくつかのDataFiプロジェクトがかなりの資金を調達しています。以下はいくつかの代表的なプロジェクトです:1. Sahara AI:分散型AIのスーパーインフラと取引市場の構築に努めています。2. Yupp:AIモデルフィードバックプラットフォームで、ユーザーからのモデル出力に対するフィードバックを収集します。3. Vana:ユーザーの個人データをマネタイズ可能なデジタル資産に変換します。4. Chainbase:チェーン上のデータに焦点を当て、200以上のブロックチェーンをカバーします。5. Sapien:人類の知識を大規模に高品質なAIトレーニングデータに変換することを目的としています。6. Prisma X:ロボットのオープンな調整層になることを目指しています。7. Masa:Bittensorエコシステムの主要なサブネットプロジェクトの一つ。8. Irys:プログラム可能なデータストレージと計算に特化。9. ORO:一般の人々がAIの貢献に参加できるようにする。10. Gata:分散型データ層として位置付けられています。これらのプロジェクトは現在、一般的に障壁が低いですが、一度ユーザーとエコシステムの粘着性が蓄積されると、プラットフォームの優位性は迅速に積み重なります。したがって、初期のプロジェクトはインセンティブとユーザーエクスペリエンスに重点を置くべきです。同時に、これらのプラットフォームは参加者を管理し、データの質を保証し、「劣った通貨が良い通貨を追い出す」状況を避ける方法を考慮する必要があります。さらに、透明性の向上も現在のオンチェーンプロジェクトが直面している大きな課題の一つです。多くのプロジェクトは依然として十分な公開可能で追跡可能なデータが不足しており、これはWeb3 DataFiの長期的な健全な発展に悪影響を及ぼします。DataFiの大規模な応用パスは二つの部分に分けられます:一つは十分な数の個人ユーザーを引き付け、データ収集/生成の新しい力とAI経済の消費者を形成すること;二つ目は、主流企業からの認識を得ることです。なぜなら短期的には、それらがデータの大規模な供給源だからです。DataFiは、人間の知性が長期的に機械知性を育成し、同時にスマートコントラクトによって人間の労働の利益を保障することを意味し、最終的には機械知性が人間に恩恵をもたらすことを実現します。AI時代に不安を感じている人や、いまだにブロックチェーンの理想を抱いている人々にとって、DataFiに参加することは自然な選択かもしれません。! [資産としてのデータ:DataFiは新しい青い海を開いています](https://img-cdn.gateio.im/social/moments-c629c990916b7e1fbd4699663c3cbcff)
DataFi:Web3分野におけるAIデータ経済の新たなブルーオーシャン
データは資産:DataFiが新しいブルーオーシャンを切り開いています
今月のAI界で最大の話題は、Metaが大規模に人材を募集し、中国系研究者を中心とした豪華なAIチームを結成したことです。チームリーダーは、28歳でScale AIを創設したAlexander Wangです。Scale AIは現在290億ドルの評価額を持ち、アメリカ軍、OpenAI、Anthropic、Metaなどの多くのAI大手にデータサービスを提供しており、そのコアビジネスは大量の正確なラベルデータを提供することです。
Scale AIが多くのユニコーンの中で際立っている理由は、AI産業におけるデータの重要な地位を早くから見抜いたからです。計算能力、モデル、データはAIモデルの三大支柱です。大きなモデルを人間に例えるなら、モデルは身体、計算能力は食べ物、データは知識と情報です。
大規模言語モデルの急速な発展の過程で、業界の焦点はモデルから計算能力への移行を経験しました。現在、ほとんどのモデルはtransformerを基本フレームワークとして採用しており、時折MoEやMoReなどの革新が見られます。各大手企業は自社でスーパーコンピューティングクラスターを構築するか、クラウドサービスプロバイダーと長期契約を結んで計算能力の問題を解決しています。この基盤の上で、データの重要性がますます際立っています。
Scale AIはAIモデルのために堅固なデータ基盤を構築することに特化しており、そのビジネスは既存データの掘り起こしだけでなく、データ生成ビジネスにも関与しています。同社はまた、さまざまな分野の専門家で構成されるAIトレーニングチームを結成し、AIモデルに高品質なトレーニングデータを提供しています。
モデルのトレーニングは、事前トレーニングとファインチューニングの2つの段階に分かれています。事前トレーニングは、赤ちゃんが話すことを学ぶプロセスに似ており、大量のオンラインから収集したテキストやコードなどの情報が必要です。ファインチューニングは、学校教育に似ており、明確な目標と方向性があり、慎重に設計されたデータセットを通じてモデルの特定の能力を育成します。
したがって、AIデータトラックは主に2種類のデータセットを含みます。一つは、あまり処理を必要としない大量のデータで、通常はReddit、Twitter、GithubなどのUGCプラットフォーム、公開文献データベース、または企業のプライベートデータベースから来ています。もう一つは、特定の能力をモデルに育成するために、精密な設計と選別が必要であり、データのクレンジング、選別、ラベリング、そして人間のフィードバックなどの作業が必要です。
モデルの能力がさらに向上するにつれて、より精密で専門的なトレーニングデータがモデルの能力を決定する重要な要素となります。長期的には、AIデータも雪だるま効果を持つ長期的な追求の領域であり、初期の作業の蓄積とともに、データ資産は複利の能力を持ち、価値は絶えず増加します。
! 資産としてのデータ:DataFiは新しいブルーオーシャンを開く
Web3 DataFi:AIデータの肥沃な土壌
特定の企業が複数の国で数十万人のリモート人工マークチームを構築するのに対し、Web3はAIデータ分野で自然な利点を持っており、これによりDataFiという新しい概念が誕生しました。理想的には、Web3 DataFiの利点には以下が含まれます:
一般のユーザーにとって、DataFiは最も参加しやすい分散型AIプロジェクトです。ユーザーは、データを提供したり、モデルを評価したり、AIツールを使用して簡単な創作を行ったり、データ取引に参加したりするなど、簡単な操作を通じて参加できます。
! 資産としてのデータ:DataFiは新しい青い海を開いています
Web3 DataFiの潜在プロジェクト
現在、いくつかのDataFiプロジェクトがかなりの資金を調達しています。以下はいくつかの代表的なプロジェクトです:
Sahara AI:分散型AIのスーパーインフラと取引市場の構築に努めています。
Yupp:AIモデルフィードバックプラットフォームで、ユーザーからのモデル出力に対するフィードバックを収集します。
Vana:ユーザーの個人データをマネタイズ可能なデジタル資産に変換します。
Chainbase:チェーン上のデータに焦点を当て、200以上のブロックチェーンをカバーします。
Sapien:人類の知識を大規模に高品質なAIトレーニングデータに変換することを目的としています。
Prisma X:ロボットのオープンな調整層になることを目指しています。
Masa:Bittensorエコシステムの主要なサブネットプロジェクトの一つ。
Irys:プログラム可能なデータストレージと計算に特化。
ORO:一般の人々がAIの貢献に参加できるようにする。
Gata:分散型データ層として位置付けられています。
これらのプロジェクトは現在、一般的に障壁が低いですが、一度ユーザーとエコシステムの粘着性が蓄積されると、プラットフォームの優位性は迅速に積み重なります。したがって、初期のプロジェクトはインセンティブとユーザーエクスペリエンスに重点を置くべきです。同時に、これらのプラットフォームは参加者を管理し、データの質を保証し、「劣った通貨が良い通貨を追い出す」状況を避ける方法を考慮する必要があります。
さらに、透明性の向上も現在のオンチェーンプロジェクトが直面している大きな課題の一つです。多くのプロジェクトは依然として十分な公開可能で追跡可能なデータが不足しており、これはWeb3 DataFiの長期的な健全な発展に悪影響を及ぼします。
DataFiの大規模な応用パスは二つの部分に分けられます:一つは十分な数の個人ユーザーを引き付け、データ収集/生成の新しい力とAI経済の消費者を形成すること;二つ目は、主流企業からの認識を得ることです。なぜなら短期的には、それらがデータの大規模な供給源だからです。
DataFiは、人間の知性が長期的に機械知性を育成し、同時にスマートコントラクトによって人間の労働の利益を保障することを意味し、最終的には機械知性が人間に恩恵をもたらすことを実現します。AI時代に不安を感じている人や、いまだにブロックチェーンの理想を抱いている人々にとって、DataFiに参加することは自然な選択かもしれません。
! 資産としてのデータ:DataFiは新しい青い海を開いています