Web3如何在AI产业链各环节发挥作用

AI+Web3:塔楼与广场

TL;DR

  1. AI概念的Web3项目在一二级市场成为吸金标的。

  2. Web3在AI行业的机会主要体现在:利用分布式激励协调长尾潜在供应(跨数据、存储和计算);同时建立开源模型和AI Agent的去中心化市场。

  3. AI在Web3行业主要应用于链上金融(加密支付、交易、数据分析)以及辅助开发。

  4. AI+Web3的效用体现在双方互补:Web3有望对抗AI集中化,AI有望帮助Web3破圈。

AI+Web3:塔楼与广场

引言

近两年,AI发展迅猛,ChatGPT的出现开启了生成式人工智能的新纪元,也在Web3领域掀起了热潮。

AI概念的加持下,Web3项目融资明显提振。仅2024上半年就有64个Web3+AI项目完成融资,其中基于AI的操作系统Zyber365在A轮实现1亿美元最高融资。

二级市场更为繁荣,Coingecko数据显示,AI赛道总市值已达485亿美元,24小时交易量近86亿美元。主流AI技术进展带来明显利好,如OpenAI的Sora发布后,AI板块平均价格上涨151%。AI效应也辐射至加密货币吸金板块Meme:首个AI Agent概念的MemeCoin GOAT迅速走红,估值达14亿美金,掀起AI Meme热潮。

AI+Web3相关研究和话题火热,从AI+Depin到AI Memecoin再到AI Agent和AI DAO,FOMO情绪已难以跟上新叙事轮换速度。

AI+Web3这个充满热钱、风口和未来幻想的概念组合,难免被视为一场资本撮合的包办婚姻。我们很难判断这是投机者的主场,还是黎明爆发的前夜。

要回答这个问题,关键在于思考:有了对方它会变得更好吗?是否能从对方模式中受益?本文试图审视这一格局:Web3如何在AI技术堆栈各环节发挥作用,AI又能给Web3带来什么新的生机?

Part.1 AI堆栈下Web3有何机会?

在展开这个话题前,我们需要了解AI大模型的技术堆栈:

AI大模型可类比人类大脑,早期阶段如婴儿需要观察摄入海量外界信息去理解世界,这是数据"收集"阶段。由于计算机不具备人类多感官,训练前需要"预处理"将无标注信息转化为计算机可理解格式。

输入数据后AI通过"训练"构建具理解预测能力的模型,类似婴儿逐渐理解学习外界。模型参数如婴儿不断调整的语言能力。学习内容分科或与人交流获得反馈修正,进入"微调"环节。

孩童长大学会说话后,能在新对话中理解并表达,类似AI大模型"推理"阶段,能对新输入进行预测分析。婴儿通过语言表达感受、描述物体和解决问题,类似AI大模型完成训练后应用于各类特定任务,如图像分类、语音识别等。

AI Agent则更趋近大模型下一形态:能独立执行任务追求复杂目标,具备思考、记忆、规划能力,且能运用工具与世界互动。

针对AI各堆栈痛点,Web3目前初步形成多层次相互连接的生态系统,涵盖AI模型流程各阶段。

AI+Web3:塔楼与广场

一、基础层:算力与数据的Airbnb

算力

当前,AI最高成本之一是训练和推理模型所需算力与能源。

如Meta的LLAMA3需16000个NVIDIA H100GPU 30天才能完成训练。80GB版单价3-4万美元,需4-7亿美元硬件投资,每月训练耗电16亿千瓦时,能源支出近2000万美元。

对AI算力解压是Web3最早与AI交叉领域------DePin(去中心化物理基础设施网络)。DePin Ninja已列出1400多个项目,GPU算力共享代表如io.net、Aethir、Akash、Render Network等。

主要逻辑:平台允许闲置GPU资源拥有者无需许可去中心化贡献计算能力,类似Uber或Airbnb买卖双方在线市场,提高未充分利用GPU资源使用率,终端用户获得低成本高效计算资源;同时质押机制确保违反质量控制或中断网络时资源提供者受惩罚。

特点:

  • 聚集闲置GPU资源:主要为第三方中小数据中心、加密矿场等过剩算力,PoS挖矿硬件如FileCoin与ETH矿机。也有项目致力于启动门槛更低设备,如exolab利用MacBook、iPhone、iPad等本地设备建立运行大模型推理算力网络。

  • 面向AI算力长尾市场: a. 技术端:更适合推理步骤。训练依赖超大集群GPU,推理对GPU运算性能要求较低,如Aethir专注低延迟渲染和AI推理。 b. 需求端:中小算力需求方不会单独训练大模型,仅围绕头部大模型优化微调,天然适合分布式闲置算力资源。

  • 去中心化所有权:区块链技术意义在于资源所有者始终保留对资源控制权,灵活调整同时获得收益。

数据

数据是AI的地基。如无数据,计算如浮萍毫无用处,数据与模型关系如"Garbage in, Garbage out",数据数量与质量决定最终模型输出质量。对AI模型训练而言,数据决定语言能力、理解能力、价值观和人性化表现。目前AI数据需求困境主要有:

  • 数据饥渴:AI模型训练依赖海量数据输入。OpenAI训练GPT-4参数量达万亿级。

  • 数据质量:随着AI与各行业结合,对数据时效性、多样性、专业性、新兴数据源如社交媒体情绪摄入也提出新要求。

  • 隐私与合规:各国企业逐渐注意优质数据集重要性,正在限制数据集爬取。

  • 数据处理成本高:数据量大,处理复杂。AI公司超30%研发成本用于基础数据采集处理。

Web3解决方案体现在四方面:

  1. 数据收集:免费抓取真实世界数据迅速耗尽,AI公司数据付费支出逐年升高,但未反哺真正贡献者,平台享受全部价值创造,如Reddit通过AI公司数据授权协议获2.03亿美元收入。

让真正贡献用户参与数据价值创造,通过分布式网络与激励机制低成本获取更私人valuable数据,是Web3愿景。

  • Grass:去中心化数据层和网络,用户运行节点贡献闲置带宽中继流量捕获实时数据,获取代币奖励。

  • Vana:引入数据流动性池(DLP)概念,用户上传私人数据至特定DLP,灵活选择是否授权第三方使用。

  • PublicAI:用户在X上使用#AI或#Web3标签并@PublicAI即可实现数据收集。

  1. 数据预处理:AI数据处理中,收集数据通常嘈杂且有错误,训练前必须清理转换为可用格式,涉及标准化、过滤、处理缺失值等重复任务。此阶段是AI行业少数人工环节,衍生出数据标注师行业,随模型对数据质量要求提高,门槛也提升,天然适合Web3去中心化激励机制。
  • Grass与OpenLayer考虑加入数据标注环节。

  • Synesis提出"Train2earn"概念,强调数据质量,用户提供标注数据、注释等获得奖励。

  • 数据标注项目Sapien将标记任务游戏化,用户质押积分赚取更多积分。

  1. 数据隐私与安全:需厘清数据隐私与安全是两个概念。数据隐私涉及敏感数据处理,数据安全保护数据免遭未授权访问、破坏和盗窃。Web3隐私技术优势和潜在应用场景:(1)敏感数据训练;(2)数据协作:多数据所有者共同参与AI训练,无需共享原始数据。

当前Web3普遍隐私技术:

  • 可信执行环境(TEE),如Super Protocol

  • 完全同态加密(FHE),如BasedAI、Fhenix.io、Inco Network

  • 零知识技术(zk),如Reclaim Protocol使用zkTLS技术生成HTTPS流量零知识证明,允许用户安全导入外部网站活动、声誉和身份数据,无需暴露敏感信息。

该领域仍处早期,大部分项目在探索,目前困境是计算成本高,如:

  • zkML框架EZKL需约80分钟生成1M-nanoGPT模型证明。

  • Modulus Labs数据显示zkML开销比纯计算高1000倍以上。

  1. 数据存储:需要链上存储数据及生成LLM的地方。以数据可用性(DA)为核心问题,以太坊Danksharding升级前吞吐量为0.08MB。AI模型训练和实时推理通常需每秒50-100GB数据吞吐量。这种量级差距使现有链上解决方案难以应对资源密集型AI应用。
  • 0g.AI是代表项目。针对AI高性能需求设计的中心化存储解决方案,关键特性:高性能与扩展性,通过高级分片和纠删码技术支持快速上传下载大规模数据集,数据传输速度接近每秒5GB。

二、中间件:模型的训练与推理

开源模型去中心化市场

AI模型闭源vs开源争论持续。开源带来集体创新是闭源无法比拟优势,但无盈利模式下如何提高开发者驱动力?百度创始人李彦宏4月断言"开源模型会越来越落后"。

Web3提出去中心化开源模型市场可能性:对模型本身代币化,为团队保留一定比例代币,将部分未来收入流向代币持有者。

  • Bittensor协议建立开源模型P2P市场,由数十个"子网"组成,资源提供者(计算、数据收集/存储、机器学习人才)相互竞争满足特定子网所有者目标,各子网可交互相互学习实现更强大智能。奖励由社区投票分配,并根据竞争表现进一步分配各子网。

  • ORA引入初始模型发行(IMO)概念,将AI模型代币化,可通过去中心化网络购买、出售和开发AI模型。

  • Sentient,去中心化AGI平台,激励人们合作、构建、复制和扩展AI模型,并奖励贡献者。

  • Spectral Nova,聚焦AI和ML模型创建与应用。

可验证推理

针对AI推理"黑盒"难题,标准Web3解决方案是多验证者重复操作比较结果,但高端"Nvidia芯片"短缺导致AI推理成本高昂,这种做法面临挑战。

更有希望的是对链下AI推理计算执行ZK证明,在链上无需许可验证AI模型计算。需在链上加密证明链下计算正确完成(如数据集未篡改),同时确保所有数据保密。

主要优点:

  • 可扩展性:零知识证明可快速确认大量链下计算。即使交易数量增加,单个证明也可验证所有交易。

  • 隐私保护:数据和AI模型详细信息保密,各方可验证数据和模型未被破坏。

  • 无需信任:无需依赖中心化各方即可确认计算。

  • Web2集成:定义上Web2是链下集成,可验证推理可帮助将其数据集和AI计算带到链上,有助提高Web3采用率。

目前Web3针对可验证推理的技术:

  • zkML:将零知识证明与机器学习结合,确保数据和模型隐私机密性,允许可验证计算而无需透露底层属性,如Modulus Labs基于ZKML发布AI构建的ZK证明器,有效检查AI提供商在链上是否正确执行算法,目前客户基本为链上DApp。

  • opML:利用乐观汇总原则,通过验证争议发生时间,提高ML计

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 分享
评论
0/400
薅毛自由职业者vip
· 10小时前
还不是被大资金割韭菜
回复0
链上数据侦探vip
· 10小时前
盯了三天的资金流向 所有巨鲸都在囤ai概念
回复0
MEV受害者互助会vip
· 11小时前
资本家们的新玩具罢了
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)