GPU革命：我們如何用零知識證明讓以太坊快上1000倍

星球日报

2025-05-29 05:57:02

本文將解析一個關鍵技術突破：通過高性能 GPU 與零知識證明的結合，我們正在讓以太坊的運行效率提升數百乃至上千倍。這不僅解決了區塊鏈長期存在的性能瓶頸，也爲未來的 Web3 基礎設施提供了可行的技術路徑。

如果你曾好奇：爲什麼以太坊運行緩慢、交易成本居高不下？又或者你正關注下一代區塊鏈技術的關鍵驅動因素？那麼，本文將爲你提供清晰的答案。

問題本質：區塊鏈爲何像堵車的高速公路？

可以將以太坊想象爲一條高速公路。如今，所有用戶和應用都在爭搶有限的車道資源，導致網路擁堵、交易處理緩慢、Gas 費居高不下。

傳統的解決思路無非兩種：

修更多的車道 —— 也就是構建 Layer 網路（例如 Rollups）
讓車輛更小 —— 也就是對交易數據進行壓縮

但如果有一種方式，可以“瞬移”車輛，而非繼續在車道中擠兌呢？這正是零知識證明（Zero-Knowledge Proofs, ZKPs）帶來的範式革新。它的核心思路是：無需傳輸所有交易數據本身，僅通過生成一個數學證明，即可驗證交易的真實性。換句話說，我們不再需要讓每輛車都駛過高速公路，而是可以直接驗證“這些車確實到達了終點”。這不僅減少了數據傳輸負擔，更讓“高吞吐 + 強安全 + 去信任驗證”三者得以兼容。

The Verge：以太坊的下一步演進

以太坊當前正在推進一個宏大的技術藍圖——The Verge，你可以把它理解爲以太坊的“瘦身計劃”。目標是：讓運行以太坊節點的門檻大幅降低，就像在手機上運行一個 App 那樣簡單。未來，每個人都能輕鬆加入以太坊網路，而不必依賴一臺高性能遊戲電腦。

但這項計劃背後有一個關鍵技術挑戰：它需要在極短時間內完成數百萬次復雜的數學運算。

這正是 Polyhedra 團隊所專注的突破方向 —— 如何利用 GPU 加速大規模 ZK 計算，在保證驗證安全性的同時大幅提升執行效率。

技術挑戰：這組數據將顛覆你的認知

爲了理解我們正在應對的復雜度，以下是以太坊當前鏈上操作的真實規模：

共識驗證（Consensus Verification）：
每個區塊包含約 9, 000 萬次 SHA 2-256 哈希計算，以及 2, 048 個 BLS 數字籤名驗證
狀態轉換證明（State Transition Proofs）：
每個區塊約需執行 50 萬次 Keccak 哈希操作
當前瓶頸：
基於 CPU 的零知識證明器（Prover）目前每秒僅能處理約 200 萬次 Poseidon 哈希計算

真正的挑戰在於——我們需要用零知識證明技術來完成上述所有運算，這無疑大幅疊加了計算復雜度。

突破點：GPU 的算力革命

衆所周知，GPU 是遊戲玩家和 AI 工程師的心頭好。但實際上，這些圖形處理單元在處理零知識證明所需的大規模並行數學計算時，展現出遠超 CPU 的能力。

在 Polyhedra，我們對 ZK 證明系統進行了 GPU 原生優化，並取得了震撼性的突破性性能指標：

性能躍遷，遠超預期

基礎數學操作（Mersenne 31 領域）提速 362 倍
復雜加密運算（BN 254 橢圓曲線）提速高達 2826 倍
一項原本耗時 21 分鍾的零知識計算，現已壓縮至僅需 450 毫秒

換句話說，這相當於你每天早高峯的通勤時間從 20 分鍾驟減爲不到半秒。這不是漸進式優化，而是一種範式級別的計算躍遷。

爲什麼這項突破與你息息相關？

更低的交易成本：證明生成速度更快，意味着整體計算成本顯著下降，進而帶來更低的 Gas 費用。用戶和網路雙贏。
更強的安全性保障：還記得我們提到過以太坊年均超過 4000 萬美元的安全預算嗎？通過我們的技術，輕節點也能輕鬆驗證整條以太坊共識鏈，享受主網級安全保障，無需龐大資源開銷。
更普及的節點運行，手機也能跑以太坊：我們在性能和效率上的持續優化，正讓在普通設備上運行以太坊節點成爲可能。未來，驗證區塊鏈數據或許只需一部手機即可完成。

技術核心：我們是如何做到的

1. GPU 原生設計：CUDA 優化的 Sumcheck 協議

我們基於 CUDA 構建的 Sumcheck 實現，充分發揮了 GPU 的並行計算優勢：

針對數域運算（加法、乘法、冪運算）設計定制化 CUDA 內核
利用合並內存訪問模式，最大化 GPU 帶寬利用率（RTX 4090 實測帶寬高達 1008 GB/s）
使用 warp 級原語，實現高效的歸約操作（Reduction）

這一層級的深度定制讓 Sumcheck 協議不再受限於 CPU 的串行瓶頸。

內存爲王：帶寬瓶頸優化傳統觀點認爲 ZK Prover 計算瓶頸在於算力，但我們的實證表明 —— Sumcheck 是典型的內存帶寬瓶頸問題：

內存吞吐分析：帶寬使用率達到理論上限的 95% +
數據結構優化：採用 Structure-of-Arrays（SoA）替代傳統 Array-of-Structures（AoS）結構
SM 單元利用率提升：通過優化線程塊配置，實現最佳硬件佔用率

通過解決內存吞吐問題，我們將 ZK 計算變成了真正的高效流式任務。

3. 針對不同數域的定制化優化策略

不同的密碼學字段具有不同的運算特性，我們爲每個主流場量身定制了優化路徑：

Mersenne 31 (M 31)： 31 位整數優化，高效模運算結構
M 31 ext 3 ：擴展字段支持，兼顧多項式擴張與低開銷
BN 254 ：基於 Montgomery 算法的定制乘法器，專爲 254-bit 大整數場設計

這種高度針對性的底層優化讓我們的 ZK Prover 既通用又極致高效。

性能數據拆解：優化發生的地方

我們並非只做了“快很多”，而是將 ZK 性能推向了前所未有的高度。以下是實測性能數據：

技術架構揭祕：引擎蓋下的真相

GKR 協議棧：加速的核心

我們的加速優化聚焦於 GKR（Goldwasser-Kalai-Rothblum）協議，具體包括：

線性 GKR 層：用於處理加法與乘法門
Sumcheck 協議：性能瓶頸所在，佔據 CPU 總計算時間的近 50%
多項式評估階段：在 GPU 上將計算時間從 8.4 秒降至 9.5 毫秒

GPU 內核設計詳解

第一階段：多項式評估

在 2 ^n 個點上並行計算
使用共享內存緩存系數，提高訪問速度
借助 warp shuffle 實現高效歸約操作
第二階段：挑戰生成
在 GPU 內部執行 Fiat-Shamir 哈希操作，避免 CPU-GPU 頻繁切換
降低 CPU 與 GPU 之間的通信延遲

內存傳輸優化：打通數據流的“最後一公裏”

我們在 CPU-GPU 交互方面也做了系統性優化，以確保帶寬不成爲瓶頸：

PCIe 數據吞吐優化：處理 2 ^{ 27 } 個元素僅需 737 毫秒
Pinned Memory：支持“零拷貝”數據傳輸，減少復制成本
異步操作調度：計算與通信並行進行，最大化資源利用率

實話實說：挑戰依舊存在

我們始終堅持透明——GPU 加速並非萬能解法，在實際推進中，我們也遭遇了不少技術瓶頸：

內存帶寬已觸頂

即便是 H100 擁有高達 3.35 TB/s 的帶寬，在高負載下也會成爲性能瓶頸
對比來看：較大的橢圓曲線域（如 BN 254）比小域（如 M 31）更快觸頂

GPU 顯存容量受限

RTX 4090 在處理 2 ^{ 29 } 個元素時內存耗盡
實際部署時需要精細的內存調度策略，避免溢出風險

域大小與性能之間的權衡

“GPU 優勢點”對比：從何時開始超過 CPU？

跨平台性能實測

我們在不同等級的 GPU 上進行了基準測試，涵蓋消費級和數據中心級硬件：

消費級 GPU

RTX 3090 ：內存帶寬 936 GB/s，性能提升最高可達 951 倍
RTX 4090 ：內存帶寬 1008 GB/s，性能提升最高達 1565 倍
數據中心 GPU
NVIDIA H100：帶寬高達 3.35 TB/s，性能提升最高可達 2826 倍

結論清晰明確：內存帶寬是零知識證明加速的關鍵變量。

展望未來：我們的路線圖

我們遠未止步，接下來將持續攻堅以下目標：

更極致的加速：針對特定操作，目標是實現 10, 000 倍的速度提升
更廣泛的硬件兼容：從高性能遊戲顯卡到數據中心級加速卡全覆蓋
原生集成以太坊：我們正在與以太坊客戶端開發團隊合作，將我們的 GPU ZK 證明堆棧直接集成進 L1 層

加入這場變革浪潮！

這不僅僅是速度的提升，更是一次對區塊鏈可達性的徹底重塑。無論你是誰，都能找到參與的方式：

開發者：歡迎查看我們的 Expander 和 CUDA 倉庫，一同構建未來
學習者：關注我們的研究研討會和技術深潛，持續更新不落伍
所有人：擴散這項技術！理解的人越多，Web3 的未來就越近

核心觀點回顧

我們正處在一個令人振奮的技術轉折點。零知識證明與 GPU 加速的結合，不只是性能的邊際提升，而是一場範式的變革。

我們正在重新定義以太坊的速度、成本與可用性邊界。

關鍵技術成果一覽：

面向生產環境的 ZK 證明實現超 1000 倍加速
GPU 內存帶寬利用率超過 95%
開源實現，隨時可集成

Web3 的未來不僅是去中心化的，更是極速可達的，而且它比你想象的來得更快。

你對這些進展最感興趣的是哪一點？歡迎在評論區留言，或在 Twitter 上與我互動，我們非常樂意深入交流這些技術細節！

未來屬於速度，也屬於你。下次見，持續構建，不止於快！

ETH-2.66%

查看原文

本頁面內容僅供參考，非招攬或要約，也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
#PI#
308305 帖子
#BTC#
272202 帖子
#ETH#
179236 帖子
4#GateioInto11#
82742 帖子
5#GT#
70068 帖子
6#ContentStar#
68367 帖子
7#DOGE#
63456 帖子
8#BOME#
61522 帖子
9#MAGA#
52519 帖子
10#SLERF#
50573 帖子