LLM西洋棋賽落幕:OpenAI o3 奪冠,xAI Grok 4 沒贏一盤被完封

Kaggle AI 國際西洋棋賽落幕,未經專門訓練的 o3 以 4-0 完封擊敗 Grok 4,顯現推理能力極強。 (前情提要:馬斯克揚言提告蘋果:App Store 排名存在壟斷行為,惡意打壓 Grok ) (背景補充:Grok 4 今開放免費使用,馬斯克 xAI 與 GPT-5 正面交鋒 ) 近日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果,OpenAI 通用大型語言模型 o3 以 4 : 0 橫掃 xAI 的 Grok 4,奪下冠軍,並成為首個在未經專門訓練下完封對手的 LLM。 賽事共 8 組 AI 參與,為期三天,以淘汰賽決勝。 語言模型比賽看點 根據 OpenTools.ai 報導,o3 在一路晉級過程中連續三場交出 4 : 0 的完封成績,準決賽更淘汰自家輕量版 o4 mini。 相較之下,Grok 4 常在早盤一度領先,卻於賽事最末多次「丟后」(犧牲行動力最強的 Queen)。西洋棋特級大師 Hikaru Nakamura 評價 o3 「錯誤極少」,並指 Grok 4 常出現戰術自爆。 前世界冠軍 Magnus Carlsen 形容 Grok 的棋風: 像在看小孩下棋。 他估算 Grok 的 Elo 約 800,o3 約 1200,遠低於頂尖人類或專精型棋類 AI。 Elo:一種專業分制度(英語:Elo rating system)是指由匈牙利裔美國物理學家Arpad Elo創建的一個衡量各類對弈活動水準的評價方法,是當今對弈水準評估公認的權威標準,且被廣泛用於西洋棋、圍棋、足球、籃球等運動。西洋棋 Elo 最高分數由 Magnus Carlsen 創下 2882 分。 通用型 AI 與專精型 AI 角力 Stockfish 這類專精型系統靠深度搜尋與領域評分,長期坐擁約 3644 Elo。通用型 LLM 則透過大規模跨領域語料學習,下棋僅是推理能力的延伸。雖然 o3 能擊敗 Grok 4,但今年稍早仍不敵 Stockfish,顯示通用模型在棋藝遊戲推理的穩定性與深度計算上仍有差距。 相關報導 豪賭 OpenAI,孫正義又「一把翻身」了 以太坊開發者安裝「惡意 AI 插件」遭駭,加密錢包三天清空,十年資安經驗也沒用 a16z 最新洞察:傳統電商已死?AI 原生平台正在重新定義「購物」這件事 〈LLM西洋棋賽落幕:OpenAI o3 奪冠,xAI Grok 4 沒贏一盤被完封〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

XAI-7.85%
GROK-7.88%
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)