一場真金白銀的AI炒幣實驗：DeepSeek狂賺11%暫時奪冠，GPT-5血虧

日期： 2025年10月21日下午5:30

作者：J.A.E

前不久，專注於金融市場人工智能研究的實驗室 nof1 在推上宣佈啓動了一項具有劃時代意義的實驗——Alpha Arena 大模型交易測試，這條推文也在圈内外獲得超1400萬次圍觀。

該實驗在Perp DEX龍頭 Hyperliquid 上進行，首次將六個主流的大語言模型（LLM），置於一個真實的競爭性交易環境中。每個模型均被分配 10,000 美元的真實資金自主交易Perp。截至目前，DeepSeek 以約 11% 的回報率穩居第一。

LLM 首次在加密市場“實彈演習”，Deepseek暫居首位

Alpha Arena的裡程碑意義在於其超越了傳統金融 AI 模型的局限性。過往的金融AI研究大多受限於歷史回測環境，其交易行為無法對市場價格産生實質性影響，且模型僅在靜態數據上訓練。相較之下，Alpha Arena 創造了一個動態的零和競爭環境，LLM不得不持續適應不斷變化的市場價格與流動性做出即時決策。該範式轉變令 Alpha Arena 被視作 AI 在加密市場的“第一次實彈演習”。

為了保證測試的公平性，nof1 為所有模型都輸入了“相同的提示與數據”，這意味著模型的表現將主要由其内在的推理架構、從分析轉化為交易指令的工具調用效率，及對風險的自主管控能力等決定。

截至目前，Deepseek 以超 11% 的回報率穩居榜首，Claude 以約 10% 的回報率緊隨其後，Grok 排名則降至第 3，回報率下滑至約2%，其它模型均處於虧損狀態。

10月20日，DeepSeek 與 Grok 一度以約 40% 的收益率領跑榜單前二，但所有模型因大盤回落都經歷了一次集體回撤，回報率也隨之大幅縮水，表明 LLM 可能還不具備判斷行情狀態的能力。

其中，Claude同時錄得最大盈虧，交易策略最為激進；Gemini 執行了最多的交易（64 筆），支付了迄今為止最高的交易費用 600.42美元，高頻交易的同時，未兼顧成本控制問題；GPT-5 總虧損高達4,051美元，賬戶淨值曲綫一路下滑，排名墊底。

圖：Alpha Arena 初期戰績對比 (10月21日)

從圖中數據可知，傳統的 LLM 基準測試能力與交易實戰的淨收益之間存在明顯脫節。在 Finance Reasoning (金融推理) 或 AIME (數學) 等基準測試中，GPT-5 與 Grok-4 通常都處於領先地位，證明其具備處理復雜金融公式和高階數學的能力。

然而，金融市場不僅是靜態的數學推理，更是一個涉及實時數據、市場情緒分析、流動性變化的動態係統。在 Alpha Arena 的實盤競賽中，Deepseek V3.1 的表現卻更為優異。這表明，LLM 創造收益的關鍵並不在於靜態的知識儲備或復雜推理得分，而在於將分析結果轉化為交易指令的執行能力。Deepseek V3.1 以較低的交易量與勝率實現了較高的回報，揭示其可能只需通過少數幾筆交易，即可更精準地捕獲到關鍵的價格發現機會，同時有效管理手續費。

反例就是高頻交易和費用不敏感對 LLM 收益模型的影響。以 Gemini 2.5 Pro 為例，根據其交易記錄，Gemini 在交易活動上的收益實際高於虧損，但可能由於缺乏對手續費的精確估算與優化能力，導致其淨收益被全部侵蝕，從而陷入淨虧損。

AI交易將普及，策略同質化或引發係統性風險

CZ針對此事在X平台上發帖稱，預計“AI+交易”或將更為普遍，並帶來更多的交易量。

AI 的大規模部署亦或將重塑加密市場的流動性和價格發現機制。算法交易是現代金融市場的核心驅動力。AI 驅動的算法能夠以高達 0.01 秒的速度執行交易，遠超人類的反應速度（0.1 至 0.3 秒），將顯著提升了市場效率。統計數據顯示，2023 年全球加密貨幣的算法交易量已達 94 萬億美元，其中超過 70% 的交易量由機器人完成。

隨著 AI 變得更加成熟，其將擁有更強大的自動化交易功能。AI 不僅能加速市場效率，還能通過為更廣泛的資産與交易平台提供流動性來減少滑點，進而提高市場的整體穩定性與韌性。

然而，AI 在加密市場中的自主高速運行，或也將放大係統性金融風險。歷史上已有先例可循：2010 年的道瓊斯工業平均指數“閃電崩盤”（Flash Crash）證明，當大量算法交易係統具有類似的設置並互相觸發時，將引發連鎖反映，進而導致市場崩潰。

在 AI+Crypto 場景下，這種風險可能會被放大，原因就在於策略同質化。目前，已有市場觀察者指出Grok-4與DeepSeek的賬戶淨值曲綫極為相似。Alpha Arena 的零和環境特性會對所有參賽的 LLM 構成高壓的適應性測試。在零和博弈中，任何短暫領先的 LLM 策略都可能會被其它競對檢測並學習。

未來，如果大量 AI Agent 集中在少數幾個頂尖 LLM（如 DeepSeek V3.1, Grok-4）上開發，並共享了相似的訓練數據與策略邏輯，其就將形成監管者所稱的 “橫向問題“（Horizontal Issue）。在加密市場 24/7 高槓桿運行的特性下，這類策略趨同可能導致 Agent 間的相互檢測與競爭，一旦出現市場波動或意外輸入，所有 Agent 或將同時觸發賣出指令，造成比 2010 年更嚴重的“連鎖抛售”（Selling Spirals）。

另一方面，CZ也在推文中表達了疑惑，道出了大量觀察者心中的問題。大家以往都認為，只有當擁有卓越的獨家策略時，交易才能發揮出最佳效果。而現在六大 LLM 的策略都可被公開參考，那麼DeepSeek的策略是否還將行之有效？盈利能力能持續多久？跟Gemini、GPT-5反向操作是否將取得比DeepSeek更高的收益？Grok-4是否在學習DeepSeek？極端或單邊行情下，哪個模型會表現最好？……這些，依然是需要時間才能回答的問題。

雖然還有大量問題等待解答，但 nof1 的 Alpha Arena 仍是一次極具創新性的實驗，其將 LLM 帶入了真實的加密市場。這次“實彈演習”也生動展現了 AI 擁有重塑加密市場的巨大潛力，而Alpha Arena 僅僅是一個開始。

内容來源：PANews

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可，禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載，請發郵件至 content@finet.com.hk，獲得書面確認及授權後，方可轉載。

更多精彩内容，請點擊：財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

PANews

PANews是區塊鏈和Web3.0領域領先的智庫型信息平台，為行業用戶提供具有國際視野的前沿資訊與報告。PANews優質多元的内容以圖文、音頻、視頻等形式在全網多渠道覆蓋，包含推特、微博、抖音、視頻號等主流平台，旨在成為用戶的Web3信息官。PANews同時還是騰訊新聞的内容合作夥伴，内容被福佈斯、財新等媒體引用，獲得騰訊新聞、今日頭條、澎湃新聞等頒發的相關獎項。PANews的兩位聯合創始人均為福