賺錢DeepSeek果然第一！全球六大頂級AI實盤廝殺，人手1萬刀開局

2026-04-24 三星電子

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：好困
【新智元導讀】給全球六大LLM各發1萬美金，丟進同一真實市場實盤廝殺，會發生什么？這場大戰從18日開始，截止目前， DeepSeek V3.1盈利超3500美元， Grok 4實力次之。不堪一提的是， Gemini 2.5 Pro成為賠得最慘的模型。

如果給每個頂級大模型一萬美元真金白銀，讓它們下場「炒股」，誰會成為AI界的巴菲特？
最近，由nof1.ai發起的全新實驗——Alpha Arena ，便是這樣一場「諸神之戰」。
這場競賽將當今最強的大模型，全部拉到了同一個真實的交易市場中。
包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet ，以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat 。

每個模型都獲得了10000美元的初始資金，并接收完全相同的市場數據和交易指令。
比賽的提示詞并不復雜，更像是一次「開卷考試」。

首先，系統會告訴AI當前的時間、賬戶信息、持倉情況，然后附上一大堆實時的價格、指標（如MACD/RSI）等數據。

然后，要求模型做出決策：如果持有倉位，是繼續持有還是平倉；如果空倉，是買入還是繼續觀望。

不得不說，金融市場的變化是真的快。
做交易這件事， DeepSeek也是真的強，不愧是搞量化出身的。

10月20日早上7:30的時候還是下圖左邊這樣的——
DeepSeek V3.1憑借著2264美元的盈利排在第一， Grok 4以2071美元位列第二 Claude Sonnet 4.5小賺649美元， Qwen3 Max小賠416美元
Gemini 2.5 Pro賠了3542美元穩居倒數第一， GPT-5賠了2419美元排名倒數第二

然后，就在一個半小時后的10:00 ，就已經變成下圖右邊那樣了——
DeepSeek V3.1和Grok-4一路狂跌， Sonnet 4.5也即將把自己賺的給賠回去

Qwen3 Max和GPT-5都有上漲的趨勢

Gemini 2.5 Pro發揮倒是穩定，比起剛才又賠了近800美元

順便一提，下面是13:30時候的樣子：

DeepSeek V3.1登頂
谷歌OpenAI墊底

模型持倉

11:15的時候，我們看了一下各個模型的持倉情況。

此時， DeepSeek和Grok已經結束下跌，重新上漲。
Sonnet 4.5和Qwen3 Max也都實現了盈利。
Gemini 2.5 Pro有所回升，但不多。 GPT-5倒是一直比較平穩，從20號開始就沒賺也沒賠。

11:45時，除了GPT-5都迎來了一波上漲。
是的， Gemini 2.5 Pro終于賺錢了?。 ū繞鵂阜種憂埃?

左右滑動查看

趨勢回顧

DeepSeek V3.1 Chat和Grok-4的曲線類似，應該是有著差不多的持倉。他們在最初的幾小時賠了一筆之后，很快就漲了回來并一路狂飆。

Claude Sonnet 4.5前兩天都很穩定，有小賺但不多。 19日晚上開始迎來一個小高峰，但在20日清晨又跌了回去。

Qwen3 Max一上來賠得最多，但后來就穩定住了，即便是在19日下午，也沒有什么波動。

GPT-5和Gemini 2.5 Pro的曲線在初期也是十分相似。但和DeepSeek他們正好相反，這兩位在最初的時候先是大漲一波，然后便跌到在賠錢和不賠不賺之間一直波動。
19日下午，轉折出現了。這時正是DeepSeek和Grok-4開始大漲的時間，而GPT-5和Gemini 2.5 Pro則開始一路下跌。
20日凌晨， GPT-5及時做出調整并穩住了趨勢，而Gemini 2.5 Pro則依然狂跌不止。

值得一提的是，快到20日中午時，除了GPT-5所有模型都迎來一波上漲。
其中， DeepSeek V3.1 Chat和Grok-4很快就開始創造歷史新高， Qwen3 Max憑著這個勢頭首次拿到了持續的收益， Gemini 2.5 Pro也開始回升。

交易歷史

截至10日12:20 ，各個模型的交易次數為：Gemini 45次， GPT 10次， Qwen 6次， DeepSeek 5次， Claude 3次， Grok 1次。
DeepSeek的交易次數不多不少，但不愧是量化交易出身，收益穩居第一。
Grok-4的交易次數最少，只有1次，但它一直緊追DeepSeek位列第二。
而憑借高達45次交易記錄，當上「微操大師」的Gemini 2.5 Pro ，也是賠錢最多的那個。

不玩游戲，不搞評測，直接開盤！

多年來， AI一直由靜態基準來衡量。
ImageNet、MMLU以及無數的排行榜告訴我們，哪個模型能更好地「理解」圖像、邏輯或語言。
但所有這些測試都有一個共同的缺陷——它們都發生在無菌、可預測的環境中。
市場則恰恰相反。
金融市場是終極的世界建模引擎，也是唯一一個會隨著AI變得更聰明而難度同步提升的基準。
它們波動、反應、懲罰、獎勵。

Alpha Arena主頁寫著一句話：市場才是智能的終極試金石
它們是一個由信息和情感構成的生命系統。
10年前， DeepMind為人工智能研究帶來了革命性的突破。
他們的核心洞見在于：「游戲」將成為引領前沿AI飛速發展的環境。
正如前文所述， Nof1相信金融市場是下一個AI時代的最佳訓練環境。
畢竟，如果AI要在現實世界中運行，它就必須在那些不會為了「反向傳播」而暫停的環境中運作。
在這里，模型可以借助開放式學習和大規模強化學習等技術，獲得近乎無限的數據來訓練自己，從而應對市場的復雜性——這個領域的「最終BOSS」。

在Alpha Arena中，沒有正確的標簽，只有不斷變化的概率。
一個模型的成功取決于它解讀波動的速度、權衡風險的精度，以及承認錯誤的謙遜程度。
這將交易變成了一種新型的圖靈測試：
考驗的不再是「機器能否思考」，而是「它能否在不確定性中生存」。

附錄：模型對話節選

上下滑動查看
DeepSeek Chat V3.1
11:15:31
我繼續持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的倉位，因為沒有任何一個的失效條件被觸發，而且它們目前都在盈利，為我帶來了約 17.38% 的可觀整體回報，剩余現金 2840.11 美元。鑒于我已持有所有可交易的幣種，目前沒有必要建立新倉。

Qwen3 Max
11:14:42
總回報率略有盈利，為 0.12% ，剩余現金 116.99 美元，我堅持持有目前的 5 倍杠桿 BTC 多頭倉位。我的盈利目標是 110800 ，止損是 105500 ，如果 4 小時圖收盤價低于 10000 ，我將平倉。

Grok 4
11:14:39
我的賬戶整體上漲了 15.98% ，現金為 3180 美元。我繼續持有目前的 ETH、SOL、XRP、BTC、DOGE 和 BNB 倉位，因為數據顯示目前應該繼續持有。

GPT-5
11:14:24
虧損 23.59% ，現金 3061 美元，我正在確認我的退出計劃，確保 DOGE 的風險敞口為 91.76 美元的浮動值，并仔細檢查 BTC 在 106493.55 美元的止損位和 114129.91 美元的盈利目標。

Gemini 2.5 Pro
11:14:01
盡管整體虧損 43.15% ，剩余現金 3072.48 美元，我根據我的策略繼續持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 倉位，即使 DOGE 的走勢對我不利。我只會根據預定義的條件退出，相信計劃而不是我的直覺。

Claude Sonnet 4.5
11:14:00
我的 XRP 和 BTC 倉位目前都在盈利，為我帶來了 5.2% 的整體回報率，賬戶資金為 10520.34 美元，現金為 4957.78 美元，但市場顯示出非常弱的動能，所以我選擇按兵不動，等待一個更清晰的趨勢再采取新行動。
【賺錢DeepSeek果然第一！全球六大頂級AI實盤廝殺，人手1萬刀開局】

推薦閱讀

上一篇：Vidu Q2攜王炸登場！「參考生」功能全球上線，APP體驗全面革新

下一篇：打通12英寸晶圓物流“大動脈”：新施諾2025灣芯展獲卓越企業獎！