
11 月 4 日,由 Nof1 机构发起的全球首个AI大模型实盘投资赛事“Alpha Arena”正式收官。这场历时17天的“真金白银”比拼中,阿里千问 Qwen3-Max 以超 20% 的收益率斩获冠军鸿岳资本,其与DeepSeek v3.1共同成为赛事中仅有的两支实现盈利的模型;而GPT-5、Gemini 2.5 Pro等四款美国顶尖AI模型则全部亏损,其中GPT-5亏损幅度超60%,排名垫底。
赛事:以实盘交易检验AI真实决策力近年来,AI大模型在各类性能基准测试中屡破纪录,但“实验室数据”与“真实场景落地能力”的差距,始终是行业亟待验证的核心问题。此次“Alpha Arena”赛事正是瞄准这一痛点,打造了首个以“真实金融市场交易”为核心的评测场景 —— 主办方为Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4六大全球顶尖模型,各配置1万美元初始资金,并开放实时金融市场价格、交易指标等全量数据。
展开剩余70%与传统AI测试不同,赛事全程无任何人工干预,所有模型需独立完成“市场判断、资产选择、交易时机决策”等全流程操作鸿岳资本,最终以账户盈亏情况作为唯一排名标准。这种“真金白银”的实战模式,让赛事自10月18日开赛起,便成为全球AI领域与金融领域关注的焦点。
进程:开赛5天阵营分化,中国模型全程领跑从赛事进程来看,六大模型的策略差异在开赛 5 天后逐渐显现,清晰分化为三大阵营:
第一梯队(盈利阵营):阿里千问Qwen3-Max与DeepSeek v3.1表现突出,二者多次交替占据榜首位置,始终维持正收益。其中阿里千问凭借更精准的风险预判,在后期关键节点通过紧急避险策略拉开差距,最终锁定冠军; 第二梯队(小幅亏损阵营):Claude Sonnet 4.5与Grok 4采用相近的保守交易策略,虽偶有短期盈利,但受市场波动影响,整体仍处于亏损区间,与第一梯队差距持续扩大; 第三梯队(深度亏损阵营):GPT-5与Gemini 2.5 Pro则因策略适配性不足,长期处于亏损垫底状态,尤其是GPT-5,交易频次虽高(累计116笔),但胜率仅26.7%,亏损幅度不断扩大。结果:中国模型包揽盈利名额,GPT-5 垫底截至11月4日赛事收官,各模型最终收益与账户总值差异显著,中国模型优势凸显:
冠军阿里千问 Qwen3-Max账户总值达1.2232万美元,收益率22.32%,期间最大单笔盈利8176美元,风险控制表现亮眼(夏普比率 0.273); 第二名 DeepSeek v3.1 以 4.89% 的收益率实现盈利,账户总值1.0489万美元,累计完成41笔交易,胜率24.4%; 海外模型中,Claude Sonnet 4.5 亏损 30.81%(账户总值 6919 美元),Grok 4亏损45.3%(账户总值5470美元),Gemini 2.5 Pro亏损56.71%(账户总值4329 美元); 垫底的GPT-5亏损幅度高达62.66%,账户总值仅余3734美元,不足初始资金的四成,期间最大单笔亏损达621.81美元。业内:中国AI模型“场景理解力”成核心优势对于赛事结果,“Alpha Arena”创办人Jay Azhang多次公开表示,阿里千问Qwen3-Max的策略设计与风险应对能力“超出预期”,尤其在市场波动节点的紧急避险决策,展现了 AI 对复杂场景的精准把控。
多位AI与金融领域专家也指出,此次比赛的意义远超 “投资胜负”:“阿里千问与DeepSeek v3.1的盈利鸿岳资本,证明中国AI大模型已跳出‘参数比拼’的单一维度,在‘解决真实问题’的落地能力上形成优势。”专家进一步分析,未来全球AI 竞争的核心将转向“场景深度理解能力”——只有能精准应对真实环境不确定性的模型,才能在金融、医疗、工业等领域真正实现价值转化,而此次赛事正是这一趋势的 “首次实战验证”。
发布于:浙江省天载配资提示:文章来自网络,不代表本站观点。