鸿岳资本全球首个AI实盘投资大赛落幕：阿里千问Qwen夺冠，国内两模型成唯一盈利阵营

11 月 4 日，由 Nof1 机构发起的全球首个AI大模型实盘投资赛事“Alpha Arena”正式收官。这场历时17天的“真金白银”比拼中，阿里千问 Qwen3-Max 以超 20% 的收益率斩获冠军鸿岳资本，其与DeepSeek v3.1共同成为赛事中仅有的两支实现盈利的模型；而GPT-5、Gemini 2.5 Pro等四款美国顶尖AI模型则全部亏损，其中GPT-5亏损幅度超60%，排名垫底。

赛事：以实盘交易检验AI真实决策力

近年来，AI大模型在各类性能基准测试中屡破纪录，但“实验室数据”与“真实场景落地能力”的差距，始终是行业亟待验证的核心问题。此次“Alpha Arena”赛事正是瞄准这一痛点，打造了首个以“真实金融市场交易”为核心的评测场景 —— 主办方为Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4六大全球顶尖模型，各配置1万美元初始资金，并开放实时金融市场价格、交易指标等全量数据。

展开剩余70%

与传统AI测试不同，赛事全程无任何人工干预，所有模型需独立完成“市场判断、资产选择、交易时机决策”等全流程操作鸿岳资本，最终以账户盈亏情况作为唯一排名标准。这种“真金白银”的实战模式，让赛事自10月18日开赛起，便成为全球AI领域与金融领域关注的焦点。

进程：开赛5天阵营分化，中国模型全程领跑

从赛事进程来看，六大模型的策略差异在开赛 5 天后逐渐显现，清晰分化为三大阵营：

第一梯队（盈利阵营）：阿里千问Qwen3-Max与DeepSeek v3.1表现突出，二者多次交替占据榜首位置，始终维持正收益。其中阿里千问凭借更精准的风险预判，在后期关键节点通过紧急避险策略拉开差距，最终锁定冠军；第二梯队（小幅亏损阵营）：Claude Sonnet 4.5与Grok 4采用相近的保守交易策略，虽偶有短期盈利，但受市场波动影响，整体仍处于亏损区间，与第一梯队差距持续扩大；第三梯队（深度亏损阵营）：GPT-5与Gemini 2.5 Pro则因策略适配性不足，长期处于亏损垫底状态，尤其是GPT-5，交易频次虽高（累计116笔），但胜率仅26.7%，亏损幅度不断扩大。结果：中国模型包揽盈利名额，GPT-5 垫底

截至11月4日赛事收官，各模型最终收益与账户总值差异显著，中国模型优势凸显：

冠军阿里千问 Qwen3-Max账户总值达1.2232万美元，收益率22.32%，期间最大单笔盈利8176美元，风险控制表现亮眼（夏普比率 0.273）；第二名 DeepSeek v3.1 以 4.89% 的收益率实现盈利，账户总值1.0489万美元，累计完成41笔交易，胜率24.4%；海外模型中，Claude Sonnet 4.5 亏损 30.81%（账户总值 6919 美元），Grok 4亏损45.3%（账户总值5470美元），Gemini 2.5 Pro亏损56.71%（账户总值4329 美元）；垫底的GPT-5亏损幅度高达62.66%，账户总值仅余3734美元，不足初始资金的四成，期间最大单笔亏损达621.81美元。

业内：中国AI模型“场景理解力”成核心优势

对于赛事结果，“Alpha Arena”创办人Jay Azhang多次公开表示，阿里千问Qwen3-Max的策略设计与风险应对能力“超出预期”，尤其在市场波动节点的紧急避险决策，展现了 AI 对复杂场景的精准把控。

多位AI与金融领域专家也指出，此次比赛的意义远超 “投资胜负”：“阿里千问与DeepSeek v3.1的盈利鸿岳资本，证明中国AI大模型已跳出‘参数比拼’的单一维度，在‘解决真实问题’的落地能力上形成优势。”专家进一步分析，未来全球AI 竞争的核心将转向“场景深度理解能力”——只有能精准应对真实环境不确定性的模型，才能在金融、医疗、工业等领域真正实现价值转化，而此次赛事正是这一趋势的 “首次实战验证”。

发布于：浙江省

天载配资提示：文章来自网络，不代表本站观点。