Kimi 用 300 个 AI Agent 预测世界杯，能战胜博彩公司的赔率吗？

发表于 2026-06-14 分类于 AI

Kimi 300 个 AI 预测 104 场比赛

世界杯开赛前两天，Kimi 发了一份 200 页的赛事预测报告，用 300 个 AI Agent 同时分析 104 场比赛。

一个自然的问题：这玩意儿能比博彩公司的赔率更准吗？

简短的答案：不能。 两届世界杯回测，模型的准确率都输给了博彩赔率。

但这份报告真正有意思的地方，恰恰不在于这个答案。先说他们怎么做的，再说为什么打不过，最后说打不过的情况下到底有什么价值。

300 个 Agent 怎么预测世界杯

“300 个 Agent 预测世界杯”，可以理解成：找 300 个不同专长的球评人，有的只看 Elo 排名，有的只分析战术相克，有的专盯伤病，有的算天气和海拔影响，有的跟踪博彩赔率变动。让他们各自独立分析，然后加权投票。谁最近预测得准，谁的票权就大；如果两个”球评人”的结论差太多，系统会让他们先辩论、拿出证据，再出结论。

300 个各有所长的专家集体投票，听着比一个人拍脑袋靠谱多了。但报告很诚实地给了回测数据：

2022 世界杯，模型的单场胜负平准确率 56.2%，比瞎猜（33%）强不少，但博彩公司的赔率隐含概率准确率是 58.5%。300 个 Agent 吭哧吭哧算半天，还不如直接看赌盘。2018 世界杯也一样：模型 58.4%，市场 60.1%，落后 1.7 个百分点。两届回测，全输。

更残酷的是，就算你真信模型去赌球，也赚不了钱。博彩公司的 overround（抽水）通常在 5-10%，意味着你得显著跑赢市场才可能盈利，而这个模型连市场本身都没跑赢。

沙特 2-1 阿根廷那种 xG 只有 0.14 的比赛，任何模型都算不出来。足球本来就是低信噪比的东西，强队对弱队胜率也就 60-70%，一张红牌就能把 30% 的实力差距抹平。Nike 世界杯广告叫”让剧本都作废”。这就是足球的底层逻辑——一项连 300 个 AI Agent 做 10 万次蒙特卡洛模拟都无法驯服的运动。

打不过赔率，但找到了赔率的偏见

但打不过赔率，不代表这份报告没有价值。

恰恰相反，它最有意思的部分，是找到了赔率本身的偏见。

比如德国。博彩市场给德国的夺冠概率大约 7.5%，排在第六七位。但模型算出来是 9%-14%，偏差高达 3.6 个百分点，所有 48 支球队里最大的。

报告的解释很有说服力：市场还在为 2018 和 2022 连续两届小组出局买单。经典的近因偏差，你对一支球队的判断被最近的惨痛记忆锚定了，而忽略了当下的变化。

而当下的德国确实不一样了。纳格尔斯曼的高压体系 PPDA 7.8（每次防守动作前允许对手传球次数），欧洲区最低，逼抢强度碾压所有对手。穆西亚拉和维尔茨的双核组合，联袂出场 20 场拿了 12 胜 6 平 2 负。2024 本土欧洲杯也只是加时赛最后一分钟被最终冠军西班牙绝杀。

反过来，英格兰被市场高估了 3.3 个百分点。图赫尔效应 + 预选赛 8 战全胜零失球的叙事太诱人了，但 60 年没夺过冠的历史包袱和淘汰赛心理脆弱性，模型认为市场没有充分定价。

所以这份报告的价值不在预测结果，大概率也不全对。它逼你问自己：你看好或不看好一支球队，到底是基于数据，还是被记忆和叙事绑架了？

夺冠概率 Top 5

Kimi 给出的夺冠概率 Top 5：

**西班牙 16.5%**：卫冕冠军，佩德里 + 亚马尔的中场代际交接已经完成，唯一的问题是 2024 欧洲杯夺冠后的”冠军倦怠”
**法国 15%**：姆巴佩的第三届世界杯，纸面阵容依然是地球最强之一，但德尚的保守风格和更衣室管理始终是悬念
**阿根廷 12%**：梅西告别战的叙事加成巨大，但 37 岁的体能和阵容老化让概率打了折
**英格兰 & 德国各 11%**：一个被高估 3.3pp，一个被低估 3.6pp，两队的实际实力可能比市场定价更接近

前两名的置信区间高度重叠，统计上几乎分不出高下。

不只是 Kimi：AI 预测世界杯的集体共识

有意思的是，Kimi 不是唯一一家用 AI 预测世界杯的。

高盛用自己的 AI 模型做了 2 万次模拟，结论：西班牙夺冠（26% 概率），决赛击败阿根廷。Opta Supercomputer 跑了 2.5 万次模拟，也把西班牙排第一（16.1%）。Decrypt 做了个更有趣的实验，让 7 家不同的 AI（Claude Opus 4.8、GPT-5.5、DeepSeek v4、Grok 等）各自独立预测，结果 4 家选西班牙，3 家选阿根廷。甚至 ChatGPT 单独预测 104 场比赛，给出的冠军是法国。

几乎所有 AI 的最大公约数：西班牙是最大热门。

但 Decrypt 的实验揭示了一个很有意思的分歧：选西班牙的模型主要依赖实时 Elo 评分，选阿根廷的模型更依赖 FIFA 排名。同样是 AI，喂不同的数据，出来的结论就不同。 这大概也是为什么 Kimi 选择用 300 个 Agent 覆盖 20 个维度。一个模型的判断可能被单一数据源锚定，和球迷被记忆锚定本质上是同一个问题。

48 队扩军：天气和海拔成了新变量

最后一组数据：48 队扩军后，冠军要打 8 场比赛（史上最多），在北美 16 个城市之间辗转。达拉斯和休斯顿的高温让高强度跑动下降 26%，墨西哥城 2240 米海拔让非适应球队的冲刺能力打八五折。阵容深度和环境适应，第一次成了和技战术同等重要的变量。

7 月 19 日决赛哨响，高盛、Opta、Kimi、ChatGPT 的预测都会被摊开来审判。但足球从来不打算被算出来——让剧本作废的，可能是一张红牌、一阵热浪，或者一个没人押注的故事。

相关链接

完整 205 页报告