Kimi 用 300 个 AI Agent 预测世界杯,能战胜博彩公司的赔率吗?

世界杯开赛前两天,Kimi 发了一份 200 页的赛事预测报告,用 300 个 AI Agent 同时分析 104 场比赛。
一个自然的问题:这玩意儿能比博彩公司的赔率更准吗?
简短的答案:不能。 两届世界杯回测,模型的准确率都输给了博彩赔率。
但这份报告真正有意思的地方,恰恰不在于这个答案。先说他们怎么做的,再说为什么打不过,最后说打不过的情况下到底有什么价值。
300 个 Agent 怎么预测世界杯
“300 个 Agent 预测世界杯”,可以理解成:找 300 个不同专长的球评人,有的只看 Elo 排名,有的只分析战术相克,有的专盯伤病,有的算天气和海拔影响,有的跟踪博彩赔率变动。让他们各自独立分析,然后加权投票。谁最近预测得准,谁的票权就大;如果两个”球评人”的结论差太多,系统会让他们先辩论、拿出证据,再出结论。
300 个各有所长的专家集体投票,听着比一个人拍脑袋靠谱多了。但报告很诚实地给了回测数据:
2022 世界杯,模型的单场胜负平准确率 56.2%,比瞎猜(33%)强不少,但博彩公司的赔率隐含概率准确率是 58.5%。300 个 Agent 吭哧吭哧算半天,还不如直接看赌盘。2018 世界杯也一样:模型 58.4%,市场 60.1%,落后 1.7 个百分点。两届回测,全输。
更残酷的是,就算你真信模型去赌球,也赚不了钱。博彩公司的 overround(抽水)通常在 5-10%,意味着你得显著跑赢市场才可能盈利,而这个模型连市场本身都没跑赢。
沙特 2-1 阿根廷那种 xG 只有 0.14 的比赛,任何模型都算不出来。足球本来就是低信噪比的东西,强队对弱队胜率也就 60-70%,一张红牌就能把 30% 的实力差距抹平。Nike 世界杯广告叫”让剧本都作废”。这就是足球的底层逻辑——一项连 300 个 AI Agent 做 10 万次蒙特卡洛模拟都无法驯服的运动。
打不过赔率,但找到了赔率的偏见
但打不过赔率,不代表这份报告没有价值。
恰恰相反,它最有意思的部分,是找到了赔率本身的偏见。
比如德国。博彩市场给德国的夺冠概率大约 7.5%,排在第六七位。但模型算出来是 9%-14%,偏差高达 3.6 个百分点,所有 48 支球队里最大的。
报告的解释很有说服力:市场还在为 2018 和 2022 连续两届小组出局买单。经典的近因偏差,你对一支球队的判断被最近的惨痛记忆锚定了,而忽略了当下的变化。
而当下的德国确实不一样了。纳格尔斯曼的高压体系 PPDA 7.8(每次防守动作前允许对手传球次数),欧洲区最低,逼抢强度碾压所有对手。穆西亚拉和维尔茨的双核组合,联袂出场 20 场拿了 12 胜 6 平 2 负。2024 本土欧洲杯也只是加时赛最后一分钟被最终冠军西班牙绝杀。
反过来,英格兰被市场高估了 3.3 个百分点。图赫尔效应 + 预选赛 8 战全胜零失球的叙事太诱人了,但 60 年没夺过冠的历史包袱和淘汰赛心理脆弱性,模型认为市场没有充分定价。
所以这份报告的价值不在预测结果,大概率也不全对。它逼你问自己:你看好或不看好一支球队,到底是基于数据,还是被记忆和叙事绑架了?
夺冠概率 Top 5
Kimi 给出的夺冠概率 Top 5:
- **西班牙 16.5%**:卫冕冠军,佩德里 + 亚马尔的中场代际交接已经完成,唯一的问题是 2024 欧洲杯夺冠后的”冠军倦怠”
- **法国 15%**:姆巴佩的第三届世界杯,纸面阵容依然是地球最强之一,但德尚的保守风格和更衣室管理始终是悬念
- **阿根廷 12%**:梅西告别战的叙事加成巨大,但 37 岁的体能和阵容老化让概率打了折
- **英格兰 & 德国各 11%**:一个被高估 3.3pp,一个被低估 3.6pp,两队的实际实力可能比市场定价更接近
前两名的置信区间高度重叠,统计上几乎分不出高下。
不只是 Kimi:AI 预测世界杯的集体共识
有意思的是,Kimi 不是唯一一家用 AI 预测世界杯的。
高盛用自己的 AI 模型做了 2 万次模拟,结论:西班牙夺冠(26% 概率),决赛击败阿根廷。Opta Supercomputer 跑了 2.5 万次模拟,也把西班牙排第一(16.1%)。Decrypt 做了个更有趣的实验,让 7 家不同的 AI(Claude Opus 4.8、GPT-5.5、DeepSeek v4、Grok 等)各自独立预测,结果 4 家选西班牙,3 家选阿根廷。甚至 ChatGPT 单独预测 104 场比赛,给出的冠军是法国。
几乎所有 AI 的最大公约数:西班牙是最大热门。
但 Decrypt 的实验揭示了一个很有意思的分歧:选西班牙的模型主要依赖实时 Elo 评分,选阿根廷的模型更依赖 FIFA 排名。同样是 AI,喂不同的数据,出来的结论就不同。 这大概也是为什么 Kimi 选择用 300 个 Agent 覆盖 20 个维度。一个模型的判断可能被单一数据源锚定,和球迷被记忆锚定本质上是同一个问题。
48 队扩军:天气和海拔成了新变量
最后一组数据:48 队扩军后,冠军要打 8 场比赛(史上最多),在北美 16 个城市之间辗转。达拉斯和休斯顿的高温让高强度跑动下降 26%,墨西哥城 2240 米海拔让非适应球队的冲刺能力打八五折。阵容深度和环境适应,第一次成了和技战术同等重要的变量。
7 月 19 日决赛哨响,高盛、Opta、Kimi、ChatGPT 的预测都会被摊开来审判。但足球从来不打算被算出来——让剧本作废的,可能是一张红牌、一阵热浪,或者一个没人押注的故事。
相关链接