Gemini 3 Pro惨败,神秘模型登顶:一场用真金白银测试 AI 预言能力的实验
最近看到一个有有趣的实验:Arcada Labs给五个顶尖大模型各发了1万美元真金白银,让它们在Kalshi预测市场上自主下注,看谁能更准确地预测未来。
在聊这个实验之前,可能需要先解释一下什么是”预测市场”,因为这东西确实比较新和小众一些。
最近看到一个有有趣的实验:Arcada Labs给五个顶尖大模型各发了1万美元真金白银,让它们在Kalshi预测市场上自主下注,看谁能更准确地预测未来。
在聊这个实验之前,可能需要先解释一下什么是”预测市场”,因为这东西确实比较新和小众一些。
如果说往年的 Google Year in Search(年度热搜)是世界的“流量排行榜”,那么 2025 年的这份榜单,更像是一台灵敏的“时代地震仪”。
它记录的不是谁的总量最大,而是谁在这一年引发了最剧烈的关注震荡。在过去,这台地震仪震出的通常是全球性的体育盛事(如世界杯),或者是牵动所有人神经的突发新闻。但今年,震中变了。
打开 Google 发布的 Year in Search 2025,全球热搜总榜的第一名赫然写着:Gemini(Google发布的最强AI大模型)。
这个信号说明:2025 年,AI 终于不再只是科技圈的性能对比,它已经像水和电一样,渗透进了普通人的生活。但如果我们继续挖掘这份榜单背后更深层的暗流,其实包括我们在搜什么(What)变了,我们搜索的方式(How)和原因(Why)也都发生了质的飞跃。
最近两年,以司美格鲁肽(Semaglutide)和替尔泊肽(Tirzepatide)为代表的GLP-1类药物火遍全球,被许多人奉为“减肥神药”。
但在热度背后,普通人最关心的问题往往被淹没在营销中:这药到底安全吗?我只是微胖能不能打?打了能不能停?
就在不久前,世界卫生组织(WHO)发布了首个关于成人肥胖药物治疗的全球指南。这份指南并非商业软文,而是基于严谨科学证据的“官方建议”。
如果你正在考虑通过药物减重,以下四点是你必须了解的核心真相:
我们生活在一个技术名词大爆炸的年代。
打开科技新闻,新词汇每天都在轰炸我们的眼球:”大语言模型””量子纠缠””合成生物学””边缘计算”……有时你刚弄明白什么是”深度学习”,行业里又开始热议”联邦学习”和”具身智能”。
这种感觉就像站在一片没有地图的茂密森林里。我们知道周围都是树,但分不清哪些是刚刚破土的嫩芽,哪些是盘根错节的参天古木,更不知道整片森林究竟长什么样。我们很难分辨,哪些是真正改变世界的突破,哪些仅仅是自媒体制造的泡沫。
澳大利亚悉尼科技大学(UTS)的一组研究者决定绘制一张人类技术的”全景地图”。有趣的是,他们没有聘请昂贵的专家组,而是利用了人类的”集体智慧” - 他们让AI读取了维基百科、数百万本书籍和专利数据,利用机器学习算法自动梳理了23,000多项技术。
这项名为 Cosmos 1.0 的研究最近发表在《自然》旗下的 Scientific Data 上,为我们展示了一个令人惊叹的技术宇宙。
如果把人类所有的技术知识洒向太空,它们会形成什么形状?
近日,OpenAI突然发布了他们的AI浏览器Atlas,这个消息瞬间点燃了整个科技圈。当ChatGPT的缔造者决定进军浏览器市场时,所有人都意识到:AI浏览器这条赛道,已经从”未来趋势”变成了”当下战场”。
这让我想起应该写一下最近两个月深度使用AI浏览器的经历。作为一个重度互联网用户,浏览器几乎是我每天使用时间最长的软件。从最早的IE到Firefox,再到如今的Chrome,浏览器的进化一直在改变着我们与互联网交互的方式。而在2025年,AI的深度介入正在重新定义”浏览器”这个概念。
在OpenAI发布Atlas之前,我已经深度体验了两款AI浏览器产品:Perplexity推出的Comet浏览器和Google在Chrome中集成的Gemini助手。作为一个使用Chrome多年的老用户,我惊讶地发现Comet几乎让我产生了更换默认浏览器的冲动。恰逢Atlas发布掀起新一轮关注,今天就来分享一下我的使用体验和思考。
还在担心 AI 进展停滞吗?Artificial Analysis 刚发布的2025年第三季度AI状况报告给出了明确答案:“任何关于进展停滞的说法都被严重夸大了” 。
报告的总体基调是,AI 不仅没有停歇,反而在以“比以往更快的速度”进化 。从 “AI 代理”(Agents) 成为实验室的新焦点 ,到视频、语音技术的全面爆发 ,整个行业的竞争正在全方位加剧,没有出现任何垄断或“明确的赢家” 。
下面为你提炼这份重磅报告中最值得关注的核心趋势与事实:
几个月前,我翻译了一篇Stratechery关于Sam Altman的深度访谈。当时给我留下最深刻印象的,是Altman对一个假设性问题的回答。
访谈者问:**”五年后什么会更有价值:是一个拥有十亿日活跃用户、不需要做客户获取的目标网站,还是最顶尖的模型?”**
Altman的回答毫不犹豫:”那个拥有十亿用户的网站。“
这个答案当时让我颇感意外。因为在我的认知里,OpenAI这样的顶级AI实验室,其核心愿景应该是AGI(通用人工智能)。事实上,OpenAI官网上的使命声明也清楚地写着:”Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity.“(我们的使命是确保通用人工智能,即比人类更聪明的AI系统,造福全人类。)

那么,一个致力于实现AGI的组织,为什么会认为用户规模比技术领先更重要?这个疑问一直萦绕在我心头。直到最近看到The Information发布了一篇深度报道《OpenAI Readies Itself for Its Facebook Era》(OpenAI准备迎接它的Facebook时代),我感觉这可能部分能协助理解OpenAI这个转变背后的逻辑,以及它所引发的内部争议…
在曼哈顿的一个屋顶酒吧里,AI创业公司Anthropic的员工们正与大约150名量化研究员(俗称“宽客”)相谈甚欢。他们的目的只有一个:说服这些华尔街的精英们,将他们的才华投入到构建通用人工智能(AGI)的宏伟事业中。
这并非个例。根据科技招聘专家的数据,过去12-18个月内,专门寻求量化金融背景人才的AI和软件公司数量增长了40-50%。但这并非单向的挖角,而是一场深刻的双向奔赴,一个关于“跨界者”正在重新定义游戏规则的时代故事。
为什么AI巨头会对宽客们如此青睐??答案在于其核心技能的高度重叠。
今年8月,我写过《手腕上的私人健康专家:谷歌发布基于Gemini的Fitbit AI教练》,当时Google在Made by Google发布会上首次展示了这款由Gemini驱动的个人健康教练,描绘了一个令人激动的愿景:让普通人也能拥有像世界顶级运动员那样的全天候健康专家团队。
两个多月过去,这个产品终于从概念走向现实。从10月28日开始,Google正式向美国符合条件的Android Fitbit Premium用户开放公开预览版,iOS用户也将在不久后获得访问权限。作为一直在关注AI健康可穿戴方向的从业者,这次我们聚焦于这款产品的实际功能、技术架构和真实使用场景 - 当AI健康教练真正运行在你的手腕上时,它能做什么?又是如何做到的?
在进入功能细节之前,我们需要理解一个核心问题:为什么我们需要AI健康教练?
传统健康管理有一个致命缺陷:碎片化且难以个性化。你的医生给你建议”多运动、注意睡眠”,但不告诉你具体该怎么做;你下载的健身app提供通用计划,但不知道你昨晚睡眠不好、今天不适合高强度训练;你的智能手表/手环收集了海量数据,但只是展示数字,不解释这些数字背后的意义。
最终结果是:你拥有大量数据,却依然不知道该做什么。
Google的解决方案是让AI成为连接数据和行动的智能桥梁。Fitbit健康教练不只是另一个功能,而是对整个产品体验的重新设计 - 从被动记录到主动指导,从数据展示到洞察分析,从通用建议到个性化方案。