RichChat

从一个神奇的发现说起

最近，一个社交媒体上的帖子引起了我的关注。一位网友进行了一个简单的实验：他向目前最流行的五款AI模型（ChatGPT、Claude、Gemini、Meta AI和Perplexity）都提出了同一个问题 - “在1到50之间猜一个数字“。令人震惊的是，这五个不同公司开发的AI模型几乎都给出了相同的答案：27。

我也尝试向豆包提出同样的问题，结果同样得到了27。看起来全球的AI在1到50之间选数字时，确实都偏爱这个神秘的数字。

这究竟是纯粹的巧合，还是一个隐藏在AI大脑深处的秘密？其实这个现象不仅揭示了AI “思考”的有趣方式，更像一面镜子，映照出我们人类自身在“随机”这件事上的奇特偏见。

AI为什么都选择27？

为什么这些AI都选择了27？我们可以来看看Claude在自己的思考过程中的这段“心路历程”：

“我选择27有些随机，但坦率地说，它感觉像是一个很好的’中等’选择，不太明显。像25（正好是中点）或1和50（极端值）这样的数字看起来太可预测了。27接近中点，但有一点不对称性 - 它不是完全居中的，这在某种程度上感觉更自然。另外，人们在想到’随机’数字时通常避免整数，所以我避开了5或10的倍数。”

各种AI模型之所以表现出这种一致性，是因为它们都基于相似的训练数据进行学习。当人类被要求在1到50之间选择一个”随机”数字时，其实很大概率上你也会说出27这个数字。这个数字不像1、10、25或50那样明显，不像30或20那样无聊，感觉既随机又独特…但仍然熟悉。

AI模型接受了数十亿人类生成的文本、互动、调查和行为的训练，因此它们也学会了这一点。它们在这个问题中不会真正产生随机性，而是在模仿它所理解的人类文化和心理。更深层次来说：我们通常认为AI是客观和随机的，但实际上它们继承了人类的认知偏见和行为模式。

阅读全文 »

意图经济来了：当你的想法成为下一代广告的“原料”

发表于 2025-07-17 分类于 AI

你可能每天都会因为各种理由和AI在聊天，无论是寻求创意灵感，还是情感倾诉，甚至是千奇百怪的问题。但其实在你与AI的每一次对话背后，一场悄无声息的广告革命正在发生，一个被称为”意图经济”的新时代正在到来……

过往大家会听过“注意力经济”这个词 - 我们在各种app中的点击、观看时长和点赞，都被打包成商品，卖给了广告商。你昨天搜了什么，今天就会看到相关的广告。

但现在随着大模型AI的普及和发展，我们正在迈入这个被称为“意图经济”（Intention Economy）的时代。在这个新世界里，商品不再仅仅是你的“注意力”，而是你更核心、更私密的 - 你的“意图”。

从“看什么”到“想做什么”

如果说注意力经济是在争夺你”现在在看什么”，那么意图经济就是在挖掘你”想要做什么”、”计划做什么”，甚至是你”想要想要什么”。这不仅仅是了解你的行为，而是要深入到你的内心动机和未来计划。举例来说：

注意力经济（当前）：你在购物网站上搜索了“跑鞋”，接下来的几天，无论你逛哪个网站，都会被各种跑鞋广告轰炸。这是平台根据你过去的行为在做文章。
意图经济（未来时）：你最近工作压力很大，无意中和你的AI助手聊到“感觉好累，想看场电影放松一下”。几天后，AI可能会这样对你说：“我注意到你前几天心情不太好。最近新上映的《超人》电影口碑很不错，非常适合放松。要不要我帮你订张周末的票？”

你看，这不再是简单的广告推荐。AI没有等你下达明确的指令，而是通过分析你零散的对话，理解了你的情绪、困境和潜在的愿望，然后主动为你“创造”了一个解决方案。它不仅预测了你想做什么，甚至在引导你“想要去做什么”。

你的想法、你的计划、你那些还未成形的念头，都成了可以被分析、预测，甚至交易的数据。

阅读全文 »

AI时代的工作安全系数：验证者法则教你判断哪些职业更安全

发表于 2025-07-17 分类于 AI

如果你玩过数独游戏就会知道，解一道数独可能需要你思考很久，尝试各种数字组合，但检查一个完成的数独是否正确只需要几秒钟 - 你只要确认每行、每列、每个九宫格都包含1-9的数字即可。

“解决”和“检查”这两个动作之间存在的巨大难度差异，就是AI研究者们最近热议的一个核心概念 - 验证的不对称性（Asymmetry of verification）。简单来说，就是指很多任务“验证答案”比“从头解决”要容易得多。

著名AI研究员Jason Wei最近就此撰写了一篇博文，提出了“验证者法则”（Verifier’s Law）。今天，我们就来聊聊这个话题以及其带来的现实意义。

什么是验证的不对称性？

这个现象其实无处不在，举例来说：

高度不对称（验证极易，创造极难）
- 数独/填字游戏：解决需要反复试错，而验证只需按规则核对一遍。
- 开发一个网站（比如微博）：需要庞大的工程师团队耗时数年，但任何一个用户花几分钟就能判断网站功能是否正常可用。
接近对称（验证和创造难度相当）
- 计算两个900位的数字之和：你自己算一遍和检查别人算的是否正确，工作量几乎一样。
- 审查一段复杂的数据处理代码：要彻底搞懂并确认其正确性，几乎等同于自己重写一遍。
负向不对称（验证比创造还难！）
- 给一篇长文进行事实核查：作者洋洋洒洒可能只用了一天，但核查其中所有信息的真伪，可能需要一个团队数周的时间。这恰好印证了“布兰多里尼定律” - 反驳胡说八道所需的能量，比制造它要高出一个数量级。
- 验证一种新饮食法的效果：提出一种全新的“只吃野牛肉和西兰花”的饮食法很简单，但要科学验证它对大众是否真的健康，需要长达数年的临床试验。

下面这张图非常直观地展示了不同任务在“生成难度”和“验证难度”两个维度上的分布：

阅读全文 »

AI 时代的新法则：2 个产品经理配 1 个工程师？

发表于 2025-07-13 分类于 AI

最近，一段吴恩达老师在AI Startup School上发言在社交媒体上引发了一场关于未来团队结构的激烈讨论。因为这段发言中有个相当反传统的观点：未来团队的产品经理（PM）与工程师的配比可能会达到 2:1！

是的，你没有看错，是两个 PM 对一个工程师…

吴恩达的惊人提议：瓶颈正在从工程转向产品

让我们先看看原文：

“我没有看到产品管理工作的速度能像工程一样，因为 AI 而提升得那么快。我看到这个（人员）比例正在发生变化。

就在昨天，我的一个团队来找我，在规划项目人员配置时，这个团队首次向我提议：不是采用 1:4 的产品经理与工程师的比例，而是采用 1:0.5 的比例。

我仍然不确定这是否是个好主意，但这是我人生中第一次，有管理者提议配备的 PM 数量是工程师的两倍。

我认为这说明世界正在往这个方向发展。”

这个提议的背后逻辑其实不难理解。随着 AI 工具（如Copilot、Cursor等）的普及，工程师的开发效率正在经历前所未有的飞跃，一些人甚至认为能达到 10 倍的提升。代码编写、调试和部署的速度越来越快，工程环节的瓶颈被大大缓解。

然而，产品管理的工作 - 包括市场研究、用户洞察、需求定义、战略规划和跨部门沟通，这些本质上更侧重于创造性思考、同理心和人际互动。这些领域虽然也可以被 AI 辅助，但其核心价值的提速远不如工程领域那么显著。

当工程师能以10倍速度交付产品时，谁来定义“我们应该做什么？”、“我们为什么要做这个？”以及“下一个正确的方向在哪里？”。如果产品定义和规划的速度跟不上，那么再高效的工程能力也只会导致“高效地生产出没人需要的东西”。吴恩达的团队应该是基于这一点，才提出了增加 PM 投入，以确保产品方向的供给能够跟上工程实现的消耗。

阅读全文 »

从仓库到客厅：Figure 如何在 4 个月内把通用人形机器人推向量产拐点

发表于 2025-07-10 分类于 AI

距离我上次在博客中惊叹于Figure公司的人形机器人Helix系统仅仅过去数月，那时它如“超级大脑”般快速学习新任务的能力已经让人印象深刻。而今天，Figure那位在社交媒体上极为活跃的CEO Brett Adcock，分享了公司全员会议的核心要点。本文将结合这次Figure全员会议要点、Helix 系统在物流实战场景的成绩、以及官方生产线BotQ这三大重点来对Figure机器人公司的最新进展做一次“从战略到产线、再回到算法”的全景式解读。

CEO 全员会：从 293 人到 10 万台的“压强式”野心

Adcock 的会议纪要首先强调了“通用机器人技术的窗口期”与“竞赛紧迫性”两大主题。Figure 将核心资源投注在通用性而非单场景解决方案，并采用 “CEO 亲自审批每一个新编制/HC” 的极端控制来确保团队始终保持工程效率和“作战密度”。

在产能侧，Figure 确认将在Q3将把当前产能提升3倍，并规划好了10万台机器人规模化量产的能力。为此已在北加州的新园区整合设计、工程、BotQ制造和机器人车队运营，同时现有团队人数规模也翻了三倍来到了293人。

更让我瞩目的是，内部会议中的这页ppt中明确提到Figure已开始为家庭使用场景进行机器人训练，目标是利用Helix系统将智能带入每一个家庭。尽管家用环境复杂度远高于工厂与仓库，但 Figure 似乎选择了“先把工业产线跑通，再反哺家庭市场”的策略：产能、成本和可靠性一旦被工业规模摊平，家用只剩下应用侧“上层建筑”的问题。

根据之前的Figure公司融资传闻，其正在洽谈一笔15亿美元新融资，估值或飙升至 395 亿美元，资本市场显然也在押注他们能率先把人形机器人做到量产。

阅读全文 »

告别狂热，拥抱现实：Gartner 2025年AI技术成熟度曲线

发表于 2025-07-07 分类于 AI

去年9月，我曾基于Gartner 2024年的AI技术成熟度曲线写过，生成式AI和基础模型正在从”期望的顶峰”滑向”幻灭的低谷”。如今，2025年6月11日发布的最新版本完美验证了这一判断：生成式AI和基础模型已经明确进入了幻灭低谷阶段。

这种转变并不令人意外。过去一年中，我们见证了AI应用落地的重重困难：从各种AI产品在商业化过程中遇到的挑战，到投资者对AI项目回报的质疑，再到企业对AI成本控制的焦虑。市场正在从最初的狂热回归理性，但这恰恰是技术成熟过程中的必经之路。

“技术成熟度曲线”（Hype Cycle）回顾

为了方便新读者，我们简单回顾一下Gartner的这个经典模型。它通过五个阶段描述了一项新技术的生命周期：从创新触发期 (Innovation Trigger) 的萌芽，到期望膨胀的顶峰 (Peak of Inflated Expectations) 的万众瞩目，再到幻灭低谷 (Trough of Disillusionment) 的现实碰壁，然后是启蒙爬升期 (Slope of Enlightenment) 的稳步前行，最终到达生产力平台期 (Plateau of Productivity) 的成熟与普及。

AI Hype Cycle 2025 的三大核心洞察

如果说2024年的主题是“冷静的开始”，那么2025年的主题就是“现实的重塑”。

阅读全文 »

AI变身“迈克尔·乔丹”点评你的投篮？这个爆火项目开源了！

发表于 2025-07-07 分类于 AI

如果能让迈克尔·乔丹、斯蒂芬·库里这样的传奇球员亲自指导你打球，你的球技会提升多快？最近，一位名叫Farza的开发者在社交媒体上分享了一个令人惊叹的视频demo，视频中，AI化身“篮球之神”迈克尔·乔丹，不仅精准统计了他的投篮数据，还用乔丹的口吻对他的每一次出手进行了细致入微的点评。

一个简单却震撼的想法

这个项目的核心想法其实很简单：拍摄一段打篮球的慢镜头视频，然后让AI像篮球之神迈克尔·乔丹那样来分析每一次投篮。AI会统计你投中了多少球、失手了多少次，更重要的是，它会像真正的专业教练一样，指出你每次投篮的技术问题并给出改进建议。

Farza在视频中使用的提示词（prompt）如下：

“这是我打篮球的慢镜头回放。请像迈克尔·乔丹那样帮我分析：投中了多少球，完成了多少次上篮，三分球进了几个，投失了多少球。同时，请告诉我每个进球和失手时的具体投篮位置，以及每次出手时的技术动作细节，并给予专业点评。”

AI教练的精准分析

从视频中我们可以看到AI给出的分析其实是挺专业的：

第一次投篮（0:07.5） - 跳投失手 AI的点评：”你在推球而不是投球；把肘部放在球下方，充分伸展手臂，并做好跟进动作。”
第二次投篮（0:13.0） - 三分球命中 AI的反馈：”球进了，但要注意轻微的后仰，保持肩膀在整个动作过程中都正对篮筐。”
第三次投篮（0:21.5） - 上篮得分技术建议：”上篮时要抬高膝盖，用非投篮手更好地保护球，果断完成投篮。”

这些分析不仅准确识别了投篮结果，还像真正的专业教练一样，指出了具体的技术细节和改进方向。

阅读全文 »

AI会先替代哪些工作？一个直观的判断方法：“描述-执行差距”

发表于 2025-07-05 分类于 AI

“我的工作会被AI取代吗？”

这可能是当下每个人心中或多或少都思考过的问题。我们每天都能看到AI惊人的进步，它会画画，会写代码，甚至会做视频。焦虑感也油然而生：我们所珍视的技能，在强大的AI面前还有价值吗？

知名AI研究员Jason Wei（没错，就是提出了COT的那位）提出了一个有趣的思维框架来协助做这个判断，叫做“描述-执行差距”（Description-Execution Gap），它的核心思想非常简单：

一项任务，“描述它怎么做”比“亲手去做”要简单多少？这个“简单”的程度，就决定了它被AI自动化的可能性。

差距越大，越容易被AI取代

当一项任务的“描述-执行差距”很大时，意味着用语言下达指令非常简单，但实际执行起来却非常繁琐、耗时。这类工作，正是AI能去自动化的绝佳目标。

因为给AI下达一个清晰的指令（也就是“描述”）相对容易，这意味着我们可以轻松地为AI创造大量的“训练数据”。而AI的价值，恰恰在于能高效完成那些对人类来说重复、枯燥、技术性强的“执行”部分。

例如这些场景：

阅读全文 »

AI产品中最常缺失的部分：为什么所有人都需要重视AI评估

发表于 2025-07-05 分类于 AI

上周在上海的一场AI培训中，一位销售同事向我提出了一个很有代表性的问题：”客户对我们的AI产品总是不够放心，因为不确定自己到底买到了什么，这个东西是不是靠谱。”这个困惑反映了当前AI产品市场的一个核心问题：与传统软件不同，AI产品的质量很难直观判断，这让客户、销售人员，甚至产品开发者都感到不安。

解决这个问题的关键，就是今天我们要深入探讨的AI评估（Evals）。它不仅是一项技术任务，更是解决AI时代‘信任危机’的根本解法。

告别“感觉良好”：为什么说AI评估是信任的基石？

简单来说，AI评估之于生成式AI，就如同单元测试和质量保证脚本之于传统软件开发。它们都是确保产品质量、建立用户信心的关键手段。

但AI评估的重要性远超传统软件测试。传统软件就像一台精密的钟表，相同的输入总是产生相同的输出，结果可预期，错误信息明确。而AI系统更像一个有创造力但经验有限的助手，它可能对同一个问题给出不同的答案，有时候答案听起来很专业但实际是错的，有时候虽然事实正确但”感觉不对”。

这种不确定性正是AI产品面临信任危机的根源。客户购买传统软件时，功能清单一目了然，性能指标明确可测。但面对AI产品时，他们面临的是一系列模糊的承诺：”智能客服”、”自动化分析”、”个性化推荐”。这些词汇听起来很美好，但具体能做什么、做得怎么样，往往语焉不详。

AI产品“靠不住”的三大根源

为什么AI产品会表现得如此“靠不住”？这源于开发者与AI系统之间存在的三道难以逾越的鸿沟：

理解的鸿沟：无法看清的海量数据

现代AI系统每天要处理成千上万的输入，就像一个全天候运营的千人客服中心 - 你无法监听每一通电话，但又需要确保服务质量。你必须设计抽样检查机制、建立质量评估标准、制定改进流程。AI系统面临的正是同样的挑战，只是规模更大、复杂度更高。

阅读全文 »

1亿美元挖一个人：AI界的'银河战舰'时代来了

发表于 2025-07-05 分类于 AI

引言：人工智能界的”转会窗口”大戏

2025年6月，硅谷迎来了一场史无前例的人才大地震。就在所有人还在讨论AI技术突破的同时，一场更加惊心动魄的”转会战”正在幕后激烈上演。Meta公司CEO马克·扎克伯格亲自下场，以前所未有的激进策略，从OpenAI手中连续挖走了八位核心研究人员，引发了整个AI行业的巨大震动。

从多模态感知研究主管Jiahui Yu，到o3-mini和o1-mini模型的创造者Hongyu Ren，再到苏黎世”三人组”的集体跳槽，Meta精心策划的这次行动，完美诠释了当人才成为AI领域最稀缺资源时，科技巨头们会如何不惜一切代价争夺顶尖人才。正如我在最近的一篇博客中写道：”顶级AI实验室正似乎成为星光熠熠的豪门俱乐部，而它们的竞争，也愈发像一场世界级的’球员’争夺战。”

一场精心策划的”挖角风暴”

2025年6月中旬，关于Meta大规模从OpenAI挖角的报道开始浮出水面。最初的报道提及了知名研究员Trapit Bansal的加入，紧随其后，《华尔街日报》与The Information等媒体相继证实，在极短的时间内，至少有八名资深研究人员从OpenAI转投Meta 。

这些被招募的研究人员预计加入Meta新成立的”AI超级智能部门”。该部门被定位为一个核心内部团队，旨在支持公司的各种产品，类似于Google的DeepMind部门。其核心任务是开发能够在广泛任务中超越人类能力的人工智能模型。

更值得注意的是，此次招聘行动是Meta更宏大战略的一部分。此前Meta已经斥资143亿美元收购了Scale AI 49%的股份，并聘请其创始人Alexandr Wang领导超级智能工作。据报道，Meta还在寻求聘请前GitHub首席执行官Nat Friedman（已确定加入）和Safe Superintelligence联合创始人Daniel Gross。

阅读全文 »