RichChat

AI产品中最常缺失的部分：为什么所有人都需要重视AI评估

发表于 2025-07-05 分类于 AI

上周在上海的一场AI培训中，一位销售同事向我提出了一个很有代表性的问题：”客户对我们的AI产品总是不够放心，因为不确定自己到底买到了什么，这个东西是不是靠谱。”这个困惑反映了当前AI产品市场的一个核心问题：与传统软件不同，AI产品的质量很难直观判断，这让客户、销售人员，甚至产品开发者都感到不安。

解决这个问题的关键，就是今天我们要深入探讨的AI评估（Evals）。它不仅是一项技术任务，更是解决AI时代‘信任危机’的根本解法。

告别“感觉良好”：为什么说AI评估是信任的基石？

简单来说，AI评估之于生成式AI，就如同单元测试和质量保证脚本之于传统软件开发。它们都是确保产品质量、建立用户信心的关键手段。

但AI评估的重要性远超传统软件测试。传统软件就像一台精密的钟表，相同的输入总是产生相同的输出，结果可预期，错误信息明确。而AI系统更像一个有创造力但经验有限的助手，它可能对同一个问题给出不同的答案，有时候答案听起来很专业但实际是错的，有时候虽然事实正确但”感觉不对”。

这种不确定性正是AI产品面临信任危机的根源。客户购买传统软件时，功能清单一目了然，性能指标明确可测。但面对AI产品时，他们面临的是一系列模糊的承诺：”智能客服”、”自动化分析”、”个性化推荐”。这些词汇听起来很美好，但具体能做什么、做得怎么样，往往语焉不详。

AI产品“靠不住”的三大根源

为什么AI产品会表现得如此“靠不住”？这源于开发者与AI系统之间存在的三道难以逾越的鸿沟：

理解的鸿沟：无法看清的海量数据

现代AI系统每天要处理成千上万的输入，就像一个全天候运营的千人客服中心 - 你无法监听每一通电话，但又需要确保服务质量。你必须设计抽样检查机制、建立质量评估标准、制定改进流程。AI系统面临的正是同样的挑战，只是规模更大、复杂度更高。

阅读全文 »

引言：人工智能界的”转会窗口”大戏

2025年6月，硅谷迎来了一场史无前例的人才大地震。就在所有人还在讨论AI技术突破的同时，一场更加惊心动魄的”转会战”正在幕后激烈上演。Meta公司CEO马克·扎克伯格亲自下场，以前所未有的激进策略，从OpenAI手中连续挖走了八位核心研究人员，引发了整个AI行业的巨大震动。

从多模态感知研究主管Jiahui Yu，到o3-mini和o1-mini模型的创造者Hongyu Ren，再到苏黎世”三人组”的集体跳槽，Meta精心策划的这次行动，完美诠释了当人才成为AI领域最稀缺资源时，科技巨头们会如何不惜一切代价争夺顶尖人才。正如我在最近的一篇博客中写道：”顶级AI实验室正似乎成为星光熠熠的豪门俱乐部，而它们的竞争，也愈发像一场世界级的’球员’争夺战。”

一场精心策划的”挖角风暴”

2025年6月中旬，关于Meta大规模从OpenAI挖角的报道开始浮出水面。最初的报道提及了知名研究员Trapit Bansal的加入，紧随其后，《华尔街日报》与The Information等媒体相继证实，在极短的时间内，至少有八名资深研究人员从OpenAI转投Meta 。

这些被招募的研究人员预计加入Meta新成立的”AI超级智能部门”。该部门被定位为一个核心内部团队，旨在支持公司的各种产品，类似于Google的DeepMind部门。其核心任务是开发能够在广泛任务中超越人类能力的人工智能模型。

更值得注意的是，此次招聘行动是Meta更宏大战略的一部分。此前Meta已经斥资143亿美元收购了Scale AI 49%的股份，并聘请其创始人Alexandr Wang领导超级智能工作。据报道，Meta还在寻求聘请前GitHub首席执行官Nat Friedman（已确定加入）和Safe Superintelligence联合创始人Daniel Gross。

阅读全文 »

Sam Altman最新访谈亲述OpenAI的峥嵘岁月：从被判“0%成功率”到构想免费机器人

发表于 2025-07-01 更新于 2025-10-12 分类于 AI

在YC创业者学院的一次对谈中，OpenAI的CEO Sam Altman分享了许多不为人知的幕后故事和对未来的深刻洞见。他不仅回忆了创业初期面对的巨大质疑 - 包括来自埃隆·马斯克（Elon Musk）的尖锐批评，还深入阐述了他对AI终极形态的构想：一个拥有记忆、能主动协助你的AI伴侣；一个由Jony Ive操刀的革命性AI设备；以及最终作为顶级订阅福利的免费人形机器人。

来自马斯克的“残酷”邮件：成功率为0%

在创业的道路上，即便是最具远见卓识的领导者也需要强大的内心来抵御外界的质疑。Altman坦言，在面对海量“你错了”的声音时，保持信念是一件极其困难的事。

他分享了一段刻骨铭心的往事。在OpenAI成立几年后，当他们向早期合作者埃隆·马斯克展示初版的GPT-1时，收到了一封“非常刻薄的邮件”。马斯克在邮件中断言，OpenAI成功的几率为“零”，并认为他们展示的技术“是垃圾，根本行不通”。

Altman回忆道，马斯克当时是他心目中的英雄，这封邮件让他备受打击。他回到家后不禁自问：“万一他是对的呢？这太糟糕了”。当你将自己的生命力倾注于一个项目，却被敬佩的聪明人全盘否定时，那种感受是毁灭性的。

推理模型的“产品悬河”：创业公司的黄金机遇

Altman指出，我们正处在一个非常有趣的历史节点：AI模型的能力（如GPT-4o等推理模型）已经远远超过了人们目前开发出的产品形态。他将这种现象称为“产品悬河”（product overhang），即在现有技术能力之下，还存在着巨大的产品创新空间等待被填补。

阅读全文 »

引言

一篇最新红杉资本的文章提出了一个很有趣的比喻：顶级AI 实验室正似乎成为星光熠熠的豪门俱乐部，而它们的竞争，也愈发像一场世界级的「球员」争夺战。

一年前，AI领域的竞争格局似乎一度尘埃落定。由于构建基础模型所需的高昂算力成本，市场迅速整合，最终形成了由微软/OpenAI、亚马逊/Anthropic、谷歌、Meta 和 xAI 组成的五大「决赛选手」。他们拥有达到 GPT-4 级别模型的能力和持续扩展的资本。

然而，今天的叙事已经截然不同。伴随着传奇人物 Ilya Sutskever的那句名言 - 「我们所熟知的预训练即将结束」。新一批参与者如 SSI、Thinking Machines（注1）和 DeepSeek 等正崭露头角，他们宣称的核心优势并非计算规模，而是顶尖的人才。全新的共识是：单纯依赖大规模集群已不足以实现下一次质的飞跃，要想在强化学习或其他前沿领域取得新的突破，需要的是非凡的智慧，而人才正是解锁这一切的关键。

注1：最新的例子是 - 前 OpenAI CTO Mira Murati 创立的初创公司 Thinking Machines Lab创立不到五个月，种子轮融资就成功筹到了惊人的 20亿美元，估值达到 100亿美元。

当人才成为最稀缺的资源时，AI 实验室的运作模式开始惊人地向职业体育俱乐部靠拢：

豪门老板：每一支顶尖的 AI 战队背后，都有一个财力雄厚的科技公司或个人作为支持者；
天价「球星」：明星研究员的薪酬包堪比职业运动员，动辄数千万、数亿美元，对于最顶尖的人才，价码甚至可能达到看似疯狂的数十亿美元（例如Meta收购Scale AI 49%的股份并引进其CEO）；
流动的「转会市场」：与体育界不同，AI 领域的人才合同往往是短期的、流动性极强的。这意味着任何人都可以随时被竞争对手挖走，人才争夺异常激烈；

引用一句原文结尾我印象最深刻的话 - 「当人类看到美好的事物时，何曾说过『现在已经足够了，是时候降温了』？一旦越过关键的门坎，我们就会将事情推向极致，这是人性内在的属性。」

当奖品像AI技术可能带来的巨大价值那样诱人时，任何阻碍成功的瓶颈，特别是像人才这样稀缺的资源，都将被推向令人惊叹的竞争水平。

阅读全文 »

值得收藏的职场智慧：亚马逊VP用十年焦虑换来的四个真相

发表于 2025-06-23 分类于 readings

推荐前Amazon VP Ethan Evans最近分享的职场心得。他总结的这几点职业发展经验和我多年的职场感触很匹配，特别是关于”选择比焦虑更重要”的观点。可惜自己没能更早理解这些道理，所以希望这些金玉良言能被更多职场人看到，少走弯路。如果你觉得有用，也欢迎转给身边的朋友。

关于Ethan Evans：前亚马逊副总裁，技术和商业双重背景的职场导师。在亚马逊的15年职业生涯中，他从高级经理一路成长为副总裁，领导过800多人的全球团队，参与发明了Prime Video、Prime Gaming、Amazon Appstore、Twitch Commerce等多个知名产品。拥有70多项专利，曾担任亚马逊Bar Raiser（面试官培训师），审阅过10,000多份简历，面试过2,500多人。他还参与起草了亚马逊著名的领导力原则”Ownership”。退休后创办了Level Up职业发展平台，专注于帮助职场人士突破瓶颈、晋升高管。

回顾我的职业生涯，最大的遗憾就是让自己承受了太多不必要的压力。在通往亚马逊副总裁的路上，我几乎每天都在焦虑中度过。现在，我想分享一些经验，希望能为你减少一些职场焦虑。

职业发展其实需要四个关键要素：

出色完成工作任务（努力工作只是基础门槛）；
不断提升自身技能价值；
与优秀的上司合作；
选择有发展潜力的公司；

虽然前两点很重要，但后两点可能更加关键。

阅读全文 »

AI套壳创业的真实未来：从Cursor看差异化价值创造

发表于 2025-06-23 分类于 AI

在AI创业的狂欢中，一个尖锐的问题正在撕裂整个行业：那些基于现有大语言模型构建应用的“AI套壳”创业公司，究竟是在创造真正的价值，还是在玩一场注定失败的游戏？

这个问题在各种技术社区中引发了激烈的讨论。怀疑论者认为，这些公司本质上只是“API的搬运工”，护城河薄如蝉翼，一旦平台方（如OpenAI）决定将某些功能“内化”到核心产品中，它们旦夕之间便会变得无足轻重。这并非杞人忧天，在科技史上，平台扼杀生态应用的案例屡见不鲜。

然而，另一种观点则认为，这种看法过于简化了价值创造。毕竟，当今绝大多数的SaaS公司，不也可以被看作是构建在AWS、Azure等云服务之上的“套壳”吗？价值创造的关键，从来都不只是技术本身，更在于如何将技术有效地传递给用户。

这场争论之所以重要，不仅因为它关乎无数创业者的命运，更因为它触及了当前AI生态系统的核心矛盾：在OpenAI、Anthropic、Google等巨头垄断底层模型的时代，中间层创业公司还有多少生存空间？

战略试金石：你的护城河会被AI进步冲垮吗？

在深入分析具体案例之前，我们需要建立一个根本性的思考框架。如果你看着你的初创公司或产品并想着，“如果模型变得更聪明，我们所有的护城河都会消失”，这意味着你正在构建错误的东西。相反，你应该构建这样的东西：随着模型变得更智能，你的产品会变得越来越好。

这个判断标准几乎可以成为所有AI应用的试金石。那些依赖于模型局限性而存在的产品注定会失败，而那些能够随着模型能力提升而变得更加强大的产品，才具备长期价值。

以Cursor为例，随着代码生成模型的不断改进，Cursor的价值不是在递减，而是在增强。更好的模型意味着更准确的代码建议、更智能的重构功能、更深度的代码理解。Cursor构建的是一个可以不断受益于底层模型进步的平台，而不是一个会被模型进步所威胁的产品。

阅读全文 »

OpenAI与微软的蜜月期走向终结？

发表于 2025-06-23 分类于 AI

曾经被誉为科技史上最成功合作伙伴关系之一的OpenAI与微软，如今正面临着前所未有的紧张局面。这场持续六年的深度合作，正在因为利益冲突、战略分歧和控制权争夺而走向分裂的边缘。

从合作到竞争：关系的微妙转变

2019年，微软向OpenAI投资10亿美元，开启了两家公司的深度合作。当时的安排看似完美：微软为OpenAI提供强大的计算资源和云服务支持，换取其前沿AI技术的优先访问权。这种互利共赢的模式帮助OpenAI从一个研究机构快速成长为AI领域的领军企业，同时也让微软在AI竞赛中占据了有利位置。

然而，随着OpenAI的ChatGPT引发全球AI热潮，两家公司从合作伙伴逐渐演变为竞争对手。OpenAI不再满足于仅仅依赖微软的平台，而是希望获得更多的自主权和商业机会。与此同时，微软也在开发自己的AI产品线，与OpenAI形成直接竞争关系。

核心争议：控制权与自主权的博弈

当前两家公司面临的最大争议围绕着OpenAI计划中的公司结构转型。OpenAI希望从非营利组织转型为盈利性公司，以便更好地融资和上市。但这一转型需要微软的同意，而微软正在要求获得比OpenAI愿意给予的更大股份。

更加复杂的是，OpenAI最近收购了编程初创公司Windsurf，价值30亿美元。根据现有协议，微软有权访问OpenAI的所有知识产权，但OpenAI不希望微软获得Windsurf的技术，特别是考虑到微软拥有直接竞争的GitHub Copilot产品。

阅读全文 »

“我几乎完全不同意！” 黄仁勋炮轰Anthropic，揭示AI发展的两条路线之争

发表于 2025-06-14 分类于 AI

在巴黎的VivaTech技术大会上，一场关于人工智能未来的激烈交锋，将科技界两种截然不同的哲学推向了聚光灯下。Nvidia首席执行官黄仁勋（Jensen Huang）公开宣称，他“几乎完全不同意”Anthropic首席执行官达里奥·阿莫代（Dario Amodei）的观点。这句充满火药味的表态，揭示了AI发展十字路口上的两条路线之争。

核心分歧：开放的民主化 vs. “看门人”的精英主义

黄仁勋在新闻发布会上毫不掩饰地表达了对阿莫代观点的质疑。他将阿莫代的立场总结为三个要点：第一，认为AI过于危险，只有少数公司（如Anthropic）才能安全地开发；第二，AI开发成本过高，其他公司难以承担；第三，AI威力巨大，将导致大规模失业。

对此，黄仁勋发起了毫不留情的反击。他强调：”我认为AI是一项非常重要的技术，我们应该安全负责地构建和推进它。如果你想要安全负责地做事，就应该公开进行，而不是在暗室中告诉我这是安全的。”这一表态清晰地表明了他对开源AI发展模式的支持。

尽管Anthropic迅速澄清，表示其CEO从未声称“只有他们”能构建安全的AI，并倡导建立国家级的透明度标准。这种澄清虽然听起来合情合理，但其内核依然是一种“看门人”的精英主义思维。它实际上预设了一个前提：AI的未来应该由一小部分拥有先进技术和“正确价值观”的公司来定义和守护。这种模式虽然可能在短期内规避某些风险，但长期来看，可能会导致技术权力的过度集中，扼杀开源社区的创新活力，并让AI的发展方向被少数商业利益所左右。

阅读全文 »

Karina Nguyen 最新访谈：揭秘OpenAI工作内幕，AI时代“软技能”为何无价？

发表于 2025-06-10 分类于 AI

继上次为大家解读了来自OpenAI的Karina Nguyen在斯坦福CS25这门课上做的名为《RL as a Co-Design of Product and Research》的精彩分享（如果你错过了，可以点击这里回顾：AI时代产品经理能力大不同：Karina Nguyen 解读 OpenAI 产品经理的“进化”之路）后，我最近又翻到一篇她在今年二月的时候在 Lenny’s Podcast 上的深度对话。

关于Karina Nguyen：她是在两大顶尖AI实验室 - OpenAI和Anthropic - 都担任过核心研究+产品角色的专家，除了是ChatGPT中Canvas、Tasks等创新功能的关键贡献者，也曾主导Claude 3模型的后训练与评估工作。

这期访谈信息量巨大，对于我们理解AI如何重塑工作，特别是产品经理岗位，具有极强的指导意义。因此，我将其中精华总结出来，并加入一些个人观点与大家分享。

一、模型训练的艺术：为什么数据质量比数量更重要

当谈到人们对模型训练最大的误解时，Karina指出：

阅读全文 »

短剧 - 《产品经理的鄙视链》

发表于 2025-06-10 分类于 readings

她突然凑近问我：”你做产品的，具体负责哪块呀？”

我后背一凉，支支吾吾道：”就……大家都做的那……”

女生眼睛亮起来：”是AI产品经理吗？现在最火的赛道，大模型、agent，技术含量超高，薪资也是顶级！”

我声音发虚：”不是……”

“那肯定是B端SaaS产品咯？”她兴致勃勃，”企业级产品，商业价值高，需要很强的行业理解和商业嗅觉。”

“不……”

我死死盯着手机屏幕，恨不得把它盯出个洞。

“是大厂核心业务线的产品经理吗？这有啥不好意思说的？”她歪头轻笑，”虽然很卷，但胜在影响力大，能一手定义亿级用户的关键路径……”

“我不喜欢这些……”我喉结滚动，声音像卡了壳的子弹。

女生沉默两秒，突然瞪大眼睛：”你该不会……是做数据产品的吧？”

她探究的目光像探照灯打在我脸上，我浑身不自在，心跳开始错拍。

“还是做增长产品的？A/B测试、运营活动、转化漏斗优化？”她继续猜测。

我死死掐住大腿，从牙缝里挤出蚊子般的颤音：”都……都不是！”

空气突然安静。

阅读全文 »

RichChat

AI产品中最常缺失的部分：为什么所有人都需要重视AI评估

告别“感觉良好”：为什么说AI评估是信任的基石？

AI产品“靠不住”的三大根源

理解的鸿沟：无法看清的海量数据

1亿美元挖一个人：AI界的'银河战舰'时代来了

引言：人工智能界的”转会窗口”大戏

一场精心策划的”挖角风暴”

Sam Altman最新访谈亲述OpenAI的峥嵘岁月：从被判“0%成功率”到构想免费机器人

来自马斯克的“残酷”邮件：成功率为0%

推理模型的“产品悬河”：创业公司的黄金机遇

顶尖AI实验室变身体育豪门，重金只为争夺「最强大脑」

引言

值得收藏的职场智慧：亚马逊VP用十年焦虑换来的四个真相

AI套壳创业的真实未来：从Cursor看差异化价值创造

战略试金石：你的护城河会被AI进步冲垮吗？

OpenAI与微软的蜜月期走向终结？

从合作到竞争：关系的微妙转变

核心争议：控制权与自主权的博弈

“我几乎完全不同意！” 黄仁勋炮轰Anthropic，揭示AI发展的两条路线之争

核心分歧：开放的民主化 vs. “看门人”的精英主义

Karina Nguyen 最新访谈：揭秘OpenAI工作内幕，AI时代“软技能”为何无价？

一、模型训练的艺术：为什么数据质量比数量更重要

短剧 - 《产品经理的鄙视链》