RichChat

A blog for tech enthusiasts

RichChat

引言:Stratechery最新出的这篇Sam Altman专题访谈的质量不错,专门做了一个全文精翻版供参考。有兴趣的话也可以延展阅读一下之前我整理过的Stratechery谈DeepSeek这篇 - 深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

老规矩,先总结个人印象深刻的几点:

OpenAI作为”意外的”消费科技公司的诞生 - Altman坦言当初创立OpenAI时,它只是一个研究实验室,完全没有明确的产品方向,甚至连具体想法的雏形都没有。感觉这个从”在荒野中迷失的学术研究实验室”到如今的科技巨头的发展历程描述还挺真实的;

ChatGPT惊人爆发期的真实描述 - Sam描述推出ChatGPT后的那段高速增长期的发言完全可以当脱口秀来看:”每天都是这样:用户暴涨,服务器崩溃;到了晚上,用户量下降,大家就说’完了完了,就这么一阵风’;结果第二天峰值更高,又跌下来,大家又说’这回真完了’。”这种循环持续了数天,直到他意识到:”得,这情况我再熟悉不过了,接下来会怎样我都知道”;

对过去过于谨慎保守策略的反思 - 在访谈中,Altman多次提到OpenAI早期的保守策略,例如如GPT-2发布时对安全性的过度担忧。他坦言:”现在回想起来,我完全后悔我们当时使用的一些措辞。我也理解为什么人们会说:”这不过是炒作和制造恐慌”,但这真的不是我们的本意”。

关于AI商业模式的思考 – 在被问到“五年后什么会更有价值 - 是一个拥有十亿日活跃用户、不需要做客户获取的目标网站,还是最顶尖的模型?”,Altman的回答是“那个拥有十亿用户的网站”,他的逻辑是认为未来的战略优势将体现在三个方面:建立大型互联网公司提供统一的AI服务套件(包括软件和硬件的完整生态)、发展推理基础设施(或者说如何实现最经济和最充足的推理能力),以及持续进行前沿研究保持能开发出最优秀的模型。

此外,他对传统广告模式显示出明显的抵触,甚至说“我们绝不会接受付费调整排名”;

对AI未来的展望 - 当被问及OpenAI是否会开源其模型以应对DeepSeek等竞争对手时,Altman意味深长地说:”我已经在尽可能地暗示了,就差明说了。你懂的。”这暗示了OpenAI可能正在重新考虑其封闭战略,同时他也透露了GPT-5即将推出,并将为免费用户提供。

关于创造力本质的哲学思考 - Altman引用了David Deutsch的观点,认为创造力本质上就是把已有的东西稍作修改,然后不断改进。而这种渐进式的创新恰恰是AI所擅长的,这也是他相信AI最终能够实现真正创造的基础。

给高中毕业生的实用建议 - 当被问及对即将高中毕业的学生有什么职业建议时,Altman给出了两条有价值的建议:首先是要学会熟练使用AI工具,就像他高中毕业那会儿最实用的建议是学会编程一样;其次是培养适应力、韧性以及理解他人需求这些通用技能,就像他认为自己在学校学到最重要的东西是”如何学习的能力”一样。

阅读全文 »

大家应该都看过春晚上宇树科技的机器人能灵活地跳秧歌,这一夜让所有人都看到了人性化机器人已经不只存在于科幻电影中。那么,到底还要多久我们才能看到这些机器人出现在工厂或者家庭中呢?行业专家对此意见不一,许多人认为即使在未来5-10年内也难以实现大规模应用。

而今天我要为大家介绍的Figure公司推出的Helix AI系统,它展示了一个令人振奋的可能性——也许这些机器人进入工厂和家庭的时间比我们想象的要近得多。

一个能像你一样学习新工作的机器人

你有没有想过,一个机器人能像你一样快速学会新工作?比如在仓库中识别杂乱的包裹,理解口头指令,然后精准高效地完成任务;或者在汽车工厂里,像熟练工人一样协助组装车身?

过去,这听起来像是遥远的梦想。传统机器人往往笨重、反应迟缓,需要工程师花费数月甚至一年的时间来编程、测试和调整,才能让它们适应新任务。Helix系统的出现彻底改变了这一现状。

Helix是Figure这家人形机器人公司开发的”超级大脑”。可以将其视为一个全能的认知系统——具备视觉感知、听觉理解和行动能力,类似于人类的大脑,只是被装在金属躯体中。这也是为什么Figure的联合创始人Brett Adcock说:

“人形机器人是实现通用人工智能(AGI)的最佳载体”。

阅读全文 »

就在前天,北京市教委发布了《北京市推进中小学人工智能教育工作方案(2025—2027年)》,我读了以后除了对这份执行方案的详尽程度大受感触外,更重要是发现这个方案:

不是试点,而是在北京市全面铺开。

从2025年秋季学期起,北京市所有中小学生 – 是的,包括那些刚刚学会系鞋带的小学生– 每学年将接受至少8课时的AI教育。这场教育变革悄然降临,却又轰轰烈烈。

1 翻开这份方案,细节之处令人惊叹

北京的AI教育不是简单地在课表上加一门课那么简单。它像一条精心设计的成长曲线:

  • 小学阶段以兴趣培养为主,让孩子们在游戏中认识AI;
  • 初中开始动手应用,学生能用简单工具解决实际问题;
  • 到了高中,则已经具备AI实践能力,同时开始思考技术伦理问题。
    阅读全文 »

由于刚发布的Manus这款号称“全球首款通用智能体平台”的刷屏式传播,很多人找我问起到底大模型领域的”agent”(中文被翻译为“代理”或者“智能体”)是什么?在本文中,我将使用”智能体”这一翻译,并尝试用最通俗易懂的方式来解释它的概念和意义。

简单来说,智能体可以理解为具有一定自主能力的AI助手或AI执行者,它不仅能理解你的需求,还能主动采取行动帮你完成任务

智能体与普通AI的区别

智能体本质上是普通AI助手的进化版本,其区别主要体现在行动能力上:

阅读全文 »

在今年的 MWC 2025 上,一家来自中国的初创公司BleeqUp公布了一款名为Ranger的 AI 骑行智能眼镜 – 这款产品将高清摄像头、AI 技术、开放式音频甚至处方镜片兼容性集于一身,仿佛在对我们说:为什么带一堆装备上路,当一副眼镜就能搞定一切?

从“装备堆积”到“简约骑行”

过去,骑行者的装备清单总是让人头晕:骑行眼镜保护眼睛,耳机听音乐,动作相机记录风景,还得塞一副处方眼镜矫正视力——东西太多,背包塞满,手忙脚乱。而 Ranger 的出现,直接把这些化繁为简。50 克的轻盈机身,集成了所有必需品:高清摄像头、音频系统、耐用设计,甚至还能夹入处方镜片。简洁的外观下,是对“Simplify Your Ride with One Device”理念的最佳诠释 - 为什么要多带装备,当一个就够用?

阅读全文 »

Meta在2025年2月末发布的Aria Gen 2智能眼镜,作为Project Aria计划的最新成果,虽然明确定位为AI和机器感知研究工具,但它所搭载的创新技术很可能成为未来Ray-Ban Meta眼镜进化的关键指南。

研究利器的非凡技术

Aria Gen 2最大亮点在于其全面升级的传感器套件。它不仅包含RGB摄像头、6DOF SLAM定位摄像头和眼动追踪摄像头,还新增了鼻垫区域的光电容积脉搏波(PPG)传感器,能够直接监测心率数据。这种全面感知能力使其成为收集第一人称视角数据的理想工具。

更值得关注的是Meta自研芯片带来的设备端AI处理能力。这意味着SLAM定位、眼动追踪、手势识别和语音识别等复杂任务可以完全在设备上完成,无需依赖云端计算。这不仅提升了隐私保护水平,也大幅降低了延迟,即使在网络连接不稳定的环境下也能保持高效运行。

在实用性方面,Aria Gen 2提供了6-8小时的电池续航,75克的重量以及可折叠设计,配备开放式降噪扬声器,让佩戴者在享受音频体验的同时仍能感知周围环境。

阅读全文 »

当我们与人交谈时,真正的理解不仅仅体现在词语上,更体现在声音的微妙之处:语调的起伏、有意义的停顿、语速的变化。这些细微差别共同构成了我们最亲密的交流媒介。而当前的AI语音助手,无论多么先进,都缺乏这种真实的”语音存在感”。

走出AI语音的”恐怖谷”

“恐怖谷”(Uncanny Valley)是机器人学和AI领域的一个著名现象,最初由日本机器人学家森政弘在1970年提出。这一理论指出,当机器人或虚拟形象接近人类但又不完全像人类时,人们会产生强烈的不适感。

在语音领域,这一效应同样存在:当AI合成语音接近真人但仍有微小瑕疵时,反而让人觉得怪异,不如明显的”合成”的声音那样让人接受。我们多数人都体验过这种感觉 - 当前的高级语音助手听起来已经很”像人”了,但那种平板的情感、缺乏语境适应的回应和机械的节奏,常常让长时间交流变得疲惫和不自然。这就是语音交互的”恐怖谷”,一个看似接近人类但又让人感到不适的区域。

Sesame团队在最近发布的研究《Crossing the uncanny valley of conversational voice》中,正尝试跨越这一根本挑战。我体验了他们的语音助手演示,无论是Maya还是Miles,都给我留下了深刻印象,特别是相比目前市面上的ChatGPT或者豆包的实时语音模式,Sesame的语音助手听起来真实了许多 - 他们似乎已经开始成功地跨越这道”恐怖谷”。

阅读全文 »

探索Anthropic团队在构建有效AI智能体方面的经验与洞见

AI智能体(agents)是当前AI领域最热门的概念之一,但关于它的实际含义、适用场景以及与其他AI系统的区别,业内存在诸多混淆。在我看过的诸多文章中,Anthropic去年底发布的这篇”如何构建高效的智能体系统”是写的最好的,尤其是不同于其他一些过于理论的讨论智能体文章,内容非常强调实用性,且Anthropic团队本来就在智能体实战方面有深厚的经验。具体可以参考之前我整理过的这篇内容解读

上周Anthropic又放出了一段针对构建智能体实战分享的后续讨论视频,团队中的三位专家:Barry Zhang(应用AI团队)、Erik Schluntz(研究团队)和Alex Albert(Claude关系团队)深入探讨了AI智能体的本质、实际应用和未来前景,是一段非常好的补充阅读。

将这两篇内容看成一个“如何构建智能体”的实战分享完全体来看的话,核心原则依然是:不要过度构建,能用简单方法解决的问题就不要额外添加复杂性。我整理了这段视频对话中的关键洞见,再结合原文的部分内容,希望对那些正在构建AI智能体的开发者有所帮助。

阅读全文 »

AI正在改变编程这件事,已经不是新闻了。但当AI大牛Andrej Karpathy(曾是OpenAI和Tesla AI团队的重要成员)最近在社交媒体上分享了他称为“Vibe Coding”(氛围编程)的全新模式后,我还是觉得值得给大家分享一下 - 这不是传统意义上的敲代码,而是一种完全放飞自我、拥抱AI、几乎忘记代码本身存在的奇妙体验。

什么是Vibe Coding?

简单来说,Vibe Coding就是你完全依赖AI的强大能力,让它接管大部分编码工作。Karpathy分享了他自己的实际体验 – 当使用Cursor Composer搭配强大的Sonnet模型,再加上SuperWhisper(AI语音转文字工具),他几乎不用碰键盘了。

阅读全文 »

今天,Anthropic发布了Claude 3.7 Sonnet,这是他们迄今为止最智能的模型,也是市场上首个”混合推理模型”。这一创新标志着:用户不再需要在快速回答和深度思考之间做出非此即彼的选择,而是在同一个模型中获得两种能力。通过研究这个新版本后,我了总结一些发现的几个值得特别关注的创新点供参考:

一种不同的推理哲学

最引人注目的是Anthropic对推理能力的独特处理方法。当其他公司都是在标准大模型旁边发布单独的推理模型时(例如OpenAI的GPT-4o和o1,或者是DeepSeek的V3和R1),Anthropic选择了在Claude 3.7 Sonnet中采用更统一的方法(OpenAI曾经说过未来也会走类似的方向)。

这一核心理念感觉和之前将标准大模型和推理模型用人脑的系统一和系统二思考来类比一样:人类是使用同一个大脑进行快速回答(系统一)和深度思考(系统二),因此推理能力也应该是单一模型的集成功能,而不是个单独的专门模型。

根据Anthropic官方blog上介绍自己和市场上其他推理模型的三个关键区别:

阅读全文 »
0%