RichChat

A blog for tech enthusiasts

RichChat

引言:饱和时代中的稀缺价值

硅谷,周一早晨。Lex Fridman刚刚发布了与特斯拉掌门人Elon Musk的访谈播客。不到24小时,播放量已突破100万,评论区里挤满了来自各地网友的讨论。

与此同时,国内顶流播客《乱翻书》在小宇宙app发布了最新一期科技圆桌。虽然同样制作精良、内容深刻,但一周后播放量只有大约一万出头,评论区活跃的几乎都是圈内人。

这种反差背后,隐藏着一个播客世界的核心洞察:正如小宇宙CEO Kyth所言,”播客是在丰饶的时代,提供稀缺价值的东西。”在信息爆炸的今天,播客以其独特的亲密感、深度和陪伴性,成为了一种反潮流的文化现象。但为何同样的媒介形态,在两地呈现如此不同的发展路径?

阅读全文 »

为对LLM训练的技术细节方面感兴趣的朋友们强烈推荐这个免费资源:经过6个多月的制作和消耗超过一年的GPU计算时间,HuggingFace发布了“Ultra-Scale Playbook”(超大规模训练攻略)—— 一本免费、开源的书籍,为大模型训练技术揭秘。

HuggingFace的LLM训练三部曲

这本《超大规模训练攻略》是HuggingFace正在推出的LLM训练三部曲系列中的第二部分,旨在为开源社区提供全面的大模型训练知识:

  1. 第一部分:FineWeb - 高质量预训练数据集的创建(已发布)
  2. 第二部分:Ultra-Scale Playbook - 分布式训练技术详解(本文重点)
  3. 第三部分:数据混合和架构选择(即将推出)

Ultra-Scale Playbook:核心内容与价值

这本书在讲什么

正如作者所说:

“我们的目标是将所有使当今大语言模型扩展成为可能的技术集中在一起,用连贯且易懂的方式讲述其中的来龙去脉。”

阅读全文 »

引言:Stratechery最新出的这篇Sam Altman专题访谈的质量不错,专门做了一个全文精翻版供参考。有兴趣的话也可以延展阅读一下之前我整理过的Stratechery谈DeepSeek这篇 - 深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

老规矩,先总结个人印象深刻的几点:

OpenAI作为”意外的”消费科技公司的诞生 - Altman坦言当初创立OpenAI时,它只是一个研究实验室,完全没有明确的产品方向,甚至连具体想法的雏形都没有。感觉这个从”在荒野中迷失的学术研究实验室”到如今的科技巨头的发展历程描述还挺真实的;

ChatGPT惊人爆发期的真实描述 - Sam描述推出ChatGPT后的那段高速增长期的发言完全可以当脱口秀来看:”每天都是这样:用户暴涨,服务器崩溃;到了晚上,用户量下降,大家就说’完了完了,就这么一阵风’;结果第二天峰值更高,又跌下来,大家又说’这回真完了’。”这种循环持续了数天,直到他意识到:”得,这情况我再熟悉不过了,接下来会怎样我都知道”;

对过去过于谨慎保守策略的反思 - 在访谈中,Altman多次提到OpenAI早期的保守策略,例如如GPT-2发布时对安全性的过度担忧。他坦言:”现在回想起来,我完全后悔我们当时使用的一些措辞。我也理解为什么人们会说:”这不过是炒作和制造恐慌”,但这真的不是我们的本意”。

关于AI商业模式的思考 – 在被问到“五年后什么会更有价值 - 是一个拥有十亿日活跃用户、不需要做客户获取的目标网站,还是最顶尖的模型?”,Altman的回答是“那个拥有十亿用户的网站”,他的逻辑是认为未来的战略优势将体现在三个方面:建立大型互联网公司提供统一的AI服务套件(包括软件和硬件的完整生态)、发展推理基础设施(或者说如何实现最经济和最充足的推理能力),以及持续进行前沿研究保持能开发出最优秀的模型。

此外,他对传统广告模式显示出明显的抵触,甚至说“我们绝不会接受付费调整排名”;

对AI未来的展望 - 当被问及OpenAI是否会开源其模型以应对DeepSeek等竞争对手时,Altman意味深长地说:”我已经在尽可能地暗示了,就差明说了。你懂的。”这暗示了OpenAI可能正在重新考虑其封闭战略,同时他也透露了GPT-5即将推出,并将为免费用户提供。

关于创造力本质的哲学思考 - Altman引用了David Deutsch的观点,认为创造力本质上就是把已有的东西稍作修改,然后不断改进。而这种渐进式的创新恰恰是AI所擅长的,这也是他相信AI最终能够实现真正创造的基础。

给高中毕业生的实用建议 - 当被问及对即将高中毕业的学生有什么职业建议时,Altman给出了两条有价值的建议:首先是要学会熟练使用AI工具,就像他高中毕业那会儿最实用的建议是学会编程一样;其次是培养适应力、韧性以及理解他人需求这些通用技能,就像他认为自己在学校学到最重要的东西是”如何学习的能力”一样。

阅读全文 »

大家应该都看过春晚上宇树科技的机器人能灵活地跳秧歌,这一夜让所有人都看到了人性化机器人已经不只存在于科幻电影中。那么,到底还要多久我们才能看到这些机器人出现在工厂或者家庭中呢?行业专家对此意见不一,许多人认为即使在未来5-10年内也难以实现大规模应用。

而今天我要为大家介绍的Figure公司推出的Helix AI系统,它展示了一个令人振奋的可能性——也许这些机器人进入工厂和家庭的时间比我们想象的要近得多。

一个能像你一样学习新工作的机器人

你有没有想过,一个机器人能像你一样快速学会新工作?比如在仓库中识别杂乱的包裹,理解口头指令,然后精准高效地完成任务;或者在汽车工厂里,像熟练工人一样协助组装车身?

过去,这听起来像是遥远的梦想。传统机器人往往笨重、反应迟缓,需要工程师花费数月甚至一年的时间来编程、测试和调整,才能让它们适应新任务。Helix系统的出现彻底改变了这一现状。

Helix是Figure这家人形机器人公司开发的”超级大脑”。可以将其视为一个全能的认知系统——具备视觉感知、听觉理解和行动能力,类似于人类的大脑,只是被装在金属躯体中。这也是为什么Figure的联合创始人Brett Adcock说:

“人形机器人是实现通用人工智能(AGI)的最佳载体”。

阅读全文 »

就在前天,北京市教委发布了《北京市推进中小学人工智能教育工作方案(2025—2027年)》,我读了以后除了对这份执行方案的详尽程度大受感触外,更重要是发现这个方案:

不是试点,而是在北京市全面铺开。

从2025年秋季学期起,北京市所有中小学生 – 是的,包括那些刚刚学会系鞋带的小学生– 每学年将接受至少8课时的AI教育。这场教育变革悄然降临,却又轰轰烈烈。

1 翻开这份方案,细节之处令人惊叹

北京的AI教育不是简单地在课表上加一门课那么简单。它像一条精心设计的成长曲线:

  • 小学阶段以兴趣培养为主,让孩子们在游戏中认识AI;
  • 初中开始动手应用,学生能用简单工具解决实际问题;
  • 到了高中,则已经具备AI实践能力,同时开始思考技术伦理问题。
    阅读全文 »

由于刚发布的Manus这款号称“全球首款通用智能体平台”的刷屏式传播,很多人找我问起到底大模型领域的”agent”(中文被翻译为“代理”或者“智能体”)是什么?在本文中,我将使用”智能体”这一翻译,并尝试用最通俗易懂的方式来解释它的概念和意义。

简单来说,智能体可以理解为具有一定自主能力的AI助手或AI执行者,它不仅能理解你的需求,还能主动采取行动帮你完成任务

智能体与普通AI的区别

智能体本质上是普通AI助手的进化版本,其区别主要体现在行动能力上:

阅读全文 »

在今年的 MWC 2025 上,一家来自中国的初创公司BleeqUp公布了一款名为Ranger的 AI 骑行智能眼镜 – 这款产品将高清摄像头、AI 技术、开放式音频甚至处方镜片兼容性集于一身,仿佛在对我们说:为什么带一堆装备上路,当一副眼镜就能搞定一切?

从“装备堆积”到“简约骑行”

过去,骑行者的装备清单总是让人头晕:骑行眼镜保护眼睛,耳机听音乐,动作相机记录风景,还得塞一副处方眼镜矫正视力——东西太多,背包塞满,手忙脚乱。而 Ranger 的出现,直接把这些化繁为简。50 克的轻盈机身,集成了所有必需品:高清摄像头、音频系统、耐用设计,甚至还能夹入处方镜片。简洁的外观下,是对“Simplify Your Ride with One Device”理念的最佳诠释 - 为什么要多带装备,当一个就够用?

阅读全文 »

Meta在2025年2月末发布的Aria Gen 2智能眼镜,作为Project Aria计划的最新成果,虽然明确定位为AI和机器感知研究工具,但它所搭载的创新技术很可能成为未来Ray-Ban Meta眼镜进化的关键指南。

研究利器的非凡技术

Aria Gen 2最大亮点在于其全面升级的传感器套件。它不仅包含RGB摄像头、6DOF SLAM定位摄像头和眼动追踪摄像头,还新增了鼻垫区域的光电容积脉搏波(PPG)传感器,能够直接监测心率数据。这种全面感知能力使其成为收集第一人称视角数据的理想工具。

更值得关注的是Meta自研芯片带来的设备端AI处理能力。这意味着SLAM定位、眼动追踪、手势识别和语音识别等复杂任务可以完全在设备上完成,无需依赖云端计算。这不仅提升了隐私保护水平,也大幅降低了延迟,即使在网络连接不稳定的环境下也能保持高效运行。

在实用性方面,Aria Gen 2提供了6-8小时的电池续航,75克的重量以及可折叠设计,配备开放式降噪扬声器,让佩戴者在享受音频体验的同时仍能感知周围环境。

阅读全文 »

当我们与人交谈时,真正的理解不仅仅体现在词语上,更体现在声音的微妙之处:语调的起伏、有意义的停顿、语速的变化。这些细微差别共同构成了我们最亲密的交流媒介。而当前的AI语音助手,无论多么先进,都缺乏这种真实的”语音存在感”。

走出AI语音的”恐怖谷”

“恐怖谷”(Uncanny Valley)是机器人学和AI领域的一个著名现象,最初由日本机器人学家森政弘在1970年提出。这一理论指出,当机器人或虚拟形象接近人类但又不完全像人类时,人们会产生强烈的不适感。

在语音领域,这一效应同样存在:当AI合成语音接近真人但仍有微小瑕疵时,反而让人觉得怪异,不如明显的”合成”的声音那样让人接受。我们多数人都体验过这种感觉 - 当前的高级语音助手听起来已经很”像人”了,但那种平板的情感、缺乏语境适应的回应和机械的节奏,常常让长时间交流变得疲惫和不自然。这就是语音交互的”恐怖谷”,一个看似接近人类但又让人感到不适的区域。

Sesame团队在最近发布的研究《Crossing the uncanny valley of conversational voice》中,正尝试跨越这一根本挑战。我体验了他们的语音助手演示,无论是Maya还是Miles,都给我留下了深刻印象,特别是相比目前市面上的ChatGPT或者豆包的实时语音模式,Sesame的语音助手听起来真实了许多 - 他们似乎已经开始成功地跨越这道”恐怖谷”。

阅读全文 »

探索Anthropic团队在构建有效AI智能体方面的经验与洞见

AI智能体(agents)是当前AI领域最热门的概念之一,但关于它的实际含义、适用场景以及与其他AI系统的区别,业内存在诸多混淆。在我看过的诸多文章中,Anthropic去年底发布的这篇”如何构建高效的智能体系统”是写的最好的,尤其是不同于其他一些过于理论的讨论智能体文章,内容非常强调实用性,且Anthropic团队本来就在智能体实战方面有深厚的经验。具体可以参考之前我整理过的这篇内容解读

上周Anthropic又放出了一段针对构建智能体实战分享的后续讨论视频,团队中的三位专家:Barry Zhang(应用AI团队)、Erik Schluntz(研究团队)和Alex Albert(Claude关系团队)深入探讨了AI智能体的本质、实际应用和未来前景,是一段非常好的补充阅读。

将这两篇内容看成一个“如何构建智能体”的实战分享完全体来看的话,核心原则依然是:不要过度构建,能用简单方法解决的问题就不要额外添加复杂性。我整理了这段视频对话中的关键洞见,再结合原文的部分内容,希望对那些正在构建AI智能体的开发者有所帮助。

阅读全文 »
0%