RichChat

A blog for tech enthusiasts

RichChat

2023年11月16日,全世界见证了科技界最戏剧性的一幕:OpenAI董事会突然解雇了CEO Sam Altman。五天后,Altman重新回到了原位。这起被OpenAI员工称为”the blip”(小插曲)的事件,当时让无数我这样的”吃瓜群众”看得云里雾里 - 董事会为什么突然解集明星CEO?为什么又火速让他回来?各方的操作简直令人摸不着头脑。

随着一本新书的发布,这或许是第一次,我们能从一个相对可信的渠道,详细了解当时那令人瞠目结舌的五天究竟发生了什么。而书中披露的详细内幕可能比我们想象的更加荒诞 - 这是一个”世界是个巨大的草台班子”的完美示范案例。

真正的导火索:信任危机与”小动作”

要理解这场政变,必须从更早的时间线说起。Altman,这位曾承诺”任何人都不应被完全信任”的CEO,在权力日益增长的同时,也让OpenAI的非营利董事会感到越来越不安。

董事会,尤其是独立董事Helen Toner和Tasha McCauley,对Altman在公司治理、对外投资以及个人基金运作上的透明度产生了严重质疑。问题一个接一个地暴露出来:Altman前往中东为芯片项目筹资,投资核聚变公司Helion,与传奇设计师Jony Ive会面讨论AI设备,每一项都让董事会在媒体上读到后感到意外。

更严重的是,董事会逐渐发现Altman在一些关键问题上似乎并不完全坦诚。比如OpenAI的创业基金实际上由Altman个人拥有,董事会经过几个月的反复询问才搞清楚这个奇怪的结构。又比如在安全审查方面,Altman曾声称某些GPT-4功能已经获得了部署安全委员会(DSB)的批准,但Toner要求文档后发现只有其中一项真正获得了批准。

这些”小动作”逐渐积累,让董事会对Altman的信任度不断下降。他们开始怀疑:这个掌控着人类最重要AI公司的人,是否真的可以信任?

阅读全文 »

Google 刚在 I/O 大会上祭出 XR 智能眼镜,意图定义 AI 终端的新范式。没想到第二天,OpenAI CEO 萨姆·奥特曼(Sam Altman)和前苹果首席设计官乔纳森·艾维(Jony Ive)就抛出了一记更大的“核弹”:一纸 65 亿美元的收购协议,OpenAI 正式将 Ive 创办的 AI 硬件公司 io 纳入麾下。

这一战,不只是两家公司之间的比拼,更像是两个未来愿景的正面对撞:是 XR 智能眼镜主导未来?还是一种我们还未能准确命名的「第三核心设备」才是终局?

两位传奇的重逢,像是为下一个时代“打样”

乔纳森·艾维,是 Apple 黄金时代的灵魂设计师,iMac、iPhone、Apple Watch 的缔造者,与乔布斯并肩作战数十年。而奥特曼,则是新一代技术叙事中的核心人物 - 他主导的 OpenAI,让我们距离通用人工智能的幻想又近了一步。

这两人的组合,自带科技叙事光环。外界甚至已经把 Altman 与乔布斯进行类比,而这场收购,也更像是他们要共同续写一个“后iPhone时代”的新开端。

Image

据报道,奥特曼已经看过艾维团队打造的原型机。他的原话是:“这是我见过最酷的科技产品之一。” 这款神秘设备被他寄予厚望,甚至宣称有望推动 OpenAI 估值上升 1 万亿美元。

阅读全文 »

AI时代的产品经理能力要求和传统的互联网时代到底有什么差别?

作为一名持续关注AI领域的前产品经理,我曾在之前的文章《OpenAI的DevDay闭门会ppt披露-“OpenAI的研究与产品协作:幕后故事”》中,探讨过OpenAI产品团队负责人Joanne Jang提出的“模型即产品”的理念及其独特的产品工作方式。

最近,我有幸学习了另一位在产品与研究领域均有深厚积累的Karina Nguyen(现供职于OpenAI,曾任职Anthropic)的分享- 《RL as a Co-Design of Product and Research》。Karina从“强化学习(RL)作为产品与研究的协同设计”这一更具体的视角,为我们揭示了在通往AGI的目标下,AI产品经理角色所发生的深刻进化。推荐所有产品经理方面的朋友可以都读一下:

Karina Nguyen分享的核心洞见速览

首先快速总结一下Karina分享中的几个重点内容:

阅读全文 »

我在之前一篇《大语言模型特性科普系列:从ChatGPT的“迷惑行为”说起》中提到过一个经典案例:当你反复“戏弄”ChatGPT,追问它”strawberry”这个英文单词中里有几个”r”并持续坚持说它错了,它最终会陷入越来越混乱的胡言乱语。

这种“AI突然变笨”的挫败感,相信不少深度AI用户都或多或少体验过。而现在,一篇来自微软研究院和Salesforce研究院的论文《LLMs Get Lost in Multi-Turn Conversation》(大语言模型在多轮对话中迷失),对这种“AI小迷糊”现象进行了细致入微的剖析。

论文开篇明义地指出:“当LLM在对话中拐错了一个弯,它们就迷路了,并且无法恢复。”

“聊着聊着就崩了”的残酷真相

这篇论文的研究员们进行了一场堪称“AI对话马拉松”的大规模模拟实验,拉来了市面上几乎所有叫得上名号的LLM“选手” - GPT系列、Claude、Gemini等15位顶尖高手,让它们在超过20万次的模拟对话中接受考验。任务涵盖了从Python编程到文本摘要等六大领域。

阅读全文 »

我之前深度译读过Stratechery的CEO访谈系列(小扎访谈奥特曼访谈),其中不乏一些在这些大佬们在战略层面思考的亮点。但如果想听到些国内大厂老板/高管们对自家业务的看法,每个季度的财报发布时的电话会提问环节可能是唯一的机会了… 不同于财报发布通稿中哪些四平八稳的谨慎措辞,这些即时回答内容有时还是能听到点干货的。

在腾讯刚刚发布的2025年第一季度财报电话会中,AI相关的讨论尤为引人注目。我梳理了其中三个给我留下深刻印象的关键点:

Agentic AI 的双轨并行:通用智能与微信生态的独特融合

首先,腾讯高管对炙手可热的 Agentic AI概念给出了他们的思考。Agentic AI - 即能够自主理解并执行复杂、多步骤任务,甚至调用工具和第三方应用的智能体,被腾讯划分为两条发展路径:

阅读全文 »

最近随着AI+陪伴硬件受到更多的关注,看到了各种相关的方案发现基本都还是用的小智的这套架构来做,确实也能理解,因为最方便直接出demo,而且默认自带的的“台湾妹”语音更容易吸引眼球。

我自己最近也用Seeed的一款硬件来玩了一下小智语音聊天机器人,确实融合了硬件后还是挺好玩的。同时顺手读了一下小智的技术文档,下面简单整理了小智的模型使用情况及其服务端代码分析供想玩的朋友们参考:

小智的模型使用情况

1. ASR 相关

  • VAD(语音活动检测)speech_fsmn_vad_zh-cn-16k-common-pytorch 用于检测语音的起始和结束,过滤掉静默和噪音;
  • 核心 ASRSenseVoiceSmall 用于将语音转换为文本,是小智语音识别的核心模型;
  • 声纹识别模型speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common 用于识别说话人的身份,可以用于区分不同的用户;

2. LLM

  • 官方FAQ页面说是基于 QWen 72B 进行“训练”和自部署,以及小智管理后台配置看是写的默认使用“Qwen 实时”;
  • QWen 是阿里开源的通义千问大语言模型,小智团队在其基础上进行了定制化的“训练”和部署,但具体细节尚未公开;

3. TTS 相关

  • 火山引擎(Volcengine)
    • 火山引擎的智能语音服务,提供多种音色的语音合成功能,默认的“湾湾小何”语音就是来自火山;
  • 阿里云(Dashscope)

引言

几周前,我在「拥抱或淘汰?聊聊Shopify CEO这封强制全员学习AI的内部信」一文中分析了Shopify CEO托比·卢特克的那封震撼内部备忘录。令人惊讶的是,这封信似乎成为了一个导火索,短短一个月内,越来越多的科技公司迅速跟进,纷纷宣布自己正转型为”AI-First公司”。

在这股浪潮中,语言学习平台多邻国(Duolingo)和云存储与协作平台Box尤为引人注目。它们不仅迅速跟进,更通过公开信件或社交媒体清晰地阐述了各自的AI转型蓝图。这些计划无一例外地包含了颇为激进的变革举措,其影响深远,从员工的日常工作、绩效考核,一直延伸到公司的资源分配乃至战略核心。

那么,这些争相拥抱“AI优先”的公司,它们所构建的组织究竟有何共同特征?它们各自的侧重点又是什么?这场深刻的组织变革,又将给整个商业世界和每一位职场人带来怎样的启示与挑战?本文将结合Shopify、多邻国和Box的最新动向,尝试描绘AI-First组织的轮廓。

阅读全文 »

很多人应该和我有过一样的经历:每次到了个新地方,想根据大众点评的美食排行榜来找餐厅吃饭的时候,会发现很多“高分网红餐厅”其实味道平平,甚至不如街角那家不知名的小馆子来得惊艳。到后来才明白,原来这些排行榜的分数都是可以刷的…

当你接受了“只要有排行榜的地方就有江湖”这个道理以后,就会发现其实AI圈也不例外。在大模型核心圈风头正劲的LMArena排行榜,最近被一篇研究报告推上了舆论的风口浪尖 - 这篇由MIT、斯坦福和Cohere等顶尖机构联合发布的《排行榜的幻觉》(The Leaderboard Illusion),直指LMArena可能存在偏袒大型科技公司的“潜规则”。

LMArena到底怎么玩?这场‘盲测’游戏的规则

可能有些朋友对LMArena还不太熟悉,我简单介绍一下它的运作模式。你可以把它想象成一个大模型的“盲测擂台”:

阅读全文 »

引言:数字点餐普及后的“最后一米”混乱

在外卖与移动下单成为常态的当下,越来越多的快餐连锁、咖啡品牌和轻食门店选择将订单环节“线上化”。从美团京东到自家小程序,点单变得越来越方便。但当顾客满心期待赶到店里,却发现自己要在一个狭小的取餐区里翻找订单、错拿餐品、甚至干脆找不到自己的名字时,反而带来了负面体验。

以自己的亲身经验为例 - 作为一个瑞幸的重度用户,我经常在线上下单,然后去门店取咖啡:系统会给你一个取餐码,理论上流程是你扫码后店员确认并把咖啡交给你。但现实情况是:咖啡早就做好,凌乱地直接放在台面上,下面压着一张打印好的取餐码。顾客基本都是自己在取餐台翻找,很多时候也不扫码核销。整个过程,尤其在高峰期的时候,还是有些混乱容易出现拿错等情况的。

在分析今年CES 2025的有趣新品中,其实这款名叫 PickPad 的新产品我的印象是非常深刻的。它并不是下一代点餐系统,也不是一个会说话的机器人,而是一块“看起来像普通台垫”的智能设备。没有复杂的界面,也不需要员工培训,只需把它放在取餐台上,就能自动识别每个订单是否完整、是否放对位置,并在顾客到来前亮出他们的名字。

PickPad虽然没有“酷炫”的外形,却让我开始重新思考一个问题:AI硬件,是不是非得“很酷”才算成功?

阅读全文 »

回想一下GBA游戏的黄金时代 - 你在深夜宿舍的台灯下,黑白屏幕的微光照亮你疲惫又兴奋的脸,不知不觉又打通了一个道馆,明明说好只玩十分钟的… 只是现在你已经不记得到底这款游戏的名字应该是宝可梦、口袋妖怪、神奇宝贝还是宠物小精灵了…

而现在:一个AI正在玩着同样的游戏,也在挑战同样的道馆,甚至给自己的杰尼龟起了个拼写错误但意外可爱的名字”TSUNMAI!”(大概是想拼tsunami/海啸来反映水系宝可梦的特性,但是AI也会有“手抖”拼写错误的时候?)。

当我在社交媒体上看到Google CEO Sundar Pichai宣布旗下的最强AI - Gemini 2.5 Pro成功通关《宝可梦蓝》的消息时,内心泛起的不仅是对技术的惊叹,更是一种奇特的情感混合物- 我们当年玩的游戏,现在竟然成了评估顶尖AI能力的标杆?

这不能不说是条神奇的时间线…

AI转战宝可梦:不只是”玩游戏”那么简单

2025年的AI世界有了两位新晋宝可梦训练师:Google的Gemini 2.5 Pro模型和Anthropic的Claude 3.7 Sonnet模型。

阅读全文 »
0%