RichChat

A blog for tech enthusiasts

RichChat

我之前深度译读过Stratechery的CEO访谈系列(小扎访谈奥特曼访谈),其中不乏一些在这些大佬们在战略层面思考的亮点。但如果想听到些国内大厂老板/高管们对自家业务的看法,每个季度的财报发布时的电话会提问环节可能是唯一的机会了… 不同于财报发布通稿中哪些四平八稳的谨慎措辞,这些即时回答内容有时还是能听到点干货的。

在腾讯刚刚发布的2025年第一季度财报电话会中,AI相关的讨论尤为引人注目。我梳理了其中三个给我留下深刻印象的关键点:

Agentic AI 的双轨并行:通用智能与微信生态的独特融合

首先,腾讯高管对炙手可热的 Agentic AI概念给出了他们的思考。Agentic AI - 即能够自主理解并执行复杂、多步骤任务,甚至调用工具和第三方应用的智能体,被腾讯划分为两条发展路径:

阅读全文 »

最近随着AI+陪伴硬件受到更多的关注,看到了各种相关的方案发现基本都还是用的小智的这套架构来做,确实也能理解,因为最方便直接出demo,而且默认自带的的“台湾妹”语音更容易吸引眼球。

我自己最近也用Seeed的一款硬件来玩了一下小智语音聊天机器人,确实融合了硬件后还是挺好玩的。同时顺手读了一下小智的技术文档,下面简单整理了小智的模型使用情况及其服务端代码分析供想玩的朋友们参考:

小智的模型使用情况

1. ASR 相关

  • VAD(语音活动检测)speech_fsmn_vad_zh-cn-16k-common-pytorch 用于检测语音的起始和结束,过滤掉静默和噪音;
  • 核心 ASRSenseVoiceSmall 用于将语音转换为文本,是小智语音识别的核心模型;
  • 声纹识别模型speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common 用于识别说话人的身份,可以用于区分不同的用户;

2. LLM

  • 官方FAQ页面说是基于 QWen 72B 进行“训练”和自部署,以及小智管理后台配置看是写的默认使用“Qwen 实时”;
  • QWen 是阿里开源的通义千问大语言模型,小智团队在其基础上进行了定制化的“训练”和部署,但具体细节尚未公开;

3. TTS 相关

  • 火山引擎(Volcengine)
    • 火山引擎的智能语音服务,提供多种音色的语音合成功能,默认的“湾湾小何”语音就是来自火山;
  • 阿里云(Dashscope)

引言

几周前,我在「拥抱或淘汰?聊聊Shopify CEO这封强制全员学习AI的内部信」一文中分析了Shopify CEO托比·卢特克的那封震撼内部备忘录。令人惊讶的是,这封信似乎成为了一个导火索,短短一个月内,越来越多的科技公司迅速跟进,纷纷宣布自己正转型为”AI-First公司”。

在这股浪潮中,语言学习平台多邻国(Duolingo)和云存储与协作平台Box尤为引人注目。它们不仅迅速跟进,更通过公开信件或社交媒体清晰地阐述了各自的AI转型蓝图。这些计划无一例外地包含了颇为激进的变革举措,其影响深远,从员工的日常工作、绩效考核,一直延伸到公司的资源分配乃至战略核心。

那么,这些争相拥抱“AI优先”的公司,它们所构建的组织究竟有何共同特征?它们各自的侧重点又是什么?这场深刻的组织变革,又将给整个商业世界和每一位职场人带来怎样的启示与挑战?本文将结合Shopify、多邻国和Box的最新动向,尝试描绘AI-First组织的轮廓。

阅读全文 »

很多人应该和我有过一样的经历:每次到了个新地方,想根据大众点评的美食排行榜来找餐厅吃饭的时候,会发现很多“高分网红餐厅”其实味道平平,甚至不如街角那家不知名的小馆子来得惊艳。到后来才明白,原来这些排行榜的分数都是可以刷的…

当你接受了“只要有排行榜的地方就有江湖”这个道理以后,就会发现其实AI圈也不例外。在大模型核心圈风头正劲的LMArena排行榜,最近被一篇研究报告推上了舆论的风口浪尖 - 这篇由MIT、斯坦福和Cohere等顶尖机构联合发布的《排行榜的幻觉》(The Leaderboard Illusion),直指LMArena可能存在偏袒大型科技公司的“潜规则”。

LMArena到底怎么玩?这场‘盲测’游戏的规则

可能有些朋友对LMArena还不太熟悉,我简单介绍一下它的运作模式。你可以把它想象成一个大模型的“盲测擂台”:

阅读全文 »

引言:数字点餐普及后的“最后一米”混乱

在外卖与移动下单成为常态的当下,越来越多的快餐连锁、咖啡品牌和轻食门店选择将订单环节“线上化”。从美团京东到自家小程序,点单变得越来越方便。但当顾客满心期待赶到店里,却发现自己要在一个狭小的取餐区里翻找订单、错拿餐品、甚至干脆找不到自己的名字时,反而带来了负面体验。

以自己的亲身经验为例 - 作为一个瑞幸的重度用户,我经常在线上下单,然后去门店取咖啡:系统会给你一个取餐码,理论上流程是你扫码后店员确认并把咖啡交给你。但现实情况是:咖啡早就做好,凌乱地直接放在台面上,下面压着一张打印好的取餐码。顾客基本都是自己在取餐台翻找,很多时候也不扫码核销。整个过程,尤其在高峰期的时候,还是有些混乱容易出现拿错等情况的。

在分析今年CES 2025的有趣新品中,其实这款名叫 PickPad 的新产品我的印象是非常深刻的。它并不是下一代点餐系统,也不是一个会说话的机器人,而是一块“看起来像普通台垫”的智能设备。没有复杂的界面,也不需要员工培训,只需把它放在取餐台上,就能自动识别每个订单是否完整、是否放对位置,并在顾客到来前亮出他们的名字。

PickPad虽然没有“酷炫”的外形,却让我开始重新思考一个问题:AI硬件,是不是非得“很酷”才算成功?

阅读全文 »

回想一下GBA游戏的黄金时代 - 你在深夜宿舍的台灯下,黑白屏幕的微光照亮你疲惫又兴奋的脸,不知不觉又打通了一个道馆,明明说好只玩十分钟的… 只是现在你已经不记得到底这款游戏的名字应该是宝可梦、口袋妖怪、神奇宝贝还是宠物小精灵了…

而现在:一个AI正在玩着同样的游戏,也在挑战同样的道馆,甚至给自己的杰尼龟起了个拼写错误但意外可爱的名字”TSUNMAI!”(大概是想拼tsunami/海啸来反映水系宝可梦的特性,但是AI也会有“手抖”拼写错误的时候?)。

当我在社交媒体上看到Google CEO Sundar Pichai宣布旗下的最强AI - Gemini 2.5 Pro成功通关《宝可梦蓝》的消息时,内心泛起的不仅是对技术的惊叹,更是一种奇特的情感混合物- 我们当年玩的游戏,现在竟然成了评估顶尖AI能力的标杆?

这不能不说是条神奇的时间线…

AI转战宝可梦:不只是”玩游戏”那么简单

2025年的AI世界有了两位新晋宝可梦训练师:Google的Gemini 2.5 Pro模型和Anthropic的Claude 3.7 Sonnet模型。

阅读全文 »

最近,Stratechery的Ben Thompson对Meta CEO马克·扎克伯格进行了一次深度访谈,探讨了Meta的AI战略、开源模型Llama、社交媒体的演变以及公司的未来方向等内容。正如我之前推荐过的多期Stratechery的访谈一样,这次对话的深度再次体现了Ben Thompson的访谈功底,使得我们能有机会看到扎克伯格对Meta未来的战略思考,以及他如何看待当前科技生态的演变。

Meta的四大AI商业机会

访谈中最引人注目的是扎克伯格详细阐述的四大AI商业机会,这些方向非常清晰地展示了Meta的战略布局:

1. AI驱动的广告革命

扎克伯格描绘了一个彻底重新定义广告类别的愿景:企业只需提供业务目标和付款方式,无需自己创建内容、了解客户或进行测量,AI可以接管一切。

过去的广告投放中,广告主往往会限定目标受众,例如”希望覆盖特定地区18-24岁的女性”。但现在,Meta已经能够自信地告诉广告主:

“如果他们真的想要限制受众,我们有这个选项。但基本上,我们相信在这一点上,我们比你更善于找到会对你的产品产生共鸣的人。”

这种转变意味着Meta不再仅仅是媒体中介,而是成为了商业结果的直接提供者。扎克伯格进一步描绘了这一演变的最终形态:

“我们将达到这样一个点:你作为一个企业,来到我们这里,告诉我们你的目标,连接你的银行账户,不需要任何创意内容,不需要任何受众定位,不需要任何测量,只需要能够阅读我们提供的结果。”

这完全重新定义了广告的概念,从传统的”展示/曝光”模式转变为完全基于“结果/效果”的商业代理模式。扎克伯格甚至预测,随着AI使广告变得更加有效,广告支出占GDP的比例可能会显著增长,超出历史上的1-2%水平,因为它扩展了广告的定义和适用范围:

这一愿景本质上是把Meta打造成一个终极的商业黑盒:企业提供目标和预算,AI处理一切细节,从创意到定位再到转化,创建一个前所未有的强大、自动化和高效的广告生态系统。

阅读全文 »

为对大模型上下文窗口这个技术方向感兴趣的朋友们推荐一下这期来自Google AI的播客:来自DeepMind的Nikolay Savinov与主持人Logan Kilpatrick的这期访谈干货满满,不仅探讨了将上下文窗口扩展至百万乃至千万级别的前沿进展,还深入分析了长上下文与检索增强生成(RAG)的协同关系以及未来的发展方向。

我将访谈中印象深刻的几个核心观点以及针对开发者的实用建议整理如下:

核心洞察总结

  1. 千万级(10M)上下文窗口?快了,而且会成为“标配”:Nikolay提到,在Gemini 1.5 Pro的研发过程中,技术上已经能够实现1000万token的上下文长度,只是当时推理成本过高,未能立即向公众开放。他预测,不久的将来,千万级别的上下文窗口将成为常态化、商品化的能力;
    • 这意味着什么? AI助手能一口气读完你上传的几百页PDF文档,或者看完一部长电影,然后精准回答你的任何问题;
    • 对AI编程领域产生颠覆性影响? 一旦千万级上下文成为标配,这几乎是为AI编码助手解锁了“上帝视角”。因为开发者将能够把大型项目的整个代码库都“喂”给AI,AI就能在全局视野下进行理解、重构和生成代码,效率和能力都将是前所未有的;
  2. 长上下文 vs. RAG:相爱相杀还是相辅相成? 长上下文火了之后,很多人问:RAG(检索增强生成)是不是就要“凉了”?Nikolay明确表示:并不会:
    • RAG的“历史使命”未完: 首先,知识库的规模总是可能比上下文窗口更大(比如企业级的海量知识库,动辄数十亿token)。其次,延迟也是一个需要考虑的因素;
    • 强强联合,1+1 > 2: 更重要的是,RAG和长上下文其实是“天作之合”。长上下文可以帮助RAG系统一次性处理更多检索回来的信息片段,从而提升召回信息的“密度”和处理复杂需求的能力 - RAG负责从汪洋大海般的知识库中捞取“珍珠”(相关信息);而长上下文模型凭借其一次能容纳并审视更多“珍珠”的独特优势,更擅长将它们巧妙串联、洞悉其间的复杂联系,从而给出更精准且富有洞见的答案;
  3. 长上下文 + Agents:打造更“懂你”的智能体 我们目前与AI互动的一大痛点是需要手动查找、复制粘贴并导入上下文信息,这个过程相当繁琐。Nikolay畅想,如果能构建一个“长上下文智能体系统”(long context agent system),让AI能够自动从任何地方(你的文档、邮件、浏览历史等)获取并理解你的上下文,那将极大提升AI的实用性和个性化水平 - 你就像拥有了一个能随时调取你所有相关记忆和资料的私人助理,能真正理解你的意图和需求,而无需费力解释“前情提要”;
    阅读全文 »

你有没有过这样的体验?和AI聊得正欢,突然感觉对方有点“用力过猛”,像个拼命想让你“宾至如归”的服务员,对你说的每句话都点头称是,甚至在你表达平庸观点时,也硬要挤出几句赞美。那种感觉,与其说是贴心,不如说是……有点毛骨悚然的“假”。

如果你在2025年4月底的某几天,觉得GPT-4o突然变得如此“懂事”甚至“谄媚”,别怀疑自己的直觉。那确实是OpenAI不小心放出的一场小型“人设灾难”,而整个过程,可以说是大语言模型脆弱性与调试难度的一个经典案例。

一行指令引发的“惨案”:看似无害的“匹配氛围”

4月26号,Sam Altman在社交媒体上发帖说GPT-4o做了一次常规更新,应该变得更好用了。后来我们通过社区挖掘和对比发现,这次更新的部分内容,就是在系统提示(System Prompt)里加入了类似这样几句话(也就是下图中粉色高亮的部分):

“在对话过程中,适应用户的语气和偏好。尝试去匹配用户的氛围(vibe)、语气,以及他们通常说话的方式。你希望对话感觉自然……表现出真诚的好奇心”

阅读全文 »

引言:从“复制粘贴”到“失控变形”,AI到底听不听话?

最近,一则关于ChatGPT图像生成功能的实验在AI圈中火了。一位名为papayathreesome的用户做了一个非常“轴”的测试:让ChatGPT 连续 74 次生成同一张人物图像,每次都强调“请原样复制,不要改动任何细节”。

但结果却让人大跌眼镜 - 从最开始原图的一位长卷发白肤女孩,最后竟然演化成了一个肤色深、穿着不同、环境抽象的陌生人…

这背后的问题,真的只是 AI“不听话”吗?还是说,AI 本身就做不到“原样复制”这件事?这背后其实暴露了当前生成式AI在图像一致性上的几大关键问题 - 包括扩散模型的原理、AI会话上下文的残留影响,以及模型训练数据中的偏差如何逐渐显现。

下面我们来尝试拆解一下:ChatGPT到底是如何从左图跑偏到右图的…

阅读全文 »
0%