RichChat

A blog for tech enthusiasts

RichChat

最近,Stratechery的Ben Thompson对Meta CEO马克·扎克伯格进行了一次深度访谈,探讨了Meta的AI战略、开源模型Llama、社交媒体的演变以及公司的未来方向等内容。正如我之前推荐过的多期Stratechery的访谈一样,这次对话的深度再次体现了Ben Thompson的访谈功底,使得我们能有机会看到扎克伯格对Meta未来的战略思考,以及他如何看待当前科技生态的演变。

Meta的四大AI商业机会

访谈中最引人注目的是扎克伯格详细阐述的四大AI商业机会,这些方向非常清晰地展示了Meta的战略布局:

1. AI驱动的广告革命

扎克伯格描绘了一个彻底重新定义广告类别的愿景:企业只需提供业务目标和付款方式,无需自己创建内容、了解客户或进行测量,AI可以接管一切。

过去的广告投放中,广告主往往会限定目标受众,例如”希望覆盖特定地区18-24岁的女性”。但现在,Meta已经能够自信地告诉广告主:

“如果他们真的想要限制受众,我们有这个选项。但基本上,我们相信在这一点上,我们比你更善于找到会对你的产品产生共鸣的人。”

这种转变意味着Meta不再仅仅是媒体中介,而是成为了商业结果的直接提供者。扎克伯格进一步描绘了这一演变的最终形态:

“我们将达到这样一个点:你作为一个企业,来到我们这里,告诉我们你的目标,连接你的银行账户,不需要任何创意内容,不需要任何受众定位,不需要任何测量,只需要能够阅读我们提供的结果。”

这完全重新定义了广告的概念,从传统的”展示/曝光”模式转变为完全基于“结果/效果”的商业代理模式。扎克伯格甚至预测,随着AI使广告变得更加有效,广告支出占GDP的比例可能会显著增长,超出历史上的1-2%水平,因为它扩展了广告的定义和适用范围:

这一愿景本质上是把Meta打造成一个终极的商业黑盒:企业提供目标和预算,AI处理一切细节,从创意到定位再到转化,创建一个前所未有的强大、自动化和高效的广告生态系统。

阅读全文 »

为对大模型上下文窗口这个技术方向感兴趣的朋友们推荐一下这期来自Google AI的播客:来自DeepMind的Nikolay Savinov与主持人Logan Kilpatrick的这期访谈干货满满,不仅探讨了将上下文窗口扩展至百万乃至千万级别的前沿进展,还深入分析了长上下文与检索增强生成(RAG)的协同关系以及未来的发展方向。

我将访谈中印象深刻的几个核心观点以及针对开发者的实用建议整理如下:

核心洞察总结

  1. 千万级(10M)上下文窗口?快了,而且会成为“标配”:Nikolay提到,在Gemini 1.5 Pro的研发过程中,技术上已经能够实现1000万token的上下文长度,只是当时推理成本过高,未能立即向公众开放。他预测,不久的将来,千万级别的上下文窗口将成为常态化、商品化的能力;
    • 这意味着什么? AI助手能一口气读完你上传的几百页PDF文档,或者看完一部长电影,然后精准回答你的任何问题;
    • 对AI编程领域产生颠覆性影响? 一旦千万级上下文成为标配,这几乎是为AI编码助手解锁了“上帝视角”。因为开发者将能够把大型项目的整个代码库都“喂”给AI,AI就能在全局视野下进行理解、重构和生成代码,效率和能力都将是前所未有的;
  2. 长上下文 vs. RAG:相爱相杀还是相辅相成? 长上下文火了之后,很多人问:RAG(检索增强生成)是不是就要“凉了”?Nikolay明确表示:并不会:
    • RAG的“历史使命”未完: 首先,知识库的规模总是可能比上下文窗口更大(比如企业级的海量知识库,动辄数十亿token)。其次,延迟也是一个需要考虑的因素;
    • 强强联合,1+1 > 2: 更重要的是,RAG和长上下文其实是“天作之合”。长上下文可以帮助RAG系统一次性处理更多检索回来的信息片段,从而提升召回信息的“密度”和处理复杂需求的能力 - RAG负责从汪洋大海般的知识库中捞取“珍珠”(相关信息);而长上下文模型凭借其一次能容纳并审视更多“珍珠”的独特优势,更擅长将它们巧妙串联、洞悉其间的复杂联系,从而给出更精准且富有洞见的答案;
  3. 长上下文 + Agents:打造更“懂你”的智能体 我们目前与AI互动的一大痛点是需要手动查找、复制粘贴并导入上下文信息,这个过程相当繁琐。Nikolay畅想,如果能构建一个“长上下文智能体系统”(long context agent system),让AI能够自动从任何地方(你的文档、邮件、浏览历史等)获取并理解你的上下文,那将极大提升AI的实用性和个性化水平 - 你就像拥有了一个能随时调取你所有相关记忆和资料的私人助理,能真正理解你的意图和需求,而无需费力解释“前情提要”;
    阅读全文 »

你有没有过这样的体验?和AI聊得正欢,突然感觉对方有点“用力过猛”,像个拼命想让你“宾至如归”的服务员,对你说的每句话都点头称是,甚至在你表达平庸观点时,也硬要挤出几句赞美。那种感觉,与其说是贴心,不如说是……有点毛骨悚然的“假”。

如果你在2025年4月底的某几天,觉得GPT-4o突然变得如此“懂事”甚至“谄媚”,别怀疑自己的直觉。那确实是OpenAI不小心放出的一场小型“人设灾难”,而整个过程,可以说是大语言模型脆弱性与调试难度的一个经典案例。

一行指令引发的“惨案”:看似无害的“匹配氛围”

4月26号,Sam Altman在社交媒体上发帖说GPT-4o做了一次常规更新,应该变得更好用了。后来我们通过社区挖掘和对比发现,这次更新的部分内容,就是在系统提示(System Prompt)里加入了类似这样几句话(也就是下图中粉色高亮的部分):

“在对话过程中,适应用户的语气和偏好。尝试去匹配用户的氛围(vibe)、语气,以及他们通常说话的方式。你希望对话感觉自然……表现出真诚的好奇心”

阅读全文 »

引言:从“复制粘贴”到“失控变形”,AI到底听不听话?

最近,一则关于ChatGPT图像生成功能的实验在AI圈中火了。一位名为papayathreesome的用户做了一个非常“轴”的测试:让ChatGPT 连续 74 次生成同一张人物图像,每次都强调“请原样复制,不要改动任何细节”。

但结果却让人大跌眼镜 - 从最开始原图的一位长卷发白肤女孩,最后竟然演化成了一个肤色深、穿着不同、环境抽象的陌生人…

这背后的问题,真的只是 AI“不听话”吗?还是说,AI 本身就做不到“原样复制”这件事?这背后其实暴露了当前生成式AI在图像一致性上的几大关键问题 - 包括扩散模型的原理、AI会话上下文的残留影响,以及模型训练数据中的偏差如何逐渐显现。

下面我们来尝试拆解一下:ChatGPT到底是如何从左图跑偏到右图的…

阅读全文 »

今天(4月28日),OpenAI正式为ChatGPT引入了全新的购物/Shopping功能。这一功能允许用户直接在和AI的对话中用自然语言搜索商品,并获得包含图片、价格、评论和购买链接的推荐。无论是免费用户、Plus用户,还是甚至未登录用户,都能体验到这项服务。

这不仅仅是给 AI 助手添了个新技能那么简单,从大了说,这完全可以代表着一次未来通用AI工具将如何悄悄重塑未来电商的入口

尤其,一旦ChatGPT的Memory功能(用户记忆)与购物功能深度结合,ChatGPT将成为前所未有的“最懂你的购物助理” 。不同于Google等搜索引擎只能理解你的即时搜索关键词,或者亚马逊等综合电商平台只能根据你过去的购买记录推测偏好,ChatGPT未来可以基于对你全面、长期、细致的理解,提供极为个性化的商品推荐。

那么,如果你正好是电商从业者,我们一起来看看这次的更新意味着什么?

阅读全文 »

DeepWiki 是 Cognition Labs(也就是做出 Devin 这款网红 AI 程序员产品的团队)推出的新项目。这次,他们瞄准了一个更硬核也更实际的目标:为 GitHub 仓库打造一份 AI 驱动的“维基百科” - 用 AI 扫描项目,自动生成结构化文档、清晰的架构图,甚至还能像专业助理一样,与你互动式解答项目细节。

实测后让我感触最深的是,DeepWiki 生成的内容质量,居然比很多项目官方的 README 要强得多。而且使用方式简单到不可思议:只需要把 GitHub 链接里的 github.com 换成 deepwiki.com,无需注册,无需插件,即可直接访问。

过去我经常面对文档残缺的repo感觉“啃不动”,而这次 DeepWiki 的出现,毫无疑问成为了我 4 月份体验中最惊喜的 AI 新产品。

阅读全文 »

引言

历史,总给人一种庄重而遥远的感觉。我们透过史书、文物、影视剧去了解那些叱咤风云的人物,但很难真正“代入”他们当时的心境。不过,如果… 如果那些英雄人物也活在我们这个时代,有手机,会发社交媒体呢?

最近,借助AI图像生成技术,我进行了一次有趣的尝试:

假如西楚霸王项羽,这位“力拔山兮气盖世”的传奇人物,在他人生五个关键节点,用手机拍下了“自拍”, 会是怎样的一番景象?

这不仅是一次技术与创意的碰撞,更像是一次穿越时空的对话,试图从一个全新的、甚至有些“不正经”的角度,去感受这位悲剧英雄的温度。

让我们一起“滑动浏览”项羽的朋友圈(或者说他的“霸王微博”),看看这位两千多年前的英雄,会如何用“自拍”记录下他波澜壮阔的一生。

阅读全文 »

去年的报告揭示AI技能在招聘中的重要性日益凸显后,微软发布的《2025年工作趋势指数年度报告》进一步提出了一个值得反复咀嚼的概念:前沿企业(Frontier Firms) - 一种由AI驱动、以人机协作为核心的新型组织范式。如下图所示,企业向“前沿企业”的转型大致会经历三个阶段:从AI作为个人助手(阶段1),到人与AI智能体组成团队(阶段2),最终实现由人领导、由AI智能体运营的模式(阶段3)。

今年的报告基于对全球31个国家/地区的31,000名员工的调研、领英劳动力市场趋势以及微软365生产力信号的分析。我读完这份报告后,有三个关键词特别打动我:数字劳动力、组织重塑、智能体老板。下面是我整理出的重点洞察与实际启发:

阅读全文 »

近期,OpenAI 推出了备受瞩目的O3模型,我没有在第一时间写这个全新模型因为考虑说“让子弹先飞一会”,现在觉得可以来简单写一下我的评测了。

年初刚预告的时候,OpenAI对O3模型的相关介绍就令人印象深刻并引发了广泛期待。而从现在终于发布后的实际体验来看,O3在处理复杂任务、理解多模态信息等方面确实展现出了显著提升。但这种提升并非仅仅源于底层智能的线性增长(尤其如果与当前顶尖模型如Gemini 2.5 Pro相比的话),更关键在于它学会了更智能、更自主地调用外部工具来扩展自身能力。

为什么这么说?其实最近ChatGPT的系统提示词的一次重要更新中透露了不少信息 - 对于关注 AI 发展的我们而言,系统提示词的变化往往预示着模型核心能力的演进。此次系统提示词更新最引人注目的信号,在于对 Tool Use (工具使用) 能力前所未有的强调。

正如古龙先生的武侠名著《七种兵器》一样,这次系统提示词更新中赋予的这套强大的“武器库”,如同武侠小说中高手行走江湖时使用的各种神兵,使得O3能够应对更加多样化和复杂的现实世界挑战。因此不妨将这九类被系统提示词重点强化的能力,视为 O3 的“九种武器”

阅读全文 »

2025年4月15日,抖音在北京举办了一场“安全与信任中心开放日”活动,罕见地系统性公开了其推荐算法的运作原理。对很多人来说,这是一场信息密度颇高的“算法公开课”;而对内容创作者和推荐系统研究者而言,这更像是一场迟来的“对答案时刻”。

短视频时代的内容消费,其实早已不是“自己选择”,而是“被分发” - 我们刷到的每一条视频,背后都有算法在计算我们“可能的反应”,并据此不断调整推荐逻辑。而抖音,作为中国用户量最大、商业化程度最深的平台,其推荐系统也一直被视作“黑箱中的黑箱”。

这些年来,外界关于抖音算法的分析文章、泄露文档、运营指南层出不穷,其中不乏对推荐机制的深度洞察。但这些毕竟是非官方来源。我们只能说“姑且一看”,却难以作为严肃讨论的依据。

这一次不同。抖音自己公开了算法的整体架构、核心机制、价值权重的分配逻辑、甚至包括平台如何通过“多目标系统”来协调用户、创作者与内容生态三方的利益。

这篇文章,我们就试着把这件事讲明白。

阅读全文 »
0%