RichChat

A blog for tech enthusiasts

RichChat

Google的Veo 3视频生成模型自上周发布以来掀起了一场堪比去年Sora最初“发布”时的AI视频革命 - 大量用户涌入体验,创作者们制作出了令人惊叹的内容,甚至有人用它探讨了哲学问题:如果AI生成的角色知道自己是由提示词创造的,会发生什么?

我来为大家总结一些Veo 3最新的动态和自己的相关观察。

令人印象深刻的技术突破

从技术表现来看,Veo 3确实展现出了令人惊叹的视频生成能力,除了明显的生成视频更逼真外,生成视频时可以自带相关声音效果、背景噪音和对话等音频元素也是亮点 - 彻底告别了”先生成无声视频再配音”的繁琐流程。

根据DeepMind CEO Demis Hassabis透露的数据,仅在发布后的几天内,用户就通过Veo 3生成了”数以百万”的视频。考虑到目前该服务仍面临诸多使用限制,这个数字相当可观,足以说明其技术魅力和用户需求的旺盛程度。

由于Veo 3大幅提升了AI生成视频的上限,很快就有创作者做出了各种高质量的视频,我个人最喜欢的一个作品,巧妙地构思了这样一个场景:假设AI生成的视频人物发现自己是由提示词创造出来的后会如何反应?

阅读全文 »

一个值得深思的开局:这不是巧合,这是战略

本周,AI编程领域同时上演了两幕戏剧:一边是AI编程助手Cursor的开发商Anysphere宣布以惊人的99亿美元估值完成9亿美元融资,其年度经常性收入(ARR)据称已突破5亿美元,并且大约每两个月翻一番;而几乎就在同一时间,另一家AI编程工具Windsurf的CEO Varun Mohan却公开表示,其核心依赖的AI模型提供商Anthropic,在不到五天的通知期内,切断了其对关键的Claude 3.x系列模型的直接访问权限。

冰火两重天。但这绝非简单的巧合,其背后是两种截然不同的战略路径及其必然结果。

第一性原理:AI编程的真实价值何在?

要理解这场变革的本质,我们需要回归第一性原理:AI编程助手究竟创造了什么核心价值?

Cursor的成功给出了一个响亮的答案。就在它刚刚发布“1.0版本” - 一个在传统软件行业通常仅代表“刚刚成年”的里程碑 - 之时,其年度经常性收入(ARR)已经达到了5亿美元的惊人规模。这背后是无数开发者用真金白银的订阅(个人版每月20美元,企业版40美元)投下的信任票。

这清晰地表明:AI的价值不在于其技术的炫技或复杂性,而在于其对现有工作流程的根本性改善程度。 Cursor之所以能实现火箭般的增长,正是因为它精准地解决了开发者在效率、代码质量和创新速度上的痛点。这种生产力的提升是真实可感、可量化的,足以让用户认为所支付的订阅费物超所值。

阅读全文 »

传统NLP的各个细分领域最终都败给了简单粗暴的规模化。ChatGPT团队在没做任何chatbot研究的情况下,却做出了最成功的对话AI。这背后发生了什么?

推荐一下刚读到Jason Wei(OpenAI研究员,Chain-of-Thought推理方法的提出者)这条关于问题驱动 vs 方法驱动研究的推文 - 核心观点:方法驱动研究正在全面超越问题驱动研究

简单来说,问题驱动研究是先有具体问题(如机器翻译、文本摘要),然后针对性地设计解决方案;而方法驱动研究则是先开发通用方法(如Transformer、大规模预训练),再寻找能应用这些方法的问题。

ChatGPT就是最好的例子:

   “ChatGPT 并不是从 chatbot 研究中诞生的,甚至不是 OpenAI 原本2022年的目标,而是因为 Schulman 团队找到了把大模型‘打包成产品’的方式。”

这与我观察到的AI产品经理领域的一个重要趋势不谋而合:当AI模型(这些“方法驱动”研究的产物)展现出颠覆性的新能力时,PM的核心任务之一便是将这些最初可能“陌生”的技术力量,通过巧妙的产品设计,“翻译”并“封装”成用户熟悉且能创造价值的形式。这同样要求从技术可能性出发,主动寻找产品机会。

说回Jason的观点,这背后,其实是 Sutton 所说的 The Bitter Lesson:通用方法 + 计算资源 + 大规模训练,终将胜出。

而DeepMind的AlphaEvolve项目(使用进化算法来发现更有效的强化学习算法)带来的是更进一步的”方法范式”:

“最新的“锤子”,其实就是对奖励函数的无情搜索和优化。”

阅读全文 »

昨天在社交媒体上看到有人分享了一张令人印象深刻的图片 - 一只完全由白色百合花构成的老虎,栩栩如生却又充满艺术感。更让人惊讶的是生成这张图片的prompt:UltraRealisticPhoto(3, Photo(0, Scene(tiger), 3, MadeEntirelyOutOf(lillies)))

Image

这段看起来像编程代码的提示词能够成功生成如此精美的图片,背后反映的其实是GPT-4o作为原生多模态模型的独特优势。

拆解这段”代码式”的Prompt

让我们先来理解一下这段结构化prompt的含义。虽然看起来很技术化,但其实逻辑很清晰:

阅读全文 »

一年前的今天,苹果以Apple Intelligence的名义踏入生成式AI的战场,当时的库克和费德里吉意气风发地向世界宣告:苹果虽然迟到,但绝不会缺席这场AI革命。华尔街买账了,消费者也满怀期待。然而一年过去,当我们即将迎来WWDC 2025时,现实却相当的“骨感” - 当初那份“绝不缺席”的豪情,正在AI飞速发展的现实面前接受严峻考验。

一张在社媒上被网友们广泛转发的吐槽apple intelligence梗图

创新引擎的失速与竞争压力的加剧

AI的困境只是苹果当前面临挑战的一个缩影。从更宏观的角度来看,这家曾经以颠覆性创新著称的公司,似乎已经很久没有推出真正令人惊艳的产品了。iPhone 16虽然是市场上最优秀的智能手机之一,但与前四代产品相比并无本质性突破;Vision Pro头显虽然技术先进,但市场反响平平,已经让人怀疑其长期前景;就连Apple Watch这个曾经的明星产品,去年也遭遇了14%的收入下滑。

数据不会说谎:iPhone的销量已经低于两年前的水平,整体营收在经历了一段停滞期后也只是缓慢复苏。更严峻的是,苹果正面临着前所未有的竞争压力 - 华为、小米等厂商不断推出折叠屏等创新设计,各国政府和第三方开发者对苹果的商业模式施压,关税威胁更是可能进一步压缩利润空间。

正如苹果服务业务高级副总裁埃迪·库伊在谷歌反垄断案庭审中的感叹:”硅谷那些曾经最成功的公司,要么已经不存在,要么规模大幅缩小、影响力大不如前 - 从惠普到太阳计算机系统,从硅图公司到天腾电脑。技术的频繁变化为新企业取代现有领导者创造了机会。我为苹果感到担忧。我们现在非常成功,但这并不意味着10年或20年后我们还会存在。”

阅读全文 »

OpenAI正在低调地探索一项新功能 - 允许用户使用 ChatGPT 账户登录第三方应用程序。简单来说,就是我们未来或许可以用 “Sign in with ChatGPT” 来替代我们现在常用的“用谷歌/苹果账号登录”。
Image

这个消息目前还处于早期阶段,OpenAI 正在向开发者征集反馈。这个新闻让我想起了我之前写过的一篇文章 - 深度译读《Stratechery - OpenAI CEO Sam Altman访谈》- 打造一家消费科技公司,其中Altman有这么一段话:

当被问及“五年后什么会更有价值 - 是一个拥有十亿日活跃用户、不需要做客户获取的目标网站,还是最顶尖的模型?” Altman 毫不犹豫地选择了前者:“那个拥有十亿用户的网站”。

他认为,未来的战略优势在于三个方面:

1. 建立大型互联网公司,提供统一的 AI 服务套件(软硬件结合的完整生态);

2. 发展推理基础设施(实现最经济、最充足的推理能力);

3. 持续进行前沿研究,保持开发最优秀模型的能力;

因此,在我看来这次 OpenAI 探索“用 ChatGPT 登录”第三方应用,正是 Altman 上述宏大战略的延续和具体实践。

“用 ChatGPT 登录”:目前我们知道什么?

根据目前披露的信息(截至2025年5月30日):

阅读全文 »

当一张静态照片突然开口说话、唱歌,甚至能准确表达各种情绪时,你会是什么感受?今天为大家介绍一下最新由腾讯混元团队与腾讯音乐联合推出的 HunyuanVideo-Avatar这款开源模型,效果已经非常能打了!

我尝试为之前写过的深度介绍2023年底广受瞩目的“OpenAI五日宫斗大剧”的博客准备了一段口播介绍稿,这次演示视频的人物形象我采用了4o模型生成,声音则通过hailuo进行了克隆,最后再由HunyuanVideo-Avatar完成最终的口播动画合成效果不错。

为什么这项技术值得关注?

应用前景广泛:电商宣传视频中,一张产品模特照片就能成为专业主播;短视频创作中,任何人都能让自己的照片演绎不同的故事;广告制作里,品牌形象可以直接与用户”面对面”交流。这就是 HunyuanVideo-Avatar 带来的可能性 - 只需一张照片和一段音频,就能生成栩栩如生的说话视频

这项技术已经在腾讯音乐娱乐集团的多个应用中正式上线,为用户提供服务。单人模式现已在混元官网开源,支持最长14秒的音频生成视频,多人模式也即将开源。

技术突破:解决了什么核心难题?

从技术角度看,音频驱动的数字人生成一直面临三个核心挑战,HunyuanVideo-Avatar 分别给出了创新解决方案:

阅读全文 »

尝试用了一下终于能免费试用的Manus,效果相当令人失望,很难想象这产品是怎么能估值15亿美金的…

其实在 Manus 刚用饥饿营销模式推出来的时候,我就隐隐觉得这次的营销可能有些过度了 - 毕竟一方面看到满屏的“Manus超越DeepSeek,吊打ChatGPT”的付费推广稿件和邀请码被炒作到号称过10万元感觉属实太夸张了,另一方面很多Manus官方示范案例的完成度已经明显超过了我对当前主流模型能力边界的认知。所以当时很多朋友问我怎么看Manus的时候我都还是谨慎地说可以“让子弹再飞一会儿”,但我没想到到了今天的实测效果居然能差到这个程度…

我测试的案例是复现 Manus 早期宣传中个人印象最深刻的demo:为英伟达做估值建模。这个案例至今依然可以在官方模拟展示链接中看到 - 只用一句提示词:“你是个职业的二级分析师,擅长财务估值建模,建模精准、漂亮。请为英伟达做详细的 Excel 建模估值。”

Manus在这个官方demo中展现了一场堪称酷炫和丝滑的完美卖家秀,计划完成的内容洋洋洒洒包含四大类任务和下属的三十几个小类任务:

  • 数据收集(英伟达公司基本信息+历史财务数据)

  • 分析与预估(行业趋势和竞争格局+构建财务预测模型)

  • 估值分析

  • 报告与总结

最后完美地生成了一个详细的excel股价估值分析表格+一份文字版报告,让人感觉二级分析师分分钟已经要失业了。

但当我尝试了几乎一模一样的提示词是“你是个职业的二级分析师,擅长财务估值建模,建模精准、漂亮。请为腾讯做详细的excel建模估值”,仅仅是将分析对象从英伟达改成了腾讯。实际执行结果却一落千丈,从开始的todo列表来看就显著缩水了一大截,一共只有五条。可以从下图的对比来感受一下:

阅读全文 »

译者序

为大家推荐一篇近期看到的AI发展趋势观察好文,作者姚顺雨用”上半场与下半场”这个生动的比喻,为我们解读了人工智能正在经历的历史性转折点 - 一个让产品思维成为AI领域核心竞争力的时代。

关于作者:姚顺雨是OpenAI的研究员,清华大学姚班毕业,普林斯顿大学计算机科学博士。他是AI领域的重要研究者,论文被引用超过11,000次,是Tree of Thoughts(思维树)、ReAct、SWE-agent等突破性AI论文的作者。他的博士论文专注于”语言智能体:从下一个词预测到数字自动化”,目前参与OpenAI的Deep Research项目开发。

过去几十年,AI就像一个不断刷新考试成绩的”学霸” - 从击败围棋世界冠军到在各种标准化测试中超越人类,从AlphaGo到GPT-4再到今天的Claude 4和Gemini 2.5 Pro。但作者提出了一个非常核心的问题:

为什么AI在考试中表现如此出色,我们的日常生活和工作效率却没有发生翻天覆地的变化?用户的真实需求在哪里得到了满足?

这就是作者所说的”效用问题”(utility problem) - 你有一个功能强大的技术平台,但用户却不知道如何从中获得价值。这正是当前AI面临的核心挑战,也是产品经理最擅长解决的问题领域。

作者揭示了一个有趣的现象:在AI研究的上半场,突破性的算法论文(如Transformer)获得了16万次引用,而相应的基准测试论文只有1,300次引用。这说明过去的游戏规则是”技术为王” - 谁能发明更好的算法,谁就能获得成功。但现在,作者明确指出:

要在这个下半场中蓬勃发展,我们需要及时转变思维方式和技能组合,这些可能更接近产品经理的角色。”

正如我不久前分享另外一篇同样来自OpenAI的Karina Nguyen的文章中提到的各种各样的研究驱动型产品经理面临的问题一样,AI的下半场将不再是纯粹的技术竞赛,而是关于如何定义正确的问题、设计合适的用户体验、创造真实的用户价值。作者发现,当AI学会了”思考”这种不直接影响外部世界的行动时,它获得了强大的泛化能力 - 这其实就是产品设计中”用户旅程”思维的体现。

文中提到的重要建议是我们需要从根本上重新思考评估方式 - 这正是产品经理思维能帮上忙的重要领域。不仅要创造更难的功能测试,更要质疑测试本身的设置是否符合用户的真实使用场景。比如,现在的AI评估通常要求系统自动运行、独立完成任务,但现实中用户与AI的互动是持续的、情境化的。一个真正有用的AI产品不应该是”一次性完美交付”,而应该能够”持续理解用户意图、实时响应需求变化”。

作者预测的未来AI竞争要素 - 如何让机器真正融入人类的工作流程、如何在现实场景中评估AI表现、如何构建真正创造价值的AI产品 - 这些都是产品经理的核心能力范畴。文章强调,下半场的重点将从”解决问题”转向”定义问题”,从关注训练转向重新思考评估,这完全契合产品经理”发现用户真实需求、设计解决方案、验证产品价值”的工作流程。

这篇文章预示了一个黄金时代的到来 - 技术已经足够强大,现在需要的是懂得如何将技术转化为用户价值的人才 - 而且提供了具体的行动指南:重新审视现有的产品评估框架,质疑那些”理所当然”的假设,设计更贴近真实用户场景的体验。

下半场的赢家将不只是实验室里的算法专家,而是能够”从智能中构建有用产品来建立价值数十亿或数万亿美元公司”的产品创新者。产品思维和用户洞察能力,可能正是决定AI能否真正改变世界的关键因素。

阅读全文 »

在科技行业,时机往往决定一切。当我们回望历史,苹果总是那个定义游戏规则的公司 - 从iPod重新发明音乐播放器,到iPhone颠覆整个手机行业,再到iPad开创平板电脑市场。然而,面对即将在2026年发布的智能眼镜,苹果却罕见地处在了追赶者的位置。

一个不同寻常的苹果

彭博社最新报道显示,苹果正加紧研发代号为N401的智能眼镜项目,计划在2026年底推出。这款眼镜将配备摄像头、麦克风和扬声器,支持Siri语音助手,能够处理通话、音乐播放、实时翻译和导航等功能。听起来很熟悉?没错,这几乎就是Meta Ray-Ban智能眼镜的功能清单。

236834_Ray_Ban_Meta_Smart_Glasses_AKrales_0608

更令人深思的是时间节点。就在苹果智能眼镜消息曝光的前一天,OpenAI CEO萨姆·奥特曼宣布收购了苹果前首席设计官乔纳森·艾维的AI硬件公司io,计划在明年推出首款AI设备。这种巧合让人不禁思考:当年那个让整个行业跟随的苹果,如今是否正在被时代的节拍甩在身后?

阅读全文 »
0%