RichChat

A blog for tech enthusiasts

RichChat

a16z的2C AI团队刚刚上线了一期时长一小时的播客,分享了她们当前的研究心得,以及对创业公司的期待与展望。我整理了其中的八大发展态势如下:

Image

  1. 现在正是开发消费级应用的黄金时期。无论是语音、图像还是视频等多模态技术,AI模型都已达到足够成熟的水平,可以作为应用开发的基础。这些模型既可以通过开源方式获取,也可以通过应用程序接口(API)调用。

  2. 不过,目前大多数消费级AI工具还未能很好地整合社交分享功能。用户用AI创作出优秀作品后,往往会选择在X、Reddit或Facebook等社交平台上分享,而非在创作工具本身的平台上分享。

  3. 相比上一代面向消费者的创业公司,AI企业普遍拥有更优质的商业模式。用户愿意为服务付费,企业无需通过广告或后期交易来实现变现。

    阅读全文 »

五月中旬,AI设计工具Lovart在社交媒体上掀起了一轮营销热潮。这款号称”全球首个专注于设计领域的AI智能体”声称基于先进的思维链(MCoT)技术构建,能够”像经验丰富的专业人士一样理解设计概要,像创意总监一样思考,并一次性交付多个极具影响力的概念”。各种软文中展示的案例效果令人印象深刻,从复杂的广告分镜设计到精美的海报制作,Lovart似乎无所不能,弹指间就能产出专业级的设计作品。

鉴于此前Manus等AI工具过度营销后实际体验不佳的教训,我选择等待官方放开更多访问权限后再进行实测。经过近两周的等待,我终于获得了邀请码并进行了深度测试。

测试结论:Lovart在简单设计任务上表现尚可,但处理复杂需求时明显力不从心,实际效果与营销宣传存在显著差距。

案例1:测试为某个香水品牌生成30秒的广告视频
阅读全文 »

Google的Veo 3视频生成模型自上周发布以来掀起了一场堪比去年Sora最初“发布”时的AI视频革命 - 大量用户涌入体验,创作者们制作出了令人惊叹的内容,甚至有人用它探讨了哲学问题:如果AI生成的角色知道自己是由提示词创造的,会发生什么?

我来为大家总结一些Veo 3最新的动态和自己的相关观察。

令人印象深刻的技术突破

从技术表现来看,Veo 3确实展现出了令人惊叹的视频生成能力,除了明显的生成视频更逼真外,生成视频时可以自带相关声音效果、背景噪音和对话等音频元素也是亮点 - 彻底告别了”先生成无声视频再配音”的繁琐流程。

根据DeepMind CEO Demis Hassabis透露的数据,仅在发布后的几天内,用户就通过Veo 3生成了”数以百万”的视频。考虑到目前该服务仍面临诸多使用限制,这个数字相当可观,足以说明其技术魅力和用户需求的旺盛程度。

由于Veo 3大幅提升了AI生成视频的上限,很快就有创作者做出了各种高质量的视频,我个人最喜欢的一个作品,巧妙地构思了这样一个场景:假设AI生成的视频人物发现自己是由提示词创造出来的后会如何反应?

阅读全文 »

一个值得深思的开局:这不是巧合,这是战略

本周,AI编程领域同时上演了两幕戏剧:一边是AI编程助手Cursor的开发商Anysphere宣布以惊人的99亿美元估值完成9亿美元融资,其年度经常性收入(ARR)据称已突破5亿美元,并且大约每两个月翻一番;而几乎就在同一时间,另一家AI编程工具Windsurf的CEO Varun Mohan却公开表示,其核心依赖的AI模型提供商Anthropic,在不到五天的通知期内,切断了其对关键的Claude 3.x系列模型的直接访问权限。

冰火两重天。但这绝非简单的巧合,其背后是两种截然不同的战略路径及其必然结果。

第一性原理:AI编程的真实价值何在?

要理解这场变革的本质,我们需要回归第一性原理:AI编程助手究竟创造了什么核心价值?

Cursor的成功给出了一个响亮的答案。就在它刚刚发布“1.0版本” - 一个在传统软件行业通常仅代表“刚刚成年”的里程碑 - 之时,其年度经常性收入(ARR)已经达到了5亿美元的惊人规模。这背后是无数开发者用真金白银的订阅(个人版每月20美元,企业版40美元)投下的信任票。

这清晰地表明:AI的价值不在于其技术的炫技或复杂性,而在于其对现有工作流程的根本性改善程度。 Cursor之所以能实现火箭般的增长,正是因为它精准地解决了开发者在效率、代码质量和创新速度上的痛点。这种生产力的提升是真实可感、可量化的,足以让用户认为所支付的订阅费物超所值。

阅读全文 »

传统NLP的各个细分领域最终都败给了简单粗暴的规模化。ChatGPT团队在没做任何chatbot研究的情况下,却做出了最成功的对话AI。这背后发生了什么?

推荐一下刚读到Jason Wei(OpenAI研究员,Chain-of-Thought推理方法的提出者)这条关于问题驱动 vs 方法驱动研究的推文 - 核心观点:方法驱动研究正在全面超越问题驱动研究

简单来说,问题驱动研究是先有具体问题(如机器翻译、文本摘要),然后针对性地设计解决方案;而方法驱动研究则是先开发通用方法(如Transformer、大规模预训练),再寻找能应用这些方法的问题。

ChatGPT就是最好的例子:

   “ChatGPT 并不是从 chatbot 研究中诞生的,甚至不是 OpenAI 原本2022年的目标,而是因为 Schulman 团队找到了把大模型‘打包成产品’的方式。”

这与我观察到的AI产品经理领域的一个重要趋势不谋而合:当AI模型(这些“方法驱动”研究的产物)展现出颠覆性的新能力时,PM的核心任务之一便是将这些最初可能“陌生”的技术力量,通过巧妙的产品设计,“翻译”并“封装”成用户熟悉且能创造价值的形式。这同样要求从技术可能性出发,主动寻找产品机会。

说回Jason的观点,这背后,其实是 Sutton 所说的 The Bitter Lesson:通用方法 + 计算资源 + 大规模训练,终将胜出。

而DeepMind的AlphaEvolve项目(使用进化算法来发现更有效的强化学习算法)带来的是更进一步的”方法范式”:

“最新的“锤子”,其实就是对奖励函数的无情搜索和优化。”

阅读全文 »

昨天在社交媒体上看到有人分享了一张令人印象深刻的图片 - 一只完全由白色百合花构成的老虎,栩栩如生却又充满艺术感。更让人惊讶的是生成这张图片的prompt:UltraRealisticPhoto(3, Photo(0, Scene(tiger), 3, MadeEntirelyOutOf(lillies)))

Image

这段看起来像编程代码的提示词能够成功生成如此精美的图片,背后反映的其实是GPT-4o作为原生多模态模型的独特优势。

拆解这段”代码式”的Prompt

让我们先来理解一下这段结构化prompt的含义。虽然看起来很技术化,但其实逻辑很清晰:

阅读全文 »

一年前的今天,苹果以Apple Intelligence的名义踏入生成式AI的战场,当时的库克和费德里吉意气风发地向世界宣告:苹果虽然迟到,但绝不会缺席这场AI革命。华尔街买账了,消费者也满怀期待。然而一年过去,当我们即将迎来WWDC 2025时,现实却相当的“骨感” - 当初那份“绝不缺席”的豪情,正在AI飞速发展的现实面前接受严峻考验。

一张在社媒上被网友们广泛转发的吐槽apple intelligence梗图

创新引擎的失速与竞争压力的加剧

AI的困境只是苹果当前面临挑战的一个缩影。从更宏观的角度来看,这家曾经以颠覆性创新著称的公司,似乎已经很久没有推出真正令人惊艳的产品了。iPhone 16虽然是市场上最优秀的智能手机之一,但与前四代产品相比并无本质性突破;Vision Pro头显虽然技术先进,但市场反响平平,已经让人怀疑其长期前景;就连Apple Watch这个曾经的明星产品,去年也遭遇了14%的收入下滑。

数据不会说谎:iPhone的销量已经低于两年前的水平,整体营收在经历了一段停滞期后也只是缓慢复苏。更严峻的是,苹果正面临着前所未有的竞争压力 - 华为、小米等厂商不断推出折叠屏等创新设计,各国政府和第三方开发者对苹果的商业模式施压,关税威胁更是可能进一步压缩利润空间。

正如苹果服务业务高级副总裁埃迪·库伊在谷歌反垄断案庭审中的感叹:”硅谷那些曾经最成功的公司,要么已经不存在,要么规模大幅缩小、影响力大不如前 - 从惠普到太阳计算机系统,从硅图公司到天腾电脑。技术的频繁变化为新企业取代现有领导者创造了机会。我为苹果感到担忧。我们现在非常成功,但这并不意味着10年或20年后我们还会存在。”

阅读全文 »

OpenAI正在低调地探索一项新功能 - 允许用户使用 ChatGPT 账户登录第三方应用程序。简单来说,就是我们未来或许可以用 “Sign in with ChatGPT” 来替代我们现在常用的“用谷歌/苹果账号登录”。
Image

这个消息目前还处于早期阶段,OpenAI 正在向开发者征集反馈。这个新闻让我想起了我之前写过的一篇文章 - 深度译读《Stratechery - OpenAI CEO Sam Altman访谈》- 打造一家消费科技公司,其中Altman有这么一段话:

当被问及“五年后什么会更有价值 - 是一个拥有十亿日活跃用户、不需要做客户获取的目标网站,还是最顶尖的模型?” Altman 毫不犹豫地选择了前者:“那个拥有十亿用户的网站”。

他认为,未来的战略优势在于三个方面:

1. 建立大型互联网公司,提供统一的 AI 服务套件(软硬件结合的完整生态);

2. 发展推理基础设施(实现最经济、最充足的推理能力);

3. 持续进行前沿研究,保持开发最优秀模型的能力;

因此,在我看来这次 OpenAI 探索“用 ChatGPT 登录”第三方应用,正是 Altman 上述宏大战略的延续和具体实践。

“用 ChatGPT 登录”:目前我们知道什么?

根据目前披露的信息(截至2025年5月30日):

阅读全文 »

当一张静态照片突然开口说话、唱歌,甚至能准确表达各种情绪时,你会是什么感受?今天为大家介绍一下最新由腾讯混元团队与腾讯音乐联合推出的 HunyuanVideo-Avatar这款开源模型,效果已经非常能打了!

我尝试为之前写过的深度介绍2023年底广受瞩目的“OpenAI五日宫斗大剧”的博客准备了一段口播介绍稿,这次演示视频的人物形象我采用了4o模型生成,声音则通过hailuo进行了克隆,最后再由HunyuanVideo-Avatar完成最终的口播动画合成效果不错。

为什么这项技术值得关注?

应用前景广泛:电商宣传视频中,一张产品模特照片就能成为专业主播;短视频创作中,任何人都能让自己的照片演绎不同的故事;广告制作里,品牌形象可以直接与用户”面对面”交流。这就是 HunyuanVideo-Avatar 带来的可能性 - 只需一张照片和一段音频,就能生成栩栩如生的说话视频

这项技术已经在腾讯音乐娱乐集团的多个应用中正式上线,为用户提供服务。单人模式现已在混元官网开源,支持最长14秒的音频生成视频,多人模式也即将开源。

技术突破:解决了什么核心难题?

从技术角度看,音频驱动的数字人生成一直面临三个核心挑战,HunyuanVideo-Avatar 分别给出了创新解决方案:

阅读全文 »

尝试用了一下终于能免费试用的Manus,效果相当令人失望,很难想象这产品是怎么能估值15亿美金的…

其实在 Manus 刚用饥饿营销模式推出来的时候,我就隐隐觉得这次的营销可能有些过度了 - 毕竟一方面看到满屏的“Manus超越DeepSeek,吊打ChatGPT”的付费推广稿件和邀请码被炒作到号称过10万元感觉属实太夸张了,另一方面很多Manus官方示范案例的完成度已经明显超过了我对当前主流模型能力边界的认知。所以当时很多朋友问我怎么看Manus的时候我都还是谨慎地说可以“让子弹再飞一会儿”,但我没想到到了今天的实测效果居然能差到这个程度…

我测试的案例是复现 Manus 早期宣传中个人印象最深刻的demo:为英伟达做估值建模。这个案例至今依然可以在官方模拟展示链接中看到 - 只用一句提示词:“你是个职业的二级分析师,擅长财务估值建模,建模精准、漂亮。请为英伟达做详细的 Excel 建模估值。”

Manus在这个官方demo中展现了一场堪称酷炫和丝滑的完美卖家秀,计划完成的内容洋洋洒洒包含四大类任务和下属的三十几个小类任务:

  • 数据收集(英伟达公司基本信息+历史财务数据)

  • 分析与预估(行业趋势和竞争格局+构建财务预测模型)

  • 估值分析

  • 报告与总结

最后完美地生成了一个详细的excel股价估值分析表格+一份文字版报告,让人感觉二级分析师分分钟已经要失业了。

但当我尝试了几乎一模一样的提示词是“你是个职业的二级分析师,擅长财务估值建模,建模精准、漂亮。请为腾讯做详细的excel建模估值”,仅仅是将分析对象从英伟达改成了腾讯。实际执行结果却一落千丈,从开始的todo列表来看就显著缩水了一大截,一共只有五条。可以从下图的对比来感受一下:

阅读全文 »
0%