RichChat

A blog for tech enthusiasts

RichChat

当一张静态照片突然开口说话、唱歌,甚至能准确表达各种情绪时,你会是什么感受?今天为大家介绍一下最新由腾讯混元团队与腾讯音乐联合推出的 HunyuanVideo-Avatar这款开源模型,效果已经非常能打了!

我尝试为之前写过的深度介绍2023年底广受瞩目的“OpenAI五日宫斗大剧”的博客准备了一段口播介绍稿,这次演示视频的人物形象我采用了4o模型生成,声音则通过hailuo进行了克隆,最后再由HunyuanVideo-Avatar完成最终的口播动画合成效果不错。

为什么这项技术值得关注?

应用前景广泛:电商宣传视频中,一张产品模特照片就能成为专业主播;短视频创作中,任何人都能让自己的照片演绎不同的故事;广告制作里,品牌形象可以直接与用户”面对面”交流。这就是 HunyuanVideo-Avatar 带来的可能性 - 只需一张照片和一段音频,就能生成栩栩如生的说话视频

这项技术已经在腾讯音乐娱乐集团的多个应用中正式上线,为用户提供服务。单人模式现已在混元官网开源,支持最长14秒的音频生成视频,多人模式也即将开源。

技术突破:解决了什么核心难题?

从技术角度看,音频驱动的数字人生成一直面临三个核心挑战,HunyuanVideo-Avatar 分别给出了创新解决方案:

阅读全文 »

尝试用了一下终于能免费试用的Manus,效果相当令人失望,很难想象这产品是怎么能估值15亿美金的…

其实在 Manus 刚用饥饿营销模式推出来的时候,我就隐隐觉得这次的营销可能有些过度了 - 毕竟一方面看到满屏的“Manus超越DeepSeek,吊打ChatGPT”的付费推广稿件和邀请码被炒作到号称过10万元感觉属实太夸张了,另一方面很多Manus官方示范案例的完成度已经明显超过了我对当前主流模型能力边界的认知。所以当时很多朋友问我怎么看Manus的时候我都还是谨慎地说可以“让子弹再飞一会儿”,但我没想到到了今天的实测效果居然能差到这个程度…

我测试的案例是复现 Manus 早期宣传中个人印象最深刻的demo:为英伟达做估值建模。这个案例至今依然可以在官方模拟展示链接中看到 - 只用一句提示词:“你是个职业的二级分析师,擅长财务估值建模,建模精准、漂亮。请为英伟达做详细的 Excel 建模估值。”

Manus在这个官方demo中展现了一场堪称酷炫和丝滑的完美卖家秀,计划完成的内容洋洋洒洒包含四大类任务和下属的三十几个小类任务:

  • 数据收集(英伟达公司基本信息+历史财务数据)

  • 分析与预估(行业趋势和竞争格局+构建财务预测模型)

  • 估值分析

  • 报告与总结

最后完美地生成了一个详细的excel股价估值分析表格+一份文字版报告,让人感觉二级分析师分分钟已经要失业了。

但当我尝试了几乎一模一样的提示词是“你是个职业的二级分析师,擅长财务估值建模,建模精准、漂亮。请为腾讯做详细的excel建模估值”,仅仅是将分析对象从英伟达改成了腾讯。实际执行结果却一落千丈,从开始的todo列表来看就显著缩水了一大截,一共只有五条。可以从下图的对比来感受一下:

阅读全文 »

译者序

为大家推荐一篇近期看到的AI发展趋势观察好文,作者姚顺雨用”上半场与下半场”这个生动的比喻,为我们解读了人工智能正在经历的历史性转折点 - 一个让产品思维成为AI领域核心竞争力的时代。

关于作者:姚顺雨是OpenAI的研究员,清华大学姚班毕业,普林斯顿大学计算机科学博士。他是AI领域的重要研究者,论文被引用超过11,000次,是Tree of Thoughts(思维树)、ReAct、SWE-agent等突破性AI论文的作者。他的博士论文专注于”语言智能体:从下一个词预测到数字自动化”,目前参与OpenAI的Deep Research项目开发。

过去几十年,AI就像一个不断刷新考试成绩的”学霸” - 从击败围棋世界冠军到在各种标准化测试中超越人类,从AlphaGo到GPT-4再到今天的Claude 4和Gemini 2.5 Pro。但作者提出了一个非常核心的问题:

为什么AI在考试中表现如此出色,我们的日常生活和工作效率却没有发生翻天覆地的变化?用户的真实需求在哪里得到了满足?

这就是作者所说的”效用问题”(utility problem) - 你有一个功能强大的技术平台,但用户却不知道如何从中获得价值。这正是当前AI面临的核心挑战,也是产品经理最擅长解决的问题领域。

作者揭示了一个有趣的现象:在AI研究的上半场,突破性的算法论文(如Transformer)获得了16万次引用,而相应的基准测试论文只有1,300次引用。这说明过去的游戏规则是”技术为王” - 谁能发明更好的算法,谁就能获得成功。但现在,作者明确指出:

要在这个下半场中蓬勃发展,我们需要及时转变思维方式和技能组合,这些可能更接近产品经理的角色。”

正如我不久前分享另外一篇同样来自OpenAI的Karina Nguyen的文章中提到的各种各样的研究驱动型产品经理面临的问题一样,AI的下半场将不再是纯粹的技术竞赛,而是关于如何定义正确的问题、设计合适的用户体验、创造真实的用户价值。作者发现,当AI学会了”思考”这种不直接影响外部世界的行动时,它获得了强大的泛化能力 - 这其实就是产品设计中”用户旅程”思维的体现。

文中提到的重要建议是我们需要从根本上重新思考评估方式 - 这正是产品经理思维能帮上忙的重要领域。不仅要创造更难的功能测试,更要质疑测试本身的设置是否符合用户的真实使用场景。比如,现在的AI评估通常要求系统自动运行、独立完成任务,但现实中用户与AI的互动是持续的、情境化的。一个真正有用的AI产品不应该是”一次性完美交付”,而应该能够”持续理解用户意图、实时响应需求变化”。

作者预测的未来AI竞争要素 - 如何让机器真正融入人类的工作流程、如何在现实场景中评估AI表现、如何构建真正创造价值的AI产品 - 这些都是产品经理的核心能力范畴。文章强调,下半场的重点将从”解决问题”转向”定义问题”,从关注训练转向重新思考评估,这完全契合产品经理”发现用户真实需求、设计解决方案、验证产品价值”的工作流程。

这篇文章预示了一个黄金时代的到来 - 技术已经足够强大,现在需要的是懂得如何将技术转化为用户价值的人才 - 而且提供了具体的行动指南:重新审视现有的产品评估框架,质疑那些”理所当然”的假设,设计更贴近真实用户场景的体验。

下半场的赢家将不只是实验室里的算法专家,而是能够”从智能中构建有用产品来建立价值数十亿或数万亿美元公司”的产品创新者。产品思维和用户洞察能力,可能正是决定AI能否真正改变世界的关键因素。

阅读全文 »

在科技行业,时机往往决定一切。当我们回望历史,苹果总是那个定义游戏规则的公司 - 从iPod重新发明音乐播放器,到iPhone颠覆整个手机行业,再到iPad开创平板电脑市场。然而,面对即将在2026年发布的智能眼镜,苹果却罕见地处在了追赶者的位置。

一个不同寻常的苹果

彭博社最新报道显示,苹果正加紧研发代号为N401的智能眼镜项目,计划在2026年底推出。这款眼镜将配备摄像头、麦克风和扬声器,支持Siri语音助手,能够处理通话、音乐播放、实时翻译和导航等功能。听起来很熟悉?没错,这几乎就是Meta Ray-Ban智能眼镜的功能清单。

236834_Ray_Ban_Meta_Smart_Glasses_AKrales_0608

更令人深思的是时间节点。就在苹果智能眼镜消息曝光的前一天,OpenAI CEO萨姆·奥特曼宣布收购了苹果前首席设计官乔纳森·艾维的AI硬件公司io,计划在明年推出首款AI设备。这种巧合让人不禁思考:当年那个让整个行业跟随的苹果,如今是否正在被时代的节拍甩在身后?

阅读全文 »

2023年11月16日,全世界见证了科技界最戏剧性的一幕:OpenAI董事会突然解雇了CEO Sam Altman。五天后,Altman重新回到了原位。这起被OpenAI员工称为”the blip”(小插曲)的事件,当时让无数我这样的”吃瓜群众”看得云里雾里 - 董事会为什么突然解集明星CEO?为什么又火速让他回来?各方的操作简直令人摸不着头脑。

随着一本新书的发布,这或许是第一次,我们能从一个相对可信的渠道,详细了解当时那令人瞠目结舌的五天究竟发生了什么。而书中披露的详细内幕可能比我们想象的更加荒诞 - 这是一个”世界是个巨大的草台班子”的完美示范案例。

真正的导火索:信任危机与”小动作”

要理解这场政变,必须从更早的时间线说起。Altman,这位曾承诺”任何人都不应被完全信任”的CEO,在权力日益增长的同时,也让OpenAI的非营利董事会感到越来越不安。

董事会,尤其是独立董事Helen Toner和Tasha McCauley,对Altman在公司治理、对外投资以及个人基金运作上的透明度产生了严重质疑。问题一个接一个地暴露出来:Altman前往中东为芯片项目筹资,投资核聚变公司Helion,与传奇设计师Jony Ive会面讨论AI设备,每一项都让董事会在媒体上读到后感到意外。

更严重的是,董事会逐渐发现Altman在一些关键问题上似乎并不完全坦诚。比如OpenAI的创业基金实际上由Altman个人拥有,董事会经过几个月的反复询问才搞清楚这个奇怪的结构。又比如在安全审查方面,Altman曾声称某些GPT-4功能已经获得了部署安全委员会(DSB)的批准,但Toner要求文档后发现只有其中一项真正获得了批准。

这些”小动作”逐渐积累,让董事会对Altman的信任度不断下降。他们开始怀疑:这个掌控着人类最重要AI公司的人,是否真的可以信任?

阅读全文 »

Google 刚在 I/O 大会上祭出 XR 智能眼镜,意图定义 AI 终端的新范式。没想到第二天,OpenAI CEO 萨姆·奥特曼(Sam Altman)和前苹果首席设计官乔纳森·艾维(Jony Ive)就抛出了一记更大的“核弹”:一纸 65 亿美元的收购协议,OpenAI 正式将 Ive 创办的 AI 硬件公司 io 纳入麾下。

这一战,不只是两家公司之间的比拼,更像是两个未来愿景的正面对撞:是 XR 智能眼镜主导未来?还是一种我们还未能准确命名的「第三核心设备」才是终局?

两位传奇的重逢,像是为下一个时代“打样”

乔纳森·艾维,是 Apple 黄金时代的灵魂设计师,iMac、iPhone、Apple Watch 的缔造者,与乔布斯并肩作战数十年。而奥特曼,则是新一代技术叙事中的核心人物 - 他主导的 OpenAI,让我们距离通用人工智能的幻想又近了一步。

这两人的组合,自带科技叙事光环。外界甚至已经把 Altman 与乔布斯进行类比,而这场收购,也更像是他们要共同续写一个“后iPhone时代”的新开端。

Image

据报道,奥特曼已经看过艾维团队打造的原型机。他的原话是:“这是我见过最酷的科技产品之一。” 这款神秘设备被他寄予厚望,甚至宣称有望推动 OpenAI 估值上升 1 万亿美元。

阅读全文 »

AI时代的产品经理能力要求和传统的互联网时代到底有什么差别?

作为一名持续关注AI领域的前产品经理,我曾在之前的文章《OpenAI的DevDay闭门会ppt披露-“OpenAI的研究与产品协作:幕后故事”》中,探讨过OpenAI产品团队负责人Joanne Jang提出的“模型即产品”的理念及其独特的产品工作方式。

最近,我有幸学习了另一位在产品与研究领域均有深厚积累的Karina Nguyen(现供职于OpenAI,曾任职Anthropic)的分享- 《RL as a Co-Design of Product and Research》。Karina从“强化学习(RL)作为产品与研究的协同设计”这一更具体的视角,为我们揭示了在通往AGI的目标下,AI产品经理角色所发生的深刻进化。推荐所有产品经理方面的朋友可以都读一下:

Karina Nguyen分享的核心洞见速览

首先快速总结一下Karina分享中的几个重点内容:

阅读全文 »

我在之前一篇《大语言模型特性科普系列:从ChatGPT的“迷惑行为”说起》中提到过一个经典案例:当你反复“戏弄”ChatGPT,追问它”strawberry”这个英文单词中里有几个”r”并持续坚持说它错了,它最终会陷入越来越混乱的胡言乱语。

这种“AI突然变笨”的挫败感,相信不少深度AI用户都或多或少体验过。而现在,一篇来自微软研究院和Salesforce研究院的论文《LLMs Get Lost in Multi-Turn Conversation》(大语言模型在多轮对话中迷失),对这种“AI小迷糊”现象进行了细致入微的剖析。

论文开篇明义地指出:“当LLM在对话中拐错了一个弯,它们就迷路了,并且无法恢复。”

“聊着聊着就崩了”的残酷真相

这篇论文的研究员们进行了一场堪称“AI对话马拉松”的大规模模拟实验,拉来了市面上几乎所有叫得上名号的LLM“选手” - GPT系列、Claude、Gemini等15位顶尖高手,让它们在超过20万次的模拟对话中接受考验。任务涵盖了从Python编程到文本摘要等六大领域。

阅读全文 »

我之前深度译读过Stratechery的CEO访谈系列(小扎访谈奥特曼访谈),其中不乏一些在这些大佬们在战略层面思考的亮点。但如果想听到些国内大厂老板/高管们对自家业务的看法,每个季度的财报发布时的电话会提问环节可能是唯一的机会了… 不同于财报发布通稿中哪些四平八稳的谨慎措辞,这些即时回答内容有时还是能听到点干货的。

在腾讯刚刚发布的2025年第一季度财报电话会中,AI相关的讨论尤为引人注目。我梳理了其中三个给我留下深刻印象的关键点:

Agentic AI 的双轨并行:通用智能与微信生态的独特融合

首先,腾讯高管对炙手可热的 Agentic AI概念给出了他们的思考。Agentic AI - 即能够自主理解并执行复杂、多步骤任务,甚至调用工具和第三方应用的智能体,被腾讯划分为两条发展路径:

阅读全文 »

最近随着AI+陪伴硬件受到更多的关注,看到了各种相关的方案发现基本都还是用的小智的这套架构来做,确实也能理解,因为最方便直接出demo,而且默认自带的的“台湾妹”语音更容易吸引眼球。

我自己最近也用Seeed的一款硬件来玩了一下小智语音聊天机器人,确实融合了硬件后还是挺好玩的。同时顺手读了一下小智的技术文档,下面简单整理了小智的模型使用情况及其服务端代码分析供想玩的朋友们参考:

小智的模型使用情况

1. ASR 相关

  • VAD(语音活动检测)speech_fsmn_vad_zh-cn-16k-common-pytorch 用于检测语音的起始和结束,过滤掉静默和噪音;
  • 核心 ASRSenseVoiceSmall 用于将语音转换为文本,是小智语音识别的核心模型;
  • 声纹识别模型speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common 用于识别说话人的身份,可以用于区分不同的用户;

2. LLM

  • 官方FAQ页面说是基于 QWen 72B 进行“训练”和自部署,以及小智管理后台配置看是写的默认使用“Qwen 实时”;
  • QWen 是阿里开源的通义千问大语言模型,小智团队在其基础上进行了定制化的“训练”和部署,但具体细节尚未公开;

3. TTS 相关

  • 火山引擎(Volcengine)
    • 火山引擎的智能语音服务,提供多种音色的语音合成功能,默认的“湾湾小何”语音就是来自火山;
  • 阿里云(Dashscope)
0%