两万字长文带你深入了解Rabbit R1这款AI+硬件先驱产品背后的故事
引言和核心要点
最近看了这篇Verge的Nilay Patel采访Rabbit R1的创始人吕骋的文章,感觉对于AI+硬件领域感兴趣的同行是个很好的参考 – 尤其考虑到R1这款AI+硬件的先驱型产品在目前普遍被认为已经失败的情况下,这次长达一个半小时访谈确实能从全新的视角发现一些产品和团队上的亮点。之前Founder Park也就此写过一篇,但是我发现其并未翻译全文,因此个人重新翻译了一下访谈全文,并在前面附上我整理的核心要点:
- 吕骋的愿景是打造一个设备+生态系统,能够理解用户请求并代表用户在任何平台上采取行动。这里的前面一部分是通过LLM来进行意图分类,后面一部分则需要一套通用的跨平台智能体系统。最近推出的 LAM Playground 是实现这一愿景的重要一步,使用户能够通过语音命令控制网页浏览,甚至可以在不同网站之间自动化多步骤任务。吕骋自己特别喜欢的一个案例是 - “嘿,先去Reddit(海外大型论坛)搜索人们推荐的2024年最佳4K HDR电视是什么。获取那个型号,然后去百思买(美国知名线下+线上消费电子零售平台),把它加入我的购物车。如果百思买缺货,那就在亚马逊上搜索。如果它们都缺货,就给我第二推荐的型号”;
- 针对上述功能的具体技术实现,过往其实非常类似传统的机器人流程自动化技术(RPA),首先给每个用户提供了一个云上的虚拟机,然后模拟人类操作网页来实现跨平台功能,而不是依赖API。吕骋认为这种方法更灵活,能够绕过API限制和谈判障碍(很多大平台并不官方提供API)。但这种网页自动化模式引发了关于其可持续性和潜在法律影响的争议。虽然吕骋承认Spotify和DoorDash等公司后续可能会抵制智能体访问其服务,但他认为,行业最终将适应这种新范式;
- R1 售价 199 美元,吕骋表示硬件利润率超过 40%,也就是每台大约 80 - 90 美元。但考虑到用户使用云服务和大模型都不需要额外付费,「我们绝对不想收取订阅费,我认为这样的想法是非常愚蠢的。」,主持人质疑这样的商业模式是否长久,而吕骋则认为未来的收入会源自类似应用商店的生态系统(目前叫Teach Mode),包括用户创建的”课程”或智能体;
- 在主持人有技巧的追问用户数据下,吕骋在接受采访的时候直接上后台查了Rabbit的当前用户人数,说是实时在线能有5000人,采访前两天的日活分别是20000和33000(因为这一天发布了LAM游乐场,所以用户数显著上涨)。考虑到吕骋也承认Rabbit R1的出货量超过10 万台+退货率只有5%,也就是说其实只有20-30%的用户依然活跃(开着机);
- 在硬件设计理念上,吕骋表示Rabbit选择了保守的路线 - R1的设计目标是降低用户使用新软件的风险,而不是追求过于前卫的形态。他说:”如果你看r1,它是一个非常熟悉的设计。你知道有一个按钮你知道你要按,你知道轮子可能可以滚动。有一个屏幕,你可以看东西”。提到反面案例Humane Pin采用了激进的硬件设计形态,吕骋认为一次性让用户接受两件新事物太难了 - 科幻类型的硬件设备+全新的AI软件;
- 在谈到管理风格时,吕骋说自己是一个非常相信直觉而且相当保守的人,也不喜欢做预测… 强调根据当前事实做出简短、清晰的决定,而非过度关注未来可能性 - “我根据当前事实做决定,我们找到最佳解决方案。如果你花太多时间思考’如果苹果来敲门你该怎么办?’或者’如果 A 发生,然后 B 发生,再然后 C 发生,你该怎么办?’…你必须做你的事情,他们会对此做出反应。”;
Rabbit的技术实现
意图识别和分发系统:
- 当用户向R1设备说话提出需求时,系统将音频转换为文本后将其发送给LLM服务提供商进行处理;
- LLM理解用户意图后,系统会将请求分发到不同的API或功能上;
本地功能和云服务结合:
- 一些简单功能(如设置定时器)在底层使用安卓系统的设备本地完成;
- 大部分复杂处理在AWS云端完成,例如复杂查询可能会发送到特定服务,如Perplexity或Wolfram Alpha;
大型动作模型(LAM):
- LAM是Rabbit的核心技术,用于在网页上执行操作。它模拟人类在网页上的行为,如点击、滚动、输入等;
- LAM能够理解网页结构和内容,执行复杂的多步骤任务。
虚拟机/VNC技术:
- Rabbit为每个用户提供一个云端虚拟机,通过VNC(虚拟网络计算)技术将虚拟机的操作呈现给用户的R1设备;
- 这允许R1设备访问和控制云端运行的完整操作系统和应用程序;
网页自动化:
- 不使用官方API,而是直接在网页界面上操作。例如使用Spotify时,系统会在虚拟机中的网页版Spotify上进行操作,而不是调用Spotify的API;
- 虽然目前主要针对网页,但Rabbit计划扩展到其他平台,如桌面操作系统和本地应用;
来自Verge的访谈全文+访谈作者的引言部分全文翻译
Rabbit CEO Jesse Lyu 并未过多考虑长远未来
Rabbit 的大型行动模型某种程度上已经问世 —— 但其他公司也在快速跟进。
今天,我正在与 Rabbit 的创始人兼 CEO吕骋(Jesse Lyu)交谈。这家初创公司制造了可爱的R1 AI 设备 —— 一款由明星设计公司 Teenage Engineering 设计的小型手持设备。它旨在成为你与 AI 智能体对话的方式,然后智能体会在互联网上为你完成各种任务,从在 Spotify 上播放音乐、叫一辆Uber(类似滴滴打车),到甚至能在亚马逊上购物。
Rabbit 在国际消费电子展(CES)上以及纽约的一场盛大派对上引起了轰动,但设备的早期评论普遍不佳。我们团队的David Pierce在5月份给了它3分(满分10分),称大多数功能要么无法工作,要么根本不存在。而最重要的核心功能似乎根本不存在:Rabbit 的大型行动模型(Large Action Model,简称 LAM),它本应允许系统在云端打开网络浏览器并为你浏览。LAM 应该能够智能地理解它在网站上看到的内容,并真正地点击页面来完成你的任务。
人们对 Rabbit 的 LAM 到底有多真实提出了很多质疑,但该公司最终推出了他们称之为 LAM Playground的功能,让人们可以使用该系统的基础版本。它确实看起来是在网上点击浏览,尽管速度非常慢。
因此,我想知道 Jesse 计划如何投资 LAM 并与其他承诺为你完成任务的AI智能体竞争。例如,微软刚刚宣布了新的智能体版本的 Copilot,而苹果对下一代Siri的愿景也是一个AI 智能体 —— 它将在你的手机上运行,并直接访问那些应用程序和你存储在其中的数据。谷歌的Gemini和亚马逊传闻中的下一代Alexa也是如此。这对一家初创公司来说是重大竞争,Jesse提到希望能抢先一步。
但实际上,我想知道Rabbit的系统是如何工作的,以及它是否具有持久性 —— 不仅从技术角度来看具有挑战性,而且从商业和法律角度来看也是如此。毕竟,如果Rabbit的想法奏效,LAM 真的能为你浏览网站…那么有什么能阻止Spotify和DoorDash(类似美团外卖)这样的公司封锁它呢?你可能对此有强烈的看法 —— Jesse 当然有 —— 但在某个时候,肯定会有一场争议,而且目前还不清楚会发生什么。
从历史背景来看,大约十年前,有几家初创公司尝试在没有许可证的情况下来线上流媒体播放广播电视。他们通过在一个地方放置许多天线,并开发应用程序,让用户能够远程访问这些天线。这看起来在技术上似乎是合法的——相比每个人在家里安装自己的天线,集中把天线放在一个地方,再让用户通过互联网访问,这两者有什么区别呢?其中一些公司确实非常创新 —— 最著名的是一家名为 Aereo 的公司,它花费了大量资金设计了一角硬币大小的专用电视天线,以便能在数据中心里尽可能多地放置这些天线。我当时写过关于 Aereo 的文章 —— 参观了天线楼层,采访了 CEO,做了全面的报道。然后 Aereo 被广播电视网起诉,案件在2014年上诉到最高法院,你会注意到Aereo现在已经不存在了。
我不知道 Rabbit 是否会成为另一个Aereo,我也不知道所有这些公司将如何应对是机器人而不是人类来浏览他们的网站。我当然也不知道世界各地的法律系统将如何处理即将到来的不可避免的诉讼。我向Jesse询问了所有这些问题,你会听到他的回答 - 他认为 Rabbit 会非常成功,以至于这些公司会主动出现并达成交易。我不得不说,我对此也持保留态度。
我知道这是一次相当激烈且偶尔会有争议的采访。Jesse没有退缩,这意味着我们进行了相当深入的讨论,也请告诉我你们对这次采访有什么看法吧。
下面是这次访谈的对话全文:
Nilay Patel:Jesse Lyu,你是Rabbit的创始人兼CEO。欢迎来到Decoder。
吕骋:谢谢你,Nilay。很高兴来到这里。
Nilay Patel:很高兴能和你交谈。Rabbit 是一家令人着迷的公司,R1 产品的创意也非常有趣。我觉得很多人都认为,像 R1 这样的东西可能是智能手机或其他产品的下一次进化。而且,这家公司本身就很有意思,你们还与 Teenage Engineering 有联系,这是我们在 The Verge 非常喜欢的一家公司。所以,有很多话题可以聊。
你还有一些新闻要分享,关于开放Rabbit的大型动作模型(Large Action Model)让人们可以试用,这是一个早期版本。我真的很想聊聊这个。
但让我们从Rabbit本身开始吧。这家公司成立还不久。R1刚开始发货六个月。Rabbit是什么?公司是怎么起步的?
吕骋:简单来说,这是一家非常年轻的公司。让我简单讲讲它的历史。我其实在2013年就创立了一家AI公司,叫渡鸦科技(Raven Tech),我们曾是 2015 年冬季 Y Combinator 的一员。
这基本上是我个人追逐一个宏大愿景的梦想。我想,作为这一代人,我们看了太多科幻电影,里面到处都是AI的东西。我猜每个极客在某个时候都想打造自己的贾维斯。
所以这正是我11、12年前创立Raven Tech的原因。那时我们有这个想法,有这个方向,但当时的技术 - 显然,还没有GPU训练,没有Transformer之类的东西。
所以我们在语音识别、自然语言处理(NLP)和自然语言理解(NLU)的早期阶段做了很多努力。技术还没到位,但我们尽了最大努力。我们实际上建立了一整套云系统和硬件,与我们现在在Rabbit的很相似。但形态更像一个智能音箱 - 我们都知道10年前,每个人都在追逐那种形态。
最终,公司被收购了,所以对我来说这并不是一个全新的想法,但当我看到研究领域的进展,尤其是 Transformer 模型时,毫无疑问,这是一个全新的机会。特别是当我有机会尝试 ChatGPT或GPT的API(应用程序接口)时。
我们真的印象深刻,因为我们觉得时机已经成熟。如果要做像R1或更科幻的贾维斯那样的东西,你真的需要在后端弄清楚两个部分。一是你要确保通过与设备对话,计算机或设备实际上能理解你在说什么,这就是Transformer,大语言模型的部分。但我们相信在2020年、2021年左右,Transformer绝对是OpenAI和其他公司正在走的正确道路。
我们相信大语言模型这部分已经解决了,或者即将解决。所以我们立即将注意力转移到:在这个设备能理解你之后,它能否真正帮你做事?
大约十年前,我创立了 Raven Tech 公司,我们实际上是最早设计云API结构的公司之一。在进行[语音]识别和理解之后,查询会被发送到不同的 API。系统有一个检测器来理解用户意图,比如”哦,也许你在 Yelp 上寻找餐馆。也许你想从这个流媒体软件播放歌曲。”但我认为,十年前API有巨大的发展机会。当时有很多公司在研究API。如果你还记得十年前的硅谷,每个人都在讨论也许将来整个操作系统只会是HTML5。对吧?但那种想法并没有持续很长时间。
现在,当我们看2020年之后,API业务对大多数流行服务来说并不是主要业务。所以我们也想评估一下,我们是否可以构建一个通用的智能体技术,这真的很难。因为我相信目前的AI都是通用的。显然,有很多人在做垂直领域的东西。对吧?你可以为Excel构建一个智能体。你可以为法律文件处理构建一个智能体。但我认为最大的梦想,真正让我们兴奋的是通用部分。就是,我们能否构建一些东西,不需要预训练,不需要知道人们想做什么,他们只是说出他们想要的,而我们会足够聪明来处理所有任务。所以这就是为什么我们觉得机会来了,我们在疫情之后立即启动了Rabbit。
Nilay Patel:智能体将成为我们生活的重要组成部分,特别是在互联网上为我们采取行动的通用智能体 - 我从各种人那里听到过这种想法,从像你这样的创业者到世界上最大公司的CEO。我想回到这个话题上。这是一个大想法,但我只想暂时聚焦在Rabbit上。Rabbit现在有多少员工?
吕骋:我们目前大约有50人,如果加上实习生的话是50到60人。但当我们开始时,公司只有7人,到CES发布时是17人。所以仅仅在四五个月内就实现这样的团队增长,对我来说是相当具有挑战性的工作。
Nilay Patel:所以CES是一次重大发布。我们团队的David Pierce参加了派对,听到了Rabbit的介绍。我想你在酒店房间里做了演示。然后你在JFK机场的TWA酒店举办了发布会,那很酷。这个东西已经出来了,但团队一直在成长。你说你在1月的CES时有17人,现在有50人。你增加这些人是为了做什么?
吕骋:大多数是工程师。我们有一个很小的设计团队,从第一天就开始做硬件设计或工业设计,大多数新人都在从事AI和基础设施方面的工作,基本上就是云。我们不仅仅是发布硬件。我们为它构建了整个Rabbit OS。所以我认为主要工作永远都在软件部分。
Nilay Patel:整个公司是如何组织的?当你从7人增长到17人再到50人时,你显然必须决定如何构建Rabbit。现在是如何构建的?它发生了怎样的变化?
吕骋:我们主要办公地点在圣莫尼卡。我们在湾区有一个非常棒的设备团队,我们在这里那里都有几个研究工程师。所以基本上是以实体办公为主,但有点混合的系统。我们找人的方式主要是通过内部推荐。所以我们不会花钱去找中介机构来招聘。大多数优秀的人,我们基本上都是通过内部推荐。
Nilay Patel:但你现在的50个人,在公司内部是如何组织的?
吕骋:从某种意义上说,它真的很扁平。我们显然有不同的部门。硬件ODM/OEM部分在亚洲。我们的工业设计团队与斯德哥尔摩的团队合作,在这种情况下是Teenage Engineering。我们自己做所有的设计和营销。然后对于软件部分,我们有需要与ODM/OEM合作的设备团队。我们有云团队,我们有AI团队。这基本上就是我们有的所有团队。每个团队显然都有交叉,我们基本上是基于项目工作。
所以没有疯狂的层级结构。我的意思是,我曾经领导过的最大团队是在Raven时期。我记得在我们被收购时有250人。所以管理50多人仍然在我的舒适区内。
Nilay Patel:Teenage Engineering是Rabbit故事的重要组成部分。他们显然设计了R1硬件,然后他们的创始人Jesper Kouthoofd是你的首席设计官。你们现在正在设计多少新硬件?会有迭代吗?你们有新产品的路线图吗?
吕骋:我们合作的方式 - 显然这不是我们第一次合作。我们在Raven时期就有过合作。
首先,Teenage Engineering是我心目中的英雄公司。这基本上是一个粉丝梦想成真的故事,我真的很感谢他们多年来的帮助。
我们的合作方式非常简单直接。显然,设计这样一个项目有很多被认为是正确的方法,但我认为我们采用了非常规的方式 —— 我可以给你举个例子。回到大约十年前的 Raven 时期,我们的工作方式是这样的:可能只有两次面对面会议,几次电话交谈,没有电子邮件,没有短信。我们建立了一个秘密的 Instagram 账号,仅用于分享设计草图,我们只是在这个 Instagram 账号上互相点赞,就是这样简单的方式,我们完成了之前 Raven 项目的设计。
这一次,过程甚至更快。我想我已经公开分享过这个 - 我们只花了大约十分钟就决定了R1 的外观,期间我们快速勾画了几个草图。最终,我推动 Jesper使用了现在这个橙色。
我们心中确实有两三个项目,但我认为到今年年底,我们当前的重点是真正将这个 LAM推向下一个水平。所以,请大家继续关注。我想人们会意识到的一件事是,这个团队在硬件开发方面的速度真的很快。因为我们开始设计 R1 是在去年 11 月左右,到今年 1 月就推出了它,并在4月开始发货。所以如果我们想推出下一个项目,大概需要六到八个月的时间。肯定不会像一年或两年那么长。
话虽如此,我还是要说…昨天我在社区语音聊天中与用户讨论当前的R1,因为我真的不喜欢目前消费电子产品的发展趋势。比如,不管有什么变化,默认每年都要推出新一代产品。我们已经看到智能手机公司每年都会发布各种微小改进的产品。当我们开始设计R1 时,整个 Rabbit OS 是在云端运行的。这意味着即使这款硬件售价 199 美元,没有使用最新的芯片,它也能够将未来的功能轻松部署到这个设备上。所以我不认为R1是一个只有一年寿命的设备。不过,我们的社区用户确实有这种担心。他们认为可以对它进行很多改进。因此,从这个角度来说,我们并不急于推出新版本,但我们目前确实在考虑不同的产品形态。
Nilay Patel:Jesper是否正在积极设计这些东西,还是作为首席设计官,他在做别的事情?
吕骋:他三天前还在我们办公室。是的,我们正在积极合作。没错。
Nilay Patel:到目前为止你筹集了多少资金?
吕骋:这是个好问题。我想准确一点,但总共大约5000万美元。最后一部分是3500万美元,由Sound Venture和Khosla Venture牵头,还有Amazon Alexa、Foundation Synergist。所以上一轮是3500万美元,如果你说的是一共融了多少钱,我记得大约是5000万美元。
Nilay Patel:当我看到其他 AI 公司正在筹集的资金数额时,就在我们谈话时,OpenAI 刚刚筹集了有史以来最大的一轮融资,显然是为了构建基础模型、数字神明,或者不管OpenAI 的 CEO Sam Altman 认为他在构建什么。你认为你能以每轮3500万美元的规模与之竞争吗?
吕骋:不能,但我认为谈到竞争 - 钱只是其中一部分。我认为我可以算是一个老兵,因为我以前做过创业。我知道它是如何运作的。当然,钱是非常重要的,可能是前几年最重要的。
但我认为当我们谈论竞争时,我们最终要向消费者发布产品。因为我看待它的方式是,人们不是在购买电力。电力基本上是由 – 例如在南加州是由南加州爱迪生公司控制的,对吧?你有一个地址,你必须付费,不管你使用多少电力。但我认为人们最终是在购买微波炉、汽车、摩托车、电视这些由电力驱动的产品。所以从AI研究的角度来说,我可以非常清楚地说,我们Rabbit目前没有办法与OpenAI、Anthropic、DeepMind和谷歌竞争,但我们如何参与这场游戏呢?
我们可以与每个人成为合作伙伴。对吧?所以R1托管了这些公司的每一个模型,最新的模型。他们的能力与我们在Rabbit OS上的产品创新以及提供给用户的所有功能相结合。所以我们不可能在研究方面与他们竞争,但我们快速发布产品。
你看到OpenAI刚刚发布了他们称之为Instant API的东西。我其实被邀请参加会议,但我昨天正在发布LAM Playground,所以我不能亲自到场。但他们提供了一个API让人们为它构建代理。但昨天,我们发布了一个LAM Playground,你可以通过语音浏览任何网站。
我认为竞争是在不同层面上的。资金无疑非常重要,我们当然希望能筹集到更多资金。但我认为,在当前谈到竞争时,我们必须采取明智的策略。他们(指类似OpenAI这些前沿AI实验室)擅长研究,而我们擅长将最新的研究成果迅速转化为用户可以立即使用的产品。
Nilay Patel:让我们谈谈现在的产品是什么。所以现在你们有R1。你可以买到它。这是一件漂亮的硬件。它是橙色的。它非常引人注目。它有一个屏幕,有一个滚轮,然后它连接到你们在云端的服务,为你做事。
吕骋:对。
Nilay Patel:这个售价199美元。你们现在每卖出一台R1单位是否盈利?
吕骋:是的。
Nilay Patel:利润率是多少?你们在R1上的利润是多少?
吕骋:我手头就有一台R1。它的利润率非常可观,虽然我不能透露具体细节,但已经超过了40%。
Nilay Patel:你们在R1的硬件利润率超过40%?
吕骋:在硬件利润率上,我们做了计算。我们可能需要重新计算,因为昨天,在发布LAM Playground后,服务器多次崩溃。所以我们可能需要重新计算。
但是再说一次,首先,一开始我们是赚钱的。现在我们有这些更强大的功能向前发展。我想我还没有听说过一家公司因为他们的服务太受欢迎而无法负担得起云账单而破产。我认为如果你建立了一个好产品,就会有–
Nilay Patel:等等,我可以为你画出那条线。所以它是199美元。你们每台的利润超过40%,所以大约是80到90美元,对吧?不是50%,那样就是100美元,所以略少一些。所以大约80到90美元的利润。这个利润 - 你们确实要支付云账单,对吧?
吕骋:是的。
Nilay Patel:所以这个利润全部用于支付你们的云账单?
吕骋:显然,我们有自己的专用实例,同时还有所有这些云计算竞争对手。对吧?我的意思是,请不要误解。亚马逊 AWS,我们在 AWS 上托管,此外还有 AWS、谷歌云(Google Cloud)、微软 Azure(Microsoft Azure)。在大语言模型(LLM)合作伙伴方面,我们有 Anthropic、OpenAI 和 Gemini。所以请不要误会,这个——
Nilay Patel:这些喜欢赚很多钱的公司。我只是想…与所有这些公司合作并不便宜。
吕骋:这些服务确实不便宜,但我想强调的是,他们之间的竞争如此激烈,以至于为早期创业公司带来了很多好处。我必须称赞这些公司。他们真的在努力寻找方法来帮助你起步,也许从长远来看能从你这里获得收益,但我认为以我们目前的规模,完全可以应对这些成本,是的。所以我们从他们那里获得了很优惠的条件。
Nilay Patel:所以如果我从你那里买一个R1,你赚90美元的利润,或者80美元的利润。在什么时候,我必须使用多少我的R1才能让你亏本?因为我用AI做的每件事都是一个token。这个token都要钱。它需要多个服务器,还有你的带宽成本。一切都要钱。一个R1用户必须使用多少他们的R1才能消耗掉你那80-90美元的利润?
吕骋:我认为,对于一个正常使用的用户来说,如果不是以机器人或恶意的方式使用,要耗尽这些利润是非常困难的。但是 –
Nilay Patel:那是两年的使用量?一年?六个月?
吕骋:我认为肯定超过一年半,两年我不太确定,因为我们要在这里实施新功能,包括LAM Playground和教学模式。
但是,我想分享我对此的理解是,是的,我们做了数学计算。我们在赚钱。没问题。我们希望我们能卖得更多,那肯定会有帮助。但我认为这整个发布策略的目标不是为了在前六个月赚X美元。
我认为有些公司在推出产品时真的很贪婪。我甚至不想点名,因为那样做没有意义。这种做法是行不通的。我认为,如果你看看任何新一代的产品,如果创始人、公司和董事会决定采取一种”让我们从用户身上榨取每一分钱”的策略,这绝对是行不通的。
因为我们知道AI还处于早期,我们知道会有很多事情出错。事实上,我相信每家公司,不管你是大是小,如果你在做最新的AI产品,头两周一定是灾难,因为你会发现AI的很多不当行为。你会发现很多模型的边界情况。
所以我认为整个事情还太新。我们绝不会考虑收取订阅费。那甚至更糟糕。我一般不喜欢那种策略。所以尽管这听起来很令人担忧,好吧,你可以轻易曲解我的话,或者有人可能会歪曲我的意思,说:”哦,Rabbit 除了注定会破产之外,一切都很棒”,对吧?我认为这种思考方式非常愚蠢,因为对于一个伟大的创新,你必须首先专注于创新本身。然后再去解决资金问题。如果我们现在就开始考虑资金问题,这一切都没有意义。真的,这一切都将失去意义。
我认为业内有些人似乎对一切都了如指掌,然后他们决定推出一个壁纸应用,每月收费4.5美元。对吧?我只能说,但愿这能成功吧。你可以去跟那个人谈谈,说:”嘿,你不可能破产,因为你的财务数据没问题,所有的计算都很合理。如果你对此收费,你肯定能赚钱。”但这是建立在整个逻辑必须成立的前提之上,对吗?
所以在这个阶段,我并没有浪费太多时间去微调一些数学方程,试图将利润率精确到20%或50%。显然,作为一家创业公司,我们需要生存下去,尽管自产品推出以来我们经历了起起落落。但重要的是,我们在成长,我们在生存,而且我们仍在不断推出其他设备(包括iPhone)都无法实现的功能,这是一个非常非常积极的信号。
Nilay Patel:首先,我想在我们的节目中,还从未有人将对 Humane 的批评与对 Marques 壁纸应用的批评联系起来。你这个联想很独特。我认为 Marques 对自己的专长以及那个应用出了什么问题有着截然不同的看法,也许有朝一日我们会和他讨论这个话题。
但我想问你的是,当你谈到增长和 Rabbit 的单位经济效益时,在某个临界点上,硬件对你们来说会变得无利可图。比如说,仅仅是我使用 Rabbit 超过18个月就可能让你们亏本。那时候,你们就会开始考虑收取订阅费。你们可能会说:”为了让用户继续使用这个设备,我们不能一直亏损下去。”这正是我一直在追问的问题。
吕骋:我认为对这个问题有多种解决方案。
一,很显然 - 让我们假设每个用户使用R1超过18个月。有几个解决方案。一是我们要推出下一代设备,可能是多个设备,我们仍然能从硬件上获利。
二,我认为我们从第一天就做好了准备。从上周开始,我们向一个非常精选的测试组推出了Teach Mode的alpha版本。我很乐意给你访问权,所以请稍后联系我们。我们会看看是否能帮你设置好。但我们向一个非常小的测试组推出了,大概只有20-25人,说实话。然后在过去72小时内,我看到通过Teach mode创建了超过200个,超过200个课程或智能体。如果你看看当前的Apple生态系统或Android生态系统,我认为硬件不会是头号赚钱贡献者。
无论如何都很难在硬件的利润之上赚钱。所以在某个时候你想把它转化为服务和软件。这并不意味着你要对设备收取订阅费。我认为非常有前景的是,我们将慢慢向beta测试者推出teach mode,希望到今年年底我们能如承诺的那样全面开放teach mode。所以所有这些由每个独立用户或开发者创建的课程或Rabbits或智能体,都可以被视为新一代的应用商店。在这方面,我们可以赚大钱。
Nilay Patel:用应用商店的经济学模式抽取30%。
吕骋:我不想发明任何 - 没错。我不是在试图发明任何新的商业模式。我认为作为一家创业公司,发明自己的商业模式是非常冒险的,但有一个非常好的商业模式,就是App Store,它贡献了什么,年收入的70%,对吧?
Nilay Patel:我只是好奇,就我玩过R1并看过这个设备,我一直在想你们怎么可能在199美元的价格上赚钱?所以这对我来说是有意义的。
当你思考 Rabbit 实际在做什么时,情况是这样的:我问它一个问题,它会在屏幕上显示一个漂亮而可爱的动画,然后它会到网上去使用一系列应用程序接口(API)。现在还有新的LAM(大型行动模型),这就是最新消息,对吧?昨天你们宣布了大型行动模型游乐场。人们可以观看它的工作过程。我已经看到 LAM在The Verge上点击浏览标题,这很酷。这是否就是它的后台运作方式,我让 Rabbit 执行某个任务,然后它在云端为我在网上浏览点击?
吕骋:所以我们这里需要区分两个不同的系统,可能是三个。让我们先谈谈昨天之前的情况,因为昨天确实是一个重要的里程碑。在昨天之前,运作流程是这样的:你与R1 对话,我们有一个意图分类系统,它首先将音频转换为文本,然后我们将该文本发送给我们的大语言模型(LLM)提供商,接着通过意图分类系统进行处理。在 LLM 理解意图后,我们将其分发到不同的应用程序接口(API)或不同的功能模块。有很多功能是在设备本地运行的,对吧?比如设置智能定时器之类的。对于一些简单的问题,我们认为有其他服务或模型可能比默认的LLM 回答得更好。因此,有时我们会将特定的查询发送给Perplexity(AI问答平台)。有时我们会将特定的查询发送给 Wolfram Alpha(计算知识引擎)。
所以你可以理解为意图分类系统将这个分发到不同的目的地,然后相关的功能会触发。
但在昨天之后,我们推出了这个”游乐场”(一个测试环境),这是我们真正想要创造的东西的第一个重要里程碑,那就是一个通用的跨平台智能体系统。它必须是通用的,在目前的情况下它确实做到了这一点。虽然它还不是跨平台的,因为它目前只能处理网站,但它很快就会实现跨平台功能。通过这个通用的网站智能体系统,你基本上可以直接对 Rabbit 说,”嘿,去 ABC 网站或者去某个地方,然后帮我做这个。”这正是我们希望的产品设计方式,我认为整个行业都在朝这个方向发展,就是你说出需求,我们理解你的意图,然后帮你完成它。而当我们在 Rabbit 的操作界面上放置窗口让你可以看到时,智能体将会把任务分解成不同的步骤。
例如我先去谷歌,然后搜索The Verge,再点击进入The Verge的主页。接下来试图找到你要求的这个标题。最后再点击按钮分享这个新闻。理论上你可以链接多个步骤,无限步骤,对系统进行后续查询。
所以我给你一个例子。我想我向另一个记者展示过这个,就是”嘿,先去Reddit搜索人们推荐的2024年最佳4K HDR电视是什么。获取那个型号,然后去百思买,把它加入我的购物车。如果百思买缺货,那就在亚马逊上搜索。如果它们都缺货,给我第二推荐的型号。”
所以你实际上可以串联不同的查询,你可以暂停操作,可以添加新内容,可以调整参数,还可以对它进行微调。它确实就像一个实验场。你可以自由探索这个系统,而且这个系统对于日常任务来说已经相当好用了。显然,开发者和我们的黑客——当然是指善意的安全研究人员——正在给我们展示令人印象深刻的案例。有人仅仅通过与 r1 对话,就在 LAM 实验环境中创建了一个应用程序。这是因为存在一些第三方 AI 服务平台,你只需要输入提示词就能创建一个应用程序,然后下载代码等等。看到所有这些精彩的展示,而且仅仅是在短短24小时内完成的,真的令人惊叹不已。
Nilay Patel:所以我想在昨天和前一天之间做一个标记,对吧?你在1月的CES上宣布了Rabbit和LAM, 但它当时还没有出现。为什么要在没有其基本功能的情况下宣布它?
吕骋:这种说法并不准确。我想借此机会澄清一下。如果你查看连接选项,现在我们有七个应用。在产品发布第一天,我们有四个应用。这些是 LAM(大型行动模型)的第一次迭代,它当时还不是一个通用技术。我们在消费电子展(CES)上从未声称你现在就可以去亚马逊订购东西。我们说的是我们正在朝这个方向努力,而且当时有四个你可以连接的应用。我们承诺会添加更多服务,在过去几个月里,我们确实又添加了三个服务。所以截至今天,总共有七个服务,同时我们继续开发当前的 LAM 实验环境,当时机成熟时,我们会进行升级替换。
有很多争论说 LAM 不存在。这是不正确的。我可以追溯到这个谣言的起源,是有人入侵了 R1。他们发现 R1 在本地设备上基本上是由 Android 系统驱动的,这显然是正常的。如果不是 Android 那反而更可疑。所以底层是 Android 系统,他们提取了代码,这是可以做到的。事实上,历史上每一个优秀的硬件都曾被黑客入侵过。
有人进入并”越狱”(解锁系统限制)了 R1,我猜每一件硬件在某个时候都是可以被解锁的。显然,这对我们来说是一种变相的赞美。如果你开发了一个硬件,而没有人费心去尝试破解它,那可能本身就不是一个很吸引人的产品。所以人们解锁了它,发现了 Android 代码,他们将 Android 代码提取到其他媒体,然后说,嘿,这里没有关于 AI 的东西,没有关于 LAM 的东西。当然,因为所有的核心功能都在亚马逊云服务(AWS)上。
这就是谣言的开始。然后有很多媒体,他们只是拿了那部分信息然后不断重复报道。
Nilay Patel:你们开始的应用,Spotify、DoorDash,还有其他几个。那些是API,对吧?你们在使用他们的API。你们实际上是在浏览器中打开Spotify并点击它。
吕骋:是的。是的。因为你是什么意思 -
Nilay Patel:为什么?
吕骋:没有API -
Nilay Patel:这是我能想到的使用Spotify最脆弱的方式 -
吕骋:没有API。没有API。
Nilay Patel:所以其实你们是制造了一个智能音箱。Spotify 可以在智能音箱和其他设备上运行——
吕骋:那是一种合作关系。你去看看 Spotify 的文档。有一条明确的规定是你不能使用 API 来构建语音激活的应用程序。就是字面意思。
Nilay Patel:所以现在在 r1 上使用 Spotify,当我要求播放一首歌时,它会去某个地方打开网页版的 Spotify—— -
吕骋:没错,打开一个窗口。
Nilay Patel:然后你们通过你们的服务将音频重新传输到我的设备。
吕骋:没错。完全正确。
Nilay Patel:Spotify知道你们在这么做吗?
吕骋:是的。
Nilay Patel:他们对此没意见?
吕骋:我们进行了沟通。他们理解这是智能体的行为。我们解释说,看,我们要求用户在你们的网站上登录,他们是百分之百合法的用户,而且是付费用户。当我们执行这种操作时,我们只是帮助用户点击按钮而已。
Nilay Patel:我一直对这个很好奇,一直很想问你这些问题。所以当我让我的 r1 播放一首歌时,在亚马逊云服务(AWS)的某个地方,一个虚拟机启动,打开一个网页浏览器,打开 Spotify,使用我的凭证登录我的 Spotify 账户,在 Spotify 上点击,按下按钮播放歌曲,然后你们捕获那个音频并重新传输给我的 R1?
吕骋:除了我们不帮你登录这一点外,其他都是准确的。你必须自己登录,我们不会保存你的连接信息。
Nilay Patel:但是关于你们将 Spotify 在你们虚拟机上播放的音频重新传输给我的部分,你们确实在这么做?
吕骋:我们基本上是给每个用户提供一个虚拟机,这是一个虚拟网络计算(VNC)系统,这完全符合政策,你有权访问那个 VNC。在那个 VNC 上,我们基本上直接在网站上操作,就像今天的 LAM 实验环境一样。所以我们不是从 Spotify 或其他地方的服务器获取音频。我们基本上是去 Spotify 网站,为你执行操作并播放那首歌。
Nilay Patel:好的,但数据流向哪里?数据先到达虚拟机,然后从虚拟机传输到我的 Rabbit。
吕骋:没错。
Nilay Patel:所以你们确实在向我重新传输歌曲。
吕骋:我们不是在向你重新传输歌曲,而基本上是直接将 VNC 的显示内容呈现给你的 R1。
Nilay Patel:等等,解释一下那是如何工作的。也许我不够技术性来理解它是如何工作的。你们正在将VNC呈现给我的R1?
吕骋:没错。
Nilay Patel:所以它是在我的电脑上本地运行?
吕骋:在没有用户界面的情况下。
Nilay Patel:好的,我明白你的意思了。所以我其实是登录到一台云计算机上,而R1是云计算机的客户端。Spotify在那台云计算机上播放,R1正在获取那个音频。好的。这引发了大量额外的问题,对吧?
吕骋:首先,我理解你的想法。好吗?在你继续深入之前,我想先澄清两点:第一,我们根本没有使用 API。第二,说 LAM 不存在,这完全是错误的说法。事实上,我们提供了这么多服务,如果你真的仔细查看这些服务的文档,你会发现像 DoorDash 这样的公司是没有开放 API 的。Uber 也同样没有开放 API。
Nilay Patel:但我想要明确指出的是,这是那些公司做出的选择,目的是为了防止像 Rabbit 这样的公司自动化他们的服务,并削弱用户与他们服务之间的直接联系。
所以,当你考虑这些智能体模型在网络上的应用时,无论它们以什么形式呈现——可能是 LAM,也可能是在 LAM 实验环境推出之前你们所开发的任何技术——所有这些公司都会对智能代理是否可以以这种方式使用他们的服务持有自己的立场。这个问题目前仍然存在争议,没有明确的定论。
吕骋:是的。
Nilay Patel:我很好奇,你们现在已经与一些服务合作,它们可能只是抱着”让我们看看情况如何发展”的态度。但随着时间推移,你们将面临一系列更为复杂的谈判,这些谈判很可能最终会由大公司之间的交易来决定,对吧?你可以想象,OpenAI、微软或亚马逊可能会与 DoorDash 达成协议,允许智能代理访问 DoorDash 的服务,而 DoorDash 可能会对其他公司说,”我们已经有了专属协议,你们不能访问我们的服务”。你们打算如何应对这种潜在的问题?
吕骋:目前这还不是一个问题。我们会密切关注这个问题如何发展。我记得当年苹果还没有今天这么大的时候,我在读史蒂夫·乔布斯的传记时,有一章提到他说:”去和索尼谈,从明天开始每首歌定价 0.99 美元。”还记得那个划时代的时刻吗?
所以在某个时候,这种级别的谈判是必然要发生的。我不确定是我们在主导这个还是其他人,但目前的情况恰恰证明我们并没有使用 API。我也不认为这些服务公司不开发 API 仅仅是为了阻止他们的服务被自动化。主要原因是 API 对他们来说暂时不能带来收益。当我们发展得更大时,他们肯定会乐于在某个阶段与我们进行谈判。你知道,我们在产品发布之前就尝试过联系优步,确实这么做了。但他们的反应是:”你们是谁?你们太小了。我们不在乎。”就是这样。
Nilay Patel:所以现在你们在R1上有Uber,那是打开了Uber桌面应用吗?
吕骋:不,是Uber网站,这非常不稳定,这非常 –
Nilay Patel:这就是我在问的。抱歉。我说桌面应用的意思是在网络浏览器中你们正在叫Uber。如果你们运行在Android上,为什么不打开一个Android虚拟机并使用Android应用?
吕骋:实现这一点在技术上有点复杂,我们正在研究其他平台。我向一小部分人展示了一个工作原型,LAM在桌面操作系统上运行,比如Linux,有所有本地应用。所以我们肯定正在朝那个方向前进。
Nilay Patel:有没有可能他们能检测到这些不是人类用户,而实际上是智能体用户?
吕骋:我猜总有办法可以检测,但我认为问题是 - 这实际上是我们在这里讨论的一个很好的话题。想想验证码。
Nilay Patel:当然。
吕骋:现在,LAM playground 或任何功能强大的人工智能模型都可以解决基于文本的验证码(CAPTCHA)。因此,他们用来防止自动化系统的旧方法正在失效。这是整个行业的努力,推动所有人重新思考——现在有了这种人工智能,有了所有这些智能体,他们的业务将如何改革,或者所有这些政策需要如何改变?
我同意,这是一个非常复杂的话题,但我看到的是,这并不是 Rabbit 在这里施展什么特别的魔法。每个公司都在这么做。我们有其他的智能体公司,甚至 GPT 也在这么做。所以这是一个正在兴起的新浪潮,所有这些旧的服务都必须重新思考。但我可以分享我个人处理这类场景的经验,比如当我们在 2013 年开始开发第一批智能音箱时——所有这些音乐公司都不在乎。直到每个人都在制造智能音箱,他们才说,”好吧,我们必须为这种特殊的设备形态重新销售全部版权。”
我猜最终还是关于钱的问题。如果有一种流行的设备形态,他们想把相同的版权卖给尽可能多的形态。所以我们可以进行这种谈判,但当然,就像你说的,有更大的公司在做类似的事情,甚至更高级的事情需要解决。
我举个例子,比如 Siri 和微软,有一个叫做 Microsoft Recall(微软回忆)的功能,他们现在撤回了这个功能,我想他们又重新推出了。这是非常激进的,它会截取你本地电脑的屏幕截图。
所以这就是我在人工智能早期看到的情况。会有很多不同的尝试,最终人们会达成和解,并同意一份条款和协议。
但如果你检查我们如何将网站自动化到他们的界面,最重要的部分是我们不创建假用户。我们不创建垃圾用户。我们不会代表你登录,你就是你。我帮助你做事的方式是帮你点击按钮和鼠标。这相当于,如果我想让我的朋友帮忙——我给你举个例子。假如我很忙,即将进入一个会议,我想让我的朋友帮我从 DoorDash(外卖平台)订购一个汉堡。我所需要做的就是解锁我的手机,把手机递给我的朋友,让他帮我点击。
在这个过程中,我没有向我的朋友分享我的凭证。我没有告诉他我的手机密码,没有告诉他我的 DoorDash 密码。我甚至没有分享我的信用卡信息。他所要做的就是添加到购物车并点击确认。就是这样。所以这个朋友相当于第一代 LAM,不幸的是我们不喜欢它。这就是为什么我们如此努力工作。现在我们有了 Playground,这是一种更通用的技术。
Nilay Patel:那么,我想问问你关于第一代 LAM 和 playground 之间的区别。playground 听起来像是你一直想要构建的东西。你实际上拥有了一个能够查看网页、理解内容并采取相应行动的智能体。
第一代 LAM,在更广泛的定义中可能算是一个大语言模型(LAM),但从技术角度来看,它表现为一种能够自动化方式在各种界面中移动的测试软件。它实际上并不理解这些界面,只是能够在其中导航。因为那是相当普通的机器人流程自动化(Robotic Process Automation,RPA)技术。你是否只是在构建那种 RPA 技术的同时,LAM 开始出现的?
?
吕骋:不,不。
Nilay Patel:不?好的。
吕骋:我们在研究神经符号,对吧?所以想法是 -
Nilay Patel:但甚至在第一个版本中?
吕骋:是的。
Nilay Patel:我一直有的问题是,如果Spotify - 在LAM存在之前,因为我理解声称这个版本可以理解每个网站 - 但如果Spotify改变了它的界面或DoorDash改变了它的界面,Rabbit是不是会有点困惑,对吧?
吕骋:我告诉你,Spotify经常改变它的界面,我认为在过去五六个月内,自从第一个LAM通过连接添加Spotify以来。我想我们可能把Spotify置于维护状态大约两次,总共一个小时。
这是一个很好的证明。
Nilay Patel:这确实是一个很好的证明,但我 - 就当这是我的看法,我认为这意味着它还不够好,对吧?我手机上的Spotify应用从不会因为维护而停机,如果声称智能体可以为我采取行动,我必须100%依赖它。
吕骋:不 -
Nilay Patel:所以我对这整件事的问题是,你想做的事情,即让智能体为我爬取网络,与我们现在能做的现实之间的差距。实际上中间地带是API,中间地带并不那么脆弱。你 -
吕骋:好吧 -
Nilay Patel:对我来说,智能体使用为计算机设计的接口,而不是为我的眼睛设计的接口,更有意义。
吕骋:我真的很想大笑。
Nilay Patel:好的。
吕骋:真的。两件事。我不同意Rabbit上的Spotify工作得不好。它一直工作得很棒。
Nilay Patel:当然。
吕骋:五个月内,可能有两次我们将它置于维护状态,总共维护时间可能不到一小时。你可以问任何R1用户。这不是通过API,这很令人印象深刻。这是通过智能体。
Nilay Patel:我 -
吕骋:这是通过智能体来处理 -
Nilay Patel:我明白对于智能体来说这很令人印象深刻。我只是说API -
吕骋:你说它不 -
Nilay Patel:我说它不 -
吕骋:你说它不好。
Nilay Patel:够好。我说它不够好。
吕骋:你说它不够好。
Nilay Patel:对吧?它何时能做到100%呢?
吕骋:好的,现在那是我 -
Nilay Patel:因为API是100%的。
吕骋:那是我的第二点。是的,API是100%的,但你依赖于他们能给你稳定的、能工作的、永不中断的API –
Nilay Patel:我是用户,我不在乎。这就是我的意思:作为用户,我为什么要在乎?
吕骋:用户不需要在乎。我们需要在乎。
Nilay Patel:好的。
吕骋:我们需要在乎,我们需要在乎因为我们检查了我们可以使用哪些好的API,别误会,Perplexity的API一直很好。
Nilay Patel:当然。
吕骋:OpenAI 的 API每隔一两天就会发生一次故障,他们会说:”我们观察到了一个问题。”你可以关注 “Is ChatGPT Down?”(ChatGPT 是否宕机?)这个服务,它提供了非常详细的信息,包括每天发生故障的次数。据估计,平均每天 ChatGPT API 会出现超过 10 次故障或不稳定的情况,无论是什么原因导致的。我们有一个故障通知系统来监测这些情况。所以,首先要明确的是,这个 API 是不稳定的,这一点是毋庸置疑的。
Nilay Patel:当然。
吕骋:你必须追求用户需要的服务。我们想提供音乐功能,我们认为 Spotify 总体上提供了最佳体验,所以我们想要寻求这种合作关系,而且我们现在仍在努力。但从技术角度来说,我不喜欢 API 的原因是——以 Alexa(亚马逊的智能音箱)为例。Alexa 音箱都在使用 API,你实际上必须去谈判才能获得。因为就像我说的,现在不是每个服务都开放 API,很多传统服务没有 API,对于初创公司来说更是难上加难。当你去和他们谈的时候,他们会认为你的公司规模太小,对吧?
我们经历过这个过程,我们对每个公司都试过。他们认为我们太小,根本不在意,所以我们无法获得 API。但这是否意味着我们就不会想出替代方法来实现功能?不,绝对不是这样!我们一定会想办法让它工作,这正是我们的做事方式。我们关心的是用户能否使用这个功能,而不是如何实现它。事实上,因为我们知道用户并不关心这是如何实现的,我也不想花上六-八个月的时间,穿着正装去跟 Spotify 的人、Uber 的人一个接一个地谈判。
Nilay Patel:好吧,这里的愿景是你最终会拥有一个通用的LAM,它只需为你浏览网络就能完成任务,对吗?你之前提到把手机递给朋友的例子,这就是为什么你们可以开发 Rabbit 设备。用户只需要对着它说话,它就能在各种情况下去完成任务。但现在每个人都看到的一个巨大威胁是,苹果已经宣布为 iPhone 上的 Siri 推出了基本相同的功能。这就像是科技界的”死星”突然出现。
吕骋:是的。
Nilay Patel:苹果有能力达成各种交易,也可以将开发者拉入与 Siri 在手机本地的 API 关系中。而且说实话,苹果可以一直大量投资,直到它决定不再造车或者做任何它想做的事情。说服人们购买另一个设备,而当这个设备出问题时又不能像 iOS 上的 Spotify 应用那样简单地切换回去使用,这看起来是个巨大的挑战。你们如何克服这个问题?因为如果你们的技术不能在任何时候都保持 100% 的优势,那感觉就是一个很难推广的产品。
吕骋:是的,这就是游戏有趣的部分,真的。
Nilay Patel:你如何赢得游戏?
吕骋:我想,首先,就我个人而言,我在25岁时就卖掉了自己的公司。现在,我不想再简单地开发另一个应用程序。我应该坚持我的理想,因为我真的认为,我和我们团队正在追求的宏伟愿景,实际上就是当前每个人都在追逐的方向。如果不去追求这个梦想,无论它有多困难,真的会让人觉得很遗憾。
事实上,我们感到幸运和高兴能处于这样的境地。说实话,我们目前没有遇到来自其他初创公司的严重竞争。当每个人——
Nilay Patel:好吧,有一个,而且似乎是一个相当壮观的失败,对吧?
吕骋:是的。
Nilay Patel:Humane以令人瞩目的方式推出:拥有大量资金支持、与电信巨头 T-Mobile 达成重要合作、采用订阅费模式,甚至登上了《时代》杂志。然而,尽管声势浩大,但目前看来,他们的发展似乎并不如预期那么顺利。
吕骋:所以我说截至目前,我认为我们没有来自创业公司的严重竞争对手,然后当我们谈到竞争对手时,显然有苹果,有每个大公司,包括OpenAI。
所以首先,我认为这对我们来说是好事,因为它验证了我们的方向绝对正确,我也很好奇 - 通用智能体技术的最终路线会是什么,因为业内不同的人可能有不同的想法。仍然存在可争论的状态,而且也还没有很好的智能体系统的评估,你可以看到很多不同的研究机构和公司在尝试不同的路线。
显然,现在有像 GPT 这样的 API 路线,但它并没有真正起飞。还有纯粹的神经符号路线、Haber 路线,以及各种多模态方法。我们仍处于一个阶段,每个人都在尝试自己的方法。希望最终能够形成一个确定的方案,包括苹果在内。
我认为苹果这样做的优势是,他们比任何其他公司都更了解用户。而且理论上,他们拥有无限的资金和非常封闭的生态系统。他们推出这个功能的方式是通过一个叫做 App Intent 的 SDK。不同的公司或应用开发者需要选择是否加入,以使新的 Siri 能够控制他们的应用。我想,作为 Rabbit 这样的小团队,我们的相对优势是行动迅速。
我们不仅行动迅速,还在不断成长。坦诚地说,我们的发布非常成功。我们的专用硬件设备(r1)销量最高,我们已经获得了不错的利润,解决了所有首日出现的问题,公司规模实际上扩大了四倍。我们在成长,行动迅速,现在又推出了新产品。就像你说的,这标志着一个新的阶段。我认为,目前 r1 能做的很多事情,iPhone 还做不到。虽然我相信最终每个人都能达到相似的解决方案,所有设备都能做类似的事情,但我坚信至少在今年剩下的时间里,或者 2024 年第四季度,可能直到 2025 年第一季度,这仍然是一场比拼谁拥有独特功能的游戏,而不是谁做得更好的竞争。
所以相对来说,我们领先了六到八个月,有我们的发展空间。但显然,我也明白,当一个大公司想要干掉一个初创公司时,他们有无数种方法。这就是现实。人们经常问我,”如果风险太高怎么办?如果公司倒闭了怎么办?”
老实说,我不认为这些问题很重要。因为我们已经在这条道路上了,我们会看到结果,不管是好是坏。我不认为对这些问题的任何回答会改变我们的方向。我可以在这里像个爱抱怨的人一样说,”这太难了,这是不可能的。行业中的任何人都可以轻易地干掉我们,甚至一个 YouTube 评论员可以通过一篇评论就干掉我们。”
但这并不会改变我们的方向,因为我们正在行动,我们在推出产品,我们在发货,我们在向前推进。所以,看看苹果会推出什么会很有趣。
我参加了苹果 iPhone 升级计划,每年都会自动获得一部新 iPhone,只需支付固定的月费。但我真的找不到任何理由去升级,因为人们说 Rabbit 推出得太早,而现在你看看苹果这样的大公司。如果你去洛杉矶的日落大道,或者旧金山的 Mission 街,任何主要城市,你都会看到苹果的巨幅广告牌,对吧?iPhone 16,iPhone 16 Pro,下面写着什么?”苹果智能”。但它准备好了吗?它推出了吗?并没有。
Nilay Patel:让我谈谈增长。你提到你增长了四倍,我猜你是指员工数量?
吕骋:是的。
Nilay Patel:你上个月告诉Fast Company,R1每天只有5000人在使用。这比你预期的高还是低?
吕骋:首先,你是从哪儿看到那篇文章的,我猜是The Verge?我想 –
Nilay Patel:不,是Fast Company,这是它说的。
吕骋:是的,不,是的,但有一篇 –
Nilay Patel:我正在读这篇,我正在看。
吕骋:不,但有一篇The Verge 的说R1只有5000个日活用户,这是从 -
Nilay Patel:好吧,那是你的引述。
吕骋:首先,我认为我在那里说的可能被误解了。我说的是,如果你现在去看数据,你可能会发现有5000人在使用R1。至少5000人。
Nilay Patel:我只是引用你的话。Fast Company。”Lyu说,’现在大约有5000人每天使用R1”
吕骋:我说它可能被误解。好吗?
Nilay Patel:好的。
吕骋:首先,我认为我们看到与R1互动的所有人都有非常稳定的增长,每次有新功能,就会有更多人使用它。我会给你一些我想抛出的数字,也许我将来可以分享非常详细的使用情况。首先,大约有5%的人拥有他们的R1后,他们不满意,退货了,不到5%。
Nilay Patel:当然。
吕骋:这是一个非常不错的数据。我认为用户最常使用的功能是提问、图像识别等。我们希望用户能探索更多的应用场景,但遗憾的是,我们在连接功能上目前只有四到七个应用,这成为了一个瓶颈。如果你查看总的查询量,你会发现大多数情况下用户问一个问题后就忘记了。所以关键不在于用户问 R1 多少次,而是在于他们问 R1 什么样的任务,以及 R1 是否真的能帮到他们。所以,是的,很遗憾,看来这里存在一些误解。我们的目标不是追求使用频率,而是希望 R1 能在用户真正需要的时候提供有价值的帮助。
Nilay Patel:那么具体数字是多少?每日活跃用户数是多少?我们明天会发布更正。
吕骋:我会回去给你一个非常准确的数字,但我可以告诉你昨天我们的服务器实际上崩溃了,所以我认为 -
Nilay Patel:是它的两倍吗?是10,000吗?是25,000吗?
吕骋:哦,昨天我们的云成本实际上,我想…实际上,让我在这里检查一下,因为我可以在这里查后台数据。
Nilay Patel:这就是为什么我喜欢在节目中邀请创始人。
吕骋:好的,所以过去一天是33,760。
Nilay Patel:好的。
吕骋:所以33,760,是的。所以昨天接近34K。
Nilay Patel:好的。昨天34,000活跃用户。好的。
吕骋:是的,而且 –
Nilay Patel:这占你们销售总量的百分之多少?
吕骋:昨天?
Nilay Patel:是的,33,760人。这占你们总销售量的百分之多少?
吕骋:我认为我们交付了超过10万台,那应该是大约33%,34%。
Nilay Patel:当然,这是有道理的,我假设昨天,因为它是LAM playground的发布,这是一个大幅增长。
吕骋:是的。
Nilay Patel:那之前的几天是什么情况?
吕骋:所以过去两天,5206,所以如果你减去33,那就是另外20,000。(猜测这里吕骋想说的是过去两天累计用户数是52006或者52060?这样减去33000能剩下大约20000?)
Nilay Patel:等等,抱歉我没跟上。你说了数字,过去两天,再说一遍。
吕骋:所以过去两天,5206,所以 -
Nilay Patel:那是两天的总和?
吕骋:正确。
Nilay Patel:好的,其中一天是LAM playground上线,所以,好的,我明白你在说什么了。
吕骋:正确。
Nilay Patel:所以你是说在任何时候都有5,000活跃用户,而不是每天。
吕骋:正确。
Nilay Patel:好的。然后你每天大约有20,000用户,然后我们会看看是否因为LAM playground而增加 –
吕骋:正确。
Nilay Patel:…因为LAM playground。
吕骋:正确。然后有一篇The Verge的文章使用了那个标题,5,000,这是错误的。我可以告诉你,那是错的。那是非常错误的。那是我说 –
Nilay Patel:好吧,你去联系Fast Company,然后我们会更新那个内容,但是我们——
吕骋:嗯,那个人是——
Nilay Patel:… 杂志上刊登了你的引述,所以我们对此挺满意的。
吕骋:等等,那个记者当时并不在场。不管是他还是她,那个记者都不在现场。而且那根本不是我原话的意思,明白吗?
Nilay Patel:欢迎回来。所以你听到了所有关于Rabbit日活用户的来回讨论,以及CEO Jesse Lyu说他会给我们一个更好的数字。我要求公司澄清这一点,Jesse实际上对Fast Company说的是,在任何给定时间,Rabbit有5000个用户。Fast Company的文章已经被更正,我们将使用Jesse的数字,即每天20,000到34,000活跃用户,这仍然远低于已售出的10万台。
现在我们有了这个数字,我们会发布它,但我要问你的是,你们必须卖出更多的R1,你们必须让更多已经购买它们的人继续使用它,而且事实上,无论苹果智能是否已经到来,它都将以某种形式在未来几周内到来。
就在一两周前有一份报告称Jony Ive正在与Sam Altman和OpenAI合作开发一个硬件设备。Humane会发生一些事情,Google会发生一些事情,Samsung会发生一些事情。随着竞争对手范围的扩大,感觉你们押注的核心技术是能够用大型动作模型自动化VNC,对吧?
你们将为人们在云中打开用户会话,然后你们的LAM将为他们在网上点击,这将使你们摆脱需要与各种公司达成API交易的挑战,与各种公司达成其他种类的交易,版权交易,无论你们可能需要什么。
这是持久的吗?这个想法将使Rabbit远离需要所有大公司会去支付并获得的交易?因为这是我最常想到的事情。我能想到10家公司提出了技术解决方案来解决法律问题,即使技术解决方案很棒,法律问题最终还是赶上了他们。
吕骋:我们相信这项技术是目前能够使任何通用智能体系统工作的技术路线,我还没有看到任何其他方法能以任何其他方式使任何通用智能体系统工作。
这并不意味着我们被局限在一条技术路径上。如果你和任何公司交谈,他们都不会说”嘿,我们要把所有赌注都押在这个技术上十年”,因为这不是一个明智的想法。技术变化如此之快,我们必须保持灵活适应。
就目前而言,我认为我们有了一个不错的开端。我们推出了一个免费的 playground 概念平台,让用户可以去探索,这样我们就能了解如何改进这个系统。事实上,我相信系统的速度可以很快得到提升,但我们并不是在这里宣称:”嘿,我们被这个技术束缚住了。”
我们确实拥有相关的专利,但我们并不是在说:”嘿,我们认为这就是正确的发展路径。”我不认为 AI 行业中的任何人能给你一个非常明确的答案,比如:”只要你这样做,按照这个结构,就必定能在长期内带来最佳结果。”我觉得这种想法不太对,但是,没错,我同意你的观点。行业中的每个人都在尝试一些新东西,我们看到的很多公司都会像你说的那样,遇到某种法律问题。比如那些音乐生成平台,还有——
Nilay Patel:我的意思是,这似乎是AI行业的普遍情况,对吧?
吕骋:YouTube 上有各种培训视频,可能被用于这个或那个AI项目。类似这样的情况还有很多。但我认为,不仅仅是开发者在适应新技术,整个行业也将适应开发者带来的变革。在某个时候,我们会达成一个共识:”好的,我们需要制定新的政策,这些是我们都需要遵循的新规则。”
Nilay Patel:你们是否正在朝着这个目标努力?我想再次强调,这是我在考虑这些问题时的一个核心疑问。基本上,每个人工智能产品都是一个技术解决方案,它都领先于现有的法律系统或商业协议。
在某个时候,Spotify 可能会突然找上门来说:”你知道吗?我们不允许智能体使用我们的服务。必须是人类用户,我们要修改服务条款,明确规定只能是人类用户。” DoorDash可能会这么说,任何公司都可能会这么说。你们准备好应对这种局面了吗?你们有没有预留资金来聘请律师团队应对可能的法律挑战?
吕骋:不,我们没有资源来打这场官司,目前这对我们来说不是一个真正的威胁,因为他们说我们太小了。
Nilay Patel:[笑]很公平。你认为转折点什么时候到来?
吕骋:我不认为这对我们来说是一个死胡同,对吧?
Nilay Patel:不,我是说你认为什么时候会出现转折?你认为什么时候会开始讨论是否可以有代理用户或人类用户?
吕骋:是的,这正是我在谈论的。我不认为他们不愿意改变他们的条款。
我认为他们不太可能提出诸如必须是人类这样的条款。这是不可能的。已经有很多自动化工具了。没有回头路了。
我认为他们想与任何公司合作,包括我们,是当他们看到这种新型智能体技术有很大需求时,他们想收费,然后我们要求我们的用户和我们为他们付费,这是一笔商业交易。这更像是金钱条款。这就是我能看到的。但就目前而言,我们没有违反他们的任何条款和协议。如果他们明天改变条款和协议,我们会看看,看看我们如何适应。但智能体已经存在了。已经有很多智能体在运行了,所以我认为没有回头路,说”嘿,我们要阻止智能体使用我们的服务”是不太可能发生的。
那不会发生。
Nilay Patel:在你能想到的最长时间线上思考,假设一切顺利,都解决了。在你试图构建的通用智能体100%可靠并且可以做我们所有人想象它能做的所有事情之前,还需要多少时间和金钱?
吕骋:我在这里可能有不同的意见。我认为像OpenAI这样的基础模型,显然他们正在筹集疯狂数量的资金。我认为我们从他们一直在做的工作中受益,因为他们的主要服务是将他们的模型作为API出售,这节省了很多钱。我们不想重新创造轮子,重新训练一个LLM。我认为这可能不像很多人可能认为的那么可怕。
我认为将最新技术转化为一个产品与推动更先进的技术之间存在巨大差距。显然,我非常倡导进行高端研究。我们想在这里建立一个研究所,规模与OpenAI和DeepMind相同,尽管他们已经远远领先了。但我认为我们现在试图做的是,因为这就是我们现有的资金。我们没有10亿美元,我们没有20亿美元。我们有这个非常有限的预算。那就是我们如何将最新的技术和研究转化为一个产品,我们可以尽早发布并收集反馈并从中学习?
所以很多人对AGI有不同的定义。我不真的谈论这个术语,因为我认为太多人对它有太多定义。但我确实认为,AI理解你说的话并能帮你做事,也许在这里我们谈论的是虚拟地帮你点击按钮之类的。有很多公司在做人形机器人,他们实际上是给AI一双手和双腿来做事情。
我认为这是整个人类的努力,很多资源可以共享,而不是每个公司都必须筹集这么多钱,花这么长时间来实现同样的目标。所以很难说,但我们知道我们需要更多的资金和资源,这是肯定的。但我认为你已经看到这个团队从7人、17人到今天的表现有多么高效。我们筹集的资金显然远少于Humane或任何其他大公司。我认为这实际上是我们的优势之一,我们可以以相对成本效益高的方式快速做事。
Nilay Patel:从时间线来看 - 再次,假设一切都按你的方式发展,从现在开始一年后你能在所有基础模型和所有其他对这个东西的投资的基础上构建,只要我在网上问什么它就做什么,是五年吗?你怎么看?
吕骋:我认为AI模型会很快变得非常聪明,但我认为我们在谈论一个代际转变。我认为显然我们不希望2024年的技术在eBay的网站上运行,这基本上是在1990年设计的,对吧?所以我认为很多基础设施需要更新,我在这里看到的最大差距是产品化。
所以我认为在我们的路线图中,我们认为很有可能我们可以将所有这些分散的技术,如LAM playground、Teach Mode和rabbitOS,在某个时候,也许明年,合并成一个新的rabbitOS 2.0。这实际上将朝着这个通用目标推进一大步。
但我的总体看法是,AI模型足够聪明,但行动部分有很多基础设施。研究和产品化之间存在巨大差距,这就是我们学到的。所以我会说我对三年期很乐观,但我认为,就像我说的,现在和从明年开始,每个人都在尝试不同的方法,我们会看到哪一个有效,但我认为我们对我们现在采取的方法很有信心。
Nilay Patel:最后,我想问一下关于设备形态的问题。显然,Rabbit 设备有着非常独特的硬件设计,人们真的很喜欢它的外观。最近我们看到了很多有趣的智能眼镜设计。有种观点认为,未来我们都会在脸上戴摄像头,然后会有公司开发相应的显示屏。你认为这种预测是正确的吗?我昨天戴了 Meta 与 Ray-Ban 合作的智能眼镜(一种能拍照录像的太阳镜)。但我在想,为什么我要一直戴着这些呢?我更愿意使用一个单独的设备。你对这种趋势怎么看?
吕骋:我并不反对任何形态的设备。事实上,我认为未来会出现很多种设备形态。但在设计 R1 时,我们明确知道它不会是智能手机的形态,因为我们了解人们会在智能手机上做很多当前 AI 无法完成的事情。所以我们刻意避开了智能手机的设计。
说到带激光的别针和眼镜 — 我对每种形态都有不同的看法,因为这里没有放之四海而皆准的规则。先谈谈别针。对于将设备做成像 Humane 那样带激光的别针,我的总体看法是:首先,我觉得这个想法很酷,但太冒险了。你在尝试提供一种使用新技术的方式,让用户使用全新的软件。这对他们来说已经是个新鲜事了,你不应该再引入一种像科幻电影里的装置。
两种新事物叠加在一起风险太大了。相比之下,如果你看看 r1,它的设计非常容易理解。你知道有一个可以按的按钮,你能猜到轮子可能可以滚动。还有一个屏幕可以显示内容。所以 R1 的形态非常保守,从某种意义上说,它降低了用户使用软件的难度。
这就像人们还没弄清楚如何在虚拟世界中互动,突然在 2016 年,就有 200 家不同的公司开始制造 VR 眼镜,结果它们都失败了。所以我对硬件形态的态度非常保守。
谈到眼镜,那又是另一回事。我认为实际上是你的头骨在适应眼镜框,而不是相反。我曾经戴过处方眼镜,我深知那种不适感,你的头骨不得不去适应眼镜框,而不是眼镜框来适应你。所以我认为眼镜框真的很难有一个通用的合适尺寸。我还和我的设计团队开玩笑说,”如果我们要做智能眼镜,可能会做成龙珠动漫里的风格,”就像那种能量探测器或类似的东西。
Nilay Patel:像旧的Google Glass形态?
吕骋:我很难接受”我必须戴上一个不合适的眼镜框”这种说法。不过,我们看看吧。
我认为目前的智能手机设计是完美的。我真的很喜欢平板状的玻璃屏幕这种形态,但真正的问题不在于设备的外形。真正的问题在于应用程序,你不觉得吗?因为现在我们看到所有这些智能体技术、人工智能的发展,它们不仅在做传统应用程序能做的事情,还能做很多应用程序无法做到的事情。所以我认为,问题的核心其实出在应用程序上。
Nilay Patel:我忘了问你主要问题。你有过几次创业,你做过几件事,你在这里有一个大想法。你如何做决定?你做决定的框架是什么?
吕骋:我是一个非常直觉的人。我喜欢在大方向上信任我的直觉,比如长期会发生什么。但同时,我相当保守,我讨厌预测事情。
所以我认为当人们重播这一集时,他们可能会听到我被你的一些问题真的难住了。只是我的大脑无法预测。
我不喜欢做预测 - 比如如果发生这种情况会怎样,如果发生那种情况会怎样,你怎么看?当我管理我的团队时,我告诉人们,”我们根据当前事实做决定,我们找到最好的解决方案。”如果你花太多时间 - 至少,如果我花太多时间思考如果苹果敲你的门,你会怎么做?如果A发生,然后B发生,然后C发生,你会怎么做?
很可能你会得到一个不同的策略,对吧?因为如果你认为如果B是A的解决方案 - 当A发生时,你就做B。但有其他类型的人会说,”等等,你有没有想过当A发生然后D发生,然后E发生,然后F发生,你还会做B吗?”如果你这样想,可能不会。
所以我只是选择不去预测很多如果,我根据当前事实做出简短、清晰、简洁的决定。事实上,如果你回顾我们在CES上发布的内容,那可能是最好的时机。价格可能正好合适,颜色可能正好合适,不花六个月时间与T-Mobile谈判的决定可能正好合适。我根据当前情况做决定,这就是我的风格。
我和人交谈,每个人都和我交谈。我告诉我团队的每个人,他们随时可以找到我。随时和我交谈。我花很多时间和我的人交谈。
我们总的来说,只是一个非常真实的团队,脚踏实地。我真的不喜欢其他类型的创业公司,他们花太多时间享受那种感觉,如果你明白我的意思。但有很多人说,”哦,我是创始人。我很酷。”
不,我已经长大到足以摆脱那种想法。可能和我21、22岁时一样,但现在我34岁了。创业真的很艰难。这是一场战争。这关乎生存。这真的,真的很艰难。仅仅靠自己生存在任何意义上都是艰难的。
这就是为什么很多人问我 - 我经常被问到,”好吧,如果他们这样做怎么办?如果他们那样做怎么办?”好吧,最后,你什么都做不了。你必须做你的事,他们会对此做出反应。
我认为可以这么说,对于 Rabbit 和其他像我们这样的初创公司来说,像苹果这样的大公司确实会对我们做出反应。他们以一种非常敌对和不寻常的方式对我们作出回应。尽管他们有新手机,但那些我们做的创新仍然不在他们的产品中。
我们只是做了很小的改变,但这并不重要。对我们来说,我们真正关心的是我们的客户。我想说的是,确实有很多错误信息,有批评者,有各种反馈和批评。但如果你和R1用户交谈,你会发现他们是满意的。这就是我所关心的。否则,我们会面临大量退货和退款。事实上,我们的退货率不到 5%。在任何消费类电子设备市场中,这都是一个很好的基准。我们将继续推出新功能。在五个月内,我们推送了17次空中更新(OTA)。相比之下,其他公司推送了多少次?2次,3次,4次,5次?
所以我真的希望人们能看到我们的真实面貌 — 我们是一群奋斗的小人物。我们的解决方案并不完美,但从第一天起,这就像是大卫对抗歌利亚的故事(弱小挑战强大),因为这就是现实。不要期望我们能做出完美的东西,因为我们并不完美。我们筹集的资金很少,我们是一个小团队,但我们行动迅速。我们能保证的是,当 Rabbit 向你展示某些东西时,你可能在其他地方找不到。无论是硬件,还是 playground 平台,甚至是第一天版本的简陋LAM。我们是第一家让 Apple Music 可以流式传输到我们设备的公司。
Nilay Patel:是的。是因为你们在网页上打开它吗?
吕骋:没错。我的意思是,目前我还没有收到任何法律警告函。也许将来会收到,但可能他们认为我们规模太小,不值得关注。不过,我们就是要用自己的方式来做事。我想,这就是我想表达的。我们是一个脚踏实地、务实的团队。这就是我的风格。
Nilay Patel:是的。Jesse,非常感谢你来到Decoder并如此乐意回答这些问题。我真的很感激。
吕骋:是的,非常感谢。