RichChat

A blog for tech enthusiasts

RichChat

下文来自对红杉资本最新发布的这篇“Generative AI’s Act o1”报告的总结和个人点评。


在生成式AI革命开始两年后,我们正站在一个新的转折点上。AI正在经历一次重大的进化,从主要依赖于预训练数据的快速反应系统,转变为能够进行更深入、更复杂推理的智能体。这种转变正在重新定义我们对AI能力的理解和期望。

市场格局的稳定与新的竞争前沿

生成式AI的基础层已经形成了相对稳定的格局,主要参与者包括微软/OpenAI、AWS/Anthropic、Meta和谷歌/DeepMind - “只有拥有经济引擎和获取巨额资本的规模化参与者才能继续参与。” 这意味着,虽然竞争仍在继续,但入场门槛已经大幅提高。

阅读全文 »

引言

近期,字节跳动旗下的”智能体耳机”Ola Friend引发了广泛讨论,但看了目前的一些官方约稿都没有说到点子上。我简单查了一下背后的这家oladance公司的发展历程整理了些个人点评。也欢迎熟悉耳机硬件的朋友一起来讨论:

Oladance背景相关

  • 他们是最早在市面上创造ows(Open Wearable Stereo)耳机这个新词的公司,虽然其实Bose的开放式耳机Sport Open Earbuds在更早就有了(oladance是由前BOSE高管李浩乾与多名BOSE工程师共同创立),但这个创造新词占领一个全新赛道的心智塑造确实挺成功;
  • 过往的入耳式耳机确实戴久了会不舒服,而且也有各种研究说明对长期使用对听力会有影响。所以之前韶音的骨传导耳机几乎是不想用入耳式耳机的唯一选择(韶音也是成功塑造了骨传导耳机这个全新赛道);
  • 估计是因为韶音在骨传导这个赛道实在不好绕过去和超越,ows耳机这个品类等于是从另一个方向为大家提供了新的选择。所以从2023下半年开始,ows这个赛道就开始快速爆发。由于很快就卷得超乎想象,从我看到的情况oladance并没有在销量方面做到大幅领先(无论是国内还是海外)。因此在今年5月被字节用5000万美金收购可能是oladance的最好选择;
    阅读全文 »

继上次介绍过这款近期最惊艳的AI产品Google Notebooklm后,今天又发掘了一个新的应用场景,正好也匹配官方定位的“你的私人 AI研究助理/your personalized AI research assistant” - 将自己想了解的某款产品的信息(例如产品规格、用户评论或官网链接)输入到Notebooklm中后,即可获得深入的产品洞察,非常高效实用。这种方法有多种用途:

  • 审视自家产品:通过两位AI播客主持人的视角,他们会详细讨论产品的各个方面,包括功能、易用性和市场定位等,并以开放且充满好奇心的态度评估产品的优缺点。能帮助您从第三方角度重新审视自己的产品,这有助于验证我们认为的产品卖点与主持人发现的是否一致;
  • 分析竞品和新品:快速获得关于竞争对手产品或行业新品的洞察,为市场分析和战略决策提供参考;

实际应用案例

AI硬件产品分析

阅读全文 »

近期,我尝试将自己翻译过的《勇敢新词》这本书输入Google Notebooklm并自动生成播客。结果令人惊艳,这无疑是一个引人注目的大模型应用,特别适合那些充满好奇心又热爱阅读的人。

关于Notebooklm这款产品

这款产品的定位是“你的私人AI研究助理/your personalized AI research assistant”,能够方便地将任何内容提炼出重点,这在当前信息过载的年代尤为有用。无论你要的是针对某个产品说明文档生成问答形式的FAQ,还是针对教科书生成学习指南,或者是生成大纲、目录还是直接和他聊这个文档相关的任何问题都不在话下。

虽然Notebooklm的基础功能已经很强大,但最近新增的功能更是令人眼前一亮 -自动生成podcast/播客功能。有趣的是,这个自动生成的播客会由一男一女两位主持人就你提供的文档的内容进行深入讨论,而且可以基于任何内容!除了我列出的让其对某本书进行讨论这种容易想到的场景外,AI专家Karpathy甚至直接将训练GPT的C代码给了过去,结果也得到了一个很有趣的“如何训练GPT”的深度播客讨论。

阅读全文 »

AI对教育和职业发展方面的影响是个很多人感兴趣的话,推荐一篇刚看到的文章,其核心思想是:在生成式 AI 时代,通才——那些在多个领域都拥有广泛知识的个人——将比专才更具价值

关键观点:

  • 历史视角:以古雅典为例,社会从早期的通才主导逐渐过渡到一个需要更多专业知识的复杂系统。然而,作者认为,在 AI 的助力下,我们可能正在经历一次”通才精神”的回归。这种通才精神强调全面发展、跨界思考和灵活应变
  • 「棘手」vs「友善」环境:这是David Epstein 在自己的一本书中提出的框架,棘手环境特点是规则模糊且反馈滞后。相比之下,AI 和专才更适合在规则明确、反馈及时的「友善」环境中发挥作用;
  • 大语言模型成为通才的得力助手:LLMs使得通才们能够快速获取、加深和整合各个领域的信息和知识,从而进一步提升解决问题的能力;
  • 提出正确问题、洞察问题本质、在未知领域开辟新路——这些能力仍将是人类独有的。通才凭借其广博的知识背景和灵活的思维方式,将在这样的环境中脱颖而出;

个人感触:

我也觉得在AI使得传统的“技能”变得门槛更低了以后,通才才是教育和职业发展方面应该更受鼓励的方向,需要注意的是:

  • 通才的“通”并不是说在每个领域只懂10%-20%,而是能在很多领域能有个“半桶水”的50-60%的水平了;
  • 而且,如果能达到了一个或多个专业领域方面的专家能力,将有助于你知道在学习新事物时应该问什么问题(例如某个前端研发专家能将他的领域专长转化为广泛的领域理解能力)。再配合“通才”能力的话能事半功倍;
    阅读全文 »

昨天看了一篇名为《LLM应用路在何方?》的公众号文章,其中一个核心观点是“当面对即将收缩的市场时,任何低客单价的应用都面临着极大的出清压力”。虽然我不是特别同意他的整体逻辑链条,但这位作者确实提出了一个很有趣的思考视角 – 从【单次推理用户价值】减去【单次推理成本】的收益维度来解释为什么当前的大模型应用陷入一定困境。

文中引用了一张来自Gartner的AI Hype Cycle 2023的图片来论证为什么目前生成式AI面临的是一个“即将收缩的市场”,我找了一张2024版本的,并附上一些核心总结,感觉对于理解当前这轮AI浪潮遇到的挑战和发展方向有一定帮助:

阅读全文 »

这份名为《LLMs Will Always Hallucinate, and We Need to Live With This》的研究提出,语言模型中的“幻觉”不仅仅是偶尔发生的错误,而是这些系统无法避免的固有现象。我们通过数学分析来展示 - 幻觉的产生源自大语言模型的基本数学和逻辑结构,因此,仅通过改进架构、增强数据集或使用事实核查机制,无法彻底消除这些问题

研究方法:

我们的分析借鉴了计算理论和哥德尔第一不完备性定理(该定理指出,在任何包含基本算术的一致形式系统中,总有一些真命题是无法在系统内部证明的)。我们特别关注了一些经典的“不可判定问题”,即那些无法通过算法彻底解决的问题,例如:

  • 停机问题:判断一个程序是否会在有限时间内终止;
  • 空问题:判断某个语言的集合是否为空;
  • 接受问题:判断一个图灵机是否会接受某个特定输入。
    阅读全文 »

最近大火的AI编程软件当属Cursor了,其背后的团队Anysphere刚公布了自己在内部使用的prompt技巧,核心观点可以总结为:prompt设计应该被视为一个专业的、系统化的过程,类似于网页设计,需要专门的工具和方法论支持

  • “我认为prompting就像是与一个时间有限的人交流。虽然特定于LLM的技巧确实有帮助(尤其是思维链),但我发现提高性能的最佳方法之一就是提供极其清晰和高质量的指令,这与清晰简洁的沟通有助于更好地和人沟通是一样的道理
  • “我所做的大多数prompting都是参数化的:有许多输入变量,需要动态地调整prompt以适应这些变量。因此将prompting描述为’为动态输入做清晰沟通’是最准确的” ;

这样来说,网页设计和prompt从概念上就很类似了:

阅读全文 »

上次推荐的硅谷101播客谈到了Meta Ray-Ban后,前天又看到这篇来自十字路口的怒喵李楠访谈中也聊了很多AI+硬件的内容,其中印象比较深刻的是AI时代传感器的重要性和如何在硬件项目上做快速迭代这两个点,因此专门将这段播客的核心重点总结如下:

AI硬件设计的两种哲学:

  • 从”别瞎搞”/“领先半步”创新到“3%的渐进式创新”
    • 指在现有硬件基础上增加AI能力,如给眼镜添加了摄像头的Meta Ray-Ban或者是给录音机添加了AI的Plaud;
    • 街头时尚行业的一位人物 Virgil说过:「其实好的设计不需要颠覆性创新, 只需要改 3%。」
  • 颠覆式创新
    • 基于AI软件的新能力从零开始重新设计硬件;
    • 过往的颠覆式创新硬件产品最典型的就是乔布斯+iPhone案例;
  • 两种设计哲学的对比 - 并无绝对高下之分
    • 3% 改变和颠覆式创新并没有高下之分。乔布斯和 Virgil 都是非常杰出的人物 -乔布斯有颠覆整个行业的能力,和 Virgil 轻轻一点就能让产品点石成金的能力,对我来说都如同神迹一般神奇”;
    • “我在这15年的职业生涯里,见过无数的人犯无数的错误。其中一个最典型的错误也是会交很多的学费的,就是起步一个亿人民币起的学费的,就是以为自己是乔布斯。”(另一个很容易被误导的产品学习榜样是雷军,因为他的成功在于卓越的成本控制能力
    • 我所见到的许多自认为在进行颠覆性创新的人,从今天的角度来看,他们的想法仅仅是因为见识不足所导致的。
    • 这种 3% 的逻辑让我意识到,当你深入理解产品背后的原理后,会发现可能并不是所有人都犯了大错,而是很多天才在无数实践后只差那么一点点。这或许才是产品经理的真实状况。
    • 面对各种眼花缭乱的诱惑,最重要的是产品负责人要清楚认识自己的能力原点,明确自己做产品的真正根据;
      阅读全文 »

evals确实对于无论大模型基准测试还是在具体应用提示词评估上都非常重要,Anthropic官方又更新了他们的eval课程,专门翻译了一下最重要的第一篇 - 评估101

评估101

本课程重点介绍编写大语言模型(LLM)用例评估的方法,这是开发人工智能驱动应用程序的关键组成部分。

在人工智能快速发展的环境中,大语言模型已成为各行各业企业的强大工具。然而,充分发挥这些模型的潜力不仅仅需要实施,还需要仔细评估和优化。这就是提示评估(简称”evals”)发挥作用的地方。

以下是我们内部解决方案架构师团队解释为什么评估如此重要的两句真实引述:

“团队无法衡量其模型性能是LLM生产用例的最大障碍,也使得提示工程成为一门艺术而非科学。”

“尽管评估需要花费大量时间,但前期进行评估最终会节省开发人员的时间,并能更快地推出更好的产品。”

开发人员不编写评估主要有两个原因:

  1. 许多人不熟悉整个评估概念;
  2. 不清楚如何实际实施评估;

本课程旨在解释这两个方面:什么是评估以及如何编写评估

阅读全文 »
0%