RichChat

A blog for tech enthusiasts

RichChat

这份名为《LLMs Will Always Hallucinate, and We Need to Live With This》的研究提出,语言模型中的“幻觉”不仅仅是偶尔发生的错误,而是这些系统无法避免的固有现象。我们通过数学分析来展示 - 幻觉的产生源自大语言模型的基本数学和逻辑结构,因此,仅通过改进架构、增强数据集或使用事实核查机制,无法彻底消除这些问题

研究方法:

我们的分析借鉴了计算理论和哥德尔第一不完备性定理(该定理指出,在任何包含基本算术的一致形式系统中,总有一些真命题是无法在系统内部证明的)。我们特别关注了一些经典的“不可判定问题”,即那些无法通过算法彻底解决的问题,例如:

  • 停机问题:判断一个程序是否会在有限时间内终止;
  • 空问题:判断某个语言的集合是否为空;
  • 接受问题:判断一个图灵机是否会接受某个特定输入。
    阅读全文 »

最近大火的AI编程软件当属Cursor了,其背后的团队Anysphere刚公布了自己在内部使用的prompt技巧,核心观点可以总结为:prompt设计应该被视为一个专业的、系统化的过程,类似于网页设计,需要专门的工具和方法论支持

  • “我认为prompting就像是与一个时间有限的人交流。虽然特定于LLM的技巧确实有帮助(尤其是思维链),但我发现提高性能的最佳方法之一就是提供极其清晰和高质量的指令,这与清晰简洁的沟通有助于更好地和人沟通是一样的道理
  • “我所做的大多数prompting都是参数化的:有许多输入变量,需要动态地调整prompt以适应这些变量。因此将prompting描述为’为动态输入做清晰沟通’是最准确的” ;

这样来说,网页设计和prompt从概念上就很类似了:

阅读全文 »

上次推荐的硅谷101播客谈到了Meta Ray-Ban后,前天又看到这篇来自十字路口的怒喵李楠访谈中也聊了很多AI+硬件的内容,其中印象比较深刻的是AI时代传感器的重要性和如何在硬件项目上做快速迭代这两个点,因此专门将这段播客的核心重点总结如下:

AI硬件设计的两种哲学:

  • 从”别瞎搞”/“领先半步”创新到“3%的渐进式创新”
    • 指在现有硬件基础上增加AI能力,如给眼镜添加了摄像头的Meta Ray-Ban或者是给录音机添加了AI的Plaud;
    • 街头时尚行业的一位人物 Virgil说过:「其实好的设计不需要颠覆性创新, 只需要改 3%。」
  • 颠覆式创新
    • 基于AI软件的新能力从零开始重新设计硬件;
    • 过往的颠覆式创新硬件产品最典型的就是乔布斯+iPhone案例;
  • 两种设计哲学的对比 - 并无绝对高下之分
    • 3% 改变和颠覆式创新并没有高下之分。乔布斯和 Virgil 都是非常杰出的人物 -乔布斯有颠覆整个行业的能力,和 Virgil 轻轻一点就能让产品点石成金的能力,对我来说都如同神迹一般神奇”;
    • “我在这15年的职业生涯里,见过无数的人犯无数的错误。其中一个最典型的错误也是会交很多的学费的,就是起步一个亿人民币起的学费的,就是以为自己是乔布斯。”(另一个很容易被误导的产品学习榜样是雷军,因为他的成功在于卓越的成本控制能力
    • 我所见到的许多自认为在进行颠覆性创新的人,从今天的角度来看,他们的想法仅仅是因为见识不足所导致的。
    • 这种 3% 的逻辑让我意识到,当你深入理解产品背后的原理后,会发现可能并不是所有人都犯了大错,而是很多天才在无数实践后只差那么一点点。这或许才是产品经理的真实状况。
    • 面对各种眼花缭乱的诱惑,最重要的是产品负责人要清楚认识自己的能力原点,明确自己做产品的真正根据;
      阅读全文 »

evals确实对于无论大模型基准测试还是在具体应用提示词评估上都非常重要,Anthropic官方又更新了他们的eval课程,专门翻译了一下最重要的第一篇 - 评估101

评估101

本课程重点介绍编写大语言模型(LLM)用例评估的方法,这是开发人工智能驱动应用程序的关键组成部分。

在人工智能快速发展的环境中,大语言模型已成为各行各业企业的强大工具。然而,充分发挥这些模型的潜力不仅仅需要实施,还需要仔细评估和优化。这就是提示评估(简称”evals”)发挥作用的地方。

以下是我们内部解决方案架构师团队解释为什么评估如此重要的两句真实引述:

“团队无法衡量其模型性能是LLM生产用例的最大障碍,也使得提示工程成为一门艺术而非科学。”

“尽管评估需要花费大量时间,但前期进行评估最终会节省开发人员的时间,并能更快地推出更好的产品。”

开发人员不编写评估主要有两个原因:

  1. 许多人不熟悉整个评估概念;
  2. 不清楚如何实际实施评估;

本课程旨在解释这两个方面:什么是评估以及如何编写评估

阅读全文 »

引言和一些感触

近期,FutureResearch发布了一份不错的研究报告 -针对几款主流LLM+智能体框架的排列组合,给与了一些现实场景中的复杂白领研究工作让其尝试,最后发现o1的表现可圈可点,成功完成了“估算中国年收入>10万元人口比例”这个即使人类数据研究员来做也不太容易的任务

一些额外感慨的点:

  • o1-preview当前的性价比还是不够显著 - 例如这份研究中对给出的任务只跑一次就花费了750美金(如果请一位专业的研究员来做这类型任务估计也得这个价…)。还是期待o1正式版推出后能进一步提升性能+降价;
  • 从单一任务执行者向综合项目管理者的转变 - 如果将o1+智能体框架看成一个项目管理者,其给出的“估算中国年收入>10万元人口比例”项目规划步骤还挺合理的(具体参考下文中的prompt示范)。换个方法来说,以前AI+工具(联网能力、编程和计算工具支持)使得其能完成一些专业白领工作,例如数据爬虫工程师或者是统计建模专家,而现在再配合了组织规划能力后,AI能担任管理者的角色来以完成更复杂的需要多工种配合的项目;
  • “方法论”平权化 – 感觉高质量的“方法论”会越来越随手可得了,而不是过往的只能靠行业经验积累,会进一步降低很多研究分析型的高端白领工作门槛,例如研究员或者顾问咨询师。大家的工作重点可能要从”知道如何做”转向”知道如何有效利用AI资源来做”的新模式了;
    阅读全文 »

在浏览Google官方的Prompt Gallery时,偶然发现了一个咖啡订单助手prompt,觉得设计得挺有趣就专门在此做个拆解和分析。从提供的信息来看,这段prompt可能是为某个员工咖啡厅量身定制的,配合能显示菜单的智能屏一起使用。

咖啡订单助手Prompt拆解

角色定义和限制

prompt 开始明确定义了AI助手的角色是一个咖啡点单系统,并且严格限制AI只能谈论菜单上的饮品,不允许讨论任何其他话题:

1
You are a coffee order taking system and you are restricted to talk only about drinks on the MENU. Do not talk about anything but ordering MENU drinks for the customer, ever.
阅读全文 »

o1(之前代号为草莓)的亮点及相关背景:

  • 大模型过往最大的挑战之一是无论遇到复杂还是简单的问题都只会用“系统1”来思考(也就是脱口而出),而我们人类在遇到复杂问题的时候会使用“系统2”的深度思考模式(这也是为什么COT的提示词技巧能带来模型结果的提升);
  • o1是一个在给出最终答案之前进行思考的模型,可以通过强化学习(RL)训练模型以获得更好的思维链。这为scaling开辟了一个新的维度:基座模型可以不再受预训练的瓶颈限制,现在也可以从scale推理计算着手来提升性能;
  • 虽然目前o1的思考时间以十几秒为单位,但想象一下,未来AI如果能像人一样思考数小时、数天甚至数周,是否能有可能解决复杂的科学问题,带来新的突破?

阅读全文 »

由于讲的正好是我很感兴趣的AI+硬件话题,推荐这篇来自泓君的硅谷101最新播客 - 《智能眼镜爆发前夜,与Ray-Ban Meta产品经理聊聊如何打造一款热门AI眼镜》,可以在喜马拉雅或者油管上搜到。其中感触最深刻的一点是 - 智能眼镜首先要是一款好的传统眼镜,在此基础上再叠加智能功能。这是个很好的点,尤其配合今天正好看到了Killian宣布取消网红级01 Light的AI硬件产品并给所有预定用户退款,改为只做软件。。。再之前还有已经”失败”的Humane Pin和Rabbit,这些例子从侧面说明:虽然看起来加了AI后硬件能做很多事情,但如果没有切实想清楚到底能提供给用户什么真实价值,是无法做出一款消费级硬件产品的

阅读全文 »

在4月底的时候我简单写过Ben Thompson与Nat Friedman/Daniel Gross的一次访谈。其中有一段特别印象深刻:

“许多公司的CEO都在炫耀他们在MMLU(大规模多任务语言理解基准)上的表现。有趣的是,MMLU实际上是由Dan Hendrycks在他大学本科期间开发的评估工具。换言之,这些市值万亿美元公司的CEO们正在讨论他们在一个本科生创建的测试中的得分。尽管如此,MMLU确实是目前最重要的AI推理能力评估方法之一…

当前AI领域面临的一大挑战是缺乏优质的公开评估体系。在这种情况下,观察模型发布几周后用户在Twitter上的反馈,反而可能是一种更为有效的评估方式…

前两天又看到一篇TechCrunch的文章提到另外一个广泛被引用的大模型排行榜 - Chatbot Arena受到的质疑,再次深感到大模型性能评测这个方面还有很大空间可以挖掘。其中的一些重点整理如下:

阅读全文 »

引言

本文是一系列的大模型科普内容中的第一篇,旨在通过用“说人话”的方法来解释一些大模型的特性,使得非技术背景的朋友们能更好地使用AI来提升自己的工作效率。

这期先从这个案例开始:你是否曾在与ChatGPT对话时遇到过它突然开始胡言乱语的情况?例如,当你问它”strawberry”这个词中有几个”r”,然后不管它回答什么你都说它错了,ChatGPT就会变得越来越混乱(如下图)。

这种现象其实与大语言模型(LLMs)的一个核心特性有关:它们的迭代生成过程,经常被称为”自回归”(Auto regression)。

阅读全文 »
0%