RichChat

A blog for tech enthusiasts

RichChat

引言和一些感触

近期,FutureResearch发布了一份不错的研究报告 -针对几款主流LLM+智能体框架的排列组合,给与了一些现实场景中的复杂白领研究工作让其尝试,最后发现o1的表现可圈可点,成功完成了“估算中国年收入>10万元人口比例”这个即使人类数据研究员来做也不太容易的任务

一些额外感慨的点:

  • o1-preview当前的性价比还是不够显著 - 例如这份研究中对给出的任务只跑一次就花费了750美金(如果请一位专业的研究员来做这类型任务估计也得这个价…)。还是期待o1正式版推出后能进一步提升性能+降价;
  • 从单一任务执行者向综合项目管理者的转变 - 如果将o1+智能体框架看成一个项目管理者,其给出的“估算中国年收入>10万元人口比例”项目规划步骤还挺合理的(具体参考下文中的prompt示范)。换个方法来说,以前AI+工具(联网能力、编程和计算工具支持)使得其能完成一些专业白领工作,例如数据爬虫工程师或者是统计建模专家,而现在再配合了组织规划能力后,AI能担任管理者的角色来以完成更复杂的需要多工种配合的项目;
  • “方法论”平权化 – 感觉高质量的“方法论”会越来越随手可得了,而不是过往的只能靠行业经验积累,会进一步降低很多研究分析型的高端白领工作门槛,例如研究员或者顾问咨询师。大家的工作重点可能要从”知道如何做”转向”知道如何有效利用AI资源来做”的新模式了;
    阅读全文 »

在浏览Google官方的Prompt Gallery时,偶然发现了一个咖啡订单助手prompt,觉得设计得挺有趣就专门在此做个拆解和分析。从提供的信息来看,这段prompt可能是为某个员工咖啡厅量身定制的,配合能显示菜单的智能屏一起使用。

咖啡订单助手Prompt拆解

角色定义和限制

prompt 开始明确定义了AI助手的角色是一个咖啡点单系统,并且严格限制AI只能谈论菜单上的饮品,不允许讨论任何其他话题:

1
You are a coffee order taking system and you are restricted to talk only about drinks on the MENU. Do not talk about anything but ordering MENU drinks for the customer, ever.
阅读全文 »

o1(之前代号为草莓)的亮点及相关背景:

  • 大模型过往最大的挑战之一是无论遇到复杂还是简单的问题都只会用“系统1”来思考(也就是脱口而出),而我们人类在遇到复杂问题的时候会使用“系统2”的深度思考模式(这也是为什么COT的提示词技巧能带来模型结果的提升);
  • o1是一个在给出最终答案之前进行思考的模型,可以通过强化学习(RL)训练模型以获得更好的思维链。这为scaling开辟了一个新的维度:基座模型可以不再受预训练的瓶颈限制,现在也可以从scale推理计算着手来提升性能;
  • 虽然目前o1的思考时间以十几秒为单位,但想象一下,未来AI如果能像人一样思考数小时、数天甚至数周,是否能有可能解决复杂的科学问题,带来新的突破?

阅读全文 »

由于讲的正好是我很感兴趣的AI+硬件话题,推荐这篇来自泓君的硅谷101最新播客 - 《智能眼镜爆发前夜,与Ray-Ban Meta产品经理聊聊如何打造一款热门AI眼镜》,可以在喜马拉雅或者油管上搜到。其中感触最深刻的一点是 - 智能眼镜首先要是一款好的传统眼镜,在此基础上再叠加智能功能。这是个很好的点,尤其配合今天正好看到了Killian宣布取消网红级01 Light的AI硬件产品并给所有预定用户退款,改为只做软件。。。再之前还有已经”失败”的Humane Pin和Rabbit,这些例子从侧面说明:虽然看起来加了AI后硬件能做很多事情,但如果没有切实想清楚到底能提供给用户什么真实价值,是无法做出一款消费级硬件产品的

阅读全文 »

在4月底的时候我简单写过Ben Thompson与Nat Friedman/Daniel Gross的一次访谈。其中有一段特别印象深刻:

“许多公司的CEO都在炫耀他们在MMLU(大规模多任务语言理解基准)上的表现。有趣的是,MMLU实际上是由Dan Hendrycks在他大学本科期间开发的评估工具。换言之,这些市值万亿美元公司的CEO们正在讨论他们在一个本科生创建的测试中的得分。尽管如此,MMLU确实是目前最重要的AI推理能力评估方法之一…

当前AI领域面临的一大挑战是缺乏优质的公开评估体系。在这种情况下,观察模型发布几周后用户在Twitter上的反馈,反而可能是一种更为有效的评估方式…

前两天又看到一篇TechCrunch的文章提到另外一个广泛被引用的大模型排行榜 - Chatbot Arena受到的质疑,再次深感到大模型性能评测这个方面还有很大空间可以挖掘。其中的一些重点整理如下:

阅读全文 »

引言

本文是一系列的大模型科普内容中的第一篇,旨在通过用“说人话”的方法来解释一些大模型的特性,使得非技术背景的朋友们能更好地使用AI来提升自己的工作效率。

这期先从这个案例开始:你是否曾在与ChatGPT对话时遇到过它突然开始胡言乱语的情况?例如,当你问它”strawberry”这个词中有几个”r”,然后不管它回答什么你都说它错了,ChatGPT就会变得越来越混乱(如下图)。

这种现象其实与大语言模型(LLMs)的一个核心特性有关:它们的迭代生成过程,经常被称为”自回归”(Auto regression)。

阅读全文 »

Anthropic最初发布这套官方提示词优化指南的时候我做过一轮全文翻译,现在看到官方又更新了一稿,我做了一下对比,发现确实同比第一稿更完善和清晰了。特别将我觉得新版中值得重新阅读的几个重点说明一下:

如何创建有效的实证评估(Empirical Evaluations)

在定义好你的成功标准之后,下一步是设计Eval来评估LLM对这些标准的性能表现。这是提示工程循环(prompt engineering cycle)中的关键环节[1]。

注1:这次的更新流程图中额外添加了“test against held-out evals”这个步骤,是指要使用留出集进行评估才能更公正。

Eval/测试集这两点一直是在让大模型应用落地时很容易被忽视的一环,建议一定要重视,方法论就显得格外重要了;

阅读全文 »

什么是“由专家来领导专家”?

苹果的创新秘诀:专家驱动的职能型组织

How Apple Is Organized for Innovation

译者注:最近Paul Graham提出的全新管理模式 - “创始人模式 Founder Mode”获得了很多关注,不过仔细阅读会发现他的原文中对于具体什么是创始人模式只提了寥寥几句,所以我专项针对他提到的案例(AirBnB和Apple)做了跟踪研究,才读到了这篇2020年底发布在哈佛商业评论上的文章,作者是苹果大学校长兼副总裁Joel Podolny。我读了后觉得写得非常不错,其中的一些观点确实和传统的管理理念很不同,例如“只有业务部门主导的组织架构才能保证执行力”和“领导不必要过多关注细节”是否总是正确?这个全新视角的思考在今天依然有一定参考意义,尤其是针对面对快速变化环境的科技公司。查了一下这篇文章虽然有一个官方的繁体译文版,但是很多用词习惯和简中差异太大,所以就自己重新翻译了一次。

不过正如下文中提到的种种限制条件,很难说直接照搬这样的组织架构。我认为至少需要满足三点前提条件,而其中每一点都很不容易:1、清晰、统一的公司级战略目标;2、高人才密度(尤其是专家,还有愿意做管理的专家);3、支持协作性辩论的企业文化

摘要:1997 年,当乔布斯重返苹果公司时,公司拥有一个符合其规模和业务范围的传统结构 - 公司被划分为多个业务部门,每个部门都有自己的损益责任。Jobs 认为传统的管理方式扼杀了创新,于是在一天内裁撤了所有业务部门的总经理,将整个公司纳入一个统一的损益管理体系,并将各业务部门中分散的职能部门合并成为一个职能型组织,让专业与决策权协调一致。虽然这种纯职能型结构常见于小型初创公司,但值得注意的是,苹果至今仍然保留了这一结构,即使公司的收入规模已经是1997年的近 40 倍,复杂程度也远远超过了那时。本文作者探讨了苹果这一独特且不断发展的组织模式所带来的创新优势和领导挑战,并认为这可能对在快速变化环境中竞争的其他公司有所启发。

阅读全文 »

译者注:TL;DR:有两种管理模式,创始人模式和经理人模式。传统认知下,当一家公司规模变大后,必须要开始采用正统的职业经理人管理模式才合适 - 例如管理者不应该过多干预下属的具体工作细节。但实际上这个认知也未必完全正确,很多创始人在公司规模扩大后依然保留了创始人管理模式并获得了成功。

上周在一次 YC 活动中,Brian Chesky (Airbnb的创始人兼CEO) 发表了一场让所有在场的人都难以忘怀的演讲。我事后与大多数创始人交谈时,他们都表示这是他们听过的最好的演讲。Ron Conway(硅谷最知名的天使投资人之一) 甚至生平第一次忘记了做笔记。我不会尝试在这里重现这个演讲。相反,我想谈谈它引发的一个问题。

Brian 演讲的主题是:关于如何管理大型公司的传统观念是错误的。当 Airbnb 发展壮大时,一些好心人士建议他必须以某种特定方式管理公司,才能让其顺利扩张。他们的建议可以乐观地总结为“雇用优秀的人,并给他们足够的空间去完成他们的工作”。他遵循了这些建议,结果简直是一场灾难。因此,他不得不自己想出更好的方法,而部分灵感来自于他研究了 Steve Jobs 是如何运营苹果公司的。到目前为止,这种方法似乎奏效了。Airbnb 的现金流、利润率现已跻身硅谷顶尖行列。

阅读全文 »

目前已经在维护一个针对AI初学者的推荐产品集,但最近因为有朋友问到专门针对AI做多媒体相关内容方面的产品推荐,因此在这里继续整理一份我自己用过并推荐的音频、图片、视频相关的AI产品集,偏进阶使用场景,但标准依然是求精不求多,并且将其中对国内使用友好的产品做了特殊标注,可以收藏本文后优先考虑试用这些绿色标注的产品

图片生成AI推荐(能让人人都会画画)

  • Mid Journey - https://www.midjourney.com/
    • MJ曾经几乎是图片生成AI的代名词之一,如果不介意较麻烦的使用方式而且愿意去折腾提示词的话,整体图片效果是相当优秀的。由于最近受到了激烈的竞争,重新开放新用户能免费生成25张图片的福利;
  • Freepik - https://www.freepik.com/pikaso/ai-image-generator
    • 在Freepik这边一方面能很方便地使用最新的flux文生图模型,以及自研的Mystic文生图模型;另一方面还整合了收购的Magnific来提供不错的AI图片增强工具;
  • Ideogram - https://ideogram.ai/t/explore
    • 这款文生图产品主要的强项在图文混搭的图片生成上,基本能直接生成常用的图文海报了;
  • 友好产品)腾讯元宝、通义千问、文心一言或者豆包都整合了图片生成能力到其中,可以写出自己想要的图片描述直接生成,例如“请画一只在太阳下喝牛奶的猫”;
  • 友好产品) 即梦AI - https://jimeng.jianying.com/ai-tool/home
    • 剪映旗下的文生图产品,现在也支持了视频生成,虽然都不够出色但也能用…
      阅读全文 »
0%