我的OpenAI-o1初步总结 - 600字看完~

发表于 2024-09-13 更新于 2026-06-14 分类于 AI

o1（之前代号为草莓）的亮点及相关背景：

大模型过往最大的挑战之一是无论遇到复杂还是简单的问题都只会用“系统1”来思考（也就是脱口而出），而我们人类在遇到复杂问题的时候会使用“系统2”的深度思考模式（这也是为什么COT的提示词技巧能带来模型结果的提升）；
o1是一个在给出最终答案之前进行思考的模型，可以通过强化学习（RL）训练模型以获得更好的思维链。这为scaling开辟了一个新的维度：基座模型可以不再受预训练的瓶颈限制，现在也可以从scale推理计算着手来提升性能；
虽然目前o1的思考时间以十几秒为单位，但想象一下，未来AI如果能像人一样思考数小时、数天甚至数周，是否能有可能解决复杂的科学问题，带来新的突破？

不只是科技：为什么有了AI加持的智能眼镜依然必须先是一副好眼镜？

发表于 2024-09-10 更新于 2026-06-14 分类于 AI

由于讲的正好是我很感兴趣的AI+硬件话题，推荐这篇来自泓君的硅谷101最新播客 - 《智能眼镜爆发前夜，与Ray-Ban Meta产品经理聊聊如何打造一款热门AI眼镜》，可以在喜马拉雅或者油管上搜到。其中感触最深刻的一点是 - 智能眼镜首先要是一款好的传统眼镜，在此基础上再叠加智能功能。这是个很好的点，尤其配合今天正好看到了Killian宣布取消网红级01 Light的AI硬件产品并给所有预定用户退款，改为只做软件。。。再之前还有已经”失败”的Humane Pin和Rabbit，这些例子从侧面说明：虽然看起来加了AI后硬件能做很多事情，但如果没有切实想清楚到底能提供给用户什么真实价值，是无法做出一款消费级硬件产品的。

阅读全文 »

Chatbot Arena的偏见与透明性困境：AI评测体系的反思

发表于 2024-09-09 更新于 2026-06-14 分类于 AI

在4月底的时候我简单写过Ben Thompson与Nat Friedman/Daniel Gross的一次访谈。其中有一段特别印象深刻:

“许多公司的CEO都在炫耀他们在MMLU(大规模多任务语言理解基准)上的表现。有趣的是,MMLU实际上是由Dan Hendrycks在他大学本科期间开发的评估工具。换言之,这些市值万亿美元公司的CEO们正在讨论他们在一个本科生创建的测试中的得分。尽管如此,MMLU确实是目前最重要的AI推理能力评估方法之一…

当前AI领域面临的一大挑战是缺乏优质的公开评估体系。在这种情况下,观察模型发布几周后用户在Twitter上的反馈,反而可能是一种更为有效的评估方式…”

前两天又看到一篇TechCrunch的文章提到另外一个广泛被引用的大模型排行榜 - Chatbot Arena受到的质疑，再次深感到大模型性能评测这个方面还有很大空间可以挖掘。其中的一些重点整理如下：

阅读全文 »

大语言模型特性科普系列：从ChatGPT的"迷惑行为"说起

发表于 2024-09-08 更新于 2026-06-14 分类于 AI

引言

本文是一系列的大模型科普内容中的第一篇，旨在通过用“说人话”的方法来解释一些大模型的特性，使得非技术背景的朋友们能更好地使用AI来提升自己的工作效率。

这期先从这个案例开始：你是否曾在与ChatGPT对话时遇到过它突然开始胡言乱语的情况？例如，当你问它”strawberry”这个词中有几个”r”，然后不管它回答什么你都说它错了，ChatGPT就会变得越来越混乱（如下图）。

这种现象其实与大语言模型（LLMs）的一个核心特性有关：它们的迭代生成过程，经常被称为”自回归”（Auto regression）。

阅读全文 »

Anthropic官方提示词优化指南更新稿重点详解

发表于 2024-09-06 更新于 2026-06-14 分类于 AI

在Anthropic最初发布这套官方提示词优化指南的时候我做过一轮全文翻译，现在看到官方又更新了一稿，我做了一下对比，发现确实同比第一稿更完善和清晰了。特别将我觉得新版中值得重新阅读的几个重点说明一下：

如何创建有效的实证评估（Empirical Evaluations）

在定义好你的成功标准之后，下一步是设计Eval来评估LLM对这些标准的性能表现。这是提示工程循环（prompt engineering cycle）中的关键环节[1]。

注1：这次的更新流程图中额外添加了“test against held-out evals”这个步骤，是指要使用留出集进行评估才能更公正。

Eval/测试集这两点一直是在让大模型应用落地时很容易被忽视的一环，建议一定要重视，方法论就显得格外重要了；

阅读全文 »

苹果的创新秘诀：专家驱动的职能型组织

发表于 2024-09-05 更新于 2026-06-14 分类于 readings

什么是“由专家来领导专家”？

苹果的创新秘诀：专家驱动的职能型组织

How Apple Is Organized for Innovation

译者注：最近Paul Graham提出的全新管理模式 - “创始人模式 Founder Mode”获得了很多关注，不过仔细阅读会发现他的原文中对于具体什么是创始人模式只提了寥寥几句，所以我专项针对他提到的案例（AirBnB和Apple）做了跟踪研究，才读到了这篇2020年底发布在哈佛商业评论上的文章，作者是苹果大学校长兼副总裁Joel Podolny。我读了后觉得写得非常不错，其中的一些观点确实和传统的管理理念很不同，例如“只有业务部门主导的组织架构才能保证执行力”和“领导不必要过多关注细节”是否总是正确？这个全新视角的思考在今天依然有一定参考意义，尤其是针对面对快速变化环境的科技公司。查了一下这篇文章虽然有一个官方的繁体译文版，但是很多用词习惯和简中差异太大，所以就自己重新翻译了一次。

不过正如下文中提到的种种限制条件，很难说直接照搬这样的组织架构。我认为至少需要满足三点前提条件，而其中每一点都很不容易：1、清晰、统一的公司级战略目标；2、高人才密度（尤其是专家，还有愿意做管理的专家）；3、支持协作性辩论的企业文化。

摘要：1997 年，当乔布斯重返苹果公司时，公司拥有一个符合其规模和业务范围的传统结构 - 公司被划分为多个业务部门，每个部门都有自己的损益责任。Jobs 认为传统的管理方式扼杀了创新，于是在一天内裁撤了所有业务部门的总经理，将整个公司纳入一个统一的损益管理体系，并将各业务部门中分散的职能部门合并成为一个职能型组织，让专业与决策权协调一致。虽然这种纯职能型结构常见于小型初创公司，但值得注意的是，苹果至今仍然保留了这一结构，即使公司的收入规模已经是1997年的近 40 倍，复杂程度也远远超过了那时。本文作者探讨了苹果这一独特且不断发展的组织模式所带来的创新优势和领导挑战，并认为这可能对在快速变化环境中竞争的其他公司有所启发。

阅读全文 »

创始人模式 - Paul Graham Essay系列

发表于 2024-09-03 更新于 2026-06-14 分类于 readings

译者注：TL;DR：有两种管理模式，创始人模式和经理人模式。传统认知下，当一家公司规模变大后，必须要开始采用正统的职业经理人管理模式才合适 - 例如管理者不应该过多干预下属的具体工作细节。但实际上这个认知也未必完全正确，很多创始人在公司规模扩大后依然保留了创始人管理模式并获得了成功。

上周在一次 YC 活动中，Brian Chesky （Airbnb的创始人兼CEO）发表了一场让所有在场的人都难以忘怀的演讲。我事后与大多数创始人交谈时，他们都表示这是他们听过的最好的演讲。Ron Conway（硅谷最知名的天使投资人之一）甚至生平第一次忘记了做笔记。我不会尝试在这里重现这个演讲。相反，我想谈谈它引发的一个问题。

Brian 演讲的主题是：关于如何管理大型公司的传统观念是错误的。当 Airbnb 发展壮大时，一些好心人士建议他必须以某种特定方式管理公司，才能让其顺利扩张。他们的建议可以乐观地总结为“雇用优秀的人，并给他们足够的空间去完成他们的工作”。他遵循了这些建议，结果简直是一场灾难。因此，他不得不自己想出更好的方法，而部分灵感来自于他研究了 Steve Jobs 是如何运营苹果公司的。到目前为止，这种方法似乎奏效了。Airbnb 的现金流、利润率现已跻身硅谷顶尖行列。

阅读全文 »

Richard老师推荐的AI产品集 – 进阶多媒体版V1

发表于 2024-09-01 更新于 2026-06-14 分类于 AI

目前已经在维护一个针对AI初学者的推荐产品集，但最近因为有朋友问到专门针对AI做多媒体相关内容方面的产品推荐，因此在这里继续整理一份我自己用过并推荐的音频、图片、视频相关的AI产品集，偏进阶使用场景，但标准依然是求精不求多，并且将其中对国内使用友好的产品做了特殊标注，可以收藏本文后优先考虑试用这些绿色标注的产品。

图片生成AI推荐（能让人人都会画画）

Mid Journey - https://www.midjourney.com/
- MJ曾经几乎是图片生成AI的代名词之一，如果不介意较麻烦的使用方式而且愿意去折腾提示词的话，整体图片效果是相当优秀的。由于最近受到了激烈的竞争，重新开放新用户能免费生成25张图片的福利；
Freepik - https://www.freepik.com/pikaso/ai-image-generator
- 在Freepik这边一方面能很方便地使用最新的flux文生图模型，以及自研的Mystic文生图模型；另一方面还整合了收购的Magnific来提供不错的AI图片增强工具；
Ideogram - https://ideogram.ai/t/explore
- 这款文生图产品主要的强项在图文混搭的图片生成上，基本能直接生成常用的图文海报了；
（友好产品）腾讯元宝、通义千问、文心一言或者豆包都整合了图片生成能力到其中，可以写出自己想要的图片描述直接生成，例如“请画一只在太阳下喝牛奶的猫”；
（友好产品）即梦AI - https://jimeng.jianying.com/ai-tool/home
- 剪映旗下的文生图产品，现在也支持了视频生成，虽然都不够出色但也能用…
  阅读全文 »

Claude的行为蓝图：Anthropic系统提示的深度剖析

发表于 2024-08-28 更新于 2026-06-14 分类于 AI

引言

近日，Anthropic公开了其AI助手Claude的系统提示，为我们提供了一个难得的机会，深入了解顶级AI公司如何设计和控制其大语言模型的行为。本文将分析Claude的系统提示，探讨其中的prompt engineering见解，并比较不同版本Claude模型的差异。

1. Prompt Engineering层面的关键洞察

1.1 明确定义模型身份和能力范围

Claude的系统提示首先明确定义了其身份、知识更新时间和当前日期。此外，提示中明确指出Claude无法打开URL、链接或视频，避免了用户的误解和不必要的尝试。

1.2 设定行为准则和伦理边界

阅读全文 »

Richard老师推荐的AI产品集 V2 20240828更新

发表于 2024-08-28 更新于 2026-06-14 分类于 AI

之前在很多个场合做过AI主题分享，针对应该如何应对这波AI大潮带来的影响，我给出建议中的第一点就是鼓励大家多尝试新一代的各种AI产品，无论是在工作中提效还是生活中for fun。很多时候我发现大家对于有哪些常用的AI工具并不熟悉，因此在这里整理一份我自己用过并推荐的一个AI产品集，标准是求精不求多，并且将其中对国内使用友好的产品做了特殊标注，可以收藏本文后优先考虑试用这些加粗标注的产品。

文本生成AI推荐（顾名思义，能帮你写各种文章，回答各种问题的通用型AI）

ChatGPT - https://chat.openai.com/
- 最知名的AI，“GPT”已经一定意义上成为了新一代AI的代名词，不过使用起来门槛比较高；
Claude - https://claude.ai/
- 个人目前最常使用的AI，在长文本任务和复杂任务上的表现很多时候会比GPT更好，使用门槛较高；
（友好产品）腾讯元宝 - https://yuanbao.tencent.com/chat
- 除了网页版和app版，还可以很方便地通过微信小程序使用；
（友好产品）通义千问 - https://tongyi.aliyun.com/qianwen/
- 来自阿里的AI产品，值得提出的一点是，通义千问也是唯一能从全球大模型排行榜上看到名字的国内大厂产品；
（友好产品）文心一言 - https://yiyan.baidu.com/
- 来自百度；
（友好产品）抖音豆包 - https://www.doubao.com/chat/
- 字节旗下的AI产品；
（友好产品）Kimi - https://kimi.moonshot.cn/
- 月之暗面的产品，近期做了大量广告投放… 估计还会继续免费一段时间；
  阅读全文 »