AI研究的“大转向”:为什么”暴力美学”正在横扫一切
传统NLP的各个细分领域最终都败给了简单粗暴的规模化。ChatGPT团队在没做任何chatbot研究的情况下,却做出了最成功的对话AI。这背后发生了什么?
推荐一下刚读到Jason Wei(OpenAI研究员,Chain-of-Thought推理方法的提出者)这条关于问题驱动 vs 方法驱动研究的推文 - 核心观点:方法驱动研究正在全面超越问题驱动研究。
简单来说,问题驱动研究是先有具体问题(如机器翻译、文本摘要),然后针对性地设计解决方案;而方法驱动研究则是先开发通用方法(如Transformer、大规模预训练),再寻找能应用这些方法的问题。
ChatGPT就是最好的例子:
“ChatGPT 并不是从 chatbot 研究中诞生的,甚至不是 OpenAI 原本2022年的目标,而是因为 Schulman 团队找到了把大模型‘打包成产品’的方式。”
这与我观察到的AI产品经理领域的一个重要趋势不谋而合:当AI模型(这些“方法驱动”研究的产物)展现出颠覆性的新能力时,PM的核心任务之一便是将这些最初可能“陌生”的技术力量,通过巧妙的产品设计,“翻译”并“封装”成用户熟悉且能创造价值的形式。这同样要求从技术可能性出发,主动寻找产品机会。
说回Jason的观点,这背后,其实是 Sutton 所说的 The Bitter Lesson:通用方法 + 计算资源 + 大规模训练,终将胜出。
而DeepMind的AlphaEvolve项目(使用进化算法来发现更有效的强化学习算法)带来的是更进一步的”方法范式”:
“最新的“锤子”,其实就是对奖励函数的无情搜索和优化。”
不管你用不用RL,这种”强化进化 + 搜索优化”的方法正在成为解决复杂科学问题的新工具。只要能把问题转化为奖励函数,就能被这把”锤子”砸掉 - 连数学界长年悬而未解的接吻数问题(研究在n维空间中最多能有多少个相同大小的球体同时”亲吻”中心球体)都不例外。
有趣的悖论:虽然通用方法在获胜,但深耕特定领域的专家反而最有机会 - 前提是他们愿意”放下自我,拿起锤子”。
未来十年,最重要的元技能可能就是:学会为这些强大的通用方法创造合适的应用环境,并将其有效传递给最终用户。
对于研究者、产品经理、创业者来说,值得深思的问题是:你是在试图发明新的锤子,还是在学习如何更好地使用现有的锤子?
推荐阅读:
- AI时代产品经理能力大不同:Karina Nguyen 解读 OpenAI 产品经理的“进化”之路
- 清华姚班大牛看到的AI下半场:产品思维将决定人工智能的未来?
- OpenAI的DevDay闭门会ppt披露-“OpenAI的研究与产品协作:幕后故事”
Jason Wei的帖子原文翻译如下:
传统上有两种类型的研究:问题驱动型研究和方法驱动型研究。从大语言模型和现在的 AlphaEvolve 的发展来看,完全的方法驱动型研究显然是一个巨大的机遇。
问题驱动型研究的好处在于你有一个持续且明确的目标。这个目标通常是有价值的,所以拥有一个使命和身份认同会让人感觉良好。然而,由于”苦涩教训”(The Bitter Lesson,即简单方法加上计算力的扩展往往优于精巧的方法),这种方式实际上并不奏效。传统自然语言处理中的几乎所有领域(机器翻译、文本摘要、聊天机器人)都败给了简单的规模扩展。ChatGPT 就是一个典型例子 - 它没有使用任何聊天机器人研究的成果,当然也不是 OpenAI 2022年研究计划的预期最终目标,但因为有人(John Schulman 等)找到了将大语言模型包装成产品的正确方式,所以取得了巨大成功。
方法驱动型研究看似不那么稳定,因为你需要不断寻找问题,必须善于抓住各种可能性。但我相信 AI 将使方法驱动型研究在大多数科学领域中逐一占据主导地位。正如我们在 AlphaEvolve 中看到的,最新的方法(或称”锤子”)是针对奖励函数的无情搜索和优化(是否需要强化学习(RL)是另一个话题)。问题驱动型研究者长期以来试图解决的问题,比如接吻数问题(kissing number problem,研究在n维空间中可以同时与中心球体相切的相同大小球体的最大数量),都将成为被锤子击中的钉子。最终,这把锤子会变得更大、更强、更通用,并且会击中越来越多的钉子。
因此,在未来十年中,一个非常重要的核心能力就是知道如何创造合适的环境来使用这把”锤子”。具有讽刺意味的是,问题驱动型研究者(他们本质上是特定问题的专家)其实很适合创造这些环境。当然,前提是他们能放下自我,拿起锤子。