深度解析刚出炉的年度AI报告:一篇通晓全局

本文总结自Air Street Capital 在10月10日推出的《2024年人工智能状况报告》,也附上了一些个人点评;

4个方面的核心发现:

研究/Research

  • 性能趋同: OpenAI的早期领先优势正在缩小,Claude(Anthropic公司的AI助手)和Gemini(谷歌的AI模型)等模型正在迎头赶上。”在这一年的大部分时间里,基准测试和社区排行榜都指向GPT-4与其他最佳模型之间存在显著差距。然而,Claude 3.5 Sonnet、Gemini 1.5和Grok 2(特斯拉的AI模型)已经几乎消除了这一差距,模型性能现在开始趋同”;
  • 开源模型的崛起: Meta的Llama系列已显著缩小了与专有模型的性能差距。”这标志着开源模型首次缩小了与闭源前沿模型的差距”。然而,关于这些模型的真正开放性存在争议;
  • 模型基准测试的挑战: 数据集污染和基准测试中的错误正在影响进展评估并引发安全担忧。”研究人员越来越多地关注数据集污染问题”。”一些最流行的基准测试中存在惊人的高错误率,这可能导致我们低估了某些模型的能力,并带来安全隐患”;
  • 关注推理计算: OpenAI的o1模型展示了将计算转移到推理层以解决复杂问题的潜力,但同时使用成本也显著增加;
  • 多模态和新架构: 多模态模型正在获得发展动力,同时研究人员正在探索Transformer的替代方案(当然目前transformer仍是绝对主流)和混合架构,以提高效率并解决特定任务;
  • 合成数据: 合成数据的使用面正在扩大,但反方强调的模型崩塌担忧仍然存在;
  • 效率和端侧AI成为焦点:随着AI模型变得越来越大且计算成本昂贵,研究重点正转向提高效率和实现端侧部署。例如以下技术都旨在减小模型规模和计算需求,同时保持性能。这对于在移动设备和资源受限环境中落地AI应用至关重要:
    • 模型压缩:减小模型大小的技术;
    • 知识蒸馏:将大型模型的”知识”转移到更小模型的方法;
    • 量化:降低模型数值精度以减少存储和计算需求;
  • AI在特定科学领域的进展: 报告强调了AI在生物学(蛋白质结构预测、药物发现、基因组编辑)、材料科学、机器人和医学领域取得的显著进展,包括医疗影像领域的合成数据生成等。展示了AI在各个科学领域的广泛应用潜力,推动了跨学科研究和创新(最新的诺贝尔物理和化学奖的颁布也是个很好的例子);
  • 规划和推理限制: 大语言模型在规划和模拟任务方面仍然存在困难,凸显了泛化和现实世界推理的局限性。最新研究正在从思维链提示、强化学习和开放性等技术方向来改进推理过程;

行业/Industry

  • 英伟达的主导地位: 英伟达仍然是AI芯片市场无可争议的领导者 - 其GPU在研究论文和大规模部署中都占据主导地位。该公司快速的产品发布周期和GPU互连技术的进步进一步巩固了其地位,老黄甚至建议说“每个政府都需要建立自己的大语言模型以保护其国家遗产”… 然而,对过度依赖英伟达的担忧正促使大型科技公司探索替代硬件解决方案(例如Google、Meta和OpenAI);
  • 竞争对手情况: AMD和英特尔等老牌竞争对手虽然在努力追赶,但显著落后于英伟达。有少数AI芯片初创公司开始获得了一定势头,例如Cerebras和Groq。与主导训练硬件市场的英伟达不同,这些初创公司主要侧重于提供推理接口和云服务,通过提供比英伟达更快、更具成本效益的解决方案来实现差异化;
  • 大型AI实验室的分化: 主要AI实验室如OpenAI、DeepMind等正经历人才流失,导致一批资金充足的新挑战者出现(如Sakana AI、H Company等)。这些新公司由知名研究人员领导,专注于特定AI领域或新型架构,显示了生态系统的深化。然而,从研究到创业的转型并非总是顺利,一些备受瞩目的项目已经遇到困难;
  • AI在垂直领域的渗透: AI正在各个行业领域取得突破。法律科技终于在保守的法律行业实现规模化应用;GitHub Copilot等AI驱动的开发工具被广泛采用;自动驾驶领域Wayve和Waymo稳步推进,而Cruise则遭遇挫折。医疗保健领域,基于mRNA的个性化癌症疗法显示出潜力,AI驱动的药物发现公司也在整合壮大;
  • 新兴AI技术与应用: 一些令人兴奋的新兴领域正在形成。人形机器人初创公司获得大量投资,但仍面临技术和市场挑战。语音到语音的AI取得突破性进展,展示出接近人类水平的对话能力。视频生成成为新的竞争热点,多家公司在扩大规模和提升质量。然而,一些AI驱动的消费设备(如Rabbit R1和Humane AI pin)未能达到预期,反映了将AI技术转化为实用产品的难度;
  • AI伦理与法律挑战: 随着AI技术的广泛应用,版权和法律问题日益突出。模型开发者面临来自内容创作者和媒体组织的审查,但法院尚未就AI训练中的”合理使用”提供明确指导。同时,”伪收购”趋势的出现(大型科技公司雇佣AI初创公司的核心团队而非完全收购)引发了监管机构的关注;
  • AI经济学的演变: AI优先的产品开始在企业中展现出较强的用户黏性,且AI公司的收入增长速度远超传统SaaS同行。然而,许多AI公司仍在寻找可持续的盈利模式。有趣的是,报告指出购买NVIDIA股票可能比投资其AI芯片初创竞争对手更有回报…
  • AI投资热潮: 2024年AI投资热潮持续,总投资额接近1000亿美元。值得注意的是出现了明显的”GPT-4前后时代”分水岭,2.5亿美元以上的大额融资占据主导。AI公司总价值飙升至接近9万亿美元,主要由少数上市公司推动。然而,IPO市场仍然停滞,并购活动也在下降,反映了监管压力和市场不确定性;

政策/Politics

  • 美国AI监管动向: 拜登政府通过行政令对前沿AI模型实施了有限监管,要求使用超过10^26 FLOPS计算能力训练的模型在公开部署前向联邦政府通报并分享安全测试结果。然而,由于行政令可以被轻易撤销,其长期影响存疑。与此同时,各州开始推出自己的AI法规,其中加州的SB 1047法案最为全面但也最具争议;
  • 欧盟AI法案通过: 经过密集的游说活动,欧洲议会最终通过了AI法案,成为全球首个全面AI监管框架。法案将分阶段实施,对基础模型采取分级监管。然而,美国大型科技公司在适应欧盟监管方面仍面临挑战,如Anthropic的Claude直到2024年5月才对欧洲用户开放,Meta则不向欧洲客户提供多模态模型;
  • 数据收集审查: 随着模型开发者对数据需求的增加,用户数据抓取政策受到越来越多的审查。例如,Meta被迫为欧盟用户提供全球选择退出选项,而X公司停止使用欧洲用户的公开帖子进行模型训练;
  • 全球AI竞争格局: 日本政府积极推动AI创业和风投发展,希望借此重振经济。同时,随着前沿AI实验室的资本需求增加,主权财富基金开始在AI投资中发挥更大作用,引发了一些国家安全担忧;
  • 公共计算能力建设: 英国、美国和欧盟都在努力增加公共计算资源供应,但与私营部门相比仍显得不足。印度政府表示愿意资助一半成本建立大规模GPU集群,只要私营伙伴愿意承担剩余成本;
  • AI能源消耗问题: 大型科技公司因AI导致的能源消耗激增而面临实现净零排放承诺的挑战。同时,能源基础设施开始难以满足AI发展需求,一些国家已经开始限制数据中心建设;

安全/Safety

  • AI安全态度的转变: 2024年见证了AI安全讨论的显著转变。从2023年的”AI是危险的”论调,转向了2024年的”请使用我的AI应用”。OpenAI的宫斗剧标志着对”存在风险”论调的反弹开始。尽管如此,各国政府仍在积极推进AI安全治理,如英国成立了世界首个AI安全研究所(AISI),美国、日本和加拿大也相继跟进;
  • AI安全研究的新焦点: 研究人员对AI系统的”越狱”(jailbreaking)攻击给予了更多关注。尽管主要实验室加大了对抗这类攻击的研究力度,但红队测试仍然屡屡成功突破防线。研究还指出了更隐蔽的攻击可能性,如通过污染RLHF(基于人类反馈的强化学习)使用的偏好数据来操纵模型;
  • 对齐(Alignment)技术的进展与局限: 直接偏好优化(DPO)作为RLHF的替代方案受到关注,但研究表明它可能面临类似的”过度优化”问题。同时,RLHF由于其在线学习的优势,短期内仍难以被完全取代。研究人员正在探索结合两者优点的新方法,如来自AI反馈的直接对齐(DAAF);
  • AI可解释性的突破: Anthropic利用稀疏自编码器(SAE)成功分解了Claude 3 Sonnet的激活,实现了对模型内部表征的解释。OpenAI随后改进了SAE的方法,使其可以扩展到更大规模。这些进展为”打开AI黑箱”提供了新的可能性,但同时也引发了对这种可解释性可能被滥用的担忧;
  • 生物风险与AI: 尽管Anthropic此前的研究引发了对LLM可能加速生物威胁的担忧,但其他实验室难以复现这一结果。然而,研究人员指出,相比LLM,专门的生物设计工具(例如蛋白质折叠/设计和基因修改)可能构成更直接的风险;
  • AI滥用的现实威胁: Google DeepMind的研究强调,大多数AI误用案例并非来自于复杂的技术攻击,而是利用了容易获取的生成式AI功能。这包括利用深度伪造技术进行诈骗、骚扰和制作色情内容等;

彩蛋:针对未来12个月的AI发展10条预测

  1. 一个主权国家对美国大型AI实验室进行100亿美元以上投资,引发了国家安全审查;
  2. 一个完全由没有编程能力的人创建的应用程序或网站将会走红(例如进入App Store前100名);
  3. 在版权案件开始进入审判阶段后,前沿实验室将对数据收集实践进行有意义的改变;
  4. 在立法者担心可能过度限制后,欧盟AI法案的早期实施最终会比预期的更为宽松;
  5. 一个开源替代方案将在一系列推理基准测试中超越OpenAI的o1模型;
  6. 挑战者将无法对NVIDIA的市场地位造成任何有意义的影响;
  7. 由于公司难以实现产品与市场的匹配(PMF),对人形机器人的投资水平将会下降;
  8. 苹果在端设备AI研究的强劲结果将加速个人设备AI的发展势头;
  9. 一篇由AI科学家生成的研究论文将被主要机器学习会议或研讨会接受;
  10. 一款基于与生成式AI元素互动的视频游戏将取得突破性成功;

原文链接:https://www.stateof.ai/