人工智能模型的核心要义在于数据集

原文 - The “it” in AI models is the dataset

我在 OpenAI 工作已近一年。在这段时间里,我训练了大量的生成式模型,数量之多恐怕无人能及。在我花费无数时间观察调整各种模型配置和超参数带来的效果时,有一点让我印象深刻,那就是所有训练过程之间的相似性。

我越来越清楚地认识到,这些模型在以一种令人难以置信的程度逼近它们的训练数据集。这不仅意味着它们学会了什么是狗或猫,还学习到了分布之间那些看似无关紧要的间隙频率,比如人类可能拍摄的照片或经常写下的词语。

具体表现为:在同一数据集上训练足够长时间后,几乎所有拥有足够权重和训练时间的模型最终都会收敛到同一点。规模足够大的扩散卷积神经网络 (Diffusion Conv-UNet) 生成的图像与 ViT 生成器输出的图像别无二致。AR 采样生成的图像与扩散模型生成的图像如出一辙。

这一观察结果着实令人惊讶!它意味着模型行为并非由架构、超参数或优化器的选择决定,而完全取决于你的数据集,而非其他任何因素。其他一切不过是将计算资源高效用于逼近数据集的一种手段罢了。

因此,当你提到 “Lambda”、”ChatGPT”、”Bard” 或 “Claude” 时,你指的并非模型权重,而是数据集。