OpenAI的DevDay闭门会ppt披露-"新一代的技术堆栈和AI的运营管理"

发表于 2023-11-15 更新于 2025-08-10 分类于 AI

继昨天分享的OpenAI DevDay的闭门会“A Survey of Techniques for Maximizing LLM Performance (精进大型语言模型性能的各种技巧)“后，今天再带来当天另外一场的技术实操闭门会ppt分享 - “The New Stack and Ops for AI/新一代的技术堆栈和AI的运营管理”。这场中也讲了大量如何从工程实操的层面来更好地将AI用到实际生产力场景中的最新经验。

实际有真正深度用过AI的研发者都知道，你可以很轻松地做出一些原型项目，甚至是很酷的demo，但是如果真要将AI用到实际生产力场景中的话，还是挺难的。这次OpenAI的专项分享的一些重点内容如下：

在没有一个合适框架的情况下，将非确定性应用从原型开发至生产环境的延展过程将会非常困难！

OpenAI建议用以下的四步框架来综合考虑：

用户体验
模型一致性
评估表现/性能
管理延迟和成本

一、用户体验

管理不确定性
为可操控性和安全性建立防护栏

AI 助手的用户体验应当是对用户能力的提升，而非替代人的判断力：

保持人类的参与
设定合理的预期
引导用户进行操作

二、模型一致性

约束模型行为
使模型落地生根 - 在输入的上下文中，为模型提供“明确的事实”，这样可以减少模型产生错误推断的可能性。

管理语言学习模型（LLMs）的固有概率特性是一项挑战，不过今天我们推出的JSON模式和可重现输出能让研发者刚好地应对。

使模型落地生根这里则可以通过retrieval、独有api、搜索索引或者是数据库等形式来提供这些“明确的事实”。

三、评估表现/性能

创建评估套件
使用模型评级评估

缺乏有效的评估一直是将模型部署到生产环境的主要难题，而模型评估就像是大语言模型（LLM）的单元测试。

可以尝试直接用OpenAI公开的这套评估框架：

评估过程中记得打好log并详细记录：

当人工反馈难以实现或成本过高时，自动化评估能让开发者监测开发进程并发现潜在问题。

GPT-4 实际上已经足够智能，能够自主完成评估打分的任务！

当使用 GPT-4 进行评估成本过高或者速度低下时，你还可以通过整合GPT-4 的输出结果来微调一个3.5版本的“评判模型”。

四、管理延迟和成本**

利用语义缓存
采用更经济的模型

经过微调的GPT-3.5-turbo甚至在最新的价格下调之后，仍然比GPT-4便宜70%到80%。

将上面提到的这些策略整合起来，就能成为你或者你的公司的一套LLMops，为你提供能应用到真实生产力场景的全面支持。

0%