OpenAI的DevDay闭门会ppt披露-"新一代的技术堆栈和AI的运营管理"

继昨天分享的OpenAI DevDay的闭门会“A Survey of Techniques for Maximizing LLM Performance (精进大型语言模型性能的各种技巧)“后,今天再带来当天另外一场的技术实操闭门会ppt分享 - “The New Stack and Ops for AI/新一代的技术堆栈和AI的运营管理”。这场中也讲了大量如何从工程实操的层面来更好地将AI用到实际生产力场景中的最新经验。

实际有真正深度用过AI的研发者都知道,你可以很轻松地做出一些原型项目,甚至是很酷的demo,但是如果真要将AI用到实际生产力场景中的话,还是挺难的。这次OpenAI的专项分享的一些重点内容如下:

在没有一个合适框架的情况下,将非确定性应用从原型开发至生产环境的延展过程将会非常困难!

OpenAI建议用以下的四步框架来综合考虑:

  • 用户体验
  • 模型一致性
  • 评估表现/性能
  • 管理延迟和成本

图片

一、用户体验

  • 管理不确定性
  • 为可操控性和安全性建立防护栏

AI 助手的用户体验应当是对用户能力的提升,而非替代人的判断力:

  • 保持人类的参与
  • 设定合理的预期
  • 引导用户进行操作

二、模型一致性

  • 约束模型行为
  • 使模型落地生根 - 在输入的上下文中,为模型提供“明确的事实”,这样可以减少模型产生错误推断的可能性。

管理语言学习模型(LLMs)的固有概率特性是一项挑战,不过今天我们推出的JSON模式和可重现输出能让研发者刚好地应对。

使模型落地生根这里则可以通过retrieval、独有api、搜索索引或者是数据库等形式来提供这些“明确的事实”。

图片

三、评估表现/性能

  • 创建评估套件
  • 使用模型评级评估

缺乏有效的评估一直是将模型部署到生产环境的主要难题,而模型评估就像是大语言模型(LLM)的单元测试。

可以尝试直接用OpenAI公开的这套评估框架:

图片

评估过程中记得打好log并详细记录:

图片

当人工反馈难以实现或成本过高时,自动化评估能让开发者监测开发进程并发现潜在问题。

GPT-4 实际上已经足够智能,能够自主完成评估打分的任务!

图片

当使用 GPT-4 进行评估成本过高或者速度低下时,你还可以通过整合GPT-4 的输出结果来微调一个3.5版本的“评判模型”。

图片

四、管理延迟和成本**

  • 利用语义缓存
  • 采用更经济的模型

经过微调的GPT-3.5-turbo甚至在最新的价格下调之后,仍然比GPT-4便宜70%到80%。

图片

将上面提到的这些策略整合起来,就能成为你或者你的公司的一套LLMops,为你提供能应用到真实生产力场景的全面支持。

图片