AI变身“迈克尔·乔丹”点评你的投篮?这个爆火项目开源了!

如果能让迈克尔·乔丹、斯蒂芬·库里这样的传奇球员亲自指导你打球,你的球技会提升多快?最近,一位名叫Farza的开发者在社交媒体上分享了一个令人惊叹的视频demo,视频中,AI化身“篮球之神”迈克尔·乔丹,不仅精准统计了他的投篮数据,还用乔丹的口吻对他的每一次出手进行了细致入微的点评。

一个简单却震撼的想法

这个项目的核心想法其实很简单:拍摄一段打篮球的慢镜头视频,然后让AI像篮球之神迈克尔·乔丹那样来分析每一次投篮。AI会统计你投中了多少球、失手了多少次,更重要的是,它会像真正的专业教练一样,指出你每次投篮的技术问题并给出改进建议。

Farza在视频中使用的提示词(prompt)如下:

“这是我打篮球的慢镜头回放。请像迈克尔·乔丹那样帮我分析:投中了多少球,完成了多少次上篮,三分球进了几个,投失了多少球。同时,请告诉我每个进球和失手时的具体投篮位置,以及每次出手时的技术动作细节,并给予专业点评。”

AI教练的精准分析

从视频中我们可以看到AI给出的分析其实是挺专业的:

  • 第一次投篮(0:07.5) - 跳投失手 AI的点评:”你在推球而不是投球;把肘部放在球下方,充分伸展手臂,并做好跟进动作。”
  • 第二次投篮(0:13.0) - 三分球命中 AI的反馈:”球进了,但要注意轻微的后仰,保持肩膀在整个动作过程中都正对篮筐。”
  • 第三次投篮(0:21.5) - 上篮得分 技术建议:”上篮时要抬高膝盖,用非投篮手更好地保护球,果断完成投篮。”

这些分析不仅准确识别了投篮结果,还像真正的专业教练一样,指出了具体的技术细节和改进方向。

无限的应用场景

这个演示迅速在网络上走红,因为它生动地展示了多模态AI在个人化指导场景中的巨大潜力,我们可以想象更多令人兴奋的场景:

  • AI瑜伽私教:在你练习时,实时捕捉你的体式,即时纠正每一个动作细节,确保安全和效果;
  • AI吉他老师:在你弹奏时,立即指出你的指法错误,并指导你如何正确按弦,让你的学习事半功倍;
  • AI烹饪顾问:在你下厨时,根据现有食材和你的口味,随时为你提供精准的调味建议和烹饪步骤;
  • AI绘画导师:在你创作时,手把手地指导你的笔触、构图和色彩运用,激发你的艺术灵感;

“AI乔丹”是如何炼成的?技术实现门槛并不高

很多人第一眼看到视频,可能会认为这是一个极其复杂的实时视频分析系统。但根据代码来看,其核心思想出奇地简洁:其实并没有做实时处理,而是利用了强大的多模态大模型(Google的Gemini)进行“一次性”的深度分析,所以代码库基本就只有ball.json和ball.py这两个文件。

整个实现可以分为两个核心部分:AI分析视觉呈现

1. 核心魔法:AI分析与JSON生成

Farza并没有在本地运行一个复杂的AI模型,而是将篮球视频的慢镜头回放上传给了Gemini。Gemini在理解这段指令和视频内容后,输出一个结构化的ball.json文件。这个文件是整个项目的基石,包含了AI的所有分析结果。让我们看看它的结构:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
{
"shots": [
{
"timestamp_of_outcome": "0:07.5", // 出球结果的时间戳
"result": "missed", // 结果:投失
"shot_type": "Jump shot (around free-throw line)", // 投篮类型
"total_shots_made_so_far": 0, // 累计命中
"total_shots_missed_so_far": 1, // 累计投失
// ... 其他数据
"feedback": "You're pushing that ball, not shooting it; get your elbow under, extend fully, and follow through." // “乔丹”的点评
},
// ... 更多投篮数据
]
}

这里的核心是将非结构化的视频内容,转化为了包含时间戳、事件、数据和专家级反馈的结构化数据。

2. 视觉呈现:OpenCV的可视化脚本

ball.py脚本扮演的是一个“导演”和“后期制作”的角色。它本身不进行AI分析,而是读取ball.json中的数据,并将其在视频的准确时间点上可视化出来。其主要工作流程如下:

  • 加载数据:脚本首先加载ball.json文件和原始的高清视频文件;
  • 头部追踪:利用MediaPipe这个强大的计算机视觉库,脚本可以识别人体姿态,并持续追踪视频中球员的头部位置。这是为了确保后续添加的文字和箭头能够始终跟随着球员移动;
  • 逐帧渲染:脚本逐帧读取视频。在每一帧画面上:
    • 在追踪到的球员头部上方绘制一个红色的箭头和球员的名字(”farza”);
    • 检查当前帧的时间是否对应ball.json中记录的某个投篮时刻;
    • 数据展示:在视频左上角实时显示“Shots Made”(命中)和“Shots Missed”(投失)的统计数据。当一次投篮刚刚发生后,对应的统计数据会有一个短暂的颜色动画(命中变绿,投失变红)来提供即时的视觉反馈;
    • 反馈呈现:如果当前时间点有对应的“乔丹点评”,脚本会将其以醒目的样式呈现在屏幕下方中央;
  • 生成最终视频:所有处理过的帧被重新组合,最终生成我们看到的带有各种酷炫信息叠加的最终视频文件。

从演示到产品:未来的想象空间

这个项目虽然只是一个演示,但它为打造一个“杀手级”的实时AI教练应用提供了参考思路。要将其产品化,需要解决几个关键问题:

  1. 智能帧传输:实时将整个视频流传输给云端AI成本高昂且效率低下(Gemini视频API目前大约支持1 FPS)。一个更智能的方案是在设备端(如手机)运行一个轻量级的模型,用于“事件检测”(比如检测到用户正在投篮)。只有当关键事件发生时,才将这段几秒钟的视频片段发送给云端的强大AI进行分析;
  2. API集成:将手动上传视频和Prompt的过程,变为通过代码自动调用Gemini API,并接收返回的JSON数据;
  3. 实时渲染:将AI分析后的反馈数据,几乎无延迟地渲染到用户的手机屏幕上,实现即时的互动指导;

结语

Farza的“AI乔丹”项目展示了多模态AI技术的巨大潜力。当AI能够同时理解视觉、听觉和文本信息时,它就能够像人类专家一样,提供综合性的分析和指导。

也许不久的将来,每个人都可能拥有自己的AI私人教练、AI艺术导师、AI生活助手。这些AI不仅能够理解我们在做什么,还能像真正的专家一样,给出专业、个性化的建议。