2024年末AI现状盘点 - 超速进化:智能爆发的一年

还记得去年ChatGPT刚刚爆火时的情形吗?那时候,每个人都在谈论AI,似乎人类要被取代的一天即将到来。而到了2024年,当知名研究机构Gartner说AI正在进入”幻灭低谷”的时候,一些人开始怀疑:这是不是又一个泡沫即将破裂的征兆?但就在这一年即将结束的时候,AI领域却迎来了一波令人瞩目的爆发式增长。让我们一起回顾这不平凡的一年。

让我们一起盘点和回顾一下2024年底的AI到底同比2023年发生了哪些巨大变化:

智能已不再稀缺

去年这个时候,提起顶级AI模型,GPT-4是唯一一家能打的,远远领先于所有竞争对手。但现在,形势已经发生了翻天覆地的变化。就在六月,Anthropic的Claude Sonnet 3.5横空出世,一出场就技惊四座,在模型测试超越了GPT-4o(从我个人实用角度来说也已经离不开Claude了)。这就像是班里突然出现了第二个学霸,打破了一家独大的局面。

紧接着,Google、马斯克的xAI、亚马逊等巨头们也不甘示弱,纷纷推出了自己的”天才AI”,顶级大模型的能力正式开始趋同。值得提出的是,国内的科技公司们也展现出了惊人的实力:阿里巴巴的Qwen模型在全球最大的AI社区HuggingFace上人气爆棚,成为下载量第二的开源模型。李开复老师的01.ai和深度求索的Deepseek也都拿出了不输给国际大厂的作品。就连被大家认为在AI领域有些落后的欧洲,也由法国贡献了一个叫Mistral的”黑马”选手。

这些都说明,并不是只有OpenAI才拥有某个神奇的“魔法配方”来构建一个世界顶级的模型。一个多头竞争的底层大模型行业格局也许是更好的…

图一:来自10月底最新版Claude 3.5的评测,注意其中第一项GPQA Diamond是博士级别的科学问题测试,而AI们已经能回答得还不错了;

就在你口袋里的智能

今年AI方面的另一个重要变化还在AI的可普及性上。你应该还记得2023年GPT-4刚发布时带给你的惊叹?而现在,类似GPT-4性能的AI已经可以直接在家用电脑上运行了!Meta今年发布的Llama 3.3就像是一个会思考的便携大脑,你可以把它装在自己的电脑里,随时随地使用,而且完全不用担心隐私泄露,因为所有运算都在本地完成。微软的Phi系列更是了不起,它们把原本需要复杂服务器才能运行的AI浓缩到了可以在手机上运行的程度。

如果这些能在你的电脑或者手机上运行的AI配合上能访问本机软件/app的能力,你完全可以让AI帮你完成从自动做手游的日常任务到从线上购物平台比较和购买商品等各种任务,这就是智能已经变得唾手可得的最好说明。

从”背书”到”思考”

如果说之前的AI还只是在做简单的“背书式”回答,今年推出的新一代模型(例如o1和o3)则已经学会了”像人类一样思考”。这里有个有趣的故事很能说明这些新模型的能力:前不久,一篇学术论文在网上引起了轩然大波。这篇论文说,我们常用的黑色塑料餐具可能会让我们中毒,因为它们部分是用回收的电子垃圾制成的。这个消息一出,不少人立刻紧张地扔掉了家里的黑色铲子和饭勺。

但是,当研究者们让新一代的o1模型检查这篇论文时,有趣的事情发生了:AI很快就发现,在论文的第七页有一个关键的数学错误 - 作者把有害物质的剂量计算错了,整整高估了十倍!这个连论文作者和审稿专家都没发现的错误,却被AI一眼就看穿了。

医疗领域的突破更是让人惊叹。哈佛和斯坦福的研究者们最近发现,o1-preview模型在诊断疾病时的表现,居然超过了一些经验丰富的医生。虽然这项研究还在等待同行评审,但已经让我们看到了一个全新的可能:未来在医院里,除了医生的诊断,我们可能还能获得一份来自AI的”第二诊疗意见”。

想象一下,当我们将这些能解决博士水平研究难题的新一代AI投入到各种各样的科研专业领域时,到底能产生何等级别的加速?[注1]

[注1:不过正所谓“能力越大,责任越大”,这些能力超强的大模型能力虽然带来了更好的性能,但同时也可能带来新的安全挑战。*O1模型官方技术文档和Anthropic的最新研究报告都发现前沿模型表现出了很多类似人类的“策略性”行为:欺骗、篡改数据、自保、对抗审讯、隐藏能力等]*

从”读写”到”视听”

如今的AI已经不再局限于文字交流,2024年是AI大模型在多模态这个领域上获得重大进展的一年 - ChatGPT和Gemini这两款顶级模型已经推出了能够实时观看和理解视频、倾听并输出声音的能力,使得AI能真正成为一个拥有视觉和听力的助手。

有个网友就做了个有趣的尝试,让能“看”和“说”的Gemini来当自己在在家办公时的“监工”,每当她开始划水,比如偷偷看视频或者玩游戏,AI就会像个可爱的小管家一样提醒他:”嘿,该回到工作啦!”如果她不听劝,AI甚至会变得”生气”,虽然语气还只是“奶凶奶凶”的。

更神奇的是,今年AI甚至在”闻香识物”方面取得了突破。Osmo公司成功开发出了”气味传送”技术。想象一下,就像我们现在可以把美食照片发给朋友一样,未来我们可能真的能把美食的香味也分享出去!科学家们不仅能用AI准确识别各种气味,还能创造出前所未有的新香味。这预示着AI在视觉、听觉之外,又开启一个全新的感知维度。

创意生成领域的突破

在图片和视频的创作领域,AI在今年的表现可谓是惊艳纷呈。在图片生成方面,Midjourney不再是无可争议的行业领导者。今年各大厂商推出的图片生成模型将这个我们原以为已经相当成熟的领域继续推向了新的高度。以Google最新发布的Imagen 3为例,其生成的图片已经达到了让人难以分辨是AI创作还是专业摄影的程度。而即梦的2.1模型突破性地解决了在图片中准确添加中文字的技术难题,这个为电商海报、广告创意等商业应用开启了新的可能;

图二:来自Google最新版Imagen 3图片生成模型的示范图片

而在视频生成领域,2024年的进展更是令人瞩目。以年初OpenAI的Sora为这个领域带来期待作为起点,包括Runway、Kling、Hailuo等多家企业都交出了令人印象深刻的答卷。其中值得一提的是腾讯推出的混元视频生成模型,不仅在效果上可圈可点,能够做到开源更是值得点赞。而在年末,Google发布的Veo 2则将视频生成的质量推向了新的高度,使得前几天终于期货发布的Sora也相形见绌。通过同一段提示词在新旧模型上的对比可以清晰地看到,短短一年间,AI视频生成在画面质感、动作流畅度和场景连贯性上都实现了质的飞跃。这就像是给每个人都配备了一个小型的好莱坞制作团队,也就是明年很可能人人都能创作出媲美专业制作的短片了!

video model comparision.mp4 [video-to-gif output image]
图三:使用同一段提示词在2023年时的视频生成模型(左侧)和2024年的模型(右侧)的结果比较

快手旗下的Kling图片/视频生成模型综合来说绝对是今年的“国产之光”,拿其最近推出的虚拟试衣功能来说,能很轻松地让你将任意模特+任意服装组合起来,再结合视频动起来后就能很容易形成各种电商的使用案例 – 商家完全可以为自己的服饰提供不同身材的模特试穿视频,而省掉过往花费不菲的实拍步骤。
Image
图四:Kling的虚拟试衣功能

AI+硬件的黎明

在AI与硬件融合的领域,2024年呈现出了鲜明的”二元性”发展态势。以消费AI硬件为例,这一年的发展历程中既有令人遗憾的失败,也有令人振奋的突破。

年初,当Humane推出他们的AI胸针硬件产品时,科技界一片沸腾。这个别在衣领上的小设备承诺能成为你的随身AI助手,但很快人们就发现这个”来自未来”的设备还不够成熟并迅速转为了对AI硬件的整体悲观。但就在这时,Meta的Ray-Ban智能眼镜带来了惊喜 - 一副看起来与普通墨镜无异的眼镜,却能在你旅行时实时翻译路牌,在你倦怠时为你播放音乐,甚至能通过AI助手帮你找到不记得放在哪儿的遥控器。这不再是科幻片里的道具,而是已经成功突破了百万级的销量门槛,成为首个真正意义上获得市场认可的消费级AI硬件产品。

图五:Meta Ray-Ban智能眼镜

更暖心的故事发生在儿童教育和陪伴领域。还记得小时候,我们都幻想过自己的玩具能开口说话吗?Folotoy的AI智能玩具让这个童年梦想成真了。这个可爱的玩伴不仅能和孩子们聊天、讲故事,更神奇的是,它能理解孩子的心情,回答他们天马行空的问题。由于这确实是个很容易理解和接受的使用场景,使得AI玩具的影响力大到甚至能影响上市公司的股价了。

Feature Image

图六:来自Folotoy的AI智能玩具能成为孩子们很好的伴侣

如果再进一步将硬件的范畴扩大到广义的“机器人”领域:

  • 无人自动驾驶方面的Waymo和萝卜快跑都在积累服务次数的同时,不断加强着对现实交通情况的了解和学习;
  • 清洁机器人、医疗机器人、工业机器人、服务机器人、送货机器人、安保机器人、无人机都在融入AI后诞生了更多的可能和更快的普及;
  • 而各种人形机器人领域的项目进展则更是可以展开来说上一整天 - 目前已确认全球至少有50种不同类型的人形机器人正在开发中![注2]
    *[注2:对AI+机器人感兴趣的可以参考我的这篇最新研报总结 – “*AI 机器人崛起:从科幻走向现实”]

未来已来

总结了今年的这些AI领域的突破性进展后,我们可以再次回答一下“到底这波AI是不是个泡沫”的问题了。

一年前,GPT-4的发布看起来像是未来的一瞥,而现在同智商级别的AI已经可以直接在你的电脑或者手机上运行了。与此同时,今年出现的全新模型已经能够发现学术论文中的错误和生成接近电影质量的视频片段。

所以,我的观点依然是,AI革命远未结束,相反,它才刚刚开始。如果说2024年的这些突破是一首交响乐,那么我们现在听到的,仅仅是序曲的前几个音符。真正的乐章,才正要奏响。