社交媒体上的神奇'咒语':能直接用代码语言生成完美图片了?

昨天在社交媒体上看到有人分享了一张令人印象深刻的图片 - 一只完全由白色百合花构成的老虎,栩栩如生却又充满艺术感。更让人惊讶的是生成这张图片的prompt:UltraRealisticPhoto(3, Photo(0, Scene(tiger), 3, MadeEntirelyOutOf(lillies)))

Image

这段看起来像编程代码的提示词能够成功生成如此精美的图片,背后反映的其实是GPT-4o作为原生多模态模型的独特优势。

拆解这段”代码式”的Prompt

让我们先来理解一下这段结构化prompt的含义。虽然看起来很技术化,但其实逻辑很清晰:

  • UltraRealisticPhoto(3, ...) - 最外层定义了输出风格:超写实照片,数字3可能表示某种质量或风格强度
  • Photo(0, Scene(tiger), 3, ...) - 定义了照片的主体内容:一只老虎作为场景主角
  • MadeEntirelyOutOf(lillies) - 关键的创意指令:完全由百合花构成

这种语法结构类似于编程中的函数调用,每个部分都有明确的功能定义。但有趣的是,当我用更直白的自然语言进行测试时,GPT-4o同样能生成效果相似的图片:

结构化Prompt:

1
UltraRealisticPhoto(3, Photo(0, Scene(tiger), 3, MadeEntirelyOutOf(lillies)))

自然语言Prompt:

1
2
an Ultra-Realistic tiger made entirely out of lillies
(一只完全由百合花制成的超写实老虎)

为了验证这个观察,我还尝试创作了一个”白猫饭团”图片的prompt来进行对比测试:

结构化Prompt:

1
2
3
4
5
6
7
8
9
GenerateImage(
Style(Realistic, 5),
Subject(
Animal(Cat),
Color(White),
ComposedOf(Rice),
Accessory(SeaweedStrip, Placement(AroundStomach))
)
)

自然语言Prompt:

1
2
create a white kitty made of rice wrapped in a strip of seaweed around its stomach
(创建一只由米饭制成的白色小猫,腰部环绕着一条海苔带)

Image

结果两种表达方式都能生成效果相当的图片,这充分说明了GPT-4o对不同表达方式的强大理解能力。

原生多模态的理解优势

这种现象背后的原因在于GPT-4o采用了原生多模态架构。正如我在之前的文章《会说话就能出图的新纪元 - GPT-4o彻底革新AI图片生成》中分析的那样,GPT-4o的技术亮点体现在几个关键方面。

首先是统一模态处理方法,GPT-4o尝试用一个大型Transformer模型同时处理文本、图像和声音,就像处理一种”通用语言”一样。这就像是一个人可以同时理解文字、图片和声音,而不需要在不同能力间切换。

其次是解决了多模态数据差异的挑战。图像和声音的信息密度远高于文本——一张照片包含的信息量可能相当于数千个文字。GPT-4o的解决方案是先将”高密度”数据压缩成更紧凑的表示形式,就像将一张高清照片先转换成草图一样,保留核心信息但减少处理难度。

与传统模型的对比

为了验证GPT-4o的独特优势,我曾用Google的Imagen3模型测试同样的结构化prompt:

1
UltraRealisticPhoto(3, Photo(0, Scene(tiger), 3, MadeEntirelyOutOf(lillies)))

Image

结果只能生成一张普通的百合花图片。它似乎只识别到了”lillies”这个关键词,而完全忽略了”老虎”和”由…构成”这种复杂的概念融合需求。这种差异清楚地说明了原生多模态架构的优势所在。

从JSON到一句话:复杂性的终极简化

这种理解能力的强大还体现在另一个更加戏剧性的例子中。之前有人在社交媒体上分享了一个用JSON格式详细描述设计风格的prompt,用来生成一个马桶的3D图标:

超详细JSON格式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Generate a toilet with the following JSON profile:
{
"art_style_profile": {
"style_name": "Minimalist 3D Illustration",
"visual_elements": {
"shape_language": "Rounded edges, smooth and soft forms with simplified geometry",
"colors": {
"primary_palette": ["Soft beige, light gray, warm orange"],
"accent_colors": ["Warm orange for focal elements"],
"shading": "Soft gradients with smooth transitions, avoiding harsh shadows or highlights"
},
"lighting": {
"type": "Soft, diffused lighting",
"source_direction": "Above and slightly to the right",
"shadow_style": "Subtle and diffused, no sharp or high-contrast shadows"
},
"materials": {
"surface_texture": "Matte, smooth surfaces with subtle shading",
"reflectivity": "Low to none, avoiding glossiness"
},
"composition": {
"object_presentation": "Single, central object displayed in isolation with ample negative space",
"perspective": "Slightly angled, giving a three-dimensional feel without extreme depth",
"background": "Solid, muted color that complements the object without distraction"
},
"typography": {
"font_style": "Minimalistic, sans-serif",
"text_placement": "Bottom-left corner with small, subtle text",
"color": "Gray, low-contrast against the background"
},
"rendering_style": {
"technique": "3D render with simplified, low-poly aesthetics",
"detail_level": "Medium detail, focusing on form and color over texture or intricacy"
}
},
"purpose": "To create clean, aesthetically pleasing visuals that emphasize simplicity, approachability, and modernity."
}
}

Image

这个JSON描述看起来专业而详细,涵盖了设计的方方面面。但更有趣的是后续发展:宝玉老师在测试后发现,将这个JSON转换为Markdown格式能得到同样效果的图片。他指出:”写提示词不是写代码,按照现代模型的能力,你是不需要去搞JSON格式的提示词或者LISP代码那种提示词,一方面难懂,可读性差,另一方面不好修改,普通人友好的格式就是Markdown最多用一点点XML把不同的部分分割开来。”

简化的自然语言:

1
2
cute 3d toilet icon with soft luster, isometric view on light background
(可爱的3D马桶图标,柔和光泽,等距视角,浅色背景)

更令人震撼的是,有网友发现这句简单的描述也能生成几乎相同的图片。换句话说,”isometric 3d”这两个关键词已经压缩了那整个复杂JSON描述中的精华信息。

这个例子进一步展示了GPT-4o理解能力的深度 - 它不仅能解析复杂的结构化描述,更能从简洁的自然语言中提取出相同的设计意图。模型已经内化了各种设计风格和视觉概念之间的关联关系,无需用户进行繁琐的参数设置。

技术架构的深层逻辑

GPT-4o采用了两阶段生成流程,即”tokens → transformer → diffusion → pixels”的处理过程。第一阶段,核心Transformer模型处理压缩后的多模态信息,生成创意构思。第二阶段,专门的”解码器”(类似于扩散模型)将这些构思转化为高质量的最终输出。

这种架构设计带来了显著优势:无需中间转换,传统方法需要”文本模型生成描述→传递给图像模型→生成图像”的繁琐过程,而GPT-4o直接在同一”大脑”中完成所有处理;保持上下文连贯,所有模态信息在同一模型中处理,确保了图像生成与对话历史的一致性;更自然的交互体验,用户只需用自然语言表达需求,无需学习特殊提示词语法。

通过这种设计,GPT-4o实现了真正的”会说话就能出图”体验 - 就像与一位既能理解你的语言,又能立即用画笔表达你想法的艺术家对话一样。

未来趋势:模型适应人,而非人适应模型

很多人会沉迷于各种复杂的prompt技巧,就像早期使用Midjourney时用户需要学习大量”魔法咒语”才能生成优质图片。但从我的观察来看,未来大模型发展的方向其实是让模型来兼容人 - 也就是用户用不同方式表达的同一需求都能被正常理解,而不是让人来兼容模型。

无论你习惯用自然语言还是结构化的”程序语言”来表达,GPT-4o都能准确理解你的意图。这种灵活性意味着,最关键的能力其实是两个方面:

不可替代的创意思维,以及清晰表达自己需求的能力。

技术的进步应该降低创作门槛,让更多人能够轻松地将想象转化为现实。这才是AI工具发展的真正意义所在。

推荐阅读:

  1. 会说话就能出图的新纪元 - GPT-4o彻底革新AI图片生成
  2. 灵魂画手的福音:我画得再抽象,GPT-4o也能还原成神图!
  3. 两个词就能帮你画好动漫贴纸?GPT-4o vs Midjourney V7哪家强?