AI论文导读 – TransAgent:突破文学翻译界限的多智能体虚拟翻译公司

引言:最近围绕着到底什么才是Agent/智能体这个话题有很多争议,很认同吴恩达老师提出的“与其争论某个东西是不是智能体(agent),不如讨论其是不是具有智能体特征(agentic)”,或者进一步来说,纯讨论智能体的定义就是浪费时间,不如将时间花在打造出有智能体特征的系统上,真正解决某个问题。

多智能体系统,顾名思义,由多个agent/智能体组成,它们之间能够相互交流、协作,共同完成复杂的任务。这种系统在处理复杂问题时具有明显优势,因为它可以模拟人类组织的分工协作模式,每个智能体能一方面专注于特定任务,另一方面又能相互协同。

来看看一篇最近的论文是如何利用多智能体协作模式来解决文学翻译这一复杂任务的。

论文原文:(或许)超越人类翻译:通过多智能体协作翻译超长文学文本(PERHAPS) BEYOND HUMAN TRANSLATION: HARNESSING MULTI-AGENT COLLABORATION FOR TRANSLATING ULTRA-LONG LITERARY TEXTS

问题背景- 文学翻译 机器翻译领域的“最后堡垒”?

尽管机器翻译技术在近年来取得了巨大进步,但文学翻译仍然是一个巨大的挑战。这主要是因为文学作品具有以下特点:

  1. 复杂的语言结构:文学作品经常使用非常规的语言结构和修辞手法;
  2. 丰富的文化内涵:作品中经常包含大量特定文化背景下的隐喻、典故和习语;
  3. 独特的表达方式:每个作者都有自己独特的写作风格和语言特点;
  4. 微妙的情感色彩:文学作品经常包含细腻的情感表达,这对传统机翻来说很难准确捕捉;
  5. 上下文的重要性:文学翻译需要考虑更广泛的上下文,包括整个作品的主题和风格;

创新解决方案:TransAgent - 一家虚拟的AI翻译出版公司

为了应对文学翻译的挑战,研究者们提出了一个名为TransAgent的创新系统。这个系统模拟了一家拥有150多个AI”员工”的虚拟翻译公司。这些“员工”由AI智能体扮演,担任特定的角色,从CEO到校对,共同构成了一个高效协作的团队。

图像

公司结构和角色设置

  • CEO/首席执行官:负责选择高级编辑,并监督整个翻译项目。根据客户的具体要求来选择团队成员;
  • Senior Editor/高级编辑:负责监督整个内容制作过程 - 包括设定编辑标准,指导初级编辑,并确保内容符合公司的目标;
  • Junior Editor/初级编辑:在高级编辑的指导下工作。他们的职责包括管理日常编辑工作流程,编辑内容,并协助内容规划。同时,他们还负责与组织内其他角色的沟通;
  • Translator/译员:负责将书面材料从一种语言转换为另一种语言,同时保留原文的语气、风格和上下文。翻译必须对源语言和目标语言有深刻的理解,并熟悉所翻译的主题;
  • Localization Specialist/本地化专家:会根据特定地区或市场来合理调整内容。这包括翻译语言以及调整文化参考、习语和图像以适应当地观众;
  • Proofreader/校对员:负责对语法、拼写、标点和格式错误进行最终检查。他们在确保内容在发布前达到高质量标准方面起着至关重要的作用;
  • 甚至还有一个Ghost Agent/幽灵代理 - 其任务是提醒 CEO 重新考虑他们的决定,因为发现CEO有时在选择具备所需语言技能的高级编辑时会出现选择困难症…

每个角色下配置了30个不同的AI智能体,它们各自拥有独特的背景、专长和个性特征。

例如,一个名为Sofia Chang的高级编辑智能体可能有以下特征:

1
2
3
4
5
6
7
8
9
10
11
12
Name: Sofia Chang
Languages: English, Mandarin, Spanish, French
Nationality: Canadian
Gender: Female
Age: 47
Education: Ph.D. in Comparative Literature
Personality: meticulous, introverted, perfectionist, critical, thoughtful
Hobbies: gardening, chess, watercolor painting
Rate per word: 0.12
Years of working: 22
Profession: Senior Editor
Role prompt: You are Sofia Chang, a highly esteemed Senior Editor

这种详细且个性化的设计不仅丰富了翻译过程模拟的真实性,还反映了现实世界翻译环境中的复杂性和多样性,能更好地应对不同类型的文学作品和翻译需求。例如,一个性格严谨的编辑可能更注重准确性,而一个创新型的编辑可能更善于处理创意性的翻译挑战。

具体工作流程 – 准备+执行阶段

准备阶段-团队组建

  • 接到“客户”的翻译要求后,CEO会综合分析原文和目标语言、体裁、目标受众等信息,从几位高级编辑中选择擅长领域最匹配的一位;
  • 此时,Ghost Agent会对CEO的选择进行评估,告知其人选是否合适,从而减少选择失当的现象;
  • 被选定的高级编辑会与CEO合作,再次结合任务需求和个人特点,从公司人才库中进一步选择初级编辑、翻译、本地化专家和校对等团队成员;

准备阶段-翻译风格指南

  • 术语表/Glossary - 首先由初级编辑逐章节识别所有潜在的关键术语,生成初始术语表,交由高级编辑审查,删除其中的通用术语,生成修订后的术语表并反复迭代。然后,结合术语在不同语境下的意义,高级编辑会将术语表中的关键术语翻译为目标语言;
  • 书籍摘要/Book Summary - 初级编辑会为每一章生成详细的章节摘要,尽可能保留关键信息和细节,然后还是让高级编辑来审查,并删除冗余或不必要的信息,让章节摘要更加简明扼要;接着高级编辑根据修订后的章节摘要编写全书的摘要,概括主要情节、人物和主题,
  • 语气、风格和目标受众/Tone, Style, and Target Audience – 高级编辑随机选择书中的一章,分析其语气、风格和目标受众;
  • 包含上面三部分内容的翻译风格指南/Translation Guideline Documentation会发送给项目团队所有成员,以确保译文风格的一致性和连贯性;

执行阶段-翻译

  • 根据风格指南,团队中的译员会逐章节进行初步翻译,把初稿交给初级编辑审查,检查是否遵循翻译风格指南,并提出改进意见;
  • 在此基础之上,高级编辑会评估经过修改的译文质量,决定是否需要进一步修改,译员、初级编辑和高级编辑反复迭代,直到译文质量满足要求;

执行阶段-文化适应/cultural adaptation+校对/proofreading

  • 但此时得到的翻译文本并不是终稿,还要交给本地化专家进行调整。专家会识别可能需要文化调适的内容,如习语、隐喻等,并对这些内容进行调整,使其在保留原文意图的基础之上更贴近目标语言和文化;
  • 调整后的文本会让初级编辑和高级编辑再次审查,确保译文在文化适应性和忠实度之间取得平衡;
  • 这之后,还有校对人员再次检查语法、拼写、标点和格式错误,如果有修改,还要再让编辑进一步审核;

执行阶段-终审/Final Review

  • 这些流程都走完后,高级编辑会进行最后的终审,重点关注相邻章节之间的连贯性,确保情节、人物、主题等元素在全书范围内保持一致,一旦发现问题则发回给前面的团队成员进行修改,直到形成最终的译本;

Agents的两种协作模式

  • 减法协作/Addition-by-Subtraction Collaboration:
    • 一个代理作为加法代理,负责提取尽可能多的相关信息;
    • 另一个代理作为减法代理,负责审查提取的信息,删除冗余细节,并向加法代理提供反馈;
    • 例如在术语表的生成这边步骤中,每章的初级编辑作为加法智能体A,首先尽力识别所有潜在的关键术语。然后,高级编辑作为减法智能体S,审查这些术语并去除任何泛泛的术语。这个过程持续进行直到不需要进一步修订;

  • 三边协作/Trilateral Collaboration

涉及行动、批评和判断三个角色,形成一个反馈循环

  • 行动:执行指令并完成所需任务的能力。
    • 批评:审查生成的响应并向行动分支提供建设性反馈的能力。
    • 判断:决定响应是否令人满意或是否需要进一步修订的能力。

以执行阶段的agents三边协作翻译为例:

  • 流程从翻译 (行动代理 P) 开始,最初将章节内容从源语言翻译成目标语言;
  • 接下来,初级编辑 (批评代理 Q) 进行全面审核,确保翻译符合指南,并识别出任何潜在错误或需要改进的地方;
  • 最后,高级编辑 (判断代理 J) 评估翻译并确定是否需要进一步修订;

研究评估和结果

研究者们采用了WMT2023数据集,该数据集专门针对篇章级的文学翻译进行了设计。该数据集精心挑选了12部网络小说,从每部作品中截取了20个连续章节,覆盖了八种不同的类型小说。结果令人瞩目:

  • 使用TRANSAGENTS进行文学翻译比使用专业人类翻译员的成本低80倍!
  • 在实际评估中,虽然TransAgents在基于相似度的d-BLEU评估中得分不高,但在人类评估者和高级语言模型(如GPT-4)评估中得到了好评;
  • 特别是当翻译需要领域特定知识(例如历史背景和文化细节)时,TRANSAGENTS的表现甚至优于人类翻译;

文化适应能力的案例

在中文中,职位名称通常放在人名前面,而在英文中,职位名称通常放在人名后面。TRANSAGENTS 是唯一能够在翻译中准确反映这种文化背景的系统。而REFERENCE 1 和 GPT-4都未能正确调整人名和职位名称的顺序,因此未能遵循目标语言中的文化规范;

全局一致性案例

在书籍翻译的过程中,从头到尾保持一致性非常重要。如下图所示,特定的章节标题需要保持一致。REFERENCE 1 和 TRANSAGENTS 都成功地生成了一致的翻译,而GPT-4没有做到;

多智能体系统的共性

自从”斯坦福小镇”尝试了将25个智能体放到虚拟小镇中跑以后,我们已经看到不少类似的尝试,例如虚拟游戏开发公司ChatDev虚拟医院Agent Hospital。这些系统都试图通过多智能体协作来模拟复杂的人类组织结构和工作流程:

  • 专注于某个高度复杂的任务:开发一款游戏、开设一家医院来治病、翻译长篇文学作品;
  • 模拟了一个完整的商业组织结构:我因为正好在为翻译公司担任顾问工作,可以说TransAgent引入的组织架构和工作流程确实和实际商业组织很类似;
  • 在实际应用中展现了令人印象深刻的性能 – 显著优于直接调用GPT来实现的效果,而且还有潜在的未来进一步自学习优化的可能 – 例如虚拟医院项目中实现的诊断呼吸疾病准确率高达93.06%;