本月早些时候,我目睹了一项显著的科技突破。在CES之前的新闻发布会上,Nvidia展示了其Ace微服务,这是一套能够创建全音频AI角色的人工智能工具。演示中,一位演示者通过麦克风与游戏中的非玩家角色(NPC)互动,实时收到栩栩如生的回应。虽然这一切看似科幻,但我心中仍有一个疑问:这是如何实现的?
Nvidia对此的回应模糊不清,表示“没有简单的答案”。这一模糊性引发了社交媒体上广泛的猜测,许多用户对Ace是否使用了Nvidia不拥有的内容表示担忧。尽管Nvidia后来澄清仅使用合法获得的数据,但不安的情绪依然存在,玩家们仍在挣扎于这项技术所引发的伦理与艺术问题。
此时,Purnendu Mukherjee,一位软件工程师,也是此次争议中AI技术的主创,正在观察这一动态。他是Convai公司的创始人,该公司为Nvidia在2024 CES上的Kairos演示提供了关键技术。面对公众的质疑,Mukherjee选择主动澄清误解。
在一场深入的访谈中,Mukherjee讨论了他所创造的AI工具面临的各种伦理问题,包括工作流失的担忧,以及AI是否会削弱艺术中人类的情感。与这些担忧相反,Mukherjee设想了一个艺术家与AI合作、共同提升创作表达的未来。然而,他对数据使用的洞察又引发了新的疑问。
Mukherjee从小便对人类思维充满好奇,进入高中时开始探索人工智能。在2015年,他在印度的一家实验室中重新燃起了对深度学习的兴趣。在攻读研究生并在Nvidia积累经验后,他于2022年4月独立创办了Convai,并在前十个月自筹资金。
作为一名终身游戏爱好者,Mukherjee在当地的网吧中玩《反恐精英》等竞争性游戏,首次设想AI如何提升游戏体验。他最初对基础游戏机器人进行戏谑性批评,而如今这一想法演变成了一项开创性的技术。Convai的技术结合多种AI过程,生成可以动态响应玩家指令的全音频NPC,旨在创造更加引人入胜的游戏体验。
Mukherjee解释说:“看看《博德之门3》或《巫师》这样的游戏。这些游戏拥有丰富的叙事和深刻的人物弧线,但由于与NPC对话的选项有限,玩家往往无法充分探索这些故事。如今技术的提升,让NPC能够以角色的方式与玩家互动,更深刻地揭示故事内容。”
当讨论《博德之门3》是否在没有精心编撰的对话的情况下仍能引起共鸣时,Mukherjee深入探讨了机器生成内容与艺术完整性之间的复杂关系。他正面回应质疑,强调AI并不是艺术家的替代品,而是需要艺术家介入的工具。
“我相信叙事设计师的需求将日益增长,而非减少。”他指出,AI可以为编剧创造更多的角色。“编剧必须构建背景故事和叙事,同时开发强大的测试集。为了确保生成的AI NPC能够自信地融入一个数百万美元的游戏,需安排数百或数千次互动,最好由原始叙事作者设计。我们的平台要求用户提供 umfangreicher 的背景信息和文档,从而导致的写作量大大超过传统工作。”
这种观点在我们的对话中反复出现。Mukherjee不断强调,生成AI工具将需要更多艺术家进行有效训练。他认为,改进的AI有助于提升游戏质量,从而带动销售增长,提高为这些高端工具配音的演员的薪资。他的前景看法乐观,尤其在游戏行业正经历大规模裁员潮之际。
Mukherjee承认裁员的现实,但将生成AI的兴起看作是技术演变的自然一部分。他相信,创造者将需要适应与AI的合作,而不是把它视为威胁。
“你依然是创造者,主宰者和控制者。”他坚定地说。
在我们继续深入讨论时,我询问那些热衷于将游戏作为艺术表达的艺术家们。这是否真的就是建议他们转向成为AI工程师那么简单?Mukherjee反驳道,这在于认识艺术与技术的交汇。
“AI就像Adobe Photoshop或虚幻引擎这样的工具,”他解释道。“没错,在这些技术出现之前,游戏就已经存在,创作者依旧是在手工制作。但可以使用虚幻引擎创造出非凡的艺术作品吗?绝对可以。即便在AI生成的内容中,3D视频编辑的精致细节依然存在。工艺的本质依然在,只是通过更强大的工具得到了增强。你依旧是创造者,塑造你愿景的人。”
Mukherjee显然将AI视为艺术家的资产,而非替代品。他重申了AI依赖人类创造力的多个关键点,同时回应普遍的担忧。然而,数据使用的问题依然争议不断。批评者认为,AI模型在其工作上训练是对知识产权的窃取,而一些开发者则坚称,训练有效模型需要大量数据,包括受版权保护的材料。Mukherjee表示,当创作者的贡献塑造AI训练数据集时,应该给予他们补偿。
“必须建立一个系统,以确保对提供重要数据的个人给予公平的补偿,”他表示。“无论是《纽约时报》还是Reddit,适当的授权都是必要的。这是一个复杂的问题,但我相信这是我们需要追求的方向,特别是对于商业应用。”
关于Convai的数据使用实践,Mukherjee强调,公司仅使用拥有使用权的数据。他解释道,随机抓取所需的特定数据是不可能的,因为该技术正在开创一个新领域。然而,他迅速回应了这一论点中的一个悖论。
“我们使用来自OpenAI或持牌开源模型的基础模型。”他澄清道。“这些模型必须经过伦理来源和商业许可。我们在这些过程中十分仔细。实际上,我们的系统通常需要更多的配音演员,而非更少!”
提到OpenAI,引发了一些担忧,尤其是考虑到其目前因《纽约时报》针对其涉嫌“非法使用”写作的诉讼而面临的法律挑战。OpenAI承认,在不利用受版权保护材料的情况下,训练先进AI模型是困难的。由于Convai的模型是基于OpenAI的,我询问Mukherjee,如何保证没有版权内容参与其训练。
Mukherjee作出了微妙的区分:Convai并不是直接使用OpenAI的数据,而是利用基于这些数据开发的模型。他认为,既然Convai避免直接使用数据,便在版权问题上合规。然而,当被问及使用模型与可能涉及的受版权数据之间的区别时,他的解释变得不那么明确。
“哪个模型包含哪些数据是模糊的,”他承认。“我们没有这种清晰度。例如,如果OpenAI提供五个模型,Nvidia四个,Meta三个,我们只是使用最符合我们需求的模型,而不知道它们确切的数据来源。”
Mukherjee的推理暗示,Convai不承担其他模型管理数据的责任。他仅关注确保Convai的数据使用实践是伦理的,同时期望基础模型也同样合规。然而,他之前声称Convai将与最具伦理的模型合作,似乎与目前所用法律问题突显出矛盾。
这些复杂的讨论也许可以解释Nvidia最初为何对数据使用问题不愿提供明确答案。事实是,所有这些技术都是建立在彼此之上的。Ace依赖于由Convai开发,而Convai又基于OpenAI的工作——这一层层结构使得在较低层次上识别数据来源变得具有挑战性。Nvidia声明“没有简单的答案”关于数据使用确实是准确的,但更诚实的解释可能是,他们对整个系统并没有全面的了解。尽管Nvidia不太可能面临法庭审查,OpenAI的一次重大法律失败可能会产生深远的后果。
随着我们揭示这些复杂的细节,我提出了关于监管的话题:政府是否应该出台指导方针来规范AI技术?Mukherjee承认需要一定的规制,但强调必须采取适度的方法。他担心过度限制可能会扼杀创新,并始终相信,AI的好处大于其潜在的缺点。
“今天的AI是什么?可以把它想象成汽车,”他比较道。“汽车可能很危险,事故可能随时发生。然而,鉴于整体利益显著,我们每天都在驾驶它。我对待AI的看法也是如此。我们需要对其使用进行规制,正如我们对驾驶车辆的规定一样。对误用者将会有法律后果。”
改变是不可避免的,而改变往往伴随不适。
尽管有些让人担忧的比喻,Mukherjee依然对AI持乐观态度。他坚信,只要公司继续关注人类福祉,AI将为社会带来实质性的好处。他设想的未来是,像Nvidia Ace这样的工具将加固艺术家的才能,而非取代他们。如同他所认识到的,适应变化是必要的。
“变化将会发生,并将影响人们。”Mukherjee承认。“这让人想起了过去的技术变革。在每次重大变化中,新的工作机会会出现,旧的职位可能会消失。比如从马车转向汽车,参与马产业的人必须进行转型。生成AI将为创造力和创新开辟新天地,它有可能惠及整个社会,同时也需要对传统就业进行调整。”
在我们访谈的结束时,Mukherjee对有机会澄清关于Convai的误解表示感谢。他指出,围绕Nvidia Ace的媒体报道忽视了他公司的贡献。在他的语调中,带着一丝沮丧,寻求应有的认可。当我反思这一情况的讽刺时,联想到了艺术家们目睹自己作品被AI工具剥削的经历。
“这是一个引人深思的观察!”他笑着回应,似乎对此问题有了新的认识。