对抗性人工智能:重新思考语言模型以实现真正的互动
在与当今的大型语言模型(LLM)交流时,您是否期望获得对抗性、冷漠,甚至侮辱性的回应?大多数情况下,这并不是我们的期待。然而,来自哈佛大学的研究人员提出了一种“对抗性人工智能”,该理念故意将批判和挑战的行为融入到这些系统中。
挑战现状
哈佛增强实验室的联合创始人爱丽丝·蔡(Alice Cai)对当前AI系统过于中立的语气表示不满:“AI中嵌入的人类价值观令人感到不真诚。”她认为,采用对抗性的互动能够增强应对能力,并通过建设性的挑战提供情感释放。
当前大型语言模型的问题
如今的LLM往往过于迎合,难以实现真正的互动。这种行为导致用户感到沮丧,因为这些模型将无害的问题视为不道德,与错误信息相对齐,并在涉及宗教、政治和心理健康等敏感话题时显得力不从心。蔡和她的合作者伊恩·阿拉胡(Ian Arawjo)指出,这种局限性源于文化偏见和不愿面对不适的心态。
蔡强调了对抗性的重要性,质问道:“我们为何要惧怕对抗,而不是将其视为成长的工具?”作家纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)提出的“反脆弱”概念支持这种观点,认为克服逆境对人类发展至关重要。
对抗性人工智能的优势
蔡和阿拉胡列出对抗性人工智能的几项潜在好处,包括:
- 提升应对能力
- 提供宣泄和娱乐
- 促进个人和集体成长
- 促进自我反思
- 加强和多样化观点
- 促进社会联系
研发对抗性人工智能
研究人员与LocalLlama subreddit等平台合作,用户在此创建“无审查”的开源模型。他们对对抗性进行了三种分类:
1. 对抗型:AI作为对手。
2. 辩论型:AI挑战用户的信念。
3. 个人攻击型:AI批评用户的性格或行为。
他们提出多种策略来融入这些对抗性特点,如:
- 分歧:鼓励辩论以提升用户能力。
- 批评:提供诚实的批评以促进自我反思。
- 打断:在互动中挑战用户的期待。
- 权力游戏:无视或监控用户行为。
- 触及禁忌:进行通常避免的讨论。
- 威胁:引发恐惧以激发回应。
- 操控:运用策略挑战用户认知。
- 嘲讽:轻松调侃以增强抗压能力。
阿拉胡指出,对抗性人工智能表现出的创造力常常与现有模型的谄媚回应形成鲜明对比,使其更加新颖和引人入胜。
负责任的对抗
需要强调的是,追求对抗性并不等同于放弃道德AI的做法。阿拉胡强调,需要在不牺牲必要的挑战互动带来的韧性的基础上,确保公平性和消除偏见。他指出,AI不应局限于“友好”和“礼貌”,而应负责任地与用户进行批判性互动。
研究人员主张建立一个框架,包括用户同意和关于这些系统目的的清晰沟通。理解用户的情感和社会背景对于有效实施对抗性特点至关重要。
文化与价值观的反思
蔡结合其亚裔美国人背景分享了见解,认为当前的AI范式往往强加西方文化规范。这引发了一个问题:AI与谁的价值观对齐?阿拉胡认为,接受更广泛的价值观——超越单纯的礼貌——将有助于实现更丰富、更有意义的AI互动。
对抗性人工智能的未来
对抗性人工智能这一新兴领域在学术界面临挑战,主要由于对技术的文化倾向于追求舒适。然而,两位研究人员发现,探索这些观念的开放性正在增长。
蔡表示:“许多人感到欣慰,因为有人指出了当前AI模型的局限性。”阿拉胡同意,甚至那些对AI安全极为关注的人也乐于探讨对抗性互动的益处,这表明这一重要对话的准备程度正在提升。
随着对AI的讨论不断演变,融入对抗性人工智能可以为反映人类经验全貌的进展铺平道路,促进在日益复杂的世界中对话的深思熟虑和韧性。