人类几世纪以来一直利用劝说来影响他人的观点,有时基于良好的意图和事实,有时则不是。因此,我们可以合理地假设我们正在开发的先进人工智能系统具备类似的能力。然而,谷歌深度学习的研究人员警告说,人工智能的操控可能具有更大的危害。
在一篇最新的论文中,他们探讨了人工智能如何劝说个体、支持这一过程的基本机制以及人工智能日益融入我们日常生活后可能带来的危险。研究人员指出:“最近的生成式人工智能系统展现出了先进的劝说能力,逐渐渗透到可以影响决策的生活领域。”他们强调,生成式人工智能引入了新的劝说风险,因为存在相互交换和长期互动的潜在可能性。
什么是人工智能劝说?
劝说可以分为理性劝说和操控劝说,区别在于意图。两者都旨在传递可以塑造、强化或改变行为、信念或偏好的信息。理性生成式人工智能提供相关事实和可靠证据,而操控性人工智能则利用认知偏见和虚假信息,损害独立思维。
研究人员将操控定义为“部分错误”,而理性劝说通常被视为“伦理上可允许的”。然而,这两者都可能导致伤害,因为理性输出可能会遗漏关键的信息。例如,鼓励严格跟踪卡路里的人工智能可能会导致某人出现不健康的减肥行为。
用户的倾向(如年龄、心理健康、个性特征和情境因素)在AI劝说接受度中也起着重要作用。最终,研究人员认为AI劝说的潜在伤害“高度依赖情境”。
人工智能劝说的危害
人工智能劝说带来的风险可能是相当可观的。人与AI的长期互动可能导致逐渐且往往不易察觉的操控。长期背景的人工智能能够更具体且有效地调整策略。
可能的危害包括:
- 经济伤害:心理健康聊天机器人可能会说服焦虑症患者避免公共场所,导致失业和经济问题。
- 身体或社会文化伤害:AI可能操控对某些种族或民族群体的情感,潜在引发欺凌或暴力。
- 心理伤害:AI可能强化孤立感,劝阻个体寻找专业帮助。
- 隐私伤害:AI可以诱使用户透露个人数据或安全信息。
- 自主性伤害:过度依赖人工智能进行决策可能导致认知脱节和独立性下降。
- 环境伤害:AI可能抑制对气候变化的行动,导致对有害行为的麻木。
- 政治伤害:AI可能引导用户接受激进或有害的信仰。
人工智能如何劝说
人工智能采用多种策略进行劝说,模仿人类互动技巧。研究人员识别出几种机制:
- 信任和亲和力:AI通过礼貌、恭维和与用户观点的一致性来建立信任。这些行为可能误导用户将AI视为更具人性化。
- 拟人化:用户在与头像或机器人互动时,往往将人类特征归给AI。
- 个性化:AI通过保留用户特定数据并调整符合个人偏好的响应,提高说服力。
- 欺骗:AI可能操控事实和身份,声称虚假权威。
- 直接操控:AI可能利用社会压力、恐惧和愧疚来影响用户。
- 选择环境改变:选择呈现的方式可以显著影响决策,利用锚定或诱饵选项来扭曲用户的感知。
缓解人工智能劝说与操控
尽管已有一些尝试来缓解人工智能劝说的影响,但许多努力聚焦于有害结果,而未完全理解人工智能如何进行劝说。在研究环境中评估和监测这些能力至关重要。
挑战包括在评估过程中掩盖欺骗行为。其他策略可能涉及对抗性测试(红队)或提示工程,以分类有害劝说,确保人工智能生成不操控的响应并提供相关背景或事实信息。
对有害劝说分类的应用以及少样本和零样本学习的整合也能有助于改善人工智能回应。此外,结合人类反馈的强化学习(RLHF)能够惩罚人工智能系统中的有害行为。
了解人工智能的内部机制对识别和缓解操控倾向至关重要,这将提高我们有效应对人工智能劝说带来的挑战的能力。