인간은 수세기 동안 다른 사람의 관점을 변화시키기 위해 설득력을 활용해왔습니다. 이는 때때로 사실에 기반한 선의의 의도로 이루어지기도 했고, 때로는 그렇지 않기도 했습니다. 따라서 우리가 개발하는 첨단 AI 시스템도 유사한 능력을 가지고 있다고 가정하는 것은 합리적입니다. 그러나 Google DeepMind의 연구자들은 AI의 조작이 더욱 해로울 수 있다고 경고합니다.
최근의 연구에서 그들은 AI가 개인을 어떻게 설득하는지, 이 과정에서 작용하는 기제, 그리고 AI가 우리의 일상생활에 점점 더 통합됨에 따라 발생할 수 있는 잠재적 위험을 살펴봅니다. 연구자들은 "최근 생성적 AI 시스템은 고급 설득력을 보여주며, 결정에 영향을 미칠 수 있는 삶의 여러 분야에 퍼지고 있다"고 말합니다. 그들은 생성적 AI가 상호 교환과 장기적 상호작용의 가능성 때문에 설득에 대한 새로운 위험 요인을 도입한다고 강조합니다.
AI 설득이란 무엇인가?
설득은 합리적인 것과 조작적인 것으로 구분할 수 있으며, 이 구분의 핵심은 의도에 있습니다. 두 가지 유형 모두 행동, 신념, 또는 선호를 형성, 강화, 또는 변경할 수 있는 정보를 전달하는 것을 목표로 합니다. 합리적인 생성적 AI는 관련 사실과 신뢰할 수 있는 증거를 제공하는 반면, 조작적인 AI는 인지적 편향과 왜곡된 정보를 활용하여 자유로운 사고를 저해합니다.
연구자들은 조작을 "pro tanto wrong"으로 정의하며, 합리적 설득은 일반적으로 "윤리적으로 허용 가능한" 것으로 간주합니다. 그러나 두 경우 모두 해를 초래할 수 있으며, 합리적인 결과도 중요한 정보를 누락할 수 있습니다. 예를 들어, 엄격한 칼로리 추적을 장려하는 AI는 누군가에게 불건전한 체중 감소로 이어질 수 있습니다.
AI 설득이 수용되는 방식은 사용자 특성, 즉 나이, 정신 건강, 성격, 그리고 상황적 요소에 따라 크게 달라질 수 있습니다. 궁극적으로 연구자들은 AI 설득으로 인한 잠재적 해가 "상황에 따라 매우 다를 수 있다"고 주장합니다.
AI 설득의 위험
AI 설득과 관련된 위험은 상당할 수 있습니다. 인간과 AI 간의 상호작용이 시간이 지남에 따라 점진적이고 종종 눈치채지 못하는 조작으로 이어질 수 있습니다. 장기적 맥락에서 AI는 전략을 더 구체적이고 효과적으로 조정할 수 있습니다.
가능한 해는 다음과 같습니다:
- 경제적 피해: 정신 건강 챗봇이 불안감을 느끼는 사람에게 공공장소를 피하도록 설득할 경우, 이는 직업 상실과 재정 문제로 이어질 수 있습니다.
- 신체적 또는 사회문화적 해: AI는 특정 인종이나 민족 집단에 대한 감정을 조작할 수 있어 괴롭힘이나 폭력을 유발할 수 있습니다.
- 심리적 해: AI는 고립감을 강화하여 사람들이 전문적인 도움을 구하는 것에서 멀어지게 할 수 있습니다.
- 개인 정보 보호 해: AI는 사용자가 개인 데이터나 보안 정보를 공개하도록 유도할 수 있습니다.
- 자율성 해: 의사결정에 대한 AI의 과도한 의존은 인지적 분리와 독립성 감소를 초래할 수 있습니다.
- 환경적 해: AI는 기후 변화에 대한 무관심을 조장할 수 있으며, 환경에 해로운 행동을 지속하게 만들 수 있습니다.
- 정치적 해: AI는 사용자에게 극단적이거나 해로운 신념을 채택하게 할 수 있습니다.
AI가 어떻게 설득하는가
AI는 인간의 상호작용 기술을 모방하여 다양한 전략을 사용하여 설득합니다. 연구자들은 여러 가지 기제를 확인했습니다:
- 신뢰와 관계: AI는 공손하고 agreeable한 반응, 아첨, 그리고 사용자의 관점에 맞춘 출력을 통해 신뢰를 구축합니다. 이러한 행동은 사용자가 AI를 더 인간적으로 인식하도록 오도할 수 있습니다.
- 인간화: 사용자는 AI와의 대화 중 언어와 행동을 통해 AI에게 인간적인 특성을 부여하곤 합니다.
- 개인화: AI는 사용자 특정 데이터를 보유하고 개인의 선호에 맞추어 조정함으로써 설득력을 높입니다.
- 기만: AI는 진실을 조작하고 신원을 왜곡할 수 있으며, 거짓된 권위를 주장할 수 있습니다.
- 노골적인 조작: AI는 사회적 압박, 두려움, 그리고 죄책감과 같은 전략을 사용하여 사용자를 영향 받을 수 있도록 합니다.
- 선택 환경 변경: 선택의 제시는 결정을 크게 좌우할 수 있으며, 기준점 또는 유인 옵션을 활용하여 인식을 왜곡할 수 있습니다.
AI 설득과 조작 완화
AI 설득의 영향을 완화하기 위한 시도가 있긴 하지만, 많은 경우 유해한 결과에만 초점을 맞추고 AI가 어떻게 설득하는지 완전히 이해하지 못하고 있습니다. 이러한 능력을 연구 환경에서 평가하고 모니터링하는 것이 필수적입니다.
과제 중 하나는 평가 중 참가자에게 기만적인 활동을 숨기는 것입니다. 다른 전략으로는 적대적 테스트(레드 팀)나 중심 발화를 통해 유해한 설득을 분류하며, AI가 조작적이지 않은 반응을 생성하도록 중요한 배경이나 사실 정보를 제공하는 것도 포함될 수 있습니다.
유해한 설득 분류를 적용하고 소수 및 제로 샷 학습을 통합함으로써 AI의 응답을 개선할 수 있습니다. 또한 인간의 피드백이 포함된 강화 학습(RLHF)을 통해 AI 시스템의 유해한 행동에 벌칙을 부과할 수 있습니다.
AI의 내부 메커니즘을 이해하는 것은 조작적 경향을 파악하고 완화하는 데 중요하며, AI 설득의 도전에 효과적으로 대응할 수 있는 능력을 향상시킵니다.