최근 노스캐롤라이나대학교 채플힐 캠퍼스와 앨런 인공지능 연구소의 공동 연구에 따르면, OpenAI의 최신 챗봇 GPT-4o가 윤리적 추론 및 조언에서 인간 전문가를 능가하는 것으로 나타나 AI의 도덕적 추론 분야에서의 적용에 대한 광범위한 논의를 촉발하고 있습니다.
연구팀은 GPT 모델과 인간 참가자 간의 도덕적 추론 능력 차이를 비교하기 위해 두 가지 실험을 진행했습니다. 첫 번째 실험에서는 501명의 미국 성인이 GPT-3.5-turbo 모델의 윤리적 설명과 인간의 설명을 비교했습니다. 결과는 GPT의 설명이 더 이성적이고 신뢰할 수 있으며 깊이 있는 것으로 평가되었고, 참가자들은 AI의 평가를 인간 전문가보다 더 신뢰할 수 있는 것으로 보았습니다. 비록 차이는 미미했지만, 이는 AI의 도덕적 추론 능력이 인간에 비견될 수 있음을 시사합니다.
두 번째 실험에서는 GPT-4o가 뉴욕타임스 "윤리학자" 칼럼에 등장하는 유명 윤리학자 Kwame Anthony Appiah의 조언과 비교되었습니다. 50개의 윤리적 딜레마에 대한 조언 품질 평가에서 GPT-4o는 거의 모든 기준에서 인간 전문가보다 높은 점수를 받았습니다. 참가자들은 AI가 생성한 추천을 더 도덕적으로 정확하고 신뢰할 수 있으며 깊이 있다고 압도적으로 인식했습니다. 유일하게 두 그룹 간의 유의미한 차이가 없었던 부분은 뉘앙스 인식에서, AI와 인간 모두 비슷한 성과를 보였습니다.
연구진은 이러한 결과가 GPT-4o가 "비교 도덕적 튜링 테스트"(cMTT)를 통과했음을 나타낸다고 강조합니다. 추가 분석에 따르면, GPT-4o는 인간 전문가보다 조언 시 더 많은 도덕적이고 긍정적인 언어를 사용하여 높은 평가에 기여했을 가능성이 있지만, 이것이 유일한 요인은 아닙니다. 향후 연구는 AI의 도덕적 추론 가능성을 깊이 있게 탐구해야 합니다.
이번 연구는 미국 참가자에게 한정되었으므로, 다양한 문화적 맥락에서 AI의 도덕적 추론에 대한 관점을 탐구할 필요성이 있습니다. 그럼에도 불구하고 이 발견은 AI의 도덕적 의사결정에서의 역할을 강력히 뒷받침하며, AI의 윤리적 책임과 규제에 대한 심도 있는 논의로 이어질 수 있습니다.
AI 기술이 계속 발전함에 따라, 도덕적 추론에서의 응용은 점점 더 보편화될 것입니다. AI의 윤리적 의사결정 능력은 의료 진단, 자율 주행 차량, 소셜 미디어 콘텐츠 moderation 등 다양한 분야에 중대한 영향을 미칠 것입니다. 따라서, AI의 윤리적 의미를 다루고 안전성과 신뢰성을 보장하기 위한 적절한 정책과 기준을 마련하는 것이 필수적입니다.