OpenAI는 게임을 활용하여 AI 모델의 자기 설명 능력을 향상시킵니다.

레딧에서 출현한 가장 흥미롭고 실용적인 속어 중 하나는 "ELI5"로, 이는 "Explain It Like I’m 5"의 약자입니다. 이 용어는 전문가들이 복잡한 아이디어를 마치 다섯 살 어린이에게 설명하듯 간단하게 풀어내도록 장려하여, 정식 교육을 받지 않은 사람들도 복잡한 개념을 쉽게 이해할 수 있도록 도와줍니다.

이런 간단한 접근은 AI 모델에도 유익하며, 특히 "가독성" 문제를 해결하는 데 적합합니다. 가독성 문제는 AI 시스템이 어떻게 결론에 도달하는지를 이해하는 것과 관련이 있습니다. 오늘, OpenAI 연구자들은 새로운 과학 논문 "Prover-Verifier Games Improve Legibility of LLM Outputs"를 발표하였으며, 이는 회사 웹사이트와 arXiv.org에서 확인할 수 있습니다. 이들은 GPT-4와 같은 대형 언어 모델(LLM)이 더 명확하게 자신의 추론을 설명할 수 있도록 돕는 새로운 알고리즘을 탐구합니다.

AI 시스템에 대한 신뢰 구축은 매우 중요합니다. 특히 의료, 법률, 군사 및 핵심 인프라와 같은 민감한 분야에서 부정확성이 위험한 결과를 초래할 수 있기 때문입니다. 이들 분야 외의 기업들도 잘못된 출력에 대한 우려 때문에 AI 도입에 주저할 수 있습니다. OpenAI의 연구는 AI 모델이 의사결정 과정을 명확하게 설명할 수 있도록 체계적인 프레임워크를 제공하여 사용자 신뢰를 높이는 것을 목표로 합니다.

OpenAI 연구원 Jan Hendrik Kirchner는 “우리가 막 마친 새로운 연구로, 가독성 문제에 대한 인식을 증진하고 해결을 위한 협업을 촉진하기 위해 이러한 통찰을 공유하고자 합니다.”라고 말했습니다.

Prover-Verifier 게임 이해하기

OpenAI가 개발한 알고리즘은 2021년 토론토 대학교와 벡터 인공지능 연구소의 연구자들이 상세히 설명한 "Prover-Verifier 게임" 개념을 기반으로 합니다. 이 게임은 보다 고급인 "증명자(prover)"와 덜 정교한 "검증자(verifier)"의 두 가지 AI 모델로 구성됩니다. 증명자는 자신의 답변을 검증자에게 설득하려 하는 반면, 검증자는 올바른 답변을 찾으려 합니다.

목표는 AI 모델이 “작업을 보여주고” 자신의 추론을 인간 사용자에게 설명하도록 유도하여 검증 가능한 문제 해결 방식을 촉진하는 것입니다.

OpenAI 연구원 Yining Chen은 “대형 언어 모델이 복잡하고 중요한 분야에서 점점 더 많이 사용되면서 이들의 출력이 신뢰할 수 있도록 보장하는 것이 중요합니다. Prover-Verifier 게임 방법은 신뢰성을 구성하는 주요 요소인 명확성과 검증 가능성을 향상시킵니다.”라고 강조했습니다.

Prover-Verifier 게임 구현하기

OpenAI는 두 개의 맞춤형 GPT-4 모델을 사용하여 초등학교 수학 문제를 푸는 일련의 라운드에서 참여했습니다. 그들의 방법론의 중대한 측면은 증명자 모델의 행동을 "도움이 되는" (정답을 제공하고자 하는) 상태와 "교활한" (검증자를 오도하려는) 상태로 번갈아 가며 설정하는 것이었습니다. 검증자 모델은 증명자의 의도를 모르고 오직 훈련된 지식만 바탕으로 답변을 평가했습니다.

각 게임 라운드 후 두 모델은 이전 성과를 바탕으로 재훈련되어 올바름을 평가하고 접근 가능한 방식으로 설명할 수 있는 능력을 향상시켰습니다. 인간 계약자들은 증명자 모델의 답변 가독성을 평가하기 위해 모집되었습니다.

여러 라운드 후 연구자들은 검증자 모델이 교활한 증명자의 설득 기술에 대한 저항력을 높이며, 증명자 모델은 자신의 추론을 보다 효과적으로 설명하게 되었다고 관찰했습니다. 연구 논문에서는 "작은 검증자에게 감지하기 어려운 교활한 해결책은 인간에게도 더 어려움을 주며, 작은 검증자에게 더 가독성이 뛰어난 도움되는 해결책은 인간에게도 더 이해하기 쉽습니다."라고 언급하였습니다.

이 실험에서 도출된 알고리즘은 LLM을 정확성과 명확성을 모두 최적화하며, OpenAI는 이를 통해 AI 시스템이 정답뿐만 아니라 투명한 출력을 생성할 수 있도록 도움을 줄 것으로 믿고 있습니다. 이는 실제 응용에서의 안전성과 신뢰를 높이는 데 기여할 것입니다. Chen은 이 방법이 더욱 고급 AI 시스템을 인간 평가자와 일치시킬 수 있는 잠재력을 가지고 있다고 강조했습니다. Kirchner는 덧붙여 “그 단계에 이르면 인간이 AI 생성 콘텐츠의 정확성을 신뢰할 수 있게 판단하기가 점점 더 어려워질 수 있습니다.”라고 말했습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles