AI 모델, 자기 안전성 평가: OpenAI 최신 정렬 연구의 통찰력

OpenAI는 AI 모델을 안전 정책에 맞추는 새로운 접근 방식인 규칙 기반 보상(Rules-Based Rewards, RBR)을 도입했습니다. OpenAI의 안전 시스템 책임자인 릴리안 웽(Lilian Weng)은 RBR이 모델 조정의 일부를 자동화하여 의도치 않은 모델 반응을 방지하는 데 필요한 시간을 크게 줄인다고 설명했습니다.

전통적으로 모델은 인간 피드백을 통한 강화 학습에 의존하여 정렬 훈련을 진행해왔습니다. 웽은 “정책 미세 조정에 상당한 시간을 할애하고, 그 사이에 정책이 변할 수 있다”고 말하며, 이 방법이 효과적이지만 시간 소모적이라고 언급했습니다. 인간 피드백을 통한 강화 학습은 모델에게 질문을 던지고 그 반응을 정확성 및 선호도에 기반해 평가하는 방식입니다. 모델이 특정 방식으로 응답하지 않도록 프로그래밍되어 있다면—예를 들어 위험한 요청을 거부하는 경우—인간 평가자들이 안전 지침에 부합하는지를 검토합니다.

RBR을 통해 OpenAI는 안전 및 정책 팀이 정해진 규칙에 따라 반응을 평가하는 모델을 활용할 수 있게 합니다. 예를 들어, 정신 건강 앱 개발 팀은 AI 모델이 비판 없이 위험한 요청을 거부하면서 사용자가 도움을 찾도록 독려해야 할 수 있습니다. 이에 따라 세 가지 규칙을 세워야 합니다: 요청을 거부하고, 비판적이지 않은 톤을 유지하며, 지원하는 알림을 제공해야 합니다.

RBR 모델은 정신 건강 AI의 반응을 이 세 가지 규칙에 따라 평가하여 규정 준수를 판단합니다. 웽은 RBR을 사용한 테스트 결과가 인간 주도의 강화 학습을 통해 얻은 결과와 유사하다고 보고했습니다.

하지만 RBR의 가능성에도 불구하고 AI 모델이 정의된 파라미터 내에서 작동하도록 보장하는 것은 여전히 도전 과제가 많아 논란을 일으킬 수 있습니다. 예를 들어, 구글은 자신의 제미니 모델이 과도하게 수정되어 백인 이미지를 생성하지 않은 사건으로 2월에 혹독한 반발을 겪었습니다.

AI가 다른 AI의 안전을 감독하는 개념은 타당한 우려를 낳지만, 웽은 RBR이 인간 평가자에게 일반적으로 문제가 되는 주관성을 최소화하는 데 도움이 된다고 주장했습니다. 그녀는 “인간 트레이너와 작업할 때 모호한 지침은 낮은 품질의 데이터를 초래한다”고 말하며, 명확한 규칙이 모델의 행동을 보다 효과적으로 유도한다고 언급했습니다.

OpenAI는 RBR이 인간의 감독을 줄일 수 있지만, 편견을 증가시킬 가능성과 같은 윤리적 문제도 안고 있다고 인정합니다. 이 회사는 공정성과 정확성을 보장하는 RBR 시스템 설계의 중요성을 강조하며, RBR과 인간 피드백의 조합을 제안합니다. RBR은 창의적인 글쓰기와 같이 주관적 판단이 필요한 작업에는 어려움을 겪을 수 있습니다.

OpenAI는 GPT-4 개발 과정에서 RBR 방법을 탐구하기 시작했고, 웽은 이후 방법론이 크게 발전했다고 언급했습니다. OpenAI는 안전성에 대한 약속에 대한 비판을 받아왔습니다. 3월, 전 연구원인 얀 라이케(Jan Leike)는 회사의 안전 문화와 과정이 혁신적인 제품 추구에 가려져 있다고 비판했습니다. 공동 창립자이자 최고 과학자인 일리야 수츠케버(Ilya Sutskever)는 라이케와 함께 슈퍼 얼라인먼트 팀을 이끌었지만, 이후 OpenAI를 떠나 안전한 AI 시스템에 집중하는 새로운 회사를 설립했습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles