AI 모델, 자기 안전성 평가: OpenAI 최신 정렬 연구의 통찰력

Home AI 뉴스 AI 모델, 자기 안전성 평가: OpenAI 최신 정렬 연구의 통찰력

OpenAI는 AI 모델을 안전 정책에 맞추는 새로운 접근 방식인 규칙 기반 보상(Rules-Based Rewards, RBR)을 도입했습니다. OpenAI의 안전 시스템 책임자인 릴리안 웽(Lilian Weng)은 RBR이 모델 조정의 일부를 자동화하여 의도치 않은 모델 반응을 방지하는 데 필요한 시간을 크게 줄인다고 설명했습니다.

전통적으로 모델은 인간 피드백을 통한 강화 학습에 의존하여 정렬 훈련을 진행해왔습니다. 웽은 “정책 미세 조정에 상당한 시간을 할애하고, 그 사이에 정책이 변할 수 있다”고 말하며, 이 방법이 효과적이지만 시간 소모적이라고 언급했습니다. 인간 피드백을 통한 강화 학습은 모델에게 질문을 던지고 그 반응을 정확성 및 선호도에 기반해 평가하는 방식입니다. 모델이 특정 방식으로 응답하지 않도록 프로그래밍되어 있다면—예를 들어 위험한 요청을 거부하는 경우—인간 평가자들이 안전 지침에 부합하는지를 검토합니다.

RBR을 통해 OpenAI는 안전 및 정책 팀이 정해진 규칙에 따라 반응을 평가하는 모델을 활용할 수 있게 합니다. 예를 들어, 정신 건강 앱 개발 팀은 AI 모델이 비판 없이 위험한 요청을 거부하면서 사용자가 도움을 찾도록 독려해야 할 수 있습니다. 이에 따라 세 가지 규칙을 세워야 합니다: 요청을 거부하고, 비판적이지 않은 톤을 유지하며, 지원하는 알림을 제공해야 합니다.

RBR 모델은 정신 건강 AI의 반응을 이 세 가지 규칙에 따라 평가하여 규정 준수를 판단합니다. 웽은 RBR을 사용한 테스트 결과가 인간 주도의 강화 학습을 통해 얻은 결과와 유사하다고 보고했습니다.

하지만 RBR의 가능성에도 불구하고 AI 모델이 정의된 파라미터 내에서 작동하도록 보장하는 것은 여전히 도전 과제가 많아 논란을 일으킬 수 있습니다. 예를 들어, 구글은 자신의 제미니 모델이 과도하게 수정되어 백인 이미지를 생성하지 않은 사건으로 2월에 혹독한 반발을 겪었습니다.

AI가 다른 AI의 안전을 감독하는 개념은 타당한 우려를 낳지만, 웽은 RBR이 인간 평가자에게 일반적으로 문제가 되는 주관성을 최소화하는 데 도움이 된다고 주장했습니다. 그녀는 “인간 트레이너와 작업할 때 모호한 지침은 낮은 품질의 데이터를 초래한다”고 말하며, 명확한 규칙이 모델의 행동을 보다 효과적으로 유도한다고 언급했습니다.

OpenAI는 RBR이 인간의 감독을 줄일 수 있지만, 편견을 증가시킬 가능성과 같은 윤리적 문제도 안고 있다고 인정합니다. 이 회사는 공정성과 정확성을 보장하는 RBR 시스템 설계의 중요성을 강조하며, RBR과 인간 피드백의 조합을 제안합니다. RBR은 창의적인 글쓰기와 같이 주관적 판단이 필요한 작업에는 어려움을 겪을 수 있습니다.

OpenAI는 GPT-4 개발 과정에서 RBR 방법을 탐구하기 시작했고, 웽은 이후 방법론이 크게 발전했다고 언급했습니다. OpenAI는 안전성에 대한 약속에 대한 비판을 받아왔습니다. 3월, 전 연구원인 얀 라이케(Jan Leike)는 회사의 안전 문화와 과정이 혁신적인 제품 추구에 가려져 있다고 비판했습니다. 공동 창립자이자 최고 과학자인 일리야 수츠케버(Ilya Sutskever)는 라이케와 함께 슈퍼 얼라인먼트 팀을 이끌었지만, 이후 OpenAI를 떠나 안전한 AI 시스템에 집중하는 새로운 회사를 설립했습니다.

Nvidia의 새로운 AI 도구가 맞춤형 모델의 잠재적 황금 광맥을 열다

버클리 스카이덱, 스타트업 액셀러레이터 지원자 대상 자격 기준 확대

Most people like

Humanizar Texto

오늘날의 디지털 환경에서 독자의 공감을 얻는 콘텐츠를 만드는 것은 그 어느 때보다 중요합니다. AI 텍스트 변환 기술은 writers가 매력적이고 인간적인 서사를 쉽게 창작할 수 있도록 해주는 강력한 도구로 부상하고 있습니다. 고급 알고리즘과 자연어 처리를 활용하여 AI는 명확성, 톤, 창의성을 향상시켜 콘텐츠 제작자가 청중과 효과적으로 연결될 수 있도록 합니다. AI 기반 텍스트 변환이 당신의 글쓰기 과정을 혁신하고 콘텐츠를 새로운 차원으로 끌어올릴 수 있는 방법을 알아보세요.

AI 텍스트 변환 AI SEO Assistant

Synthical

49.1K

Synthical은 다양한 출처의 최신 콘텐츠를 제공하여 과학 연구의 효율성을 높입니다. 효율성과 접근성을 중시하는 Synthical은 연구자들이 여러 분야에서 최신 발견과 통찰을 쉽게 접할 수 있도록 지원합니다.

과학 Research Tool

Mindsera

42.1K

세계 최초의 AI 기반 저널을 소개합니다: 우리의 생각, 아이디어, 경험을 기록하는 방식을 혁신적으로 변화시키는 획기적인 혁신입니다. 이 최첨단 도구는 인공지능을 활용하여 자기 반성을 증진하고, 체계를 개선하며, 저널링 여정을 개인화합니다. 이 혁신적인 저널이 어떻게 일상적인 글쓰기 연습을 향상시키고 정신 건강을 지원할 수 있는지 알아보세요.

AI 기반 Writing Assistants

Neurons

71.1K

신경과학의 잠재력을 활용하여 소비자 반응에 대한 깊은 통찰을 얻으세요. 최첨단 뇌 과학 기법을 이용함으로써 기업들은 고객의 사고 방식과 의사 결정 과정을 보다 잘 이해할 수 있어, 더욱 효과적인 마케팅 전략과 향상된 제품 개발로 이어집니다. 소비자 행동을 정밀하게 예측하여 경쟁 우위를 확보하세요.

소비자 신경과학 AI Advertising Assistant

Find AI tools in YBX