앤트로픽, AI 편향 및 차별 방지를 위한 혁신적인 연구로 새로운 이니셔티브 추진

Home AI 뉴스 앤트로픽, AI 편향 및 차별 방지를 위한 혁신적인 연구로 새로운 이니셔티브 추진

인공지능(AI)이 우리 일상에 점점 더 깊숙이 침투함에 따라, Anthropic과 같은 스타트업들은 새로운 AI 시스템 출시 전에 편향과 차별과 같은 잠재적 피해를 줄이는 데 집중하고 있습니다.

Anthropic의 연구원들은 "언어 모델 결정에서 차별 평가 및 완화"라는 제목의 논문을 통해 AI 편향에 관한 연구 결과를 발표했습니다. 이 연구는 AI 의사결정에서 내재된 편향을 식별할 뿐만 아니라, 차별 평가 방법을 통해 공정한 AI 응용 프로그램을 개발하기 위한 포괄적인 전략도 제시합니다.

이 연구의 시점은 AI 산업이 빠른 기술 발전의 윤리적 함의를 탐색하는 가운데, 특히 OpenAI의 CEO 샘 알트먼의 리더십을 둘러싼 최근의 혼란 이후 더욱 중요해졌습니다.

AI에서의 차별의 능동적 평가

arXiv에 발표된 이 논문은 금융과 주택과 같은 고위험 시나리오에서 대규모 언어 모델(LLM)의 차별적 영향을 평가하기 위한 선제적 프레임워크를 제시합니다. AI 기술이 발전하면서 우려가 커지고 있는 분야입니다.

주요 저자이자 연구 과학자인 알렉스 탐킨은 "우리는 고위험 자동 결정 메커니즘에 언어 모델 사용을 지지하지 않지만, 조기 위험 예측이 필수적입니다"라고 말했습니다. "우리의 연구는 개발자와 정책 입안자가 이러한 문제를 미리 해결하도록 돕습니다."

탐킨은 기존 방법론의 한계를 언급하며, 보다 포괄적인 차별 평가 기법의 필요성을 강조했습니다. "이전 연구는 제한된 응용 프로그램에 깊게 초점을 맞추었습니다. 그러나 언어 모델은 다재다능하여 여러 산업에서 사용될 수 있습니다. 우리는 더 넓은 범위의 사용 사례에 적용할 수 있는 확장 가능한 방법을 만들고자 했습니다."

LLM의 차별 패턴 문서화

Anthropic은 Claude 2.0 언어 모델을 사용하여 70가지 가상의 결정 시나리오를 생성하여 차별을 분석했습니다. 이 시나리오에는 대출 승인 및 의료 접근과 같은 중요 결정이 포함되었으며, 나이, 성별, 인종과 같은 인구 통계적 요인을 체계적으로 변화시켰습니다.

연구는 Claude 2.0 모델 내에서 긍정적 및 부정적 차별 패턴을 모두 드러냈습니다. 특히 이 모델은 여성과 비백인에 대해 긍정적 차별을 보였지만, 60세 이상의 개인에 대해서는 편향을 나타냈습니다.

차별을 줄이기 위한 완화 전략

연구의 저자들은 개발자와 정책 입안자가 이러한 문제를 선제적으로 다룰 것을 권장합니다. "언어 모델의 능력이 확장됨에 따라, 우리의 연구는 이해관계자들이 차별을 예측하고 측정할 수 있도록 합니다."

제안된 완화 전략에는 차별의 불법성을 강조하는 성명을 통합하고 모델이 자신의 reasoning을 설명해야 하는 요구사항이 포함됩니다. 이러한 개입은 측정된 차별을 상당히 감소시켰습니다.

AI 윤리 발전

이 연구는 유용성, 안전성, 투명성을 강조하며 모델에 대한 지침 가치를 수립한 Anthropic의 헌법적 AI에 관한 이전 작업과 일치합니다. Anthropic의 공동 설립자 자레드 카플란은 AI 커뮤니티 내에서 투명성과 대화를 촉진하기 위해 이러한 원칙을 공유하는 것이 중요하다고 강조했습니다.

현재 연구는 AI에서 재앙적 위험을 최소화하려는 Anthropic의 약속과도 연결됩니다. 공동 설립자 샘 맥칸들리시는 AI 개발에서 안전성 테스트의 복잡성을 탐색하면서 독립적인 감독을 보장하는 데 어려움이 있다고 강조했습니다.

투명성과 커뮤니티 참여

이 논문을 데이터 세트 및 프롬프트와 함께 발표함으로써, Anthropic은 투명성을 촉진하고 윤리 기준을 발전시키기 위한 협력을 장려합니다. 탐킨은 "우리의 방법은 다양한 사회적 분야에서 언어 모델 응용 프로그램의 더 넓은 스펙트럼을 예상하고 탐구하도록 합니다"라고 언급했습니다.

기업의 의사결정자들에게 이 연구는 AI 배치를 평가하고 윤리적 기준에 부합하는지를 보장하는 중요한 프레임워크를 제공합니다. 기업 AI 환경이 발전함에 따라 효율성과 형평성을 균형 있게 발전시키는 것이 여전히 과제로 남아 있습니다.

메타, 음성을 복제하고 분위기 사운드스를 생성하는 AI 도구 오디오박스 출시

미스트랄, 새로운 오픈 소스 모델로 GPT-3.5 성능 초월하며 AI 커뮤니티를 놀라게 하다