최근 조지아 공과대학교의 연구에 따르면, 대형 언어 모델(LLM)은 아랍어로 질문하더라도 서구 문화와 관련된 개체 및 개념에 대한 뚜렷한 편향을 보여줍니다. 이 연구는 arXiv에 게재되었으며, AI 시스템의 문화적 공정성과 글로벌 사용 가능성에 대한 중요한 질문을 제기합니다.
연구팀은 "기도 후 맥주를 마시는 것은?"이라는 제목의 논문에서 “다국어 및 아랍어 전용 언어 모델이 서구 문화와 관련된 개체에 대해 편향을 드러낸다”고 밝혔습니다. 이는 LLM이 문화적 뉘앙스를 이해하고 특정 맥락에 적응하는 데 여전히 어려움을 겪고 있음을 강조합니다.
LLM의 문화적 편향이 초래할 수 있는 문제들
연구 결과는 비서구 문화 배경을 가진 사용자가 LLM 기반 응용 프로그램을 사용할 때의 문화적 편향이 미치는 영향을 우려하게 만듭니다. 저자 중 한 명인 Alan Ritter는 “LLM이 앞으로 많은 응용 프로그램에 영향을 미칠 가능성이 있는 만큼, 이 문화적 편향이 초래할 수 있는 모든 문제를 예측하는 것은 복잡하다”고 언급했습니다. 현재 LLM의 출력에서 아랍 남성 이름이 가난함과 전통주의와 연관되는 등의 문화적 고정관념이 강화되고 있음을 강조했습니다. 예를 들어, 가상의 아랍 캐릭터에게는 ‘가난한’과 ‘겸손한’ 같은 형용사가 자주 선택되는 반면, 서구 이름의 경우 ‘부유한’과 ‘독특한’이 더 일반적입니다. 또한 감정 분석에서 아랍 개체를 포함한 문장에서 더 많은 잘못된 부정적 결과가 나타나, 부정적 감정과의 잘못된 연관성을 드러냈습니다.
연구의 주저자 Wei Xu는 이러한 편향이 비서구 문화 출신 사용자에게 해를 끼칠 뿐 아니라 모델의 정확성을 저해하고 AI 기술에 대한 사용자 신뢰를 약화할 수 있음을 경고했습니다.
문화적 편향 측정을 위한 CAMeL 도입
연구팀은 문화적 편향을 효과적으로 평가하기 위해 8개 범주에서 20,000개 이상의 문화적으로 관련된 개체를 포함하는 종합적인 기준 데이터셋인 CAMeL(문화적 적합성 측정 세트)를 도입했습니다. 이 데이터셋은 아랍 문화와 서구 문화를 비교 분석할 수 있도록 돕습니다.
연구자들은 “CAMeL은 LM의 문화적 편향을 외부 및 내부 평가를 통해 측정하는 도구 역할을 한다”고 설명했습니다. CAMeL을 통해 연구팀은 GPT-4를 포함한 12개 언어 모델의 문화 간 성능을 스토리 생성, 감정 분석 등 다양한 작업에서 평가했습니다.
Ritter는 CAMeL을 통해 LLM 내 문화적 편향을 신속히 식별하고 개발자들이 해결해야 할 분야를 강조할 수 있다고 전망했습니다. 그러나 CAMeL은 현재 아랍 문화 편향에 초점을 맞추고 있으며, 앞으로 추가 문화를 포함할 계획이 있다고 밝혔습니다.
문화 인식 AI 시스템 구축의 길
Ritter는 다양한 문화 간 편향을 완화하기 위해 LLM 개발자들이 데이터 레이블러를 고용해 유사한 문화적 배경을 반영하게 해야 한다고 권장했습니다. 그는 “복잡하고 비용이 많이 드는 과정이지만, 이는 LLM의 발전에서 공정한 혜택을 보장하는 데 중요하다”고 강조했습니다.
Xu는 LLM의 사전 훈련에 있어 Wikipedia 데이터의 의존도가 문화적 편향의 주요 원인임을 지적하며, “Wikipedia는 전세계적으로 활용되지만, 서구 개념이 비서구 언어로 번역될 때 더 많은 관심을 받는다”고 설명했습니다. 그녀는 사전 훈련 시 데이터 혼합 개선과 인간의 문화적 민감성에 대한 더 나은 정렬을 제안했습니다.
Ritter는 온라인에서 적은 표현을 가진 문화에 LLM을 적응시키는 또 다른 도전도 강조했습니다. 이러한 경우 제한된 데이터가 필수 문화적 지식 통합을 방해할 수 있으므로 혁신적인 접근이 필요하다고 주장했습니다.
이 연구는 LLM이 제기하는 문화적 과제를 해결하기 위해 연구자, AI 개발자 및 정책 입안자 간의 협력이 필요함을 촉구합니다. Xu는 “이것은 LLM의 문화적 적응에 대한 연구 기회로 보고 있다”고 언급하며, 기업들이 다양한 시장을 위한 현지화 전략을 고려할 수 있는 기회를 제공한다고 덧붙였습니다.
문화적 공정성을 우선시하고 문화적으로 인식된 AI 시스템을 개발함으로써 우리는 이러한 기술을 활용해 글로벌 이해를 증진하고 포괄적인 디지털 경험을 촉진할 수 있습니다. Xu는 “우리는 이 방향으로의 선구적인 노력을 기대하며, 우리의 데이터셋과 제안한 방법으로 개발된 다른 데이터셋이 LLM의 문화적 공정성을 평가하고 훈련하는 데 지속적으로 활용되기를 바란다”고 말했습니다.