전통적인 관행에서 획기적으로 전환된 생성 AI 기업들은 품질 보증을 위해 대규모 언어 모델(LLM)을 인터넷이라는 예측 불가능한 환경에 직접 배포하고 있습니다. 온라인 커뮤니티가 함께 버그와 결함을 식별할 수 있는데, 왜 thorough testing에 시간을 투자해야 할까요? 이 대담한 실험은 사용자들에게 광범위하고 계획되지 않은 베타 테스트에 참여할 기회를 제공합니다. 각 프롬프트는 LLM의 독특한 특징을 드러내며, 방대한 인터넷은 오류를 수집하는 역할을 합니다—사용자가 약관에 동의하기만 하면 됩니다.
윤리와 정확성: 선택 사항인가?
생성 AI LLM 모델을 출시하려는 열망은 불꽃놀이를 배포하는 것과 유사합니다—재미있지만 잠재적으로 위험합니다. 예를 들어, Mistral은 최근 Apache 2.0 라이센스 하에 7B 모델을 소개했지만, 명확한 사용 제약이 부족해 잠재적인 남용에 대한 우려가 커지고 있습니다. 기본 매개변수의 작은 조정이 drastically 다른 결과를 초래할 수 있으며, 알고리즘과 훈련 데이터셋에 내재된 편향은 사회적 불평등을 지속시킵니다. 시범 데이터 제공업체인 CommonCrawl은 LLM 훈련 데이터의 60%를 GPT-3, 67%를 LLaMA에 공급하며, 품질 관리가 철저하지 않아 개발자에게 데이터 선택의 부담을 지웁니다. 이러한 편향을 인식하고 해결하는 것이 윤리적인 AI 배치를 위해 반드시 필요합니다.
윤리적 소프트웨어 개발은 선택이 아닌 의무여야 합니다. 그러나 개발자가 윤리 기준을 무시할 경우, 보호 장치가 제한적입니다. 따라서 정책 입안자와 조직이 생성 AI의 책임 있고 편견 없는 적용을 보장하는 것이 중요합니다.
책임은 누구에게?
LLM을 둘러싼 법적 환경은 불투명하여 책임에 대한 중요한 질문들을 야기합니다. 생성 AI의 서비스 약관은 정확성을 보장하거나 책임을 지지 않으며, 오히려 사용자 재량에 의존합니다. 많은 사용자들이 이러한 도구를 학습이나 업무에 활용하지만, 신뢰할 수 있는 정보와 허위 내용을 구별할 능력이 부족할 수 있습니다. 부정확성의 영향은 실제 세계로 파급될 수 있습니다. 예를 들어, Alphabet의 주가는 Google의 Bard 챗봇이 제임스 웹 우주 망원이 태양계를 벗어난 행성의 첫 이미지를 포착했다고 잘못 말한 이후 급락했습니다.
LLM이 중요한 의사 결정 응용 프로그램에 통합됨에 따라, 오류가 발생할 경우 책임이 LLM 제공자, LLM을 사용하는 서비스 제공자, 아니면 정보를 검증하지 못한 사용자에게 있는지에 대한 질문이 제기됩니다. 두 가지 시나리오를 고려해 봅시다: 시나리오 A는 고장 난 차량으로 인해 사고가 발생하는 경우이며, 시나리오 B는 난폭 운전으로 같은 결과를 초래하는 경우입니다. 결과는 불행하지만, 책임은 다릅니다. LLM의 오류는 제공자의 실패와 사용자의 부주의가 혼합되어 발생할 수 있어 책임을 복잡하게 만듭니다.
‘No-LLM-Index’ 필요성
현재의 “noindex” 규칙은 콘텐츠 제작자가 검색 엔진 색인 작성을 선택 해제할 수 있게 해 줍니다. 유사한 옵션인 “no-llm-index”는 제작자가 자신의 콘텐츠가 LLM에 의해 처리되는 것을 방지할 수 있도록 할 수 있습니다. 현재 LLM은 캘리포니아 소비자 프라이버시 법(CCPA)나 GDPR의 삭제 요청 권리를 준수하지 않으며, 데이터 삭제 요청을 복잡하게 만듭니다. 전통적인 데이터베이스와 달리 LLM은 학습된 패턴에 기반한 출력을 생성하므로 특정 데이터를 삭제하기 위해 표적화하는 것이 거의 불가능합니다.
법적 환경 탐색
2015년, 미국 항소 법원은 Google이 Google Books 용으로 책을 스캔하는 것을 “공정 사용”으로 간주해 그 변형성 이유를 들었습니다. 그러나 생성 AI는 이러한 경계를 초월하여 LLM을 훈련시키는 콘텐츠 제작자에 대한 보상을 두고 법적 문제를 일으키고 있습니다. OpenAI, Microsoft, GitHub, Meta와 같은 대기업들은 오픈 소스 소프트웨어의 컴퓨터 코드 재생산과 관련해 소송을 당하고 있습니다. 소셜 플랫폼의 콘텐츠 제작자들은 자신의 작업이 LLM으로 유입되거나 수익화되는 것을 선택할 수 있는 권한이 있어야 합니다.
미래를 내다보며
품질 기준은 분야에 따라 크게 다릅니다. 예를 들어, Amazon Prime Music 앱은 매일 충돌하지만, 의료나 공공 서비스에서는 2%의 충돌률도 치명적일 수 있습니다. 한편, LLM의 성능에 대한 기대는 여전히 변동하고 있습니다. 앱 오류는 쉽게 식별할 수 있지만, AI의 오작동이나 허위 생성 시점을 결정하는 것은 복잡합니다. 생성 AI가 발전함에 따라 혁신과 근본적인 권리 간의 균형을 유지하는 것이 정책 입안자, 기술 전문가, 그리고 사회에 매우 중요합니다. 최근 중국 국가 정보 보안 표준화 기술 위원회와 바이든 대통령의 행정 명령은 생성 AI 문제를 관리할 프레임워크를 촉구하고 있습니다.
문제는 새로운 것이 아닙니다. 과거의 경험은 가짜 뉴스와 같은 지속적인 문제에도 불구하고 플랫폼이 최소한의 반응을 보이는 경우가 많음을 보여줍니다. LLM은 종종 무료로 제공되는 방대한 데이터셋을 필요로 하며, 이러한 데이터셋의 품질을 큐레이션하는 것이 가능하지만, “품질”을 정의하는 것은 주관적입니다. 핵심 질문은 LLM 제공자들이 이러한 문제를 실제로 해결할지, 아니면 계속 책임을 전가할지를 분명히 하는 것입니다. 기대감을 가져보세요; 앞으로의 여정은 험난할 것입니다.