제목: SearchGPT가 직면한 도전: 환상과 현실의 전투
SearchGPT의 출시 불과 이틀 후, 사용자 Kesku가 만든 시연이 놀라운 속도의 출력 결과로 온라인에서 큰 화제를 모았습니다. 하지만 OpenAI에서 발표한 공식 시연은 The Atlantic의 보고서에서 몇 가지 중요한 부정확성이 드러나면서 비판을 받았습니다. "2023년 8월 노스캐롤라이나 부운의 음악 페스티벌"에 대한 질문에 SearchGPT는 잘못된 날짜를 제공해 신뢰성에 대한 우려를 불러일으켰습니다.
OpenAI의 대변인 케일라 우드는 The Atlantic에 이 오류가 초기 프로토타입에서 발생한 것이라며 개선 작업이 진행 중이라고 밝혔습니다. 이 사건은 Google의 Bard가 출시 시기에 겪었던 주요 실수와 유사합니다. 2023년 2월, Bard는 제임스 웹 우주 망원경이 최초의 외계 행성 이미지를 포착했다고 잘못 주장했는데, 이는 실제로 유럽 남부 천문대의 VLT가 이루어낸 성과입니다. 이 실수로 인해 알파벳의 주가는 9% 하락하며 1천억 달러의 시장 가치가 증발했습니다.
이에 비해 OpenAI는 Google의 실패에서 배워 내부 테스트에 대한 접근을 제한하는 보다 신중한 접근 방식을 선택했습니다. 대규모 접근이 이루어지는 상황에서, 설령 OpenAI가 SearchGPT의 환상 발생을 최소화한다 하더라도, 작은 1%의 오류율이 매일 수백만 개의 부정확한 응답으로 이어질 수 있습니다. 현재 대형 언어 모델(LLM)에서 환상과 오류를 완전히 없앨 수 있는 신뢰할 수 있는 방법은 없습니다.
Andrej Karpathy는 Twitter에서 환상이 단순한 버그가 아니라 LLM의 독특한 특징이라고 지적했습니다. 그는 LLM을 '꿈의 기계'에 비유하며, 프롬프트에 반응하여 종종 유용한 콘텐츠를 생성하지만 때때로 사실 오류로 이끄는 '환상'이 발생할 수 있음을 강조했습니다. 이는 기존 검색 엔진이 데이터베이스에서 가장 관련성 높은 문서를 반환하는 방식과 근본적으로 다릅니다.
Karpathy는 현재 LLM 기반 AI 검색 모델이 100% 정확한 결과를 보장할 수 없다고 믿고 있습니다. 이는 흥미로운 질문을 제기합니다: 검색 엔진의 변환 과정에서 LLM의 창의성과 전통적인 검색 방법의 신뢰성이 공존할 것인가, 아니면 결국 하나가 다른 것을 대체할 것인가? 이 질문은 신중한 고려가 필요합니다.