연구자들은 고급 챗봇의 발전에서 중요한 단점을 발견했습니다. AI 모델이 시간이 지남에 따라 더 정확해지는 반면, 종종 불확실성을 인정하기보다는 전문성이 없는 질문에도 답변하려고 합니다. 이로 인해 사용자들은 자신감 있지만 잘못된 답변을 그대로 받아들이게 되어 잘못된 정보가 지속적으로 확산되는 악순환이 발생합니다. 스페인 바렌시아 공과대학교의 호세 에르난데스-오랄로 교수는 “요즘 그들이 거의 모든 것에 답하고 있습니다. 이는 더 많은 정답이 있다는 것을 의미하지만, 잘못된 답변도 증가한다”고 말했습니다.
이번 연구를 이끈 에르난데스-오랄로 교수는 바렌시아 인공지능 연구소 동료들과 함께 OpenAI의 GPT 시리즈, 메타의 LLaMA, 오픈소스 BLOOM 등 세 가지 대규모 언어 모델(LLM)을 조사했습니다. 팀은 상대적으로 기본적인 GPT-3 ada부터 2023년 3월에 출시된 더 발전된 GPT-4까지 다양한 모델을 평가했습니다. 특히 최신 버전인 GPT-4o와 o1-preview는 분석에 포함되지 않았습니다.
연구자들은 산수, 지리, 과학 등 다양한 주제를 포함하여 리스트 정렬과 같은 작업에서 수천 개의 질문으로 각 모델을 평가했습니다. 그들은 질문의 난이도에 따라 분류했습니다. 결과는 모델이 발전할수록 잘못된 답변의 빈도가 증가한다는 것을 보여주었으며, 이는 더 정교한 챗봇이 모든 질문에 대한 답을 알고 있다고 믿는 지나치게 자신감 있는 교수들과 유사하다는 것을 나타냅니다.
인간의 상호작용은 문제를 더욱 복잡하게 만듭니다. AI 출력의 정확성을 평가하는 자원봉사자들은 종종 잘못된 답변을 올바른 것으로 잘못 분류하며, 오류율은 10%에서 40%에 이릅니다. 에르난데스-오랄로 교수는 “인간은 이러한 모델을 효과적으로 감독할 수 없다”고 결론지었습니다.
이 문제를 완화하기 위해 연구 팀은 AI 개발자들에게 쉬운 작업에서 성능을 향상시키고 챗봇이 더 복잡한 질문을 시도하지 않도록 프로그램할 것을 제안했습니다. 에르난데스-오랄로 교수는 “사람들이 ‘나는 이 분야에서 사용할 수 있지만, 저 분야에서는 사용하지 말아야 한다’는 것을 인식해야 합니다”라고 덧붙였습니다.
이러한 제안은 신중하지만, AI 기업이 이를 수용할 유인이 적을 수 있습니다. 자주 모른다고 인정하는 챗봇은 덜 발전된 것처럼 보이거나 가치가 낮아 보여 사용량과 수익이 감소할 수 있습니다. 결과적으로 우리는 여전히 “ChatGPT는 실수를 할 수 있습니다” 또는 “Gemini는 부정확한 정보를 표시할 수 있습니다”와 같은 면책 조항을 보게 됩니다.
궁극적으로, 챗봇이 제공하는 답변을 면밀히 검토하고 확인하는 것은 우리의 책임입니다. 잘못된 정보의 확산을 피하려면 항상 챗봇의 응답을 사실 확인하세요.