최근 테스트에서 새로 출시된 대규모 언어 모델(LLM)이 자신의 평가 과정을 인식하는 모습을 보여주어 잠재적인 자기 인식 가능성을 제시했습니다. 이는 AI의 자기 인식에 대한 논의를 촉발했지만, 가장 중요한 점은 모델의 놀라운 능력으로, 점점 더 발전하는 대규모 언어 모델의 성과를 반영합니다.
LLM이 성장함에 따라 새로운 능력과 개발 비용도 증가하고 있습니다. 주요 모델의 훈련 비용은 현재 약 2억 달러에 달하며, 이는 산업의 미래 접근성에 대한 우려를 낳고 있습니다. 반도체 산업처럼, 최첨단 칩 제조 기술을 감당할 수 있는 기업이 몇 곳에 불과하듯, AI 분야 또한 GPT-4 및 Claude 3와 같은 주요 기반 모델을 개발할 수 있는 자원을 보유한 대형 기술 기업들이 지배할 가능성이 높습니다.
특히 인공지능 성능이 인간을 초월하거나 비슷한 수준에 이르는 모델의 훈련 비용과 능력 증가가 중요한 도전 과제가 되고 있습니다. 업계 주요 기업인 Anthropic은 자사의 플래그십 모델 Claude 3의 훈련 비용이 약 1억 달러에 달한다고 보고했습니다. 2024년 또는 2025년 초에 출시될 차기 모델들은 10억 달러에 달할 수 있습니다.
이러한 비용 상승을 이해하려면 LLM의 복잡성이 증가하는 현상을 살펴봐야 합니다. 매 세대마다 더 깊이 있는 이해를 위해 파라미터 수가 늘어나면서 더 많은 데이터와 컴퓨팅 자원이 필요해집니다. 2025년 또는 2026년까지 훈련 비용이 50억에서 100억 달러에 이를 것으로 전망되며, 이는 소수의 대기업과 그 협력사에 의한 개발로 제한될 수 있습니다.
AI 산업의 발전 경향은 반도체 분야의 변화와 유사합니다. 반도체 비용이 치솟으면서 기업들이 자사 칩 제조에서 아웃소싱으로 전환했던 것처럼, 현재 TSMC, 인텔, 삼성만이 첨단 제조 시설을 구축할 수 있습니다. TSMC는 새로운 최첨단 반도체 제조 시설이 약 200억 달러에 이를 것으로 추정합니다.
모든 AI 응용 프로그램이 최첨단 LLM을 요구하지는 않지만, 비용 증가의 영향은 각기 다릅니다. 컴퓨팅 분야에서 CPU는 고급 반도체를 사용하는 경우가 많지만, 동시에 최신 기술을 필요로 하지 않는 느린 칩과 함께 작동합니다. Mistral과 Llama3와 같은 작은 LLM 대안은 수십억 개의 파라미터를 활용하여 낮은 비용으로 효과적인 솔루션을 제공할 수 있습니다. 마이크로소프트의 Phi-3는 38억 개의 파라미터를 가진 소형 언어 모델(SLM)로, 더 큰 모델에 비해 적은 데이터셋에 의존하여 비용을 절감하는 접근법을 보여줍니다.
이러한 작은 모델은 다양한 분야에 대한 포괄적인 지식이 필요하지 않은 특정 작업에 이상적일 수 있습니다. 예를 들어, 기업의 특정 데이터나 산업 요구에 맞춰 조정하여 정확한 답변이나 상세한 연구 결과를 생성할 수 있습니다. 포레스터 리서치의 수석 AI 분석가인 로완 커런은 “항상 스포츠카가 필요한 것은 아니다. 때로는 미니밴이나 픽업트럭이 필요하다"고 적절히 표현했습니다.
그러나 AI 개발에 따른 비용 증가로 인해 몇몇 주요 기업들이 지배하는 시장 환경이 형성될 위험이 있으며, 이는 고급 반도체와 유사합니다. 이러한 통합은 혁신과 다양성을 저해하고, 스타트업 및 중소기업의 기여를 제한할 수 있습니다. 이를 해결하기 위해서는 전문 언어 모델 개발을 촉진하고, 오픈 소스 프로젝트 및 협업 노력을 지원하는 것이 필수적입니다. 포괄적인 접근 방식은 AI 기술이 보다 넓은 커뮤니티에서 접근 가능하고 유익하도록 하여 공정한 혁신 기회를 조성할 것입니다.