생성형 AI 기초 모델을 통한 솔루션 개발
우리는 이제 생성형 AI 기초 모델을 탐색한 지 1년이 넘었습니다. 처음에는 대규모 언어 모델(LLM)에 집중했으나, 이제는 이미지 및 비디오를 이해하고 생성할 수 있는 다중 모달 모델의 출현으로 "기초 모델" (FM)이라는 용어가 더 적합해졌습니다.
이 분야가 발전함에 따라 우리는 다양한 요구를 충족하도록 정보를 맞춤화하여 이러한 솔루션을 효과적으로 생산에 도입하고 중요한 영향을 창출할 패턴을 식별하고 있습니다. LLM에서 파생될 복잡성과 가치를 증가시킬 수 있는 transformative한 기회가 기다리고 있지만, 이러한 발전은 신중한 비용 관리가 필요합니다.
기초 모델 이해하기
FM을 효과적으로 활용하려면 그 내부 작동 방식을 이해해야 합니다. 이러한 모델은 단어, 이미지, 숫자, 소리를 토큰으로 변환하여 사용자와의 상호작용을 위해 가장 관련성 높은 "다음 토큰"을 예측합니다. 지난 1년간의 피드백을 통해 Anthropic, OpenAI, Mixtral, Meta가 개발한 핵심 모델들이 사용자 기대에 맞춰 세련되어졌습니다.
토큰 형식의 중요성을 인식하게 되면서 성능 개선이 이루어졌고, YAML이 JSON보다 일반적으로 우수한 성능을 발휘합니다. 커뮤니티는 모델 응답 향상을 위한 "프롬프트 엔지니어링" 기술을 개발했습니다. 예를 들어, 몇몇 예시를 활용한 몇 장면 프롬프트는 모델의 출력을 안내하며, 사고의 흐름에 따라 복잡한 질문에 대한 더 정교한 답변을 도출할 수 있습니다. 많은 생성형 AI 채팅 서비스의 적극적인 사용자는 이러한 개선을 느꼈을 것입니다.
LLM 기능 향상
LLM의 정보 처리 용량을 확장하는 것은 그 발전의 기초입니다. 최신 모델은 이제 최대 100만 개의 토큰을 관리할 수 있어, 사용자가 전례 없는 수준의 맥락 적합성을 제어할 수 있게 됩니다.
예를 들어, Anthropic의 Claude를 활용해 의료진이 복잡한 700페이지 가이던스 문서를 탐색하는 데 도움을 주었고, 관련 입학 시험에서 85%의 정확도를 달성했습니다. 또한, 키워드가 아닌 개념에 기반한 정보를 검색하는 기술들이 지식 기반을 더욱 풍부하게 하고 있습니다.
titan-v2 및 cohere-embed와 같은 새로운 임베딩 모델은 다양한 출처를 방대한 데이터 세트에서 파생된 벡터로 변환하여 관련 텍스트를 검색할 수 있게 합니다. 벡터 쿼리 통합과 Turbopuffer와 같은 전문 벡터 데이터베이스의 혁신은 성능 손실을 최소화하면서 대규모 문서 컬렉션의 확장을 가능하게 합니다.
이러한 발전에도 불구하고 솔루션 확장은 여전히 도전적이며, LLM 애플리케이션의 보안, 확장성, 지연 시간, 비용 효율성 및 응답 품질을 최적화하기 위해 다양한 분야의 협력이 필요합니다.
Gen 2.0 및 에이전트 시스템 혁신
최근의 개선은 모델 성능과 애플리케이션 가능성을 높이지만, 우리는 여러 생성형 AI 기능을 통합하는 새로운 진화의 문턱에 서 있습니다.
초기 단계는 BrainBox.ai ARIA 시스템과 같이 장비 고장의 이미지를 해석하고 관련 지식 기반을 접근하여 IoT 데이터 피드를 쿼리하여 솔루션을 제안하는 수동 작업 체인을 만드는 것입니다. 그러나 이러한 시스템은 개발자의 하드코딩된 정의가 필요하거나 단순한 의사 결정 경로에 제한됩니다.
다음 단계인 Gen AI 2.0은 멀티 모달 모델을 활용하여 민첩한 에이전트 기반 시스템을 구상하고 있으며, 이들은 일반적으로 LLM인 추론 엔진에 의해 구동됩니다. 이러한 에이전트는 문제를 관리 가능한 단계로 분해하고, 실행을 위한 적절한 AI 기반 도구를 선택하며, 각 단계의 결과에 따라 접근 방식을 조정합니다.
이 모듈형 접근 방식은 시스템의 유연성을 높여 복잡한 작업을 처리할 수 있게 합니다. 예를 들어, Cognition Labs의 Devin.ai는 프로그래밍 작업을 자동화하여 방대한 인간 개입을 줄이고 신속하게 프로세스를 완료할 수 있으며, Amazon의 Q for Developers는 Java 자동 업그레이드를 용이하게 합니다.
의료 분야에서 의료 에이전트 시스템은 EHR 데이터, 이미징, 유전 정보 및 임상 문헌을 종합하여 포괄적인 치료 권고를 생성할 수 있습니다. 또한, 여러 전문 에이전트가 협업하여 상세한 환자 프로필을 생성하고 다단계 지식 프로세스를 자율적으로 실행하여 인간 감독의 필요성을 줄일 수 있습니다.
그럼에도 불구하고 이러한 고급 시스템은 많은 토큰이 전송되는 LLM API 호출로 인해 상당한 비용이 발생할 수 있습니다. 따라서 하드웨어(NVIDIA Blackwell 등), 프레임워크(Mojo), 클라우드(AWS Spot Instances) 및 모델 구성(파라미터 크기, 양자화)의 LLM 최적화와 병행한 발전이 비용 관리에 필수적입니다.
결론
조직이 LLM 배포에서 발전함에 따라 높은 품질의 출력을 신속하고 효율적으로 달성하는 데 초점을 맞추게 될 것입니다. 빠르게 변화하는 환경 속에서 생성형 AI 솔루션 최적화 경험이 풍부한 팀과의 협력이 성공의 핵심입니다.