경쟁이 치열해지는 생성 AI 분야에서 메타는 혁신적인 다중모달 모델인 카멜레온의 미리보기를 공개했습니다. 기존의 다양한 모달리티의 구성 요소를 결합한 모델과 달리, 카멜레온은 다중모달리티를 위해 네이티브로 설계되었습니다.
모델들이 아직 공개되지 않았지만, 초기 실험 결과 카멜레온은 이미지 캡셔닝과 시각적 질문 응답(VQA) 작업에서 뛰어난 성능을 보이며, 텍스트 전용 과제에서도 경쟁력을 유지하고 있습니다.
카멜레온의 구조
카멜레온은 이미지를 텍스트, 코드 등과 함께 교차 처리하는 “조기 융합 토큰 기반 혼합 모달” 아키텍처를 사용합니다. 이미지를 개별 토큰으로 변환하여 언어 모델이 단어를 처리하는 방식과 유사하게, 카멜레온은 텍스트, 코드, 이미지 토큰을 통합하는 통합 어휘를 활용합니다. 이를 통해 동일한 트랜스포머 아키텍처가 텍스트와 이미지를 포함하는 시퀀스를 원활하게 처리할 수 있습니다.
연구자들은 가장 유사한 모델로 구글 제미니를 언급합니다. 그러나 제미니는 생성 중 별도의 이미지 디코더를 사용하는 반면, 카멜레온은 엔드 투 엔드 모델로 토큰을 동시에 처리하고 생성합니다. 이러한 통합된 토큰 공간은 카멜레온이 모달리티별 구성 요소 없이 텍스트와 이미지의 교차 시퀀스를 생성할 수 있게 합니다.
조기 융합의 도전 극복
조기 융합의 장점에도 불구하고, 이는 모델 훈련과 확장에 있어 상당한 도전을 안겨줍니다. 연구팀은 이러한 문제를 해결하기 위해 여러 아키텍처 수정 및 훈련 기법을 적용했습니다. 그들의 연구는 다양한 실험과 모델 성능에 미친 영향을 상세하게 설명하고 있습니다.
카멜레온은 4.4 조 개의 토큰으로 구성된 데이터셋을 사용하여 두 단계의 훈련 과정을 거칩니다. 이 데이터셋은 텍스트, 이미지-텍스트 쌍, 교차 시퀀스를 포함하고 있으며, 7억 및 34억 매개변수 버전의 카멜레온이 500만 시간 이상의 Nvidia A100 80GB GPU 자원에서 실행되었습니다.
카멜레온의 성능
논문에 공개된 결과에 따르면, 카멜레온은 텍스트 전용 및 다중모달 작업 모두에서 뛰어난 성능을 발휘합니다. 시각적 질문 응답(VQA)과 이미지 캡셔닝 기준에서 카멜레온-34B는 Flamingo, IDEFICS, Llava-1.5와 같은 모델들을 초월하는 최첨단 결과를 달성했습니다. 카멜레온은 현저히 적은 컨텍스트 훈련 예제와 더 작은 모델 크기로도 강력한 성능을 보여줍니다.
다중모달 모델들이 단일 모달리티 작업에서 고전할 가능성이 있는 반면, 카멜레온은 텍스트 전용 기준에서도 경쟁력 있는 성능을 유지하며, Mixtral 8x7B 및 Gemini-Pro와 호응합니다.
특히, 카멜레온은 교차된 텍스트와 이미지가 필요한 프롬프트에서 고급 혼합 모달 추론 및 생성을 가능하게 합니다. 사람 평가에서는 사용자가 카멜레온이 생성한 다중모달 문서를 선호하는 것으로 나타났습니다.
미래 전망
최근 OpenAI와 구글이 새로운 다중모달 모델을 출시했지만, 세부 사항은 여전히 부족합니다. 메타가 투명성을 유지하며 카멜레온의 가중치를 공개한다면, 비공식 모델에 대한 개방 대안으로 자리 잡을 수 있을 것입니다.
조기 융합 접근 방식은 또한 더욱 많은 모달리티 통합이 이루어짐에 따라 향후 연구의 길을 열어줍니다. 로봇 스타트업들은 이미 언어 모델과 로봇 제어 시스템의 결합 방법을 탐구하고 있습니다. 조기 융합이 로봇 기반 모델에 미칠 잠재적 영향은 주목해야 할 점입니다.
요약하자면, 카멜레온은 다중모달 콘텐츠를 유연하게 검토하고 생성하는 통합 기반 모델을 실현하기 위한 중요한 발전을 나타냅니다.