세일즈포스는 새로운 오픈소스 대규모 멀티모달 AI 모델 제품군인 xGen-MM(또는 BLIP-3)를 출시했습니다. 이 혁신적인 출시로 고급 인공지능 시스템의 발전이 가속화될 것으로 예상됩니다.
xGen-MM 프레임워크는 세일즈포스 AI 연구팀이 arXiv에 발표한 논문에 자세히 설명되어 있으며, 사전 학습된 모델, 포괄적인 데이터셋, 미세 조정 코드로 구성되어 있습니다. 40억 개 매개변수를 가진 최대 모델은 유사한 오픈소스 모델과 비교하여 다양한 벤치마크에서 경쟁력 있는 성능을 보여줍니다.
저자들은 "모델, 선별된 대규모 데이터셋, 미세 조정 코드베이스를 오픈소스로 공개하여 LMM 연구의 발전을 촉진하고자 한다"고 밝혔습니다. 이 이니셔티브는 독점 모델의 경향에서 벗어난 것으로, 최신 멀티모달 AI 기술에 대한 접근을 민주화할 가능성을 시사합니다.
xGen-MM(BLIP-3) 프레임워크의 도식적 다이어그램은 이미지와 텍스트 데이터를 인터리브하여 처리하는 방식을 보여줍니다. 이 모델은 비전 트랜스포머를 사용하여 이미지를 인코딩하고, 시각 정보를 축약하기 위해 토큰 샘플러를 사용하며, 사전 학습된 대규모 언어 모델로 텍스트를 생성합니다.
xGen-MM의 혁신의 핵심은 여러 이미지와 텍스트를 결합한 "인터리브 데이터"를 처리하는 능력입니다. 연구자들은 이를 "가장 자연스러운 형태의 멀티모달 데이터"로 보고 있으며, 이를 통해 모델은 동시에 여러 이미지에 대한 질문에 답하는 복잡한 작업을 수행할 수 있습니다. 이는 의료 진단 및 자율 주행차 등 다양한 분야에서 매우 중요합니다.
출시에는 특정 작업을 위해 최적화된 여러 모델 변형이 포함되어 있습니다: 기본 사전 학습 모델, 지시를 따르도록 조정된 "지시 튜닝" 버전, 해로운 출력 최소화를 목표로 하는 "안전 튜닝" 모델 등입니다. 이는 AI 커뮤니티에서 능력과 윤리적 고려를 통합해야 할 필요성을 점점 더 인식하고 있음을 반영합니다.
세일즈포스의 이 모델을 오픈소스로 제공하기로 한 결정은 멀티모달 AI 분야의 혁신을 크게 향상시킬 것으로 기대됩니다. 최상 품질의 모델과 데이터셋에 대한 접근을 제공함으로써, 세일즈포스는 더 넓은 협력과 발전의 기회를 창출하여 일부 기술 대기업의 폐쇄적 전략과 대조됩니다.
그러나 이러한 영향력 있는 모델의 출시는 고급 AI 시스템과 관련된 잠재적 위험 및 사회적 영향에 대한 중요한 질문을 제기합니다. 세일즈포스는 이러한 우려를 해결하기 위해 안전 조정을 포함했지만, 널리 접근 가능한 고급 AI 모델의 더 넓은 여파는 기술 커뮤니티 내외에서 여전히 논의를 촉발하고 있습니다.
xGen-MM 모델은 세일즈포스가 선별한 방대한 데이터셋으로 훈련되었으며, 그중에는 "MINT-1T"라는 이름의 인터리브된 이미지와 텍스트 데이터의 조합으로 이루어진 조각 데이터셋이 포함되어 있습니다. 또한, AI 시스템이 시각 환경과 자연스럽게 상호작용하기 위해 필수적인 광학 문자 인식 및 시각적 기반 데이터셋도 개발되었습니다.
AI 기술이 점점 더 보편화됨에 따라, 세일즈포스의 오픈소스 이니셔티브는 연구자들이 이 강력한 시스템을 이해하고 개발하는 데 필요한 중요한 도구를 제공합니다. 이 움직임은 불투명성으로 비판받는 분야에서 투명성의 기준을 설정하여 다른 기술 기업들이 AI 연구에 유사한 관행을 채택하도록 촉진할 수 있습니다.
AI 경쟁이 치열해지는 가운데, 세일즈포스의 오픈 전략은 중요한 차별화 요소가 될 수 있습니다. 모델 주위에 협업 환경을 조성함으로써 회사는 더 빠른 혁신을 촉진하고 연구 커뮤니티와 긍정적인 관계를 형성할 수 있습니다. 그러나 이러한 접근 방식의 실효성은 기업 AI 솔루션 분야의 경쟁 환경에서 지켜봐야 할 일입니다.
xGen-MM에 대한 코드, 모델 및 데이터셋은 세일즈포스의 GitHub 저장소에서 접근할 수 있으며, 프로젝트 웹사이트에서 추가 자료가 곧 제공될 예정입니다. 연구자들과 개발자들이 이러한 모델을 활용함에 따라, 세일즈포스의 멀티모달 AI에 대한 기여의 진정한 영향은 앞으로 몇 년에 걸쳐 점차 드러날 것입니다.