세일즈포스, 시각 언어 이해를 강화하는 오픈 소스 ‘xGen-MM’ 멀티모달 AI 모델 출시

Home AI 뉴스 세일즈포스, 시각 언어 이해를 강화하는 오픈 소스 ‘xGen-MM’ 멀티모달 AI 모델 출시

세일즈포스는 새로운 오픈소스 대규모 멀티모달 AI 모델 제품군인 xGen-MM(또는 BLIP-3)를 출시했습니다. 이 혁신적인 출시로 고급 인공지능 시스템의 발전이 가속화될 것으로 예상됩니다.

xGen-MM 프레임워크는 세일즈포스 AI 연구팀이 arXiv에 발표한 논문에 자세히 설명되어 있으며, 사전 학습된 모델, 포괄적인 데이터셋, 미세 조정 코드로 구성되어 있습니다. 40억 개 매개변수를 가진 최대 모델은 유사한 오픈소스 모델과 비교하여 다양한 벤치마크에서 경쟁력 있는 성능을 보여줍니다.

저자들은 "모델, 선별된 대규모 데이터셋, 미세 조정 코드베이스를 오픈소스로 공개하여 LMM 연구의 발전을 촉진하고자 한다"고 밝혔습니다. 이 이니셔티브는 독점 모델의 경향에서 벗어난 것으로, 최신 멀티모달 AI 기술에 대한 접근을 민주화할 가능성을 시사합니다.

xGen-MM(BLIP-3) 프레임워크의 도식적 다이어그램은 이미지와 텍스트 데이터를 인터리브하여 처리하는 방식을 보여줍니다. 이 모델은 비전 트랜스포머를 사용하여 이미지를 인코딩하고, 시각 정보를 축약하기 위해 토큰 샘플러를 사용하며, 사전 학습된 대규모 언어 모델로 텍스트를 생성합니다.

xGen-MM의 혁신의 핵심은 여러 이미지와 텍스트를 결합한 "인터리브 데이터"를 처리하는 능력입니다. 연구자들은 이를 "가장 자연스러운 형태의 멀티모달 데이터"로 보고 있으며, 이를 통해 모델은 동시에 여러 이미지에 대한 질문에 답하는 복잡한 작업을 수행할 수 있습니다. 이는 의료 진단 및 자율 주행차 등 다양한 분야에서 매우 중요합니다.

출시에는 특정 작업을 위해 최적화된 여러 모델 변형이 포함되어 있습니다: 기본 사전 학습 모델, 지시를 따르도록 조정된 "지시 튜닝" 버전, 해로운 출력 최소화를 목표로 하는 "안전 튜닝" 모델 등입니다. 이는 AI 커뮤니티에서 능력과 윤리적 고려를 통합해야 할 필요성을 점점 더 인식하고 있음을 반영합니다.

세일즈포스의 이 모델을 오픈소스로 제공하기로 한 결정은 멀티모달 AI 분야의 혁신을 크게 향상시킬 것으로 기대됩니다. 최상 품질의 모델과 데이터셋에 대한 접근을 제공함으로써, 세일즈포스는 더 넓은 협력과 발전의 기회를 창출하여 일부 기술 대기업의 폐쇄적 전략과 대조됩니다.

그러나 이러한 영향력 있는 모델의 출시는 고급 AI 시스템과 관련된 잠재적 위험 및 사회적 영향에 대한 중요한 질문을 제기합니다. 세일즈포스는 이러한 우려를 해결하기 위해 안전 조정을 포함했지만, 널리 접근 가능한 고급 AI 모델의 더 넓은 여파는 기술 커뮤니티 내외에서 여전히 논의를 촉발하고 있습니다.

xGen-MM 모델은 세일즈포스가 선별한 방대한 데이터셋으로 훈련되었으며, 그중에는 "MINT-1T"라는 이름의 인터리브된 이미지와 텍스트 데이터의 조합으로 이루어진 조각 데이터셋이 포함되어 있습니다. 또한, AI 시스템이 시각 환경과 자연스럽게 상호작용하기 위해 필수적인 광학 문자 인식 및 시각적 기반 데이터셋도 개발되었습니다.

AI 기술이 점점 더 보편화됨에 따라, 세일즈포스의 오픈소스 이니셔티브는 연구자들이 이 강력한 시스템을 이해하고 개발하는 데 필요한 중요한 도구를 제공합니다. 이 움직임은 불투명성으로 비판받는 분야에서 투명성의 기준을 설정하여 다른 기술 기업들이 AI 연구에 유사한 관행을 채택하도록 촉진할 수 있습니다.

AI 경쟁이 치열해지는 가운데, 세일즈포스의 오픈 전략은 중요한 차별화 요소가 될 수 있습니다. 모델 주위에 협업 환경을 조성함으로써 회사는 더 빠른 혁신을 촉진하고 연구 커뮤니티와 긍정적인 관계를 형성할 수 있습니다. 그러나 이러한 접근 방식의 실효성은 기업 AI 솔루션 분야의 경쟁 환경에서 지켜봐야 할 일입니다.

xGen-MM에 대한 코드, 모델 및 데이터셋은 세일즈포스의 GitHub 저장소에서 접근할 수 있으며, 프로젝트 웹사이트에서 추가 자료가 곧 제공될 예정입니다. 연구자들과 개발자들이 이러한 모델을 활용함에 따라, 세일즈포스의 멀티모달 AI에 대한 기여의 진정한 영향은 앞으로 몇 년에 걸쳐 점차 드러날 것입니다.

메타의 자가 학습 평가자가 대형 언어 모델(LLM)이 스스로 학습 데이터를 생성할 수 있도록 지원합니다.

나는 생성형 AI를 정말 싫어한다 – 프로크리에이트 CEO, 신기술에 대한 강력한 비판

Most people like

Jenni AI

1.2M

Jenni AI는 당신의 글쓰기 경험을 혁신적으로 변화시켜 주며, 작가의 블록을 효과적으로 극복하고 더 빠르고 효율적인 글쓰기를 위한 강력한 도구를 제공합니다. Jenni AI가 어떻게 창의력을 높이고 글쓰기 과정을 간소화할 수 있는지 알아보세요.

AI 어시스턴트 AI Content Generator

Ghost Craft AI

9.4K

신속하고 매력적인 뉴스 기사를 생성하기 위해 설계된 혁신적인 AI 도구를 만나보세요. 기자, 블로거, 콘텐츠 제작자에게 완벽한 이 기술은 품질과 독자의 관심을 유지하면서 글쓰기 과정을 간소화합니다. 손끝에서 매력적인 뉴스 스토리텔링으로 귀하의 콘텐츠를 향상시키세요.

AI 기사 생성기 AI Blog Writer

PromptBase

460.7K

PromptBase에 오신 것을 환영합니다. 고품질 AI 프롬프트를 거래하는 최고의 마켓플레이스입니다. 프로젝트를 발전시키고 창의적인 작업 흐름을 향상시킬 수 있는 전문적으로 제작된 다양한 프롬프트를 발견해 보세요. 혁신가 커뮤니티에 참여하고 오늘 AI의 잠재력을 열어보세요!

프롬프트베이스 AI Art Generator

PicStudio.AI

33.1K

고급 AI 기술을 활용하여 몇 분 만에 놀라운 전문 초상화로 사진을 변환하세요. 이미지의 품질을 향상시키고 눈길을 끄는 비주얼을 만드는 것이 얼마나 쉬운지 알아보세요. 소셜 미디어, 개인 브랜딩 또는 특별한 행사에 완벽한 저희 AI 기반 솔루션은 빠르고 손쉽게 탁월한 결과를 제공합니다.

인공지능 AI Art Generator

Find AI tools in YBX