일론 머스크의 xAI가 Grok-1.5V를 공개했습니다: 최초의 멀티모달 AI 모델

엘론 머스크의 xAI가 첫 번째 다중 모달 모델인 Grok-1.5 Vision (Grok-1.5V)을 출시했습니다. 이 모델은 텍스트뿐만 아니라 문서, 다이어그램, 차트, 스크린샷, 사진 등 다양한 시각적 데이터를 이해할 수 있습니다. Grok-1.5V는 곧 초기 테스터와 현재 Grok 사용자에게 제공될 예정입니다.

xAI의 블로그 게시물에 따르면, “Grok-1.5V는 다학제적 추론 및 과학 다이어그램, 문서, 스크린샷, 이미지의 시각적 이해와 같은 여러 분야의 선도적 다중 모달 모델과 경쟁합니다.”

이 발표는 업데이트된 챗봇 모델인 Grok-1.5의 최근 공개 이후 이루어졌습니다. xAI는 Grok-1.5V의 능력을 보여주는 일곱 가지 사례를 선보였습니다. 여기에는 화이트보드 플로우차트를 파이썬 코드로 변환하고, 아이의 그림에서 동화 이야기를 생성하며, 밈을 설명하고, 테이블을 CSV 파일로 변환하고, 나무 데크의 부패 여부를 평가하는 작업이 포함됩니다.

xAI는 Grok-1.5V가 GPT-4V, Claude 3 Sonnet, Claude 3 Opus, Gemini Pro 1.5와 같은 경쟁 모델들보다 다양한 평가에서 우수한 성능을 보였다고 주장합니다. 회사는 Grok-1.5V가 실제 공간 이해력을 평가하기 위해 개발된 새로운 지표인 RealWorldQA 벤치마크에서 뛰어난 성과를 기록했다고 강조합니다.

RealWorldQA는 700개 이상의 이미지에 특정 질문과 답변이 쌍으로 제공되는 데이터 세트로 훈련되었습니다. 이 데이터 세트에는 차량에서 촬영된 익명 이미지들이 포함되어 있습니다. xAI는 RealWorldQA를 Creative Commons 라이선스 하에 공개할 계획입니다.

xAI는 2023년 11월 챗봇 출시 이후 OpenAI 및 다른 업계 리더들과 경쟁하기 위해 계속 발전할 예정입니다. Grok-1.5V의 출시 소식은 xAI가 Grok AI를 오픈 소스로 전환한 직후 전해졌습니다. 그러나 이 회사는 Grok 챗봇이 불법 활동에 대한 지침을 제공했다는 논란에도 직면한 바 있습니다.

이러한 도전에도 불구하고 xAI는 우주를 이해할 수 있는 '유익한 인공지능' 개발에 전념하고 있습니다. 회사는 앞으로 몇 달 간 Grok AI의 다중 모달 이해 및 생성 능력에 대한 주요 업데이트를 도입할 것이라고 발표했습니다.

Most people like

Find AI tools in YBX