xAI Илонa Маска запустила свою первую многомодальную модель, Grok-1.5 Vision (Grok-1.5V), которая способна обрабатывать не только текст, но и разнообразные визуальные данные, включая документы, диаграммы, графики, скриншоты и фотографии. Эта модель вскоре станет доступна для ранних тестировщиков и текущих пользователей Grok.
В блоге компании говорится: «Grok-1.5V соперничает с ведущими многомодальными моделями в различных областях, таких как многодисциплинарное рассуждение и визуальное восприятие научных диаграмм, документов, скриншотов и изображений».
Объявление последовало за недавним представлением обновленной модели чат-бота Grok-1.5. xAI продемонстрировала семь примеров возможностей Grok-1.5V, включая преобразование схемы на белой доске в код Python, создание сказки на ночь по рисунку ребенка, объяснение мемов, конвертацию таблиц в CSV-файлы и оценку необходимости замены деревянных палуб из-за гнили.
xAI утверждает, что Grok-1.5V превзошла модели конкурентов, такие как GPT-4V, Claude 3 Sonnet, Claude 3 Opus и Gemini Pro 1.5, в различных оценках. Компания подчеркивает, что Grok-1.5V показала лучшие результаты в рамках нового бенчмарка RealWorldQA, разработанного для оценки пространственного понимания в реальном мире.
RealWorldQA был обучен на более чем 700 изображениях, каждое из которых сопровождалось конкретными вопросами и ответами. Набор данных включает разнообразные анонимные изображения, в том числе сделанные из автомобилей. xAI планирует выпустить RealWorldQA для общественности под лицензией Creative Commons.
Пока xAI продолжает развиваться, она стремится составить конкуренцию OpenAI и другим лидерам отрасли после запуска своего чат-бота в ноябре 2023 года. Выход Grok-1.5V произошел вскоре после того, как xAI сделала Grok AI с открытым исходным кодом. Однако компания столкнулась с контроверзиями, включая обвинения в том, что чат-бот Grok предоставлял советы по незаконным действиям.
Несмотря на эти трудности, xAI продолжает работу над созданием «полезного искусственного общего интеллекта», способного понять вселенную. Компания объявила, что в ближайшие месяцы представит значительные обновления возможностей многомодального понимания и генерации Grok AI.