Google DeepMind представляет ‘Gecko’: новый комплексный стандарт для оценки генераторов изображений с использованием ИИ.

Вы, возможно, недавно сталкивались с потрясающими изображениями, созданными ИИ, такими как астронавт на лошади или авокадо в кресле терапевта. Эти захватывающие визуалы создаются моделями ИИ, предназначенными для преобразования текстовых запросов в изображения. Но действительно ли эти системы понимают наши запросы так же хорошо, как это кажется?

Недавнее исследование Google DeepMind выявляет скрытые ограничения существующих методов оценки моделей ИИ, преобразующих текст в изображение. Их работа, опубликованная на сервере препринтов arXiv, представляет новый подход под названием «Gecko», который ставит целью создание более комплексного и надежного бенчмарка для этой развивающейся технологии.

В статье команды DeepMind «Переосмысляя оценку текст-to-изображение с Gecko: о метриках, запросах и человеческих оценках» говорится: «Хотя генеративные модели текста в изображения стали повсеместно распространены, они не обязательно создают изображения, соответствующие данному запросу». Они подчеркивают, что существующие датасеты и автоматические метрики, используемые для оценки моделей, таких как DALL-E, Midjourney и Stable Diffusion, часто не отражают полной картины. Ограниченные человеческие оценки и автоматические метрики могут упустить важные нюансы и привести к несоответствиям с человеческими оценками.

Gecko: Новый Бенчмарк для Моделей Текст-to-Изображение

Чтобы решить эти проблемы, исследователи разработали Gecko — пакет бенчмарков, который значительно поднимает стандарты оценки для моделей текста в изображения. Gecko бросает вызов моделям с использованием 2000 различных текстовых запросов, которые исследуют множество навыков и уровней сложности. Разбивая запросы на конкретные поднавыки, Gecko помогает выявить точные слабости моделей.

«Этот бенчмарк на основе навыков классифицирует запросы на поднавыки, позволяя практикам идентифицировать, какие навыки являются сложными и на каком уровне сложности», объясняет соавтор Оливия Уайлс.

Фреймворк Gecko улучшает оценку ИИ, преобразующего текст в изображения, Integrируя (a) комплексный датасет, основанный на навыках, (b) обширные человеческие аннотации на различных шаблонах, (c) улучшенную автоматическую метрику оценки и (d) аналитические данные о производительности модели по ряду критериев. Это исследование направлено на более точное и надежное бенчмаркинг популярных систем ИИ.

Более Точная Картина Возможностей ИИ

Исследователи также собрали более 100000 человеческих оценок изображений, созданных несколькими ведущими моделями в ответ на запросы Gecko. Этот обширный объем отзывов позволяет бенчмарку определить, связаны ли выявленные различия с реальными ограничениями модели, неоднозначностью запросов или неконсистентными методами оценки.

«Мы собираем человеческие оценки по четырем шаблонам и четырех моделям, создающим изображения по тексту, для общего количества более 100000 аннотаций», — утверждает исследование. «Это позволяет нам различать неоднозначность запроса и различия, связанные с качеством метрики и модели».

Gecko также предлагает улучшенную автоматическую метрику оценки, основанную на вопросно-ответной системе, которая лучше соответствует человеческим оценкам по сравнению с существующими метриками. При оценке передовых моделей с использованием нового бенчмарка эта комбинация выявила ранее незамеченные различия в их сильных и слабых сторонах.

«Мы вводим новую автооценочную метрику на основе QA, которая лучше коррелирует с человеческими оценками, чем существующие метрики на различных человеческих шаблонах,» заявляет статья. Примечательно, что модель Muse от DeepMind показала выдающиеся результаты во время тестирования Gecko.

Исследователи подчеркивают важность использования разнообразных бенчмарков и методов оценки, чтобы по véritable понять, что текстово-изображенческий ИИ может и не может сделать перед его реальным внедрением. Они планируют сделать код и данные Gecko общедоступными для содействия дальнейшим достижениям в этой области.

«Наша работа показывает, что выбор датасета и метрики существенно влияет на восприятие производительности», — заключает Уайлс. «Мы надеемся, что Gecko позволит более точно оценивать и диагностировать возможности моделей в будущем».

Так что, хотя это впечатляющее изображение, созданное ИИ, может произвести первое впечатление, тщательное тестирование критично для различения истинного качества от лишь иллюзий. Gecko предоставляет план для достижения этой ясности.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles