Вы, возможно, недавно сталкивались с потрясающими изображениями, созданными ИИ, такими как астронавт на лошади или авокадо в кресле терапевта. Эти захватывающие визуалы создаются моделями ИИ, предназначенными для преобразования текстовых запросов в изображения. Но действительно ли эти системы понимают наши запросы так же хорошо, как это кажется?
Недавнее исследование Google DeepMind выявляет скрытые ограничения существующих методов оценки моделей ИИ, преобразующих текст в изображение. Их работа, опубликованная на сервере препринтов arXiv, представляет новый подход под названием «Gecko», который ставит целью создание более комплексного и надежного бенчмарка для этой развивающейся технологии.
В статье команды DeepMind «Переосмысляя оценку текст-to-изображение с Gecko: о метриках, запросах и человеческих оценках» говорится: «Хотя генеративные модели текста в изображения стали повсеместно распространены, они не обязательно создают изображения, соответствующие данному запросу». Они подчеркивают, что существующие датасеты и автоматические метрики, используемые для оценки моделей, таких как DALL-E, Midjourney и Stable Diffusion, часто не отражают полной картины. Ограниченные человеческие оценки и автоматические метрики могут упустить важные нюансы и привести к несоответствиям с человеческими оценками.
Gecko: Новый Бенчмарк для Моделей Текст-to-Изображение
Чтобы решить эти проблемы, исследователи разработали Gecko — пакет бенчмарков, который значительно поднимает стандарты оценки для моделей текста в изображения. Gecko бросает вызов моделям с использованием 2000 различных текстовых запросов, которые исследуют множество навыков и уровней сложности. Разбивая запросы на конкретные поднавыки, Gecko помогает выявить точные слабости моделей.
«Этот бенчмарк на основе навыков классифицирует запросы на поднавыки, позволяя практикам идентифицировать, какие навыки являются сложными и на каком уровне сложности», объясняет соавтор Оливия Уайлс.
Фреймворк Gecko улучшает оценку ИИ, преобразующего текст в изображения, Integrируя (a) комплексный датасет, основанный на навыках, (b) обширные человеческие аннотации на различных шаблонах, (c) улучшенную автоматическую метрику оценки и (d) аналитические данные о производительности модели по ряду критериев. Это исследование направлено на более точное и надежное бенчмаркинг популярных систем ИИ.
Более Точная Картина Возможностей ИИ
Исследователи также собрали более 100000 человеческих оценок изображений, созданных несколькими ведущими моделями в ответ на запросы Gecko. Этот обширный объем отзывов позволяет бенчмарку определить, связаны ли выявленные различия с реальными ограничениями модели, неоднозначностью запросов или неконсистентными методами оценки.
«Мы собираем человеческие оценки по четырем шаблонам и четырех моделям, создающим изображения по тексту, для общего количества более 100000 аннотаций», — утверждает исследование. «Это позволяет нам различать неоднозначность запроса и различия, связанные с качеством метрики и модели».
Gecko также предлагает улучшенную автоматическую метрику оценки, основанную на вопросно-ответной системе, которая лучше соответствует человеческим оценкам по сравнению с существующими метриками. При оценке передовых моделей с использованием нового бенчмарка эта комбинация выявила ранее незамеченные различия в их сильных и слабых сторонах.
«Мы вводим новую автооценочную метрику на основе QA, которая лучше коррелирует с человеческими оценками, чем существующие метрики на различных человеческих шаблонах,» заявляет статья. Примечательно, что модель Muse от DeepMind показала выдающиеся результаты во время тестирования Gecko.
Исследователи подчеркивают важность использования разнообразных бенчмарков и методов оценки, чтобы по véritable понять, что текстово-изображенческий ИИ может и не может сделать перед его реальным внедрением. Они планируют сделать код и данные Gecko общедоступными для содействия дальнейшим достижениям в этой области.
«Наша работа показывает, что выбор датасета и метрики существенно влияет на восприятие производительности», — заключает Уайлс. «Мы надеемся, что Gecko позволит более точно оценивать и диагностировать возможности моделей в будущем».
Так что, хотя это впечатляющее изображение, созданное ИИ, может произвести первое впечатление, тщательное тестирование критично для различения истинного качества от лишь иллюзий. Gecko предоставляет план для достижения этой ясности.