Google DeepMind представляет ‘Gecko’: новый комплексный стандарт для оценки генераторов изображений с использованием ИИ.

Home Новости ИИ Google DeepMind представляет ‘Gecko’: новый комплексный стандарт для оценки генераторов изображений с использованием ИИ.

Updated on апрель 28 2024

Вы, возможно, недавно сталкивались с потрясающими изображениями, созданными ИИ, такими как астронавт на лошади или авокадо в кресле терапевта. Эти захватывающие визуалы создаются моделями ИИ, предназначенными для преобразования текстовых запросов в изображения. Но действительно ли эти системы понимают наши запросы так же хорошо, как это кажется?

Недавнее исследование Google DeepMind выявляет скрытые ограничения существующих методов оценки моделей ИИ, преобразующих текст в изображение. Их работа, опубликованная на сервере препринтов arXiv, представляет новый подход под названием «Gecko», который ставит целью создание более комплексного и надежного бенчмарка для этой развивающейся технологии.

В статье команды DeepMind «Переосмысляя оценку текст-to-изображение с Gecko: о метриках, запросах и человеческих оценках» говорится: «Хотя генеративные модели текста в изображения стали повсеместно распространены, они не обязательно создают изображения, соответствующие данному запросу». Они подчеркивают, что существующие датасеты и автоматические метрики, используемые для оценки моделей, таких как DALL-E, Midjourney и Stable Diffusion, часто не отражают полной картины. Ограниченные человеческие оценки и автоматические метрики могут упустить важные нюансы и привести к несоответствиям с человеческими оценками.

Gecko: Новый Бенчмарк для Моделей Текст-to-Изображение

Чтобы решить эти проблемы, исследователи разработали Gecko — пакет бенчмарков, который значительно поднимает стандарты оценки для моделей текста в изображения. Gecko бросает вызов моделям с использованием 2000 различных текстовых запросов, которые исследуют множество навыков и уровней сложности. Разбивая запросы на конкретные поднавыки, Gecko помогает выявить точные слабости моделей.

«Этот бенчмарк на основе навыков классифицирует запросы на поднавыки, позволяя практикам идентифицировать, какие навыки являются сложными и на каком уровне сложности», объясняет соавтор Оливия Уайлс.

Фреймворк Gecko улучшает оценку ИИ, преобразующего текст в изображения, Integrируя (a) комплексный датасет, основанный на навыках, (b) обширные человеческие аннотации на различных шаблонах, (c) улучшенную автоматическую метрику оценки и (d) аналитические данные о производительности модели по ряду критериев. Это исследование направлено на более точное и надежное бенчмаркинг популярных систем ИИ.

Более Точная Картина Возможностей ИИ

Исследователи также собрали более 100000 человеческих оценок изображений, созданных несколькими ведущими моделями в ответ на запросы Gecko. Этот обширный объем отзывов позволяет бенчмарку определить, связаны ли выявленные различия с реальными ограничениями модели, неоднозначностью запросов или неконсистентными методами оценки.

«Мы собираем человеческие оценки по четырем шаблонам и четырех моделям, создающим изображения по тексту, для общего количества более 100000 аннотаций», — утверждает исследование. «Это позволяет нам различать неоднозначность запроса и различия, связанные с качеством метрики и модели».

Gecko также предлагает улучшенную автоматическую метрику оценки, основанную на вопросно-ответной системе, которая лучше соответствует человеческим оценкам по сравнению с существующими метриками. При оценке передовых моделей с использованием нового бенчмарка эта комбинация выявила ранее незамеченные различия в их сильных и слабых сторонах.

«Мы вводим новую автооценочную метрику на основе QA, которая лучше коррелирует с человеческими оценками, чем существующие метрики на различных человеческих шаблонах,» заявляет статья. Примечательно, что модель Muse от DeepMind показала выдающиеся результаты во время тестирования Gecko.

Исследователи подчеркивают важность использования разнообразных бенчмарков и методов оценки, чтобы по véritable понять, что текстово-изображенческий ИИ может и не может сделать перед его реальным внедрением. Они планируют сделать код и данные Gecko общедоступными для содействия дальнейшим достижениям в этой области.

«Наша работа показывает, что выбор датасета и метрики существенно влияет на восприятие производительности», — заключает Уайлс. «Мы надеемся, что Gecko позволит более точно оценивать и диагностировать возможности моделей в будущем».

Так что, хотя это впечатляющее изображение, созданное ИИ, может произвести первое впечатление, тщательное тестирование критично для различения истинного качества от лишь иллюзий. Gecko предоставляет план для достижения этой ясности.

Fortanix представляет важное решение: платформа для управления криптографическими рисками в предприятиях.

Использование LLM для опережения конкурентов: стратегическое руководство для руководителей предприятий

Most people like

Brev.ai

465.3K

Представляем генератор музыки на основе ИИ: Создавайте качественные песни без усилий Откройте для себя возможности генератора музыки на основе ИИ — вашего универсального решения для создания исключительных песен с легкостью. Эта инновационная технология использует искусственный интеллект для производства высококачественной музыки, соответствующей вашему стилю и предпочтениям. Независимо от того, являетесь ли вы опытным музыкантом или увлеченным любителем, наш генератор музыки на основе ИИ даст вам возможность сочинять и дорабатывать песни, как никогда ранее. Разблокируйте свое творчество и поднимите свое музыкальное путешествие на новый уровень уже сегодня!

Генератор музыки на основе ИИ AI Music Generator

XspaceGPT

44.9K

Откройте для себя мощь нашего AI инструмента, разработанного специально для преобразования Twitter Spaces в текст. Легко транскрибируйте разговоры, лекции и обсуждения из Twitter Spaces, запечатлевая каждое ценные мгновение без усилий. С нашей передовой технологией вы сможете улучшить доступность, делать заметки или перерабатывать контент для блогов и статей. Присоединяйтесь к растущему сообществу, использующему AI для оптимизации своего опыта в Twitter Spaces!

Конвертация текста с помощью ИИ Summarizer

Quiz Wizard

19.2K

Quiz Wizard — это инновационная платформа на основе ИИ, разработанная для создания индивидуализированных вопросов с выбором ответа и специализированных учебных материалов.

ИИ AI Education Assistant

LongShot AI

71.8K

LongShot — это мощный инструмент генерации контента, специально разработанный для создания высококачественных и фактически точных статей, оптимизированных для поисковых систем. Благодаря своим продвинутым функциям, LongShot помогает вам создавать привлекательный контент, который выделяется в результатах поиска.

Контентное написание на основе ИИ AI Response Generator

Find AI tools in YBX