Google усиливает свой чат-бот Bard AI, чтобы укрепить конкуренцию против ChatGPT от OpenAI. Под руководством Сундар Пичаи компания объявила о добавлении возможностей генерации изображений через свою модель ИИ Imagen 2 и более продвинутую версию Gemini Pro. Эти обновления предоставляют пользователям более широкий доступ к функционалу ИИ Bard, включая новый бесплатный инструмент для создания изображений на основе искусственного интеллекта.
«Эти обновления позиционируют Bard как более эффективного и доступного в глобальном масштабе партнера по ИИ для выполнения задач, начиная от крупных творческих проектов и заканчивая повседневными делами», — отметил Джек Кравчик, руководитель продукта Bard, в своем блоге.
Кроме того, Google начинает тестирование еще одного генератора изображений, называемого ImageFX.
Gemini Pro с многоязычной поддержкой
Более месяца назад Google представила модель ИИ Gemini в трех версиях: Nano для мобильного использования, Pro для промежуточных приложений и Ultra, которая, как ожидается, станет самой мощной языковой моделью, когда-либо созданной, более продвинутой, чем GPT-4. Однако версия Ultra будет выпущена только в конце этого года.
Первоначальные сравнения между Gemini Pro и другими моделями показали, что она может отставать от старой версии GPT-3.5 Turbo от OpenAI. Это создает вызов для Google в демонстрации своих возможностей в конкурентной среде генеративного ИИ. В прошлом месяце была выпущена усовершенствованная версия Gemini Pro для Bard, но она была доступна лишь на английском языке.
Новые функции ИИ, представленные сегодня, призваны помочь Google преодолеть этот разрыв. Последняя версия Bard будет поддерживать более 40 языков, включая корейский, испанский, тамильский, итальянский и русский, в более чем 230 странах и территориях. Это расширение предоставляет более широкому кругу пользователей доступ к продвинутым возможностям Gemini Pro в области понимания, резюмирования, логического мышления и программирования, а также к функции Bard, которая проверяет ответы, осуществляя поиск в интернете.
Imagen 2 в Bard: конкуренция с ChatGPT Plus и DALL-E 3
Одним из самых захватывающих нововведений является возможность генерации изображений с помощью модели Imagen 2, позволяющей создавать качественные фотореалистичные изображения по текстовым запросам. Это выводит Bard на уровень прямого конкурента ChatGPT Plus от OpenAI, который включает генератор изображений DALL-E 3.
«Просто опишите, что вы хотите, например: ‘создайте изображение собаки на серфинге’, и Bard сгенерирует разнообразные визуализации, чтобы воплотить вашу концепцию в жизнь», — объяснил Кравчик.
В ходе тестирования Bard создавал изображения примерно за 30-40 секунд, демонстрируя хорошую стабильность. Однако были случаи, когда он не смог сгенерировать изображения вообще, даже следуя правилам, которые исключали изображения известных личностей, чтобы избежать возможных скандалов.
В настоящее время в наших первых тестах этого инструмента нет поддержки изменения соотношения сторон или использования неанглийских запросов.
Для решения вопросов авторских прав на медиа, сгенерированные ИИ, Google Bard позволяет пользователям сообщать о юридических проблемах, связанных с защитой данных и авторским правом для всего сгенерированного контента. Платформа также ограничивает насилие, оскорбительный или порнографический контент. Более того, Google внедрила цифровые водяные знаки в пиксели сгенерированных изображений с помощью SynthID, разработанного DeepMind, что помогает отличать визуализации, созданные ИИ, от работ человеческих художников.
Новая версия с ImageFX
Помимо Bard, Google исследует ImageFX, работающий на базе Imagen 2. Доступный сейчас в AI Test Kitchen, экспериментальном приложении Google, ImageFX поощряет творческое исследование через «экспрессивные чипы», которые предоставляют пользователям рекомендации и дополнительные аспекты для улучшения их запросов. Эта функция аналогична предложениям в других творческих инструментах, таких как Ideogram.
AI Test Kitchen также включает инновационные проекты, такие как MusicFX, который может создавать мелодии длительностью до 70 секунд по текстовым запросам и экспрессивным чипам, а также TextFX, предназначенный для авторов текстов и креативных писателей.