Сегодня на своей ежегодной конференции для разработчиков I/O в Маунтин-Вью Google представила ряд новшеств, сосредоточенных на искусственном интеллекте, включая проект Astra — амбициозную инициативу по разработке универсального ИИ-агента будущего.
Во время конференции была продемонстрирована начальная версия агента, задача которого — создать мультимодального ИИ-ассистента, который воспринимает и понимает окружающую среду, реагируя в реальном времени для помощи с повседневными задачами и вопросами. Эта концепция тесно связана с недавним запуском ChatGPT на основе GPT-4o от OpenAI.
В то время как OpenAI готовится к внедрению GPT-4o для подписчиков ChatGPT Plus в ближайшие недели, Google придерживается более осторожного подхода с проектом Astra. Хотя компания продолжает дорабатывать этот проект, сроки появления полностью работающего ИИ-агента пока не объявлены. Тем не менее, некоторые функции из проекта Astra ожидается внедрить в ассистента Gemini позже в этом году.
Чего ожидать от проекта Astra?
Project Astra — сокращенно Advanced Seeing and Talking Responsive Agent — основывается на достижениях, достигнутых с Gemini Pro 1.5 и другими специализированными моделями. Он позволяет пользователям взаимодействовать, учитывая сложные динамические аспекты их окружения. Ассистент спроектирован для понимания того, что он видит и слышит, предоставляя точные ответы в реальном времени.
«Чтобы быть по-настоящему полезным, агент должен понимать и реагировать на сложный и динамичный мир так же, как это делают люди», — заявил Демис Хассабис, CEO Google DeepMind. «Он должен запоминать то, что видит и слышит, чтобы понимать контекст и принимать меры. Кроме того, он должен быть проактивным, обучаемым и персонализированным, позволяя вести естественные беседы без задержек».
В одном из демонстрационных видео прототип агента проекта Astra, работающего на смартфоне Pixel, определял объекты, описывал их состав и интерпретировал коды, написанные на белой доске. Агент даже распознавал окрестности через камеру и вспоминал, где пользователь оставил очки.
Project Astra в действии
Во втором демонстрационном видео были продемонстрированы аналогичные функции, такие как предложение улучшений системы архитектуры, дополненные графическими наложениями, видимыми через очки.
Хассабис отметил серьезные инженерные вызовы, связанные с достижением скорости реакции, аналогичной человеческой. Агенты постоянно кодируют видеокадры, объединяя видео и речевой ввод в временную шкалу для эффективного восстановления информации.
«Используя наши продвинутые речевые модели, мы улучшили вокальные способности агентов, обеспечив более широкий диапазон интонации. Это улучшение позволяет агентам лучше понимать контекст и быстро реагировать», — добавил он.
В отличие от этого, GPT-4o от OpenAI обрабатывает все входные и выходные данные в единой модели, достигая средней скорости отклика в 320 миллисекунд. Google пока не раскрыла конкретные времена отклика для Astra, но ожидания по уменьшению задержки остаются в процессе разработки. Эмоциональный диапазон агентов проекта Astra пока остается непонятным по сравнению с возможностями OpenAI.
Доступность
На данный момент Astra представляет собой первоначальные усилия Google по созданию комплексного ИИ-агента, предназначенного для помощи в повседневных задачах как личного, так и профессионального характера, с сохранением контекстной осведомленности и памяти. Компания не уточнила, когда эта концепция станет конкретным продуктом, но подтвердила, что возможности понимания и взаимодействия с реальным миром будут интегрированы в приложение Gemini на платформах Android, iOS и веб.
Сначала функция Gemini Live позволит двухсторонние беседы с чат-ботом. Позже в этом году ожидаются обновления, которые включат визуальные возможности, позволяя пользователям взаимодействовать с окружением через камеры. Примечательно, что пользователи смогут прерывать Gemini во время беседы, что напоминает функционал ChatGPT от OpenAI.
«С такой технологией легко представить будущее, где у людей будет экспертный ИИ-ассистент рядом, будь то на смартфоне или в очках», — заключил Хассабис.