Google представила модель Gemini 1.5 Pro: Подъем технологий искусственного интеллекта благодаря улучшенному пониманию аудио и функциям управления системами.

Недавно Google сделала значительные шаги в области искусственного интеллекта, запустив свою долгожданную модель Gemini 1.5 Pro, которая теперь доступна более чем в 180 странах и регионах. Эта модель не только продолжает выдающиеся достижения серии Gemini, но и предлагает существенные улучшения, включая расширенные возможности аудиопонимания и новые функции, такие как системные директивы и JSON-вывод, обеспечивая разработчикам более надежный и гибкий контроль.

С момента ограниченного тестирования для разработчиков в Google AI Studio два месяца назад, Gemini 1.5 Pro привлекла значительное внимание благодаря своему впечатляющему контекстному окну в 1 миллион токенов и возможности нативного аудиопонимания. Ожидается, что глобальный релиз ускорит применение и разработку технологий ИИ в различных отраслях.

В области аудиопонимания Gemini 1.5 Pro достигла уровня, позволяющего делать выводы на основе загруженных видеокадров и аудио (речи), открывая новые возможности для обработки аудио и видео. Разработчики могут использовать Google AI Studio и API Gemini для проведения глубокого анализа и обработки аудио- и видеоданных, что облегчает создание более умных и эффективных приложений.

Введение системных директив позволяет разработчикам точно направлять ответы модели, задавая роли, форматы, цели и правила. Это улучшение не только повышает контролируемость модели, но и увеличивает её адаптивность, позволяя разработчикам настраивать ответы в зависимости от конкретных случаев.

Для удовлетворения потребности в структурированных данных Gemini 1.5 Pro теперь поддерживает JSON-вывод, что облегчает извлечение структурированных данных из текста или изображений с помощью JSON-объектов. Разработчики могут использовать cURL для запросов данных, планируется также поддержка Python SDK в будущем для оптимизации рабочих процессов обработки данных.

Gemini 1.5 Pro включает улучшения для вызовов функций. Разработчики теперь могут выбирать разные режимы, чтобы ограничить вывод модели, что повышает надежность и точность. Независимо от того, идет ли речь о генерации текста, выполнении функций или только вызовах функций, разработчики могут гибко подстраивать настройки под свои требования.

Кроме того, Google представила модель текстового встраивания нового поколения text-embedding-004/text-embedding-preview-0409, которая продемонстрировала выдающиеся результаты в тестах MTEB, обогнав существующие сопоставимые модели. Эта новая модель встраивания предоставляет более эффективные инструменты для обработки и анализа текста.

В итоге, запуск Gemini 1.5 Pro знаменует собой важный прорыв для Google в области технологий ИИ. С новыми функциями, такими как аудиопонимание, системные директивы и JSON-вывод, эта модель предлагает мощные и гибкие инструменты для разработчиков, что, вероятно, проложит путь для широкого применения ИИ в различных сферах. Мы с нетерпением ждем инновационных приложений на основе Gemini 1.5 Pro, которые сделают нашу повседневную жизнь лучше.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles