Google Cloud представил две версии своей флагманской модели искусственного интеллекта: Gemini 1.5 Flash и Gemini 1.5 Pro. Gemini 1.5 Flash — это компактная многомодальная модель с контекстным окном на 1 миллион токенов, разработанная для высокочастотных задач. Впервые представленная в мае на Google I/O, она теперь доступна для разработчиков. Более мощная Gemini 1.5 Pro, которая была представлена в феврале, обладает впечатляющим контекстным окном в 2 миллиона токенов, что делает её самой совершенной версией крупной языковой модели (LLM) Google на сегодняшний день.
Запуск этих вариаций Gemini демонстрирует, как технологии искусственного интеллекта Google могут помочь компаниям создавать инновационных AI-агентов и решения. Во время недавней пресс-конференции генеральный директор Google Cloud Томас Курьян подчеркнул "невероятный импульс" в принятии генеративного ИИ, отметив, что крупные организации, включая Accenture, Airbus и Goldman Sachs, строят свои решения на платформе Google. Курьян связывает этот рост с возможностями моделей Google в сочетании с платформой Vertex, обещая быстрые достижения в обеих областях.
Gemini 1.5 Flash
Gemini 1.5 Flash предлагает разработчикам низкую задержку, выгодные цены и контекстное окно, идеально подходящее для таких приложений, как чат-агенты для розничной торговли и обработка документов. Google утверждает, что в среднем Gemini 1.5 Flash работает на 40% быстрее, чем GPT-3.5 Turbo, обрабатывая входные данные объемом 10,000 символов. Кроме того, он предлагает в четыре раза более низкую стоимость ввода по сравнению с моделью OpenAI и поддерживает кэширование контекста для вводов, превышающих 32,000 символов.
Gemini 1.5 Pro
Gemini 1.5 Pro обладает уникальным контекстным окном в 2 миллиона токенов, что позволяет ему анализировать более объемные тексты и генерировать развернутые ответы. Курьян объясняет, что эта способность позволяет пользователям вводить большие объёмы контента, такие как двухчасовое видео в высоком разрешении или более 60,000 строк кода, без необходимости разбивать его на более мелкие сегменты. Многие компании уже начинают извлекать значительную выгоду из улучшенной мощности обработки этой модели.
Курьян также различает обе модели в зависимости от потребностей пользователей: Gemini 1.5 Pro идеально подходит для обработки длинного контента, в то время как Flash лучше всего подходит для приложений с низкой задержкой.
Кэширование контекста для Gemini 1.5
Чтобы помочь разработчикам максимально использовать потенциал контекстных окон Gemini, Google внедряет кэширование контекста, которое сейчас доступно для обеих моделей в публичном превью. Эта функция позволяет моделям сохранять и повторно использовать ранее обработанную информацию, существенно снижая вычислительные затраты — до 75% — за счёт устранения необходимости пересчитывать ответы для долгих разговоров или документов.
Выделенная пропускная способность для Gemini
Новая функция выделенной пропускной способности позволяет разработчикам эффективно масштабировать использование моделей Gemini, управляя количеством запросов, которые модель может обрабатывать со временем. Эта опция обеспечивает лучшую предсказуемость и надежность по сравнению с предыдущей моделью оплаты по факту использования. Курьян отметил, что выделенная пропускная способность позволяет клиентам резервировать мощность вывода, обеспечивая стабильную производительность даже во время пиковых нагрузок, таких как события в социальных сетях.
Выделенная пропускная способность теперь доступна в общем доступе, предлагая разработчикам больший контроль над рабочими нагрузками и гарантии по времени ответа и доступности сервиса.