O Google Cloud lançou duas versões de seu modelo de IA insignia: Gemini 1.5 Flash e Gemini 1.5 Pro. O Gemini 1.5 Flash é um modelo multimodal compacto, com uma janela de contexto de 1 milhão de tokens, projetado para tarefas de alta frequência. Lançado em maio durante o Google I/O, agora está disponível para desenvolvedores. Já o Gemini 1.5 Pro, apresentado em fevereiro, possui uma impressionante janela de contexto de 2 milhões de tokens, tornando-se a versão mais avançada do modelo de linguagem grande (LLM) da Google até o momento.
A introdução dessas variações do Gemini demonstra como a tecnologia de IA do Google pode capacitar empresas a criar agentes e soluções inovadoras. Em uma recente coletiva de imprensa, o CEO do Google Cloud, Thomas Kurian, destacou o "incrível impulso" na adoção de IA generativa, observando que grandes organizações—incluindo Accenture, Airbus e Goldman Sachs—estão aproveitando a plataforma do Google. Kurian atribui esse crescimento às capacidades dos modelos do Google em conjunto com a plataforma Vertex, prometendo avanços rápidos em ambas as áreas.
Gemini 1.5 Flash
O Gemini 1.5 Flash oferece aos desenvolvedores baixa latência, preços econômicos e uma janela de contexto ideal para aplicações como agentes de chat no varejo e processamento de documentos. Segundo o Google, em média, o Gemini 1.5 Flash opera 40% mais rápido que o GPT-3.5 Turbo ao processar entradas de 10.000 caracteres. Além disso, apresenta um custo de entrada quatro vezes menor que o modelo da OpenAI e suporta cache de contexto para entradas superiores a 32.000 caracteres.
Gemini 1.5 Pro
O Gemini 1.5 Pro possui uma janela de contexto única de 2 milhões de tokens, permitindo a análise de mais texto e a geração de respostas abrangentes. Kurian explica que essa capacidade significa que os usuários podem inserir conteúdos extensos, como um vídeo em alta definição de duas horas ou mais de 60.000 linhas de código, sem precisar dividi-los em segmentos menores. Muitas empresas já estão descobrindo um valor significativo na potência de processamento aprimorada deste modelo.
Kurian ainda diferencia os dois modelos com base nas necessidades dos usuários: o Gemini 1.5 Pro é ideal para processar conteúdos longos, enquanto o Flash é mais adequado para aplicações de baixa latência.
Cache de Contexto para Gemini 1.5
Para ajudar os desenvolvedores a maximizar o potencial das janelas de contexto do Gemini, o Google está introduzindo o cache de contexto, agora em pré-visualização pública para ambos os modelos. Esse recurso permite que os modelos armazenem e reutilizem informações processadas anteriormente, reduzindo significativamente os custos computacionais—até 75%—ao eliminar a necessidade de recomputar respostas para longas conversas ou documentos.
Throughput Provisionado para Gemini
O novo recurso de throughput provisionado permite que os desenvolvedores escalem sua utilização dos modelos Gemini de forma eficiente, gerenciando o número de consultas que um modelo pode lidar ao longo do tempo. Essa opção proporciona maior previsibilidade e confiabilidade em comparação com o modelo anterior pay-as-you-go. Kurian observou que o throughput provisionado permite que os clientes reservem capacidade de inferência, garantindo desempenho consistente mesmo durante picos de demanda, como os vividos por plataformas de redes sociais em grandes eventos.
O throughput provisionado já está disponível, oferecendo aos desenvolvedores maior controle sobre suas cargas de trabalho em produção e garantias de serviços em relação a tempos de resposta e disponibilidade.