O Google está apresentando sua mais recente inovação, o modelo Gemini, que oferece às empresas e desenvolvedores a primeira visão de suas poderosas capacidades de linguagem por meio de uma API acessível. O Gemini está disponível em três tamanhos: Ultra, Pro e Nano. A partir de hoje, os desenvolvedores podem acessar a API Gemini Pro através da ferramenta desenvolvedora web gratuita do Google, AI Studio (anteriormente conhecida como Makersuite), enquanto as empresas podem integrá-la por meio da plataforma Vertex AI do Google Cloud, permitindo a criação rápida de aplicações.
O Google anunciou planos para aprimorar ainda mais o Gemini Pro com base no feedback dos usuários nas próximas semanas. "Estamos ansiosos pelas inovações que desenvolvedores e empresas criarão com o Gemini," compartilhou a empresa em um recente post no blog. Atualmente, o Gemini Pro alimenta o Bard, a IA conversacional do Google projetada para competir com o ChatGPT. Uma das principais características da versão inicial é sua janela de contexto de 32.000 tokens, capaz de processar aproximadamente 5.333 palavras. Em comparação, o GPT-4 Turbo da OpenAI pode lidar com até 128.000 tokens. No entanto, novas iterações do Gemini Pro devem expandir significativamente essa capacidade.
Entre as funcionalidades do Gemini Pro estão suporte para 38 idiomas, chamadas de função, embeddings, recuperação semântica e personalização de conhecimento. No momento, a API opera exclusivamente com entrada e saída de texto. Entretanto, um endpoint multimodal—Gemini Pro Vision—foi lançado para aceitar entradas textuais e visuais, como imagens e vídeos, gerando saídas textuais com base nelas.
Atualmente, a API Gemini Pro é gratuita, mas limitada a um máximo de 60 consultas por minuto. Uma versão pay-as-you-go será introduzida em breve, prometendo menos restrições com uma estrutura de preços que o Google descreve como "competitiva." O custo da Gemini Pro foi estabelecido em $0,00025 por mil caracteres e $0,0025 por imagem, enquanto a saída é cobrada em $0,0005 por mil caracteres. Entradas e saídas da versão gratuita serão utilizadas pelo Google para aprimorar suas ofertas, enquanto os dados da versão paga permanecerão privados.
Além do Gemini Pro, o Google está expandindo sua plataforma Vertex com novos modelos, incluindo o Imagen 2, o mais recente modelo de geração de imagens da Google DeepMind. Este avançado modelo de difusão de texto para imagem pode produzir imagens de alta qualidade e até logotipos realistas para empresas, além de renderizar texto em múltiplas línguas.
Outra adição significativa é o MedLM, um conjunto de modelos base ajustados especificamente para o setor de saúde. Baseado no modelo Med-PaLM 2, o MedLM é destinado a aplicações como anotações médicas e respostas a perguntas relacionadas à saúde. Atualmente, esse modelo está acessível apenas para usuários do Vertex nos EUA, com planos futuros de ampliar sua disponibilidade nas próximas semanas. O Google também pretende incorporar modelos baseados no Gemini ao pacote MedLM em breve.
Finalmente, a ferramenta Duet AI for Developers está agora disponível de forma geral. Esta ferramenta de colaboração ajuda os desenvolvedores a otimizar o processo de construção de aplicações e pode ser integrada a várias interfaces do Google Cloud para geração de código e assistência em chat. Nas próximas semanas, o Gemini será integrado ao Duet AI, que também está se expandindo para operações de segurança, melhorando a colaboração para defensores dentro de uma plataforma unificada de SecOps.
Com essas ferramentas inovadoras, o Google está preparando o terreno para uma nova era de aplicações impulsionadas por IA que prometem aumentar a produtividade, criatividade e segurança em diversos setores.