Google lanza las versiones Flash y Pro de Gemini 1.5, con un límite de 2 millones de tokens para el acceso público.

Google Cloud ha lanzado dos versiones de su modelo insignia de inteligencia artificial: Gemini 1.5 Flash y Gemini 1.5 Pro. Gemini 1.5 Flash es un modelo multimodal compacto con un contexto de 1 millón de tokens, diseñado para tareas de alta frecuencia. Presentado por primera vez en mayo durante Google I/O, ahora está disponible para desarrolladores. El más potente, Gemini 1.5 Pro, introducido en febrero, cuenta con un impresionante contexto de 2 millones de tokens, convirtiéndose en la versión más avanzada del modelo de lenguaje grande (LLM) de Google hasta la fecha.

El lanzamiento de estas variaciones de Gemini demuestra cómo la tecnología de IA de Google puede empoderar a las empresas para crear agentes de IA innovadores y soluciones efectivas. Durante una reciente conferencia de prensa, el CEO de Google Cloud, Thomas Kurian, destacó el "increíble impulso" en la adopción de la IA generativa, mencionando que grandes organizaciones—como Accenture, Airbus y Goldman Sachs—están utilizando la plataforma de Google. Kurian atribuye este aumento a las capacidades de los modelos de Google combinadas con la plataforma Vertex, prometiendo avances rápidos en ambas áreas.

Gemini 1.5 Flash

Gemini 1.5 Flash ofrece a los desarrolladores menor latencia, precios rentables y un contexto ideal para aplicaciones como agentes de chat en retail y procesamiento de documentos. Google afirma que, en promedio, Gemini 1.5 Flash es un 40% más rápido que GPT-3.5 Turbo al procesar entradas de 10,000 caracteres. Además, tiene un costo de entrada cuatro veces menor que el modelo de OpenAI y admite la caché de contexto para entradas que superen los 32,000 caracteres.

Gemini 1.5 Pro

Gemini 1.5 Pro presenta un contexto único de 2 millones de tokens, permitiendo un análisis más extenso del texto y la generación de respuestas completas. Kurian explica que esta capacidad significa que los usuarios pueden introducir contenido extenso, como un video de alta definición de dos horas o más de 60,000 líneas de código, sin necesidad de fragmentarlo. Muchas empresas ya están descubriendo un valor significativo gracias a la mayor potencia de procesamiento de este modelo.

Kurian además distingue entre los dos modelos según las necesidades del usuario: Gemini 1.5 Pro es ideal para procesar contenido largo, mientras que Flash es más adecuado para aplicaciones de baja latencia.

Caché de Contexto para Gemini 1.5

Para ayudar a los desarrolladores a maximizar el potencial de las ventanas de contexto de Gemini, Google está introduciendo la caché de contexto, ahora en vista pública para ambos modelos. Esta función permite que los modelos almacenen y reutilicen información procesada anteriormente, reduciendo significativamente los costos computacionales—hasta en un 75%—al eliminar la necesidad de recalcular respuestas en conversaciones o documentos largos.

Rendimiento Provisionado para Gemini

La nueva función de rendimiento provisionado permite a los desarrolladores escalar eficientemente el uso de los modelos Gemini gestionando la cantidad de consultas que un modelo puede manejar con el tiempo. Esta opción ofrece mayor previsibilidad y confiabilidad en comparación con el modelo anterior de pago por uso. Kurian señaló que el rendimiento provisionado permite a los clientes reservar capacidad de inferencia, asegurando un rendimiento consistente incluso durante picos de demanda, como los que experimentan las plataformas de redes sociales durante grandes eventos.

El rendimiento provisionado está ahora disponible de manera general, ofreciendo a los desarrolladores un mayor control sobre sus cargas de trabajo en producción y garantías sobre los tiempos de respuesta y la disponibilidad del servicio.

Most people like

Find AI tools in YBX