Google presenta Gemini 1.5 Flash: un modelo multimodal de alta velocidad con una innovadora ventana de contexto de 1 millón.

Google ha lanzado Gemini 1.5 Flash, un modelo multimodal compacto diseñado para escalar y realizar tareas de alta frecuencia. Con una ventana de contexto de un millón de tokens, ya está disponible en vista previa pública a través de la API de Gemini en Google AI Studio.

Además, Gemini 1.5 Pro, presentado en febrero, recibirá una actualización importante con una ventana de contexto ampliada a dos millones de tokens, aumentando desde uno. Los desarrolladores interesados deberán unirse a la lista de espera para acceder a esta actualización.

¿Qué hay de nuevo en Gemini 1.5?

Gemini 1.5 Flash y Gemini 1.5 Pro están diseñados para necesidades distintas. Gemini 1.5 Flash prioriza la velocidad de salida y es ideal para tareas rápidas donde la baja latencia es esencial. En cambio, Gemini 1.5 Pro está optimizado para tareas de razonamiento más complejas y de múltiples pasos, funcionando de manera similar al modelo 1.0 Ultra de Google. Según Josh Woodward, vicepresidente de Google Labs, los desarrolladores deben elegir Gemini 1.5 Flash para tareas que requieren respuestas rápidas, mientras que Gemini 1.5 Pro es más adecuado para aplicaciones complejas.

Este enfoque escalonado permite a los desarrolladores seleccionar entre una variedad de modelos de IA, rompiendo con la estrategia de "talla única". Al ofrecer diversas capacidades, Google mejora la experiencia del usuario en servicios alimentados por IA. Sin embargo, una limitación para algunos desarrolladores puede ser que Gemini 1.5 Flash no ha sido entrenado con conjuntos de datos suficientemente grandes. En tales casos, una actualización a Gemini 1.5 Pro podría ser beneficiosa.

La línea de modelos Gemini incluye opciones desde el ligero Gemma y Gemma 2 hasta Gemini Nano, Gemini 1.5 Flash, Gemini 1.5 Pro y Gemini 1.0 Ultra. Como menciona Woodward, "Los desarrolladores pueden transitar entre estos tamaños según su caso de uso", manteniendo al mismo tiempo capacidades de entrada multimodal y una experiencia de backend coherente.

Este anuncio llega poco después de que OpenAI introdujera su propio competidor, GPT-4o, un modelo de lenguaje multimodal (LLM) orientado a un amplio acceso de usuarios, que incluye una aplicación de escritorio.

Ambos modelos de Gemini 1.5 ya están disponibles en vista previa pública en más de 200 países y territorios, incluyendo el Espacio Económico Europeo, el Reino Unido y Suiza.

Most people like

Find AI tools in YBX