Zyphra presenta Zamba: un modelo de fundación SSM-Híbrido revolucionario que facilita el acceso a la IA en más dispositivos.

Zyphra Technologies está lanzando un modelo fundamental innovador diseñado para descentralizar aún más la inteligencia artificial. Zamba, un modelo de IA de código abierto con 7 mil millones de parámetros, utiliza los Mamba blocks de la empresa y una capa de atención global compartida. Este modelo innovador busca mejorar la inteligencia en varios dispositivos mientras reduce significativamente los costos de inferencia.

IA para Cada Dispositivo

“Nuestra visión es crear tu IA personal”, afirmó Krithik Puthalath, CEO de Zyphra Technologies. “Nuestra misión es fomentar mejores conexiones entre las personas. Si bien la tecnología y las redes sociales prometieron un mundo más conectado y satisfactorio, no hemos alcanzado ese objetivo. Aspiramos a transformar el futuro de la IA”.

Puthalath destacó que la centralización de la IA por parte de grandes empresas representa un problema crítico. “En la búsqueda de la inteligencia artificial general, empresas como OpenAI y Anthropic han desarrollado modelos monolíticos en la nube, modelos únicos destinados a todos. Este enfoque tiene limitaciones, lo que genera desconfianza en estos sistemas y hace que la IA se sienta impersonal. Aunque ChatGPT ofrece respuestas valiosas, carece de una verdadera memoria, personalización y la capacidad de adaptarse con el tiempo”.

El Valor de los Modelos de Lenguaje Pequeños

El modelo de 7 mil millones de parámetros de Zyphra puede parecer limitado en comparación con los modelos de OpenAI, Anthropic o Meta, que cuentan con decenas de miles de millones. Sin embargo, la estrategia de Zyphra se centra en desplegar modelos de lenguaje pequeños (SML) para optimizar la integración de la IA en dispositivos cotidianos.

Beren Millidge, cofundador y científico principal de Zyphra, cree que, aunque su modelo inicial, BlackMamba, de 1 mil millones de parámetros, sirvió como prueba de concepto, los 7 mil millones de parámetros son ideales para interacciones significativas. “Este tamaño permite la operación local en casi todos los dispositivos”, explicó. En contraste, los modelos más grandes suelen requerir potentes clústeres de GPU que la mayoría de los usuarios no puede acceder, lo que refuerza el compromiso de Zyphra con la descentralización.

“Se trata de acercar la IA al usuario”, añadió Puthalath. “Al desarrollar modelos más pequeños y eficientes, adaptados a casos de uso específicos, permitimos respuestas en tiempo real sin depender de la infraestructura en la nube. Este enfoque no solo mejora la experiencia del usuario, sino que también reduce los costos operativos, permitiendo más inversión en innovación”.

Compitiendo con Modelos Establecidos

Zyphra afirma que Zamba supera a otros modelos de código abierto como LLaMA 1, LLaMA 2 7B y OLMo-7B, superándolos en varias métricas estándar mientras utiliza menos de la mitad de los datos de entrenamiento. Aunque las pruebas iniciales se realizaron internamente, Zyphra planea publicar los pesos del modelo para evaluación pública.

Cuando se le preguntó sobre el desarrollo de la arquitectura de Zamba, Millidge compartió que su enfoque se basa en la intuición práctica acerca de los desafíos existentes en los modelos y las posibles soluciones. También se inspiraron en la neurociencia, creando una estructura que imita la funcionalidad del cerebro. Zamba cuenta con un único bloque de memoria global compuesto por Mamba blocks, lo que permite un intercambio de información eficiente similar a la interacción entre la corteza cerebral y el hipocampo en el cerebro humano.

El proceso de Zyphra incluyó una experimentación significativa. “La intuición por sí sola no es suficiente”, señaló Millidge. “Debemos realizar experimentos para descubrir qué funciona y qué no, y luego iterar en consecuencia”.

El modelo fundamental Zamba de código abierto ya está disponible en Hugging Face, invitando a los usuarios a explorar sus capacidades.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles