En una entrevista exclusiva, Itamar Arel, fundador y CEO de la startup de IA Tenyx, reveló un avance notable en el procesamiento de lenguaje natural. Tenyx ha perfeccionado el modelo de lenguaje de código abierto Llama-3 de Meta, ahora denominado Tenyx-70B, superando a GPT-4 de OpenAI en dominios específicos, marcando un hito al ser el primer modelo de código abierto en superar un estándar propietario.
“Desarrollamos una tecnología de ajuste fino que nos permite mejorar un modelo fundamental más allá de su entrenamiento original,” explicó Arel. “Estamos entusiasmados de usar este enfoque para permitir el aprendizaje continuo o incremental aprovechando las redundancias en grandes modelos.”
El modelo Llama-3 de Tenyx supera a GPT-4 en matemáticas y programación, además de ofrecer un rendimiento superior en todas las capacidades en comparación con el modelo base Llama-3. Este logro, según Arel, destaca una nueva era para la IA de código abierto.
Enfrentando el "Olvido Catastrófico"
Tenyx aborda el problema del "olvido catastrófico", donde un modelo puede perder conocimiento previamente adquirido al ser expuesto a nuevos datos. Al actualizar selectivamente una pequeña fracción de los parámetros del modelo, Tenyx logra entrenar con nueva información sin sacrificar habilidades existentes.
“Si cambias solo el 5% de los parámetros del modelo manteniendo el resto intacto, puedes hacerlo de manera más agresiva sin distorsionar otras funciones,” comentó Arel. Este método permite a Tenyx ajustar el modelo Llama-3 de 70 mil millones de parámetros en solo 15 horas utilizando 100 GPUs.
Compromiso con la IA de Código Abierto
Tenyx promueve la IA de código abierto al lanzar su modelo ajustado, Tenyx-70B, bajo la misma licencia que el original Llama-3. “Creemos en los modelos de código abierto,” afirmó Arel. “Compartir avances con la comunidad fomenta la innovación y beneficia a todos.”
Las aplicaciones de la tecnología de optimización posterior al entrenamiento de Tenyx son extensas, desde el desarrollo de chatbots especializados hasta la facilitación de actualizaciones frecuentes para modelos desplegados, asegurando que se mantengan actuales con la información emergente.
Transformando el Panorama de la IA
El avance de Tenyx tiene implicaciones significativas, ofreciendo a empresas e investigadores acceso a modelos de lenguaje avanzados sin los altos costos de soluciones propietarias. Este progreso también podría impulsar más innovación en la comunidad de código abierto a medida que otros construyan sobre el éxito de Tenyx.
“¿Qué significa esto para la industria y empresas como OpenAI?” reflexionó Arel. A medida que la competencia en el sector de la IA se intensifica, el ajuste fino de modelos de código abierto por parte de Tenyx podría redefinir la dinámica de la industria y la forma en que las empresas abordan el procesamiento de lenguaje natural.
Aunque el Llama-3 optimizado por Tenyx conserva algunas limitaciones del modelo base, incluyendo respuestas ocasionalmente ilógicas, sus mejoras son notables. Arel informó que el modelo alcanza una precisión de casi el 96% en matemáticas y razonamiento, en comparación con el 85% del modelo base.
A medida que Tenyx impulsa una nueva ola de innovación en IA de código abierto, el impacto a largo plazo de su avance en el ecosistema de IA aún está por verse. Sin embargo, es evidente que Tenyx ha demostrado que los modelos de código abierto pueden competir e incluso superar a sus contrapartes propietarias, allanando el camino hacia un futuro más accesible y colaborativo en inteligencia artificial.