NVIDIA Presenta el Modelo de Código Abierto Nemotron-70B, Superando en Rendimiento a GPT-4o y Claude 3.5

NVIDIA Hace Open Source su Modelo Nemotron-70B, Acelerando el Avance de la IA

Recientemente, NVIDIA ha lanzado su potente modelo, el Nemotron-70B, como open source. Desde su debut, ha generado un intenso debate en la comunidad de IA, superando a más de 140 modelos, incluidos GPT-4, GPT-4 Turbo y Claude 3.5 Sonnet, en diversas pruebas de evaluación, solo detrás del último modelo de OpenAI, o1.

El Nemotron-70B, basado en Llama-3.1-70B, fue entrenado utilizando Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y un novedoso método de entrenamiento mixto que integra modelos de Bradley-Terry y análisis de regresión para la modelización de recompensas. El conjunto de datos de entrenamiento disponible públicamente y las señales de recompensa fundamentadas en Llama-3.1-Nemotron-70B-Reward permiten que el modelo utilice indicaciones HelpSteer2-Preference para generar respuestas más alineadas con las preferencias humanas.

En evaluaciones como la prueba dura de LMSYS Large Model Arena, el Nemotron-70B obtuvo una puntuación de 85; logró 57.6 en AlpacaEval 2 LC y alcanzó 8.98 en el GPT-4-Turbo MT-Bench. Estos resultados reflejan sus capacidades excepcionales.

Las evaluaciones de los usuarios demuestran que el Nemotron-70B destaca en resolver preguntas complejas. Por ejemplo, al calcular el número de bananas, el modelo analizó y dedujo correctamente la respuesta. Aunque cometió un pequeño error sobre la fecha de fallecimiento de una celebridad de 89 años, su rendimiento general sigue siendo impresionante.

Los resultados del modelo en indicaciones difíciles también son destacados. Aunque no pasó algunos tests completamente, sus primeras respuestas fueron provocadoras. Por ejemplo, al discutir la distancia y la transitabilidad de la Luna, el modelo participó en un análisis detallado desde una perspectiva física, llegando a conclusiones razonables.

Expertos del sector sugieren que la estrategia de NVIDIA de abrir constantemente modelos potentes busca impulsar las ventas de chips. A medida que aumenta la complejidad de los modelos, las empresas se ven obligadas a solicitar más chips para el entrenamiento, lo que permite que los modelos open source potencien efectivamente las ventas de hardware. Sin embargo, esta estrategia ejerce presión considerable sobre las startups, que luchan por competir con los gigantes tecnológicos en términos de comercialización y visibilidad. Si no logran obtener beneficios, corren el riesgo de perder inversión.

A pesar de estos desafíos, el lanzamiento open source del Nemotron-70B sin duda añade un valor significativo a la comunidad de IA. Este modelo avanza la tecnología de IA, ofreciendo a investigadores y desarrolladores opciones y posibilidades ampliadas. La iniciativa open source de NVIDIA no solo inyecta nueva energía en el campo, sino que también establece las bases para la aparición de más modelos open source de alta calidad, fomentando el crecimiento colaborativo en el sector de la IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles