NVIDIA Presenta Mistral-NeMo-Minitron 8B: Un Modelo de IA Lingüística Compacto
El 21 de agosto, NVIDIA anunció el lanzamiento del Mistral-NeMo-Minitron 8B, un modelo de IA lingüística compacto diseñado para ofrecer una precisión y eficiencia computacional excepcionales. Este modelo está optimizado para su implementación en centros de datos con aceleración GPU, entornos de computación en la nube y estaciones de trabajo.
Tras la colaboración del mes pasado con Mistral AI para lanzar el modelo de código abierto Mistral NeMo 12B, el nuevo Mistral-NeMo-Minitron 8B cuenta con 8 mil millones de parámetros y está diseñado específicamente para sistemas equipados con tarjetas gráficas NVIDIA RTX. Las mejoras de NVIDIA en el modelo Mistral NeMo 12B incluyeron la poda de ancho y la destilación de conocimiento, con hallazgos detallados en el documento titulado "Modelos Lingüísticos Compactos a través de la Poda y la Destilación de Conocimiento."
El proceso de poda implica eliminar pesos del modelo que contribuyen mínimamente a la precisión, lo que permite reducir efectivamente el tamaño de la red neuronal. Durante la fase de destilación, el equipo de investigación reentrenó el modelo podado utilizando un conjunto de datos más pequeño, mitigando exitosamente la disminución de precisión causada por la poda.
En cuanto al rendimiento, el Mistral-NeMo-Minitron 8B presenta ventajas significativas en nueve reconocidos estándares para modelos de lenguaje, demostrando capacidades en comprensión del lenguaje, razonamiento de sentido común, razonamiento matemático, resumir información y generar respuestas precisas.