A NVIDIA apresenta o modelo de código aberto Nemotron-70B, superando o desempenho do GPT-4o e do Claude 3.5.

NVIDIA Abre Código do Modelo Nemotron-70B, Acelerando o Avanço da IA

Recentemente, a NVIDIA lançou seu mais novo modelo potente, o Nemotron-70B, como código aberto. Desde seu lançamento, o modelo gerou discussões significativas na comunidade de IA, superando mais de 140 modelos, incluindo GPT-4, GPT-4 Turbo e Claude 3.5 Sonnet em diversos benchmarks, ficando logo atrás do mais recente modelo da OpenAI, o o1.

Baseado na fundação Llama-3.1-70B, o Nemotron-70B foi treinado usando Aprendizado por Reforço com Feedback Humano (RLHF) e um inovador método de treinamento misto que incorpora modelos de Bradley-Terry e análise de regressão para modelagem de recompensas. O conjunto de dados de treinamento disponível publicamente, junto com sinais de recompensa baseados em Llama-3.1-Nemotron-70B-Reward, permite que o modelo utilize prompts HelpSteer2-Preference para gerar respostas que alinham-se mais de perto com as preferências humanas.

Em avaliações de benchmark, como o teste difícil do LMSYS Large Model Arena, o Nemotron-70B obteve uma pontuação de 85; alcançou 57.6 no AlpacaEval 2 LC e 8.98 no GPT-4-Turbo MT-Bench. Esses resultados refletem suas capacidades excepcionais.

Avaliações de usuários demonstram que o Nemotron-70B se destaca ao enfrentar perguntas complexas. Por exemplo, ao calcular o número de bananas, o modelo analisou e deduziu corretamente a resposta. Embora tenha cometido um leve erro sobre a data de falecimento de uma celebridade de 89 anos, seu desempenho geral continua impressionante.

Os resultados do modelo em prompts difíceis também são dignos de nota. Embora não tenha passado completamente em alguns testes, suas respostas iniciais foram instigantes. Por exemplo, ao discutir a distância até a Lua e a possibilidade de caminhar, o modelo participou de uma discussão detalhada sob a perspectiva da física, levando a conclusões razoáveis.

Especialistas da indústria sugerem que a estratégia da NVIDIA de abrir consistentemente modelos poderosos visa impulsionar as vendas de chips. Com o aumento da complexidade dos modelos, as empresas se veem obrigadas a pedir mais chips para treinamento, permitindo que modelos de código aberto impulsionem efetivamente as vendas de hardware. No entanto, essa estratégia pressiona consideravelmente startups, que lutam para competir com gigantes da tecnologia em termos de comercialização e visibilidade. Se não conseguirem gerar lucro, correm o risco de perder investimento.

Apesar desses desafios, o lançamento do Nemotron-70B como código aberto agrega um valor significativo à comunidade de IA. Este modelo avança a tecnologia de IA, oferecendo a pesquisadores e desenvolvedores opções e possibilidades aprimoradas. A iniciativa de código aberto da NVIDIA não apenas traz nova energia para o campo, mas também estabelece uma base para a emergente qualidade de modelos de código aberto, promovendo um crescimento colaborativo dentro do setor de IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles