NVIDIA, 오픈소스 Nemotron-70B 모델 발표, GPT-4o 및 Claude 3.5보다 뛰어난 성능 자랑

NVIDIA, 네모트론-70B 모델 오픈소스 공개로 AI 발전 가속화

최근 NVIDIA는 최신 강력한 모델인 네모트론-70B를 오픈소스로 공개했습니다. 출시 이후, 이 모델은 AI 커뮤니티 내에서 큰 관심을 모으고 있으며, GPT-4, GPT-4 Turbo, Claude 3.5 Sonnet 등 140개 이상의 모델을 뛰어넘는 성능을 보여주고 있습니다. 이는 OpenAI의 최신 모델인 o1 다음으로 뛰어난 결과입니다.

네모트론-70B는 Llama-3.1-70B의 기반 위에 구축되었으며, 인공지능 모델 훈련에 인간 피드백을 활용한 강화 학습(RLHF)과 브래들리-테리 모델 및 회귀 분석을 포함한 새로운 혼합 훈련 방법을 적용했습니다. 공개된 훈련 데이터셋과 Llama-3.1-Nemotron-70B-Reward 기반의 보상 신호는 모델이 HelpSteer2-Preference 프롬프트를 이용해 인간의 선호와 일치하는 응답을 생성할 수 있도록 돕습니다.

LMSYS 대형 모델 아레나 하드 테스트와 같은 벤치마크 평가에서 네모트론-70B는 85점을 기록했으며, AlpacaEval 2 LC에서는 57.6, GPT-4-Turbo MT-Bench에서는 8.98점을 기록했습니다. 이러한 결과는 모델의 뛰어난 성능을 반영합니다.

사용자 평가에 따르면, 네모트론-70B는 복잡한 질문에 대한 답변에서 두각을 나타냅니다. 예를 들어, 바나나 개수를 계산할 때 모델은 정확하게 분석하여 올바른 답을 도출했습니다. 89세 유명인의 사망 날짜에 대한 작은 오류가 있었지만, 전반적인 성과는 인상적입니다.

어려운 프롬프트에 대한 모델의 결과도 주목할 만합니다. 일부 테스트를 완전히 통과하지는 못했지만, 초기 출력은 많은 생각을 불러일으켰습니다. Moon의 거리와 보행 가능성에 대한 토론에서는 물리학적 관점에서 깊이 있는 논의를 진행하며 합리적인 결론을 도출했습니다.

업계 전문가들은 NVIDIA의 지속적인 오픈소스 강력한 모델 공개 전략이 칩 판매 증대를 목표로 하고 있다고 언급합니다. 모델의 복잡성이 증가함에 따라 기업들은 훈련을 위해 더 많은 칩을 주문해야 하며, 오픈소스 모델이 하드웨어 판매를 촉진하는 데 효과적입니다. 그러나 이 전략은 기술 대기업과의 상업화 및 가시성 경쟁에서 어려움을 겪는 스타트업에 상당한 압력을 가합니다. 수익을 내지 못할 경우, 투자 유치에 어려움을 겪을 수 있습니다.

이러한 도전에도 불구하고, 네모트론-70B의 오픈소스 출시는 AI 커뮤니티에 큰 가치를 더하는 것은 분명합니다. 이 모델은 AI 기술을 한 단계 발전시키며, 연구자와 개발자에게 향상된 옵션과 가능성을 제공합니다. NVIDIA의 오픈소스 이니셔티브는 분야에 신선한 에너지를 주입할 뿐만 아니라, 더 고품질의 오픈소스 모델의 출현을 위한 기반을 마련하여 AI 산업 내 협력적 성장을 촉진합니다.

Most people like

Find AI tools in YBX