새로운 오픈 소스 AI 리더 Reflection 70B의 성능에 대한 질문이 제기되었으며, 이 모델은 '사기' 혐의에 휘말리고 있습니다.

Home AI 뉴스 새로운 오픈 소스 AI 리더 Reflection 70B의 성능에 대한 질문이 제기되었으며, 이 모델은 '사기' 혐의에 휘말리고 있습니다.

주말 동안, 오픈 소스 AI 모델의 새로운 경쟁자에 대한 상당한 scrutiny가 발생하며 그 평판에 의문을 제기했습니다. HyperWrite(구 OthersideAI)에서 출시한 Reflection 70B는 Meta의 Llama 3.1 대형 언어 모델의 변형으로, 인상적인 기준을 달성했다는 찬사를 받았습니다. 그러나 독립 평가자들에 의한 후속 평가에서 이러한 주장에 대한 유효성에 의문이 제기되었습니다.

2024년 9월 6일, HyperWrite의 공동 창립자 맷 슈머는 소셜 네트워크 X에 Reflection 70B를 "세계 최고의 오픈 소스 모델"이라 발표했습니다. 그는 LLM이 사용자에게 출력을 제공하기 전에 그 정확성을 검증할 수 있도록 하는 'Reflection Tuning' 기술을 모델에 적용하여 다양한 분야에서 성능을 향상시켰다고 설명했습니다.

하지만 9월 7일, 인공지능 분석 기관은 이 주장을 공개적으로 반박했습니다. 그들의 분석에 따르면, Reflection 70B는 Llama 3 70B와 동일한 MMLU 점수를 기록했지만, Meta의 Llama 3.1 70B와 비교하면 명백히 미달했습니다. 이는 HyperWrite의 초기 결과와 뚜렷한 대조를 이루었습니다.

슈머는 나중에 모델의 가중치가 Hugging Face로 업로드되는 과정에서 손상되었다고 인정하며, 이로 인해 내부 테스트와 비교할 때 성능 차이를 설명할 수 있다고 밝혔습니다. 9월 8일, Artificial Analysis는 비공식 API 테스트 결과가 인상적이었으나 HyperWrite의 원래 주장에는 미치지 못한다는 점을 인정했습니다. 그들은 또한 검증되지 않은 모델 버전의 출시와 비공식 API 버전의 가중치 미발표에 대해 중요한 질문을 제기했습니다.

AI 중심의 Reddit 커뮤니티에서도 Reflection 70B의 성능과 출처에 대한 회의적인 목소리가 들렸습니다. 일부 회원들은 이 모델이 기대했던 Llama 3.1이 아닌 Llama 3의 변형처럼 보인다고 지적하며, 그 정당성에 대한 의문을 더했습니다. 한 사용자는 심지어 슈머가 "AI 연구 공동체에서 사기를 저지르고 있다"고 비난했습니다.

비판에도 불구하고 일부 사용자는 자신의 사례에서 강력한 성능을 이유로 Reflection 70B를 옹호했습니다. 그러나 흥분에서 비판으로의 급속한 전환은 AI 환경의 변덕스러운 특성을 부각시켰습니다.

48시간 동안 AI 연구 공동체는 슈머의 모델 성능 및 수정된 가중치에 대한 업데이트를 기다렸고, 9월 10일, 그는 논란에 대해 마침내 밝혔습니다:

"이번 발표는 저의 조급함이었고 사과드립니다. 우리는 가지고 있는 정보를 기반으로 결정을 내렸습니다. 많은 분들이 이 가능성에 대해 흥미로워하나 회의적이라는 것을 알고 있습니다. 팀이 발생한 상황을 철저히 조사하고 있으며, 사실이 확인되는 대로 커뮤니티와 투명하게 소통하겠습니다."

슈머는 Glaive AI의 창립자 사힐 차우다리의 게시물을 언급하며 모델 주장에 대한 혼란을 확인하고 기준 점수를 재현하는 데 어려움이 있었다고 언급했습니다. 차우다리는 다음과 같이 말했습니다:

"유효한 비판에 대해 말씀드리고 싶습니다. 현재 상황을 조사 중이며 곧 투명한 요약을 제공하겠습니다. 다른 제공자의 모델을 실행한 적은 없으며 예상치 못한 행동, 즉 특정 용어를 건너뛰는 등의 불일치를 설명하려 합니다. 기준에 대해 밝혀야 할 것이 많고, 신뢰를 재구축하는 데 커뮤니티의 인내에 감사드립니다."

현재 상황은 해소되지 않았으며, Reflection 70B와 관련된 주장에 대한 회의는 여전히 오픈 소스 AI 커뮤니티에서 지속되고 있습니다.

LightEval: Hugging Face의 AI 책임성을 높이는 오픈소스 도구

예기치 못한 GPU 가격 변동의 시대에 대비하세요.

Most people like

DreamPal

91.4K

매혹적인 꿈 같은 AI 캐릭터들과 AI 없이 매력적인 대화를 나누세요.

AI 롤플레잉 채팅 AI Chatbot

AI Excel Formula Generator

132.8K

AI 엑셀 도구: 생산성과 효율성을 높이기 위해 엑셀 및 구글 시트 워크플로를 개선하는 고급 데이터 시각화 기법과 AI 기반 솔루션을 발견하세요.

기타 AI Productivity Tools

Aceify.ai

5.7K

학업을 정복하고 과제를 쉽게 해결하세요. 더 똑똑하게 공부할 수 있는 효과적인 전략을 찾아 학업적 성공을 effortless하게 이뤄보세요.

학습 Homework Helper

Concerty

390K

라이브 음악의 생동감 넘치는 세계를 패키지한 우리의 종합 가이드에서 티켓, 페스티벌, 세트리스트를 만나보세요. 가장 인기 있는 이벤트에서 자리를 확보하는 방법, 최신 공연을 관람하는 방법, 좋아하는 아티스트의 세트리스트를 확인하는 방법을 알아보세요. 라이브 콘서트의 짜릿한 분위기와 그들이 선사하는 잊지 못할 경험을 함께 축하합시다!

콘서트 Other

Find AI tools in YBX