주말 동안, 오픈 소스 AI 모델의 새로운 경쟁자에 대한 상당한 scrutiny가 발생하며 그 평판에 의문을 제기했습니다. HyperWrite(구 OthersideAI)에서 출시한 Reflection 70B는 Meta의 Llama 3.1 대형 언어 모델의 변형으로, 인상적인 기준을 달성했다는 찬사를 받았습니다. 그러나 독립 평가자들에 의한 후속 평가에서 이러한 주장에 대한 유효성에 의문이 제기되었습니다.
2024년 9월 6일, HyperWrite의 공동 창립자 맷 슈머는 소셜 네트워크 X에 Reflection 70B를 "세계 최고의 오픈 소스 모델"이라 발표했습니다. 그는 LLM이 사용자에게 출력을 제공하기 전에 그 정확성을 검증할 수 있도록 하는 'Reflection Tuning' 기술을 모델에 적용하여 다양한 분야에서 성능을 향상시켰다고 설명했습니다.
하지만 9월 7일, 인공지능 분석 기관은 이 주장을 공개적으로 반박했습니다. 그들의 분석에 따르면, Reflection 70B는 Llama 3 70B와 동일한 MMLU 점수를 기록했지만, Meta의 Llama 3.1 70B와 비교하면 명백히 미달했습니다. 이는 HyperWrite의 초기 결과와 뚜렷한 대조를 이루었습니다.
슈머는 나중에 모델의 가중치가 Hugging Face로 업로드되는 과정에서 손상되었다고 인정하며, 이로 인해 내부 테스트와 비교할 때 성능 차이를 설명할 수 있다고 밝혔습니다. 9월 8일, Artificial Analysis는 비공식 API 테스트 결과가 인상적이었으나 HyperWrite의 원래 주장에는 미치지 못한다는 점을 인정했습니다. 그들은 또한 검증되지 않은 모델 버전의 출시와 비공식 API 버전의 가중치 미발표에 대해 중요한 질문을 제기했습니다.
AI 중심의 Reddit 커뮤니티에서도 Reflection 70B의 성능과 출처에 대한 회의적인 목소리가 들렸습니다. 일부 회원들은 이 모델이 기대했던 Llama 3.1이 아닌 Llama 3의 변형처럼 보인다고 지적하며, 그 정당성에 대한 의문을 더했습니다. 한 사용자는 심지어 슈머가 "AI 연구 공동체에서 사기를 저지르고 있다"고 비난했습니다.
비판에도 불구하고 일부 사용자는 자신의 사례에서 강력한 성능을 이유로 Reflection 70B를 옹호했습니다. 그러나 흥분에서 비판으로의 급속한 전환은 AI 환경의 변덕스러운 특성을 부각시켰습니다.
48시간 동안 AI 연구 공동체는 슈머의 모델 성능 및 수정된 가중치에 대한 업데이트를 기다렸고, 9월 10일, 그는 논란에 대해 마침내 밝혔습니다:
"이번 발표는 저의 조급함이었고 사과드립니다. 우리는 가지고 있는 정보를 기반으로 결정을 내렸습니다. 많은 분들이 이 가능성에 대해 흥미로워하나 회의적이라는 것을 알고 있습니다. 팀이 발생한 상황을 철저히 조사하고 있으며, 사실이 확인되는 대로 커뮤니티와 투명하게 소통하겠습니다."
슈머는 Glaive AI의 창립자 사힐 차우다리의 게시물을 언급하며 모델 주장에 대한 혼란을 확인하고 기준 점수를 재현하는 데 어려움이 있었다고 언급했습니다. 차우다리는 다음과 같이 말했습니다:
"유효한 비판에 대해 말씀드리고 싶습니다. 현재 상황을 조사 중이며 곧 투명한 요약을 제공하겠습니다. 다른 제공자의 모델을 실행한 적은 없으며 예상치 못한 행동, 즉 특정 용어를 건너뛰는 등의 불일치를 설명하려 합니다. 기준에 대해 밝혀야 할 것이 많고, 신뢰를 재구축하는 데 커뮤니티의 인내에 감사드립니다."
현재 상황은 해소되지 않았으며, Reflection 70B와 관련된 주장에 대한 회의는 여전히 오픈 소스 AI 커뮤니티에서 지속되고 있습니다.