AI는 인간 데이터 과학자와 경쟁할 수 있을까? OpenAI의 새로운 벤치마크가 이를 검증한다.
OpenAI는 인공지능 평가 도구 MLE-bench를 출시하였으며, 이는 Kaggle의 75개 대회에서 AI 시스템을 테스트합니다. MLE-bench는 AI의 전략 수립과 문제 해결 능력을 평가하며, OpenAI의 모델 o1-preview는 인간 데이터 과학자와의 경쟁 가능성을 보여줍니다. AI 모델은 표준 기술 적용에 강하지만, 창의적 문제 해결에서 부족함을 드러내며 인간의 통찰력 필요성을 강조합니다. 이 벤치마크는 AI 진전을 평가하고, AI와 인간 협력의 미래를 탐색하는 데 기여합니다.