인공지능(AI) 연구자들과 기업들이 더욱 크고 효과적인 기계 학습 모델을 개발하기 위해 노력함에 따라, 적합한 데이터셋을 선별하는 도전 과제가 커지고 있습니다. 이를 해결하기 위해 Meta AI, Google, INRIA, 그리고 Université Paris Saclay의 연구자들이 자기 지도 학습(SSL)을 위한 고품질 데이터셋을 자동으로 선별하는 새롭고 혁신적인 기법을 제안했습니다.
자기 지도 학습에서 데이터셋 균형 강화
자기 지도 학습은 현대 AI에서 중요한 역할을 하며, 대형 언어 모델부터 의료 영상과 같은 전문 응용 프로그램까지 다양한 시스템을 지원합니다. 감독된 학습이 주석이 달린 훈련 샘플에 의존하는 반면, SSL은 레이블이 없는 데이터를 활용하여 모델과 데이터셋이 원시 정보를 기반으로 확장될 수 있게 합니다. 데이터 품질은 SSL 모델 성능에 큰 영향을 미칩니다. 인터넷에서 무작위로 수집한 데이터셋은 주로 일반적인 개념이 드문 개념을 압도하는 불균형 분포 문제를 겪게 되어, 모델의 편향과 일반화 능력 저하를 초래합니다.
연구자들은 "자기 지도 학습을 위한 데이터셋은 크고 다양하며 균형 잡혀야 한다"고 강조하며, 이러한 특성을 갖춘 큐레이션된 데이터셋의 필요성을 제기하고 방대한 온라인 데이터 저장소에서 균형 잡힌 하위 집합을 만들 것을 제안했습니다. 현재, SSL을 위한 균형 잡힌 데이터셋을 선별하기 위해 상당한 수작업이 필요하며, 이는 모든 인스턴스에 레이블을 부착하는 것보다 덜 시간이 소요되지만 대규모 모델 훈련에서는 여전히 병목 현상을 나타내고 있습니다.
자동 데이터셋 큐레이션 기법
이 과정을 간소화하기 위해 연구자들은 원시 데이터에서 균형 잡힌 훈련 데이터셋을 생성하는 자동 큐레이션 방법을 제안했습니다. 이 기법은 임베딩 모델과 클러스터링 알고리즘을 활용하여 데이터 내 저대표 개념을 강조합니다. 과정은 특징 추출 모델이 다양한 데이터 유형(이미지, 오디오, 텍스트 등)의 의미적 구조를 포착하는 숫자 표현인 임베딩을 계산하는 것부터 시작됩니다. 이후, k-평균 클러스터링을 이용하여 유사성을 기반으로 데이터 포인트를 그룹화하고, 반복적으로 그룹 중심점을 갱신하여 관련 예시들로 클러스터를 구성합니다.
전통적인 k-평균 클러스터링은 자주 대표되는 개념에 대해 과도한 그룹이 형성되는 경향이 있습니다. 이를 해결하기 위해 연구자들은 다단계 계층 k-평균 방법을 적용하여 아래에서 위로 클러스터를 구성하였습니다. 이러한 혁신적인 접근법은 새로운 클러스터링 단계에서 이전 클러스터 수준에 k-평균을 동시에 적용하여 모든 단계에서 균형 잡힌 표현을 보장합니다.
이 계층적 접근은 포괄적인 클러스터링을 가능하게 하여, 알고리즘이 더 적고 설명적인 최상위 클러스터로 발전함에 따라 덜 대표되는 예시를 보존합니다. 연구자들은 이 기법을 "하위 작업에 무관한 일반적 큐레이션 알고리즘"으로 설명하며, 특정 애플리케이션과 관계없이 비큐레이션된 소스에서 의미 있는 데이터 속성을 추출할 수 있도록 합니다.
자동 큐레이션된 데이터셋 평가
연구자들은 계층적 클러스터링을 통해 큐레이션된 데이터셋으로 훈련된 컴퓨터 비전 모델을 이용하여 광범위한 실험을 수행하였습니다. 이들의 연구 결과, 자동으로 큐레이션된 데이터셋으로 훈련받은 모델이 특히 분포 외 예제에서 이미지 분류 기준에 대한 성능이 향상되었으며, 데이터 검색 성능도 크게 개선되었습니다. 주목할 만한 점은 이러한 데이터셋으로 훈련된 모델들이 대규모 인적 자원이 요구되는 수동 큐레이션 데이터셋으로 훈련된 모델과 비슷한 성능을 보인다는 것입니다.
이 알고리즘은 대형 언어 모델 훈련에 사용되는 텍스트 데이터와 캐노피 높이 예측을 위한 위성 이미지에도 성공적으로 적용되었으며, 다양한 기준에서 인상적인 개선을 이루었습니다. 특히, 연구 결과는 균형 잡힌 데이터셋으로 훈련된 모델이 최신 모델과 경쟁할 수 있음을 보여줍니다.
이처럼 자동 데이터셋 큐레이션 기법의 도입은 데이터 큐레이션이 부족한 산업에서 응용 기계 학습에 중대한 영향을 미칩니다. 이 방법은 SSL을 위한 데이터 주석 및 큐레이션에 드는 비용을 크게 줄여, 잘 훈련된 모델이 최소한의 레이블 데이터로 후속 감독 학습 작업에 적합하게 조정될 수 있도록 합니다. 게다가, 방대한 양의 가공되지 않은 원시 데이터를 보유한 Meta 및 Google과 같은 기업은 큰 혜택을 볼 수 있습니다. 연구자들은 "자동 데이터셋 큐레이션은 미래의 훈련 파이프라인에서 점점 더 중요해질 것"이라고 말합니다.