메타의 기본 AI 연구팀(FAIR)은 연구자들을 위한 새로운 AI 모델과 도구들을 공개했습니다. 이들 모델은 오디오 생성, 텍스트-비전 기능, 워터마킹 기술에 중점을 두고 있습니다. 메타는 보도 자료에서 “우리의 초기 연구를 공개함으로써 혁신을 촉진하고 책임감 있게 AI를 발전시키길 희망합니다”라고 밝혔습니다.
오디오 생성 모델: JASCO 및 워터마킹 도구
메타는 JASCO(시간 제어 텍스트-음악 생성을 위한 공동 오디오 및 기호 조정)를 소개합니다. 이 모델은 사용자가 코드나 비트와 같은 요소를 입력하여 최종 출력물을 정교하게 개선할 수 있도록 합니다. FAIR의 연구에 따르면 JASCO는 사용자가 텍스트 명령을 통해 생성된 오디오의 특성—코드, 드럼, 멜로디 등을 조작할 수 있게 하여 원하는 소리를 만들어낼 수 있습니다.
FAIR는 JASCO 추론 코드를 MIT 라이선스 하에 AudioCraft AI 오디오 모델 라이브러리의 일부로 배포할 예정이며, 사전 훈련된 모델은 비상업적 크리에이티브 커먼즈 라이선스 하에 제공됩니다. 또한 메타는 AI 생성 음성을 워터마킹하는 혁신적인 도구인 AudioSeal을 출시하여 이러한 콘텐츠를 보다 효과적으로 식별할 수 있도록 합니다.
메타는 “AudioSeal은 AI 생성 음성을 지역적으로 감지하기 위해 특별히 설계된 첫 번째 오디오 워터마킹 기술로, 긴 오디오 파일 내에서 AI가 생성한 구간을 식별하는 데 도움을 줍니다”라고 전했습니다. 이 도구는 전통적인 방법에 비해 485배 빠른 탐지 속도를 제공하여 효율성을 높입니다. 다른 모델과 달리 AudioSeal은 상업적 라이선스 하에 배포됩니다.
카멜레온 모델 출시
FAIR는 연구 전용 라이선스 하에 멀티모달 텍스트 모델 카멜레온의 두 가지 버전인 카멜레온 7B와 34B를 출시할 계획입니다. 이 모델들은 이미지 캡셔닝과 같은 시각적 및 텍스트 이해가 필요한 작업을 위해 설계되었습니다. 그러나 메타는 카멜레온 이미지 생성 모델을 현재 제공하지 않으며, 텍스트 관련 기능에 제한된 접근만 가능하다고 발표했습니다.
또한 연구자들은 여러 미래 단어를 동시에 훈련시키는 다중 토큰 예측 방법을 이용할 수 있게 되며, 이는 비상업적 연구 전용 라이선스 하에서만 접근 가능합니다.