첫 번째 '공정하게 훈련된' AI 대형 언어 모델을 소개합니다: AI 개발의 새로운 시대

“오늘날의 주요 AI 모델을 훈련하기 위해 저작권 자료를 사용하지 않는 것은 불가능하다”고 오픈AI는 올 초 영국 상원에 제출한 보고서에서 밝혔다. 이 주장은 GPT-3.5/4 대형 언어 모델(LLM)과 같은 AI 모델 훈련을 위한 논란의 여지가 있는 데이터 수집 방식에 대한 회사의 공적 및 법적 방어의 핵심이다. 비평가들은 오픈AI가 저작권 데이터 사용에 대해 명시적인 동의를 받거나 라이선스 비용을 지불해야 했다고 주장하지만, 오픈AI는 자사의 관행이 공정한 변형된 사용이며, 과거 여러 기업들이 검색 엔진 색인 및 유용한 기능을 위해 콘텐츠를 수집해 온 인터넷의 오랜 규범에 따라 운영되고 있다고 주장하고 있다. 이와 관련된 여러 소송이 계속되고 있다.

그러나 새로운 모델이 이러한 전제를 도전하고 있다. KL3M(켈빈 법률 대형 언어 모델)은 다니엘 마틴 카츠와 그의 공동 창립자 마이클 봄마리토가 설립한 273 Ventures라는 스타트업의 작품이다. KL3M은 2024년 2월 말에 출시되었으며, Fairly Trained라는 독립 감사 기관으로부터 “공정한 훈련 인증(L) 인증”을 받은 최초의 LLM이 되었다. 이는 저작권이 없거나 공공 도메인 자료를 사용하는 계약적 동의를 입증하는 기업에게만 수여된다.

카츠는 소셜 네트워크 X에서 “켈빈 법률 대형 언어 모델(KL3M)이 이제 공정한 훈련 인증을 받았다. KL3M은 이 범주에서 최초의 LLM”이라고 밝혔다. Fairly Trained는 KL3M과 함께 AI 음성 및 노래 모델을 제공하는 Voicemod, 음악 회사 Infinite Album과 Lemonaide, AI 기반 그룹 Frostbite Orckings의 인증 소식을 전했다.

KL3M은 공공 도메인에 있는 미국 정부 문서와 오래된 법률 문서 등 문제를 일으키지 않는 데이터를 수집하여 훈련되었다. 카츠는 “저작권 정보 없이 AI 모델을 훈련할 수 있을지 확신이 없었다”고 말했다. 그러나 법률, 재무, 규제 분야에는 저작권이 없는 자료가 충분히 있다는 것을 발견했다.

KL3M은 1500억 개의 토큰을 포함하는 켈빈 법률 데이터팩을 기반으로 하여 훈련되었으며, 이는 2023년 8월에 출시되었다. KL3M은 현재 1억 7000만 개의 파라미터를 가지는 kl3m-170m과 17억 개의 파라미터를 가진 kl3m-1.7b 두 가지 버전이 있다.

KL3M은 “시간 기록 및 청구서 작성 및 수정, 계약 조항 작성 및 수정, SEC 보고서 작성” 등에서 유용하다고 광고된다. 법률 산업을 염두에 두고 설계되었지만, 카츠는 KL3M이 해당 분야를 넘어서는 성능을 발휘하고 있다고 밝혔다.

“법은 사회의 거의 모든 주제와 관련이 있다”고 카츠는 설명했다. 현재 KL3M은 여러 법률 고객들에 의해 사용되고 있지만, 구체적인 이름은 공개할 수 없다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles