Zyphra, 자사의 게임 체인저 Zamba를 공개했습니다. 이 SSM-하이브리드 기반 모델은 더 많은 기기에서 AI 접근성을 높입니다.

Zyphra Technologies는 인공지능을 더욱 분산화하기 위해 혁신적인 기반 모델을 출시하고 있습니다. Zamba는 70억 개 매개변수를 가진 오픈소스 AI 모델로, 회사의 Mamba 블록과 글로벌 공유 주의 레이어를 활용합니다. 이 혁신적인 모델은 다양한 장치에서 지능을 향상시키고 추론 비용을 크게 낮추는 것을 목표로 합니다.

모든 장치를 위한 AI

Zyphra Technologies의 CEO인 Krithik Puthalath는 "우리의 비전은 개인화된 AI를 만드는 것입니다. 우리가 기술과 소셜 미디어로 더 연결되고 만족스러운 세상을 약속했지만, 우리는 그 약속을 이행하지 못했습니다. 우리는 AI의 미래를 변화시키고자 합니다."라고 말했습니다. Puthalath는 주요 회사들이 AI를 중앙화하는 것이 심각한 문제라고 강조했습니다. "OpenAI와 Anthropic과 같은 기업들은 모두를 위한 단일 모델인 클라우드 기반의 대형 모델을 개발했습니다. 이러한 접근 방식은 한계가 있어 신뢰 부족을 초래하고, AI를 비인격적으로 만듭니다. ChatGPT는 유용한 응답을 제공하지만 진정한 기억, 개인화, 시간에 따른 적응 능력이 부족합니다."

소규모 언어 모델의 가치

Zyphra의 70억 개 매개변수 모델은 OpenAI, Anthropic 또는 Meta의 수십억 개 매개변수를 가진 대형 모델에 비해 제한적일 수 있지만, Zyphra의 전략은 일상 장치에서 AI 통합을 최적화하기 위한 소규모 언어 모델(SML) 배포에 중점을 두고 있습니다. Zyphra의 공동 창립자이자 최고 과학자인 Beren Millidge는 "1억 개 매개변수를 가진 초기 모델 BlackMamba는 개념 증명으로 작용했으며, 70억 개 매개변수는 의미 있는 상호작용을 위한 이상적 규모입니다."라고 설명했습니다. 이 사이즈는 거의 모든 장치에서 로컬 작동을 가능하게 하며, 대형 모델들은 일반적으로 강력한 GPU 클러스터를 요구하여 대부분 사용자에게 접근할 수 없음을 강조합니다.

Puthalath는 "AI를 사용자에게 더 가깝게 가져오는 것입니다."라고 덧붙였습니다. "특정 사용 사례에 맞춘 소형 효율 모델을 개발함으로써, 우리는 클라우드 인프라에 의존하지 않고도 실시간 응답을 가능하게 합니다. 이러한 접근은 사용자 경험을 향상시키고 운영 비용을 줄여 혁신에 더 많은 투자를 가능하게 합니다."

기존 모델과의 경쟁

Zyphra는 Zamba가 LLaMA 1, LLaMA 2 7B, OLMo-7B와 같은 다른 오픈소스 모델들에 비해 여러 표준 벤치마크에서 우수한 성능을 보이며 훈련 데이터의 절반도 사용하지 않았다고 주장합니다. 초기 테스트는 내부에서 수행되었지만, Zyphra는 모델의 가중치를 공개 평가를 위해 출시할 계획입니다.

Millidge는 Zamba 아키텍처 개발에 대해 "우리는 기존 모델의 문제와 잠재적 해결책에 대한 실용적인 직관을 바탕으로 접근했습니다. 또한 신경 과학에서 영감을 얻어 뇌의 기능을 모방한 구조를 만들었습니다."라고 전했습니다. Zamba는 Mamba 블록으로 구성된 단일 글로벌 메모리 블록을 특징으로 하여 인간의 대뇌와 해마 간의 상호작용처럼 효율적인 정보 공유를 가능하게 합니다.

Zyphra의 과정은 상당한 실험을 포함했습니다. Millidge는 "단순한 직관만으로는 부족합니다. 무엇이 효과가 있는지, 무엇이 효과가 없는지 발견하기 위해 실험을 해야 합니다."라고 지적했습니다.

오픈소스 Zamba 기반 모델은 현재 Hugging Face에서 제공되어 사용자들이 그 기능을 탐색할 수 있도록 초대하고 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles