생성적 AI의 다음 프론티어는 변환기를 재정의하는 것인가?

AI의 미래: 변환기 아키텍처를 넘어

현재 공공 및 민간 부문에서 최상위 AI 모델들은 변환기 아키텍처를 기반으로 운영되고 있습니다. 앞으로는 어떤 변화가 있을까요? 이 아키텍처가 사고 능력을 향상시킬 수 있을까요? 변환기 이후의 혁신은 무엇일까요? 현재 AI를 구현하기 위해서는 대규모 데이터, GPU 컴퓨팅 자원, 전문 인력이 필요해 개발과 유지 관리 비용이 많이 듭니다.

AI의 배치는 보다 스마트한 챗봇의 등장으로 시작되었습니다. 이제는 스타트업과 대기업이 인간의 지식과 기술을 향상시키는 코파일럿을 개발하는 단계에 이르렀습니다. 다음 진화 단계는 다단계 워크플로우, 메모리, 개인화를 통합하여 판매 및 엔지니어링 등 다양한 기능을 처리할 수 있는 에이전트입니다. 사용자의 프롬프트에 따라 에이전트가 의도를 이해하고, 작업을 실행 가능한 단계로 나누고, 이를 진행하는 것이 목표입니다. 이는 웹 검색, 다중 도구 인증, 과거 행동 학습 등을 포함할 수 있습니다.

개인화된 AI 에이전트를 상상해 보세요. 디지털 자비스처럼, 스마트폰에서 직관적으로 작업을 관리하는 것입니다. 하와이 여행 예약, 좋아하는 음식 주문, 개인 재정 관리 등과 같은 잠재력은 매력적입니다. 하지만 기술적 측면에서는 여전히 갈 길이 멉니다.

변환기 아키텍처가 끝일까?

변환기의 자기 주의 메커니즘은 모델이 입력 토큰의 중요성을 동시에 평가하게 하여 언어와 컴퓨터 비전의 긴 거리 의존성을 포착합니다. 그러나 이 복잡성은 높은 메모리 소비와 긴 시퀀스 처리 시 느린 성능을 초래합니다(예: DNA).

이러한 문제를 해결하기 위해 여러 연구 이니셔티브가 변환기 성능 최적화를 목표로 하고 있습니다:

1. 하드웨어 개선: FlashAttention은 GPU의 다양한 메모리 유형 간의 읽기/쓰기 작업을 최적화하여 데이터 전송을 최소화합니다.

2. 근사 주의: 연구에서는 자기 주의 메커니즘의 O(n²) 복잡성을 선형 스케일로 줄여 긴 시퀀스를 보다 잘 처리할 수 있도록 합니다. Reformers와 performers와 같은 접근 방식이 포함됩니다.

이러한 최적화 외에도 변환기의 지배에 도전하는 대안 모델들이 등장하고 있습니다:

- 상태 공간 모델(SSMs): 이 모델들은 순환 신경망 및 컨볼루션 신경망과 관련이 있으며, 긴 시퀀스의 선형 또는 준 선형 계산을 제공합니다. Mamba와 같은 SSM은 긴 거리 관계를 효과적으로 관리할 수 있지만, 전반적인 성능에서는 변환기보다 뒤처집니다.

업계 리더들—OpenAI, Cohere, Anthropic, Mistral—의 최신 모델 출시가 주목할 만합니다. 특히 Meta의 컴파일러 최적화에 초점을 맞춘 기초 모델은 흥미롭습니다.

전통적인 변환기 모델 외에도 상태 공간 모델, SSM과 변환기를 결합한 하이브리드 모델, 전문가 혼합(MoE) 및 전문가 구성(CoE) 모델 등이 부각되고 있습니다. 주목할 만한 모델들은 다음과 같습니다:

- Databricks의 DBRX 모델: 1320억 개 파라미터를 가진 이 MoE 모델은 16명의 전문가가 포함되어 있으며, 인퍼런스 또는 훈련 시 4명만 활성화됩니다. 32K 컨텍스트 윈도우를 자랑하며, 12조 개의 토큰으로 훈련되었습니다.

- SambaNova Systems의 Samba CoE v0.2: 이 CoE 모델은 70억 개 파라미터의 전문가 5명으로 구성되어 있으며, 인퍼런스 시 오직 한 명만 활성화됩니다. 초당 330 토큰으로 빠른 성능을 자랑합니다.

- AI21 Labs의 Jamba: 이 하이브리드 모델은 변환기 요소를 Mamba 아키텍처에 통합하여 전통적인 변환기의 한계를 극복하며 긴 컨텍스트 처리를 향상시킵니다.

기업 도입의 과제

최첨단 모델의 가능성에도 불구하고, 기업은 상당한 기술적 도전에 직면해 있습니다:

- 기업 기능 부족: 많은 모델이 역할 기반 접근 제어(RBAC) 및 싱글 사인온(SSO)과 같은 필수 기능이 부족하여 기업 준비 상태에 장애가 됩니다. 조직들은 기술적인 변화에 뒤처지지 않기 위해 예산을 배정하고 있습니다.

- 보안 복잡성: 새로운 AI 기능은 데이터 및 애플리케이션 보안을 복잡하게 만듭니다. 예를 들어, 화상 회의 도구에서 AI 전사 기능이 도입되면 이점이 있지만, 규제 산업에서는 컴플라이언스를 보장하기 위한 추가 검토가 필요합니다.

- RAG와 파인튜닝 간의 선택: Retrieval-augmented generation (RAG)은 사실 정확성을 보장하지만 모델 품질을 파인튜닝만큼 효과적으로 개선하지 못할 수 있어서 과적합과 같은 도전이 존재합니다. Cohere의 Command R+는 최신 개방형 모델로, 챗봇과 기업 워크플로우에서 GPT-4를 초과 달성했습니다.

최근에 한 대형 금융 기관의 AI 리더와 대화했는데, 미래는 소프트웨어 엔지니어보다는 프롬프트 제작에 능숙한 사람들에게 속할 것이라고 말했습니다. 단순한 스케치와 다중 모드 모델을 통해 비기술적 사용자도 쉽게 애플리케이션을 만들 수 있어 도구 사용이 경력 자산으로 변할 수 있습니다.

연구자, 실무자, 창업자들은 이제 더 효율적이고 비용 효과적이며 정확한 모델을 탐구할 수 있는 다양한 아키텍처를 갖추고 있습니다. 파인튜닝과 직접 선호 최적화(DPO)와 같은 신기술들은 혁신을 위한 새로운 경로를 제공합니다.

생성 AI 분야가 급격히 발전함에 따라 스타트업과 개발자들이 우선순위를 설정하는 것은 어려운 일일 수 있습니다. 혁신하고 적응할 준비가 된 이들에게 미래는 흥미진진한 가능성을 지니고 있습니다.

Most people like

Find AI tools in YBX