인플렉션 AI, GPT-4 성능에 근접한 새로운 파이 챗봇 모델 발표

오늘 Inflection AI는 DeepMind의 무스타파 술레이만과 LinkedIn의 리드 호프먼이 공동 설립한 팔로알토 기반 스타트업으로, 최신 기본 모델인 Inflection-2.5를 공개했습니다. 이전 모델을 기반으로 하여 Inflection-2.5는 성능을 크게 향상시켜 STEM 분야에서 OpenAI의 GPT-4와 치열하게 경쟁합니다. 이 새로운 모델은 ChatGPT와 Gemini와 경쟁하는 회사의 Pi 어시스턴트를 지원하며, 모바일 및 웹 플랫폼을 통해 접근할 수 있습니다.

AI 경쟁의 진전

이번 출시는 빠르게 변화하는 AI 환경에서 OpenAI의 지배력을 도전하기 위한 전략적 움직임을 의미합니다. 최근 Anthropic은 성능에서 GPT-4를 초월한 Claude 3 Opus를 발표했습니다.

Inflection-2.5: 성능 개요

Inflection AI는 출시 이래 "공감할 수 있고, 유용하며, 안전한" AI를 만들고자 했으며, 이는 GPT 시리즈를 포함한 다른 모델보다 개인적인 대화 경험을 제공합니다. 새로운 공감 기반 미세 조정 기술 덕분에 Pi는 독특한 개성과 높은 감성 지수(EQ)를 갖추게 되었습니다. Inflection-2.5는 물리학 및 수학과 같은 분야에서 모델의 IQ를 강화하는 것을 목표로 하고 있으며, 사용자는 Pi와 취미부터 코딩, 생물학 과제 및 비즈니스 계획에 이르는 다양한 주제에 대해 깊이 있는 대화를 나눌 수 있습니다.

벤치마크 성능

벤치마크 평가에서 Inflection-2.5는 Inflection-1보다 현저한 개선을 보이며 GPT-4와의 격차를 줄였지만 여전히 뒤쳐져 있습니다. 예를 들어, MMLU 벤치마크에서 Inflection-2.5는 85.5점을 기록했으며, 이는 GPT-4의 87.3점에 근접합니다. STEM 시험에서는 헝가리 수학 시험에서 63점을, GPT-4는 68점을 기록했으며, 물리 GRE에서는 85번째 백분위에 반해 GPT-4는 97번째 백분위를 달성했습니다. GSM8K 벤치마크에서 Inflection-2.5는 8,500개의 고품질 초등학교 수학 문제에서 86.3점을 기록했으며, GPT-4의 92점에 미치지 못했습니다. 제로샷 HumanEval 테스트에서는 코딩 능력을 평가하며 73.8점을 받아 GPT-4의 79.3점과 비교되었습니다.

효율적인 훈련 및 실시간 기능

Inflection AI는 Inflection-2.5가 GPT-4의 성능을 초월하지는 않지만, "GPT-4 성능의 94%를 달성"하면서 GPT-4의 40%에 해당하는 훈련 컴퓨팅을 사용하여 더 효율적인 훈련 과정을 거쳤다고 강조했습니다. Inflection-2.5는 GPT-4와 마찬가지로 실시간 웹 검색 기능을 포함하고 있어 사용자에게 현재 사건에 대한 업데이트된 정보를 제공합니다. 이는 모든 사용자가 접근할 수 있도록 설계된 Pi 어시스턴트에 획기적인 발전입니다. 다만, 웹에서 검색된 결과의 품질은 일정하지 않을 수 있으며, 이를 평가하는 벤치마크는 없습니다.

Inflection-2.5 접근 방법

Inflection AI는 새로운 모델을 Pi 챗봇에 통합하여 사용자가 즉시 기능을 테스트할 수 있도록 하고 있습니다. 회사는 업그레이드로 인한 구체적인 사용자 혜택을 언급하지 않았지만, 사용자 감정, 참여, 유지 및 챗봇의 전반적인 유기적 성장에 긍정적인 영향을 미쳤음을 강조했습니다. 현재 Pi 챗봇은 Android, iOS, 웹 및 데스크탑에서 이용 가능하며, 일일 100만 명과 월간 600만 명의 활성 사용자를 보유하고 있으며, 40억 개 이상의 메시지가 교환되고 평균 대화 시간은 33분에 달합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles