오늘 구글은 마운틴뷰에서 열린 연례 I/O 개발자 회의에서 인공지능 중심의 다양한 발표를 진행하며, 미래를 위한 보편적 AI 에이전트 개발을 목표로 하는 야심찬 프로젝트 아스트라(Project Astra)를 공개했습니다. 회의 중, 에이전트의 초기 버전이 시연되었습니다. 이 목표는 환경을 인지하고 이해하며, 실시간으로 일상 업무와 질문에 답하는 다중 모달 AI 비서의 개발입니다. 이 개념은 최근 공개된 OpenAI의 GPT-4o 기반 ChatGPT와 밀접한 연관이 있습니다.
OpenAI가 ChatGPT Plus 구독자를 위해 앞으로 몇 주 내에 GPT-4o를 출시할 준비를 하고 있는 가운데, 구글은 아스트라에 대해 신중한 접근 방식을 취하고 있습니다. 구글은 이 프로젝트를 계속 다듬고 있지만, 완전 운영 가능한 AI 에이전트의 출시 일정은 발표하지 않았습니다. 그러나 프로젝트 아스트라의 일부 기능은 올해 말 Gemini 비서에 통합될 것으로 예상됩니다.
프로젝트 아스트라에서 기대할 점
프로젝트 아스트라는 고급 시각 및 언어 반응 에이전트(Advanced Seeing and Talking Responsive Agent)의 약어로, Gemini Pro 1.5 및 기타 특정 작업 모델에서 이루어진 발전을 바탕으로 합니다. 이 에이전트는 사용자가 주변의 미세한 역동성을 공유하며 상호작용할 수 있도록 설계되었습니다. 에이전트는 시각적이고 청각적인 정보를 이해하여 실시간으로 정확한 답변을 제공합니다.
구글 DeepMind의 CEO인 데미스 하사비스(Demis Hassabis)는 “진정으로 유용한 에이전트는 사람들처럼 복잡하고 역동적인 세상을 이해하고 대응해야 한다. 그것은 보는 것과 듣는 것을 기억하여 맥락을 파악하고 행동해야 하며, 자연스러운 대화를 지연 없이 가능하게 만들어야 한다”고 말했습니다.
한 시연 비디오에서, Pixel 스마트폰에서 실행되는 프로토타입 아스트라 에이전트는 물체를 식별하고 그 구성 요소를 설명하며, 화이트보드에 작성된 코드를 해석했습니다. 이 에이전트는 카메라를 통해 이웃을 인식하고 사용자가 안경을 두었던 위치까지 기억했습니다.
구글 프로젝트 아스트라의 기능
두 번째 시연에서는 시스템 아키텍처에 대한 개선 사항을 제안하며, 안경을 통해 볼 수 있는 실시간 오버레이가 추가되었습니다. 하사비스는 에이전트가 인간과 유사한 응답 시간을 달성하는 데 있어 상당한 엔지니어링 도전이 있음을 인정했습니다. 이들은 비디오 프레임을 지속적으로 인코딩하며, 비디오와 음성을 효율적으로 기억하기 위해 타임라인으로 병합합니다.
“우리의 고급 음성 모델을 활용하여 에이전트의 발음 능력을 향상시켰습니다. 이 개선을 통해 에이전트는 맥락을 더 잘 이해하고 신속하게 대응할 수 있게 되었습니다”고 그는 덧붙였습니다.
반면 OpenAI의 GPT-4o는 모든 입력과 출력을 통합 모델로 처리하여 평균 320밀리초의 응답 시간을 달성합니다. 구글은 아스트라의 구체적인 응답 시간을 공개하지 않았지만, 개발이 진행됨에 따라 지연 시간 개선이 기대됩니다. 프로젝트 아스트라의 감정 범위는 OpenAI의 기능과 비교할 때 아직 명확하지 않습니다.
가용성
현재 아스트라는 일상 업무(개인 및 전문적)를 지원하도록 설계된 구글의 포괄적인 AI 에이전트의 초기 노력입니다. 이 비전이 구체적인 제품으로 언제 구현될지는 발표되지 않았지만, 현실 세계를 이해하고 상호작용하는 기능이 Android, iOS 및 웹 플랫폼의 Gemini 앱에 통합될 것이라고 확인했습니다.
초기에는 Gemini 라이브 기능을 통해 챗봇과의 양방향 대화가 가능할 것입니다. 올해 말 업데이트를 통해 보여준 시각적 기능이 추가될 예정이며, 사용자는 카메라를 통해 주변과 소통할 수 있게 됩니다. 또한, 사용자는 대화 중 Gemini를 중단할 수 있는 기능도 포함되어, OpenAI의 ChatGPT와 유사한 기능이 반영될 것입니다.
“이러한 기술로 가까운 미래에 사람들이 스마트폰이나 안경을 통해 전문가 AI 비서를 곁에 두는 모습이 쉽게 상상된다”고 하사비스는 결론지었습니다.