자바스크립트 객체 표기법(JSON)은 인간이 읽을 수 있고 기계가 해석할 수 있는 산업 표준 파일 형식으로, 데이터 교환에 널리 사용됩니다. 그러나 대형 언어 모델(LLM)은 JSON 처리에 어려움을 겪기도 합니다. 이들은 환각된 콘텐츠를 생성하거나, 지침에 완전히 일치하지 않는 응답을 제공하거나, JSON을 정확히 파싱하지 못하는 경우가 많습니다. 이러한 문제로 인해 개발자들은 원하는 출력 상호운용성을 달성하기 위해 오픈 소스 도구, 여러 프롬프트 또는 반복 요청과 같은 우회 방법을 사용해야 하는 경우가 많습니다.
구조화된 출력: 개발자를 위한 솔루션
오늘 OpenAI는 API에서 구조화된 출력 기능을 도입하여 이러한 불만을 해소했습니다. 이 새로운 기능은 모델이 생성한 출력이 JSON 문서의 내용, 구조, 데이터 유형 및 제약을 정의하는 JSON 스키마에 일치하도록 보장합니다. OpenAI는 이 기능이 개발자들로부터 가장 많이 요청된 기능이라고 밝히며, 애플리케이션 간의 일관성을 높이는 데 중요한 역할을 한다고 언급했습니다. CEO 샘 올트먼은 이 릴리스를 "대중의 요구에 의해" 이루어진 것으로 강조했습니다.
평가에서 OpenAI의 새로운 GPT-4o 모델은 구조화된 출력과 함께 100%의 완벽한 점수를 기록했습니다. 이 발표는 주요 경영진인 존 슐먼, 그렉 브록맨, 피터 덩의 예상치 못한 사임과 엘론 머스크의 회사에 대한 법적 도전이 '셰익스피어식' 배신으로 묘사된 주목할 만한 주가 뒤따라 이루어졌습니다.
스키마 준수를 쉽게 향상
JSON은 다양한 프로그래밍 언어와 호환되는 유연하고 널리 사용되는 데이터 저장 및 전송 형식입니다. OpenAI는 지난해 DevDay에서 개발자의 요구를 충족하기 위해 모델에 JSON 모드를 최초로 도입했습니다. 구조화된 출력은 개발자가 OpenAI 모델이 정의된 스키마를 엄격히 준수하도록 제약할 수 있게 해 줍니다. OpenAI는 이 기능이 모델의 복잡한 스키마 이해를 향상시킨다고 밝혔습니다.
“구조화된 출력은 JSON 모드의 진화를 나타냅니다,”라고 회사는 블로그에서 설명합니다. “두 기능 모두 유효한 JSON을 생성하지만, 구조화된 출력만이 스키마 준수를 보장합니다.” 이 발전은 필수 키 누락이나 잘못된 열거 값 등의 문제를 완화시켜, 코드 유지 관리를 단순화합니다.
개발자는 구조화된 출력을 사용하여 출력을 단계별로 안내할 수 있으며, 잘못된 형식의 응답을 확인하거나 다시 전송할 필요가 없습니다. 이 기능은 더 간단한 프롬프트를 가능하게 하며, 안전하지 않은 요청에 대한 명확한 거부를 포함하여 OpenAI의 안전성에 대한 약속을 유지합니다.
가용성 및 호환성
구조화된 출력은 GPT-4o-mini, GPT-4o 및 이러한 모델의 미세 조정 버전에서 이용할 수 있습니다. 챗 완성 API, 어시스턴트 API 및 배치 API에서 활용 가능하며, 비전 입력도 지원합니다. OpenAI는 이 새로운 기능이 오픈 소스 커뮤니티의 우수한 작업, 특히 outlines, jsonformer, instructor, guidance, lark 라이브러리에서 영감을 받았다고 인정했습니다.