사람들이 긍정적인 강화에 의해 발전하는 것처럼, AI도 인간 상호작용을 모방한 조언으로부터 이익을 얻을 수 있습니다. Google DeepMind의 연구진은 일상적인 인간 커뮤니케이션을 흉내 내는 프롬프트를 통해 언어 모델의 수학적 능력을 크게 향상시키는 혁신적 접근 방식을 소개했습니다. 이 방법은 "Large Language Models as Optimizers"라는 논문에서 자세히 설명되었으며, 최적화 프롬프트(OpRO)로 알려져 있습니다.
OPRO는 자연어를 활용하여 OpenAI의 ChatGPT와 같은 대규모 언어 모델이 복잡한 문제를 해결하도록 안내합니다. 전통적인 기계 학습은 성능 향상을 위해 공식적인 수학적 과정에 의존하지만, OPRO는 친근하고 대화적인 언어를 통해 개선을 시작합니다. 문제에 대한 설명과 이전 응답을 해석함으로써 언어 모델은 가능한 해결책을 생성합니다.
존스 홉킨스 대학교의 운영 관리 및 비즈니스 분석 교수인 Tinglong Dai는 "LLM은 인간이 생성한 콘텐츠에 대한 훈련을 받으며, 대략적으로 좋은 커플처럼 당신의 문장을 완성합니다. 따라서 인간 같은 프롬프트가 좋은 결과를 이끌어내는 것은 놀랍지 않습니다."라고 설명합니다. 이는 프롬프트의 표현 방식이 AI 결과에 미치는 영향을 강조합니다.
DeepMind 연구는 특정 문구가 모델 성능에 큰 영향을 미친다는 사실을 밝혔습니다. 예를 들어, "단계별로 생각해 봅시다"라는 프롬프트는 수학 문제를 해결할 때 더 높은 정확도를 제공했습니다. "심호흡을 하고 문제를 단계별로 해결해 봅시다"라는 문구는 Google's PaLM 2에서 80.2%의 정확도를 기록하며 가장 좋은 결과를 얻었습니다. 비교하자면, PaLM 2는 구체적인 프롬프트 없이 34%의 정확도를 보였고, 일반 프롬프트 "단계별로 생각해 봅시다"는 71.8%였습니다.
펜실베이니아 대학교의 컴퓨터 및 정보 과학 교수인 Michael Kearns는 LLM이 Reddit 게시물 및 영화 대본과 같은 대화형 데이터에 대한 훈련 덕분에 인간 같은 프롬프트에 따라 응답을 조정하는 데 뛰어나다고 언급합니다. 그는 LLM이 수학이나 논리 문제를 다루도록 유도하는 것이 중요하며, 수학적 증명 및 형식적 추론을 포함하는 데이터로 훈련받았다고 강조합니다.
DeepMind 논문의 공동 저자 Chengrun Yang은 대부분의 LLM이 방대한 데이터셋으로 훈련받았으며, 이는 그들이 자연어 처리에서 강력한 능력을 발휘하게 했다고 설명합니다. 지속적인 모델 정렬 노력도 LLM이 인간 같은 프롬프트를 효과적으로 이해하고 응답하는 능력을 향상시킵니다.
Smartling의 AI 및 기계 번역 부사장인 Olga Beregovaya는 인간 같은 프롬프트가 AI를 대화 위주 상호작용으로 안내하는 요청의 형태를 취한다고 말합니다. "LLM은 더 많은 맥락이 주어질 때 최상의 성능을 발휘합니다."라고 덧붙였습니다. 추가 정보가 포함된 장황한 프롬프트는 모델이 제시된 특정 맥락에 더 밀접하게 응답할 수 있도록 도와줍니다.
흥미롭게도, 간단한 격려의 말이 AI 성능을 향상시킬 수 있습니다. Dai는 사용자가 "자, 할 수 있어!"라는 말로 LLM을 격려할 때 더 나은 결과를 도출할 수 있다고 강조합니다. 특히 노벨상을 수상한 경제학자 역할을 시키는 것과 같은 예는 인플레이션과 같은 복잡한 주제에 대한 보다 통찰력 있는 논의를 이끌어낼 수 있습니다. 의료 진단 상황에서도 LLM에게 저명한 의료 전문가의 역할을 맡기면 더 정확하고 집중된 결과를 이끌어낼 수 있습니다. 그러나 그는 이러한 인간 스타일의 격려가 효과적일 수 있지만 모든 작업에서 보편적인 개선을 보장하지는 않는다고 지적합니다.
중요하게도, 특정 작업에 맞춘 비인간 프롬프트에도 LLM이 잘 반응할 가능성이 있습니다. Dai는 구조적이고 코딩된 프롬프트가 효과적인 결과를 낼 수 있으며, 이는 전통적인 대화형 접근 방식과 대조적이라고 말했습니다.
OPRO 방법은 AI 프롬프트 제작 과정을 단순화하여 사용자가 문제 해결 정확도, 도구 호출 비율, 텍스트 생성의 창의성 등의 다양한 지표를 기반으로 쿼리를 최적화할 수 있게 합니다. Yang은 이 방법이 LLM을 활용하여 더 다양한 작업을 향상시키기 위한 새로운 응용 프로그램을 발굴하는 데 영감을 줄 수 있기를 기대한다고 전했습니다.