Точно так же, как людям необходимо положительное подкрепление, искусственный интеллект может извлечь выгоду из советов, имитирующих человеческое взаимодействие. Исследователи из Google DeepMind разработали революционный подход, который значительно улучшает математические способности языковых моделей с помощью подсказок, напоминающих повседневное человеческое общение. Этот инновационный метод, описанный в их статье «Large Language Models as Optimizers», называется Оптимизация через ПРОсмотр (OPRO).
OPRO использует естественный язык для направления крупных языковых моделей, таких как ChatGPT от OpenAI, в решении сложных задач. Традиционное машинное обучение полагается на формальные математические процессы для повышения производительности. В отличие от этого, OPRO инициирует улучшение через доступный разговорный язык. Интерпретируя описание проблемы вместе с предыдущими ответами, языковая модель генерирует потенциальные решения.
Тинглонг Дай, профессор управления операциями и бизнес-аналитики в Университете Джонса Хопкинса, объясняет: «Языковые модели обучаются на контенте, созданном людьми, и принцип их работы можно упрощенно описать как завершение ваших предложений так, как это сделала бы хорошая пара. Поэтому неудивительно, что похожие на человеческие подсказки приводят к хорошим результатам». Это подчеркивает, как формулировка подсказок может значительно повлиять на результаты ИИ.
Исследование DeepMind показало, что определенные фразы заметно влияли на эффективность моделей. Например, подсказки, такие как «давайте подумаем шаг за шагом», привели к повышению точности решения математических задач при тестировании на наборах данных. Фраза «Сделай глубокий вдох и работай над этой задачей шаг за шагом» показала наилучшие результаты с PaLM 2 от Google, достигнув точности 80,2% при оценке по GSM8K, набору данных с математическими задачами для начальной школы. Для сравнения, PaLM 2 без конкретных подсказок достигла только 34%, тогда как классическая подсказка «Давайте подумаем шаг за шагом» достигла 71,8%.
Майкл Кернс, профессор компьютерных и информационных наук в Университете Пенсильвании, отмечает, что LLM прекрасно модифицируют свои ответы благодаря подобным человеческим подсказкам, так как они обучены на разговорных данных, включая посты на Reddit и сценарии фильмов. Он подчеркивает важность побуждения LLM разбирать математические или логические задачи на управляемые этапы, опираясь на обучение данным, включающим математические доказательства и формальные рассуждения.
Чэнгрун Ян, соавтор статьи DeepMind, объясняет, что большинство LLM обучены на обширных наборах данных, что обеспечивает им мощные возможности обработки естественного языка, включая перефразирование и обогащение предложений. Постоянные усилия по выравниванию моделей также улучшают способность LLM эффективно понимать и реагировать на человекоподобные подсказки.
По словам Ольги Береговой, вице-президента по искусственному интеллекту и машинному переводу в Smartling, человекоподобные подсказки часто представляют собой запросы, которые направляют ИИ на более диалоговую интеракцию. «LLM показывают наилучшие результаты, когда им предоставляется больше контекста», - добавляет она. Длинные подсказки с дополнительными деталями помогают модели более точно соответствовать специфическому контексту.
Интересно, что простые слова поддержки также могут повысить эффективность ИИ. Дай указывает, что LLM могут давать лучшие результаты, когда пользователей мотивируют, например, фразой: «Давай, ты можешь сделать это лучше!» Примеры, такие как просьба к LLM сыграть роль нобелевского лауреата по экономике, могут привести к более глубоким обсуждениям сложных тем, таких как инфляция. Аналогично, в ситуациях медицинской диагностики призыв к LLM принять личность ведущего медицинского эксперта может дать более точные и сфокусированные результаты. Однако он отмечает, что хотя такие стимулы в человеческом стиле могут быть эффективными, они не гарантируют универсальных улучшений во всех задачах.
Важно отметить и потенциал LLM эффективно реагировать на нечеловеческие подсказки, адаптированные к конкретным задачам. Дай упоминает, что структурированные, закодированные подсказки могут дать эффективные результаты, что контрастирует с традиционными разговорными подходами.
Метод OPRO может упростить процесс создания подсказок для ИИ, позволяя пользователям оптимизировать свои запросы на основе различных критериев, таких как точность решения математических задач, скорость активации инструментов и креативность генерируемого текста. Ян выражает надежду, что этот метод вдохновит на новые способы применения LLM для улучшения более широкого спектра задач, открывая путь к более интерактивным и эффективным ИИ-решениям.