Arize AI, сервис наблюдаемости, представил новый продукт, который помогает компаниям обнаружить, когда данные, переданные в модель, приводят к ошибкам или галлюцинациям в больших языковых моделях (LLMs). Этот инструмент, разработанный для инженеров ИИ, предоставляет важные инсайты, необходимые для отладки сложных систем, часто выделяя проблемы всего из нескольких строк кода.
Как отметил соучредитель и генеральный директор Arize Джейсон Лопатекки, «Мы все являемся инженерами подсказок — мы создавали свои собственные подсказки. Многие приложения используют шаблонные подсказки, которые можно применять многократно к различным наборам данных, что способствует получению лучших ответов на запросы пользователей. Однако эти шаблоны зависят от переменных подсказок, извлеченных из вашей системы, и даже небольшие расхождения в данных могут вызывать галлюцинации или ошибки в выходных данных LLM».
Мониторинг переменных подсказок имеет особое значение, особенно в контексте чат-ботов для обслуживания клиентов, основанных на ИИ, где неверная информация может нанести ущерб репутации бренда. Несмотря на то что управление одной LLM может упростить мониторинг, компании часто используют несколько моделей от таких поставщиков, как OpenAI, Google, Meta, Anthropic и Mistral, что делает этот процесс особенно важным.
Лопатекки подчеркивает, что дезинформация является основной причиной галлюцинаций. Определение источника этих ошибок — будь то данные, подаваемые в модель, выбранный шаблон подсказки или другие факторы — имеет решающее значение для эффективного устранения неполадок.
Также важно понимать изменчивость. Это означает диапазон потенциальных выходных данных от моделей ИИ, на которые влияют незначительные изменения или ошибочные входные данные. «Процесс принятия решений — это не просто сценарий один вход — один выход», — пояснил Лопатекки. «Выходные данные ИИ часто влияют на последующие решения ИИ, создавая сложную сеть, где вариации могут перерасти в значительные проблемы».
Чтобы решить эти проблемы, Arize разрабатывает инструменты специально для инженеров ИИ, которые умеют использовать современные LLM для создания сложных систем ИИ. «Этим инженерам нужны мощные инструменты для повышения интеллектуальности их приложений. Роль инженера ИИ станет повсеместной в ближайшие годы», — говорит Лопатекки.
Лопатекки мечтает, чтобы Arize стал «Datadog для ИИ», позиционируя компанию как конкурентом облачного гиганта мониторинга, который также начал заниматься мониторингом ИИ, включая поддержку моделей OpenAI, таких как GPT-4. Однако он считает, что у Arize есть преимущество: «В отличие от Datadog, мы родом из мира ИИ. Темп инноваций стремителен, а они все еще развивают свои ИИ-продукты».
Он подчеркивает срочность предоставления эффективных решений в области ИИ: «Когда компании спешат с развертыванием, они часто тестируют лишь ограниченные сценарии. Когда эти системы начинают работать в реальном мире, изменчивость и потенциальные проблемы становятся очевидными, что приводит к множеству непредвиденных вызовов. Потребность в эффективных инструментах отладки достигла критической точки, и компании начинают осознавать, сколько всего может пойти не так».