Откройте для себя Maxim: ваша универсальная платформа для оценки и решения проблем качества ИИ.

Предприятия с оптимизмом относятся к генеративному ИИ, инвестируя миллиарды в разработку приложений — от чат-ботов до поисковых инструментов для различных случаев использования. Хотя практически каждая крупная компания имеет инициативу в области генеративного ИИ, существует важное различие между приверженностью к ИИ и успешным его внедрением в продукцию.

Сегодня стартап Maxim из Калифорнии, основанный бывшими руководителями Google и Postman Вайбхави Гангвар и Акшаем Део, представил платформу для комплексной оценки и мониторинга, призванную решить эту проблему. Компания также объявила о $3 миллионах финансирования от Elevation Capital и других ангельских инвесторов.

Maxim справляется с серьезной проблемой, с которой сталкиваются разработчики при создании ИИ-приложений на базе крупных языковых моделей (LLM): мониторинг различных компонентов на протяжении всего жизненного цикла разработки. Даже незначительные ошибки могут подорвать надежность проекта и вызвать задержки в поставках. Платформа Maxim сосредоточена на тестировании и улучшении качества и безопасности ИИ как до, так и после релиза, устанавливая стандарты, которые помогают организациям оптимизировать цикл разработки ИИ-приложений и быстро предоставлять качественные продукты.

Проблемы в разработке приложений генеративного ИИ

Исторически программная разработка следовала детерминированному подходу с стандартизированными методами тестирования и итераций, что позволяло командам четко улучшать качество и безопасность. Однако внедрение генеративного ИИ привнесло множество переменных, что создало недетерминированную парадигму. Разработчики должны управлять различными элементами — от используемой модели до данных и формулирования запросов пользователей, при этом обеспечивая качество, безопасность и производительность.

Организации обычно реагируют на эти проблемы в оценке двумя основными способами: нанимают специалистов для управления всеми переменными или разрабатывают внутренние инструменты, что может привести к увеличению расходов и отвлечению внимания от основных бизнес-функций.

Понимая эту необходимость, Гангвар и Део запустили Maxim, чтобы мостить разрыв между моделью и прикладными слоями генеративного ИИ. Платформа предоставляет комплексную оценку на протяжении всего жизненного цикла разработки ИИ — от создания запросов и предварительного тестирования до пострелизного мониторинга и оптимизации.

Гангвар описывает платформу Maxim как состоящую из четырех основных компонентов: экспериментальная среда, инструменты оценки, наблюдаемость и дата-движок.

Экспериментальная среда включает CMS для запросов, IDE, визуальный конструктор рабочих процессов и соединители с внешними источниками данных, позволяя командам эффективно итеративно работать над запросами, моделями и параметрами. Например, команды могут экспериментировать с различными запросами на разных моделях для чат-бота службы поддержки.

Инструменты оценки предлагают единый фреймворк для оценки, проводимой как ИИ, так и людьми, позволяя командам количественно оценивать улучшения или ухудшения через комплексное тестирование. Результаты визуализируются на панелях управления и показывают такие метрики, как тон, точность, токсичность и релевантность.

Наблюдаемость играет ключевую роль на этапе после релиза, обеспечивая мониторинг производственных журналов в реальном времени и автоматизированную оценку для выявления и разрешения актуальных проблем, что гарантирует соблюдение стандартов качества.

По словам Гангвар, "Пользователи могут устанавливать автоматизированные контролы для различных сигналов качества, безопасности и надежности на производственных журналах. Они также могут настраивать оповещения в реальном времени для регрессий по наиболее важным метрикам, таким как производительность, стоимость и качество."

Используя данные из набора инструментов наблюдаемости, пользователи могут быстро решать проблемы. Если проблема заключается в качестве данных, дата-движок позволяет легко курировать и обогащать наборы данных для тонкой настройки.

Ускоренная установка приложений

Хотя Maxim все еще находится на начальных этапах, компания утверждает, что помогла "нескольким десяткам" партнеров в тестировании, итерации и запуске своих ИИ-продуктов с в пять раз большей скоростью, нацеливаясь на такие сектора, как B2B технологии, услуги генеративного ИИ, BFSI и Edtech — отрасли, где проблемы оценки особенно остры. По мере расширения операций компания планирует улучшить возможности платформы, сосредоточив внимание на клиентских сегментах среднего и крупного бизнеса.

Платформа Maxim также включает функции, ориентированные на предприятия, такие как контроль доступа на основе ролей, соблюдение стандартов, командное сотрудничество и варианты развертывания в виртуальном частном облаке.

Хотя подход Maxim к стандартизированному тестированию и оценке стоит внимания, он сталкивается с вызовами при конкуренции с хорошо профинансированными соперниками, такими как Dynatrace и Datadog, которые постоянно развивают свои предложения.

Гангвар отмечает, что многие конкуренты сосредоточены либо на мониторинге производительности, либо на качестве, либо на наблюдаемости, тогда как Maxim стремится объединить все потребности в оценке в одной интегрированной платформе.

"Жизненный цикл разработки требует целостного управления потребностями, связанными с тестированием, что, как мы считаем, приведет к значительным улучшениям в производительности и качестве для устойчивых приложений," утверждает она.

Смотря в будущее, Maxim намерена расширить свою команду и операционные возможности, а также установить больше партнерских отношений с предприятиями, ориентированными на разработку ИИ-продуктов. Будущие улучшения могут включать в себя проприетарные оценки специфичных для домена для качества и безопасности, а также разработку многомодального дата-движка.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles