Patronus AI привлекла $17 млн для борьбы с галлюцинациями ИИ и проблемами авторского права, увеличивая внедрение в корпоративный сектор.

Home Новости ИИ Patronus AI привлекла $17 млн для борьбы с галлюцинациями ИИ и проблемами авторского права, увеличивая внедрение в корпоративный сектор.

С стремительным внедрением генеративного ИИ компании сталкиваются с проблемами точности и безопасности больших языковых моделей (LLMs), что угрожает широкому интегрированию в бизнес. Стартап Patronus AI из Сан-Франциско, который недавно привлек 17 миллионов долларов в рамках раунда финансирования Series A, предлагает решение для автоматической идентификации дорогостоящих и потенциально опасных ошибок LLM в масштабах.

Этот раунд финансирования увеличивает общий объем инвестиций в Patronus AI до 20 миллионов долларов и был возглавлен Гленном Соломоном из Notable Capital с участием Lightspeed Venture Partners, бывшего руководителя DoorDash Гокула Раджарама, Factorial Capital, Datadog и нескольких неопубликованных технических лидеров.

Основанный бывшими экспертами в области машинного обучения Meta Анандом Каннапаном и Ребеккой Цян, Patronus AI разработал инновационную платформу автоматической оценки, призванную выявлять такие проблемы, как галлюцинации, нарушения авторских прав и риски безопасности в выводах LLM. Используя собственный ИИ, платформа оценивает производительность моделей, проводит стресс-тесты с использованием противостоящих примеров и обеспечивает детальное бенчмаркинг без необходимости в ручном труде, который обычно требуется предприятиям.

"Наш продукт превосходно справляется с обнаружением различных ошибок", - сказал Каннапан, генеральный директор Patronus AI. "Это включает галлюцинации, проблемы с авторскими правами, риски безопасности и настраиваемые возможности для поддержания стиля и тона бренда".

Появление мощных LLM, таких как GPT-4 от OpenAI и Llama 3 от Meta, вызвало конкурентную гонку в Силиконовой долине для использования генеративных возможностей этой технологии. Однако с энтузиазмом пришли и заметные сбои моделей — от статей с ошибками, сгенерированных ИИ для CNET, до отзыва научных работ в области разработки лекарств из-за неточностей LLM.

Эти провалы подчеркивают более глубокие системные проблемы в текущих LLM, которые Patronus AI стремится решить. Их исследования, включая недавно запущенный API "CopyrightCatcher" и бенчмарк "FinanceBench", выявляют тревожные недостатки в способности ведущих моделей предоставлять точные, основанные на фактах ответы.

В бенчмарке "FinanceBench" Patronus оценил модели, такие как GPT-4, в ответах на финансовые запросы с использованием публичных отчетов SEC. Результаты оказались показательными: модель с наилучшей производительностью дала правильные ответы только на 19% вопросов, несмотря на изучение целого годового отчета. В отдельной оценке с использованием API "CopyrightCatcher" было установлено, что открытые LLM воспроизводили защищенный текст дословно в 44% случаев.

"Даже самые современные модели сталкиваются с проблемами точности, демонстрируя лишь 90% успеха в финансовом контексте", - отметила Цян, технический директор Patronus. "Наши выводы показывают, что открытые модели дают более 20% небезопасных ответов в высокорисковых областях. Нарушение авторских прав представляет собой значительную проблему; крупные издательства и медиа-компании должны быть внимательны".

Хотя другие стартапы, такие как Credo AI и Weights & Biases, разрабатывают инструменты оценки LLM, Patronus выделяется своим подходом, ориентированным на исследования. Их основная технология включает в себя обучение специализированных моделей оценки для выявления конкретных сценариев, в которых LLM могут дать сбой.

"Никто не может сравниться с нашим уровнем исследований и технологий," - утверждает Каннапан. "Наша стратегия уникальна: она основана на обучении моделей оценки, внедрении передовых методов выравнивания и публикации исследований".

Patronus AI привлек внимание нескольких компаний из списка Fortune 500 в различных отраслях, включая автомобилестроение, образование, финансы и программное обеспечение, помогая им безопасно внедрять LLM. С привлечением нового капитала компания планирует расширить свои исследовательские, инженерные и продажные команды, а также разработать дополнительные бенчмарки.

Если Patronus реализует свою концепцию, автоматизированные оценки LLM могут стать важным элементом для предприятий, аналогично роли проверки безопасности в ускорении перехода в облако. Цян мечтает о будущем, где тестирование моделей с помощью Patronus станет обыденной практикой, подобно юнит-тестированию кода.

"Наша платформа универсальна и применима в различных областях, от права до здравоохранения," - объяснила она. "Мы стремимся дать возможность предприятиям в каждой отрасли использовать LLM, обеспечивая при этом соблюдение их специфических требований".

Несмотря на сложности, связанные с верификацией производительности LLM из-за их черного ящика и широкого диапазона выходных данных, Patronus намерен продвигать оценки ИИ. Сдвигая границы автоматизированного тестирования, они надеются облегчить ответственное внедрение LLM в реальных приложениях.

"Автоматизация измерения производительности LLM является сложной задачей из-за разнообразия поведения, которое могут проявлять эти генеративные модели," - признал Каннапан. "Тем не менее, наш подход, основанный на исследованиях, позволяет нам надежно и масштабируемо выявлять ошибки, которые ручное тестирование просто не может выявить".

Укрепление позиций ИТ-лидеров: ключевая роль личных навыков в стремительно развивающемся технологическом ландшафте

Intently привлекла $3 миллиона для запуска инновационного инструмента сетевого взаимодействия на базе ИИ для основателей стартапов.

Most people like

AlphaResearch

19.3K

Добро пожаловать в AlphaResearch, инновационную платформу на базе ИИ, разработанную для инвесторов. С нашей технологией вы сможете эффективно исследовать документы компаний и обнаруживать ценные инсайты, чтобы обосновать свои инвестиционные решения.

поиск компаний AI Search Engine

LastMile AI

9.9K

Разблокируйте потенциал генеративного ИИ для инженерных команд без усилий.

Платформа для разработчиков ИИ AI Tools Directory

Roam Around

56.5K

Представляем Roam Around, ИИ-ассистента для путешествий, который создает индивидуальные маршруты, чтобы улучшить ваш опыт планирования поездок. Позвольте Roam Around избавиться от хлопот по организации ваших путешествий, обеспечивая безупречный путь от начала до конца.

путешествия AI Trip Planner

PhotoAI

83.8K

Поднимите свои фотографии до захватывающих визуалов, созданных ИИ. Узнайте, как вы можете преобразовать повседневные изображения в завораживающее произведение искусства, которое выделяется.

Генерация фото и аватаров AI Avatar Generator

Find AI tools in YBX