В эпоху генеративного ИИ обеспечение безопасности больших языковых моделей (LLM) является столь же важным, как и их производительность в различных задачах. Команды по всему миру все больше осознают эту необходимость и совершенствуют процессы тестирования и оценки, чтобы выявить и устранить проблемы, которые могут привести к плохому опыту пользователей, потерянным возможностям или штрафам.
С учетом быстрого развития как открытых, так и закрытых моделей, выбор самой безопасной LLM может быть непростой задачей. Enkrypt предлагает решение с помощью своего Лидера по безопасности LLM. Этот стартап из Бостона специализируется на предоставлении контролирующего слоя для безопасного развертывания генеративного ИИ и оценивает LLM по уязвимости к рискам безопасности и надежности.
Лидераборд включает множество высокопроизводительных языковых моделей, включая семьи GPT и Claude. Он предоставляет ценную информацию о факторах риска, которые критичны для выбора безопасных и надежных LLM и оптимизации их внедрения.
Понимание Лидера по безопасности LLM Enkrypt
Когда предприятия внедряют LLM в такие приложения, как чат-боты, они проводят постоянные внутренние тесты для выявления рисков безопасности, таких как взломы и предвзятые результаты. Даже небольшие ошибки могут привести к серьезным последствиям, включая утечку данных или предвзятые ответы, как показал инцидент с чат-ботом Google Gemini. Эти риски могут быть еще более выражены в регулируемых секторах, таких как финтех и здравоохранение.
Основанный в 2023 году, Enkrypt решает эти задачи с помощью Sentry — обширного решения, которое выявляет уязвимости в приложениях генеративного ИИ и внедряет автоматизированные защитные меры для их смягчения. Лидераборд по безопасности LLM является следующим шагом в этой инициативе, предлагая сведения, которые помогают командам с самого начала выбрать наиболее безопасную модель.
Лидераборд, разработанный на основе тщательного тестирования в различных сценариях, оценивает до 36 LLM — как открытых, так и закрытых — по различным метрикам безопасности. Он анализирует способность модели избегать генерации опасного, предвзятого или неприемлемого контента и ее возможность предотвращать атаки вредоносного программного обеспечения или внедрение команд.
Кто является самой безопасной LLM?
По состоянию на 8 мая, Лидераборд Enkrypt оценивает GPT-4-Turbo от OpenAI как самую безопасную LLM, имеющую самый низкий риск с оценкой 15.23. Эта модель эффективно защищает от взломов и производит токсичный контент всего 0.86% случаев. Однако она сталкивается с проблемами предвзятости и вредоносного программного обеспечения, что наблюдается в 38.27% и 21.78% случаев соответственно.
Модели Llama2 и Llama 3 от Meta идут следом с рисковыми оценками от 23.09 до 35.69. Модель Claude 3 Haiku от Anthropic занимает 10-е место с оценкой риска 34.83, демонстрируя хорошую производительность в тестах, но выдавая предвзятые ответы более 90% времени.
На нижних строках Лидераборда находятся модели Saul Instruct-V1 и недавно анонсированная Phi3-Mini-4K от Microsoft с рисковыми оценками 60.44 и 54.16 соответственно. Модели Mixtral 8X22B и Snowflake Arctic также получают низкие оценки 28 и 27.
Стоит отметить, что этот список может изменяться по мере улучшения моделей и появления новых. Enkrypt планирует регулярно обновлять Лидераборд, чтобы отразить эти изменения.
«Наш Лидераборд будет обновляться в день запуска новых моделей и еженедельно для обновления существующих. По мере прогресса исследований в области безопасности ИИ и разработки новых методов, Лидераборд будет постоянно демонстрировать последние данные. Это обеспечивает его актуальность и авторитет как ресурса», — заявил Сахи Агарвал, соучредитель Enkrypt.
Агарвал видит этот развивающийся список как ценнейший инструмент для команд предприятий, позволяющий изучить сильные и слабые стороны популярных LLM — будь то в уменьшении предвзятости или предотвращении внедрения команд — и принимать обоснованные решения на основе конкретных случаев использования.
«Интеграция нашего Лидераборда в стратегию ИИ усиливает технологические возможности, сохраняя при этом этические стандарты, что создает конкурентное преимущество и укрепляет доверие. Команда по рискам, безопасности и управлению может использовать Лидераборд для выявления безопасных моделей для использования командами продуктов и инженерии. В данный момент у них нет полной информации о безопасности, и они полагаются только на публичную оценку производительности. Лидераборд, а также отчеты по оценке атакующих, предоставляют важные рекомендации по безопасности для развертывания модели», — добавил он.