Почему Anthropic и OpenAI придают столь большое значение безопасности весов LLM моделей

В качестве главного директора по информационной безопасности в компании Anthropic Джейсон Клинтон выполняет многогранные обязанности, напрямую подчиняясь генеральному директору Дарио Амодеи. С преданной командой он управляет различными аспектами безопасности, включая защиту данных и физическую безопасность, в этом стартапе, поддерживаемом Google и Amazon, известном своими продвинутыми языковыми моделями Claude и Claude 2. Несмотря на более чем $7 миллиардов инвестиций и около 300 сотрудников, основное внимание Клинтона сосредоточено на защите весов модели Claude, которые хранятся в огромном файле размером в терабайт, от несанкционированного доступа.

В машинном обучении, особенно в глубоких нейронных сетях, веса модели представляют собой критически важные числовые связи, позволяющие нейронной сети обучаться и делать прогнозы. Конечные значения этих весов значительно влияют на общую эффективность модели. Недавний отчет Rand Corporation подчеркивает важность защиты этих весов, которые охватывают обширные ресурсы и сложные процессы, связанные с обучением продвинутых моделей. Если весы будут получены злоумышленниками, это может позволить получить полный доступ к модели за небольшую часть стоимости ее обучения.

«Вероятно, почти половину своего времени в качестве CISO я трачу на защиту этого единственного файла», — отметил Клинтон в недавнем интервью, упомянув, что этому вопросу уделяется значительное внимание и ресурсы в компании.

Беспокойство относительно весов модели

Клинтон, пришедший в Anthropic после 11 лет работы в Google, отметил, что хотя некоторые считают веса высокоценным интеллектуальным имуществом, главная забота компании заключается в предотвращении попадания технологии в неправильные руки. Он объяснил, что злоупотребление со стороны криминальных элементов, террористических групп или государств может иметь катастрофические последствия. «Если злоумышленник получит доступ ко всему файлу, это будет доступ ко всей нейронной сети», — предостерег он.

Эти опасения поддерживаются недавними инициативами правительства США. Исполнительный указ Белого дома о «Безопасном, надежном и доверительном развитии и использовании искусственного интеллекта» требует, чтобы компании, работающие с фундаментальными моделями, документировали права собственности и меры безопасности вокруг своих весов модели.

OpenAI, заметный игрок в этой области, заявила в блоге в октябре 2023 года, что активно инвестирует в кибербезопасность для защиты своих моделей, ограничивая распространение за пределы своей организации и технологического партнера Microsoft.

Идентификация векторов атак в новом исследовании

Соавторы недавнего отчета Rand Corporation «Защита весов моделей искусственного интеллекта» Селла Нево и Дэн Лахав выявили около 40 потенциальных векторов атак, которые злоумышленники могут использовать для кражи весов модели. От несанкционированного физического доступа до атак на цепочку поставок, отчет подчеркнул реальные примеры этих векторов в действии.

Нево подчеркнула, что опасения связаны не столько с текущими возможностями, сколько с будущими рисками, предсказывая значительные последствия для национальной безопасности по мере совершенствования моделей.

Риски открытых фундаментальных моделей

Не все эксперты согласны с серьезностью рисков, связанных с утечкой весов AI-моделей, особенно в отношении открытых моделей. Брифинг Стэнфордского HAI указал, что широко доступные открытые фундаментальные модели могут способствовать инновациям и прозрачности, предлагая оценивать риски открытых моделей в сравнении с закрытыми.

Кевин Бэнкстон из Центра демократии и технологий похвалил брифинг за сбалансированный и основанный на фактах анализ. Брифинг подчеркнул смешанные результаты, упоминая модель Llama 2 от Meta, выпущенную с публично доступными весами, несмотря на предыдущую утечку.

Хотя сторонники выступают за безопасность открытого кода, Хизер Фрейз из Университета Джорджтауна отметила, что с развитием генеративных моделей увеличивается и потенциальный ущерб, особенно для отдельных лиц, ставящихся мишенью технологий.

Подчеркнув значимость прозрачности в безопасности

Николя Патри, инженер по машинному обучению в Hugging Face, заявил, что риски, связанные с весами модели, требуют регулярных протоколов безопасности. Тем не менее, он считает, что прозрачность усиливает безопасность. Уильям Фалькон, генеральный директор Lightning AI, поддержал эту точку зрения, утверждая, что попытки контролировать утечки весов модели бесполезны, поскольку сообщество открытого кода быстро развивается.

Клинтон согласен с тем, что открытые модели не представляют собой наибольших рисков, которым следует уделять первоочередное внимание Anthropic. Он призывает правительства сосредотачиваться на регулировании «передовых» моделей, подчеркивая важность постоянных исследований и мер безопасности.

Текущие проблемы безопасности

Несмотря на оптимизм исследователей, Нево предостерегает от самодовольства, предупреждая, что текущие меры безопасности могут быть недостаточными для защиты от будущих угроз. Клинтон отметил проблему нехватки специалистов в области безопасности AI, заявив: «У нас нет экспертов по безопасности AI… Нам нужны лучшие инженеры безопасности, которые смогут быстро адаптироваться к изменяющемуся ландшафту».

Он выразил обеспокоенность растущей легкостью, с которой злоумышленники могут эксплуатировать уязвимости. Заглядывая в будущее, он предсказывает изменения в практиках кибербезопасности от периодических до ежедневных обновлений, что потребует значительных изменений в ментарных подходах по всей отрасли.

Обязанность Клинтона сбалансировать быстрые темпы исследований с надежными мерами безопасности подчеркивает актуальность проактивных стратегий по защите весов AI-моделей. «Важно, чтобы наша команда исследований чувствовала поддержку при безопасном управлении весами модели», — заключил он.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles