Por que a Anthropic e a OpenAI Priorizar a Segurança dos Pesos dos Modelos LLM

Como Chief Information Security Officer na Anthropic, Jason Clinton desempenha um papel multifacetado, reportando-se diretamente ao CEO Dario Amodei. Com uma equipe dedicada, ele gerencia diversos aspectos da segurança, incluindo proteção de dados e segurança física, nesta startup apoiada por Google e Amazon, conhecida por seus avançados modelos de linguagem, Claude e Claude 2. Apesar de ter arrecadado mais de US$ 7 bilhões em investimentos e empregar cerca de 300 pessoas, o foco principal de Clinton é proteger os pesos do modelo de Claude — armazenados em um enorme arquivo de tamanho terabyte — contra acessos não autorizados.

Nos sistemas de aprendizado de máquina, especialmente nas redes neurais profundas, os pesos do modelo representam as conexões numéricas cruciais que permitem ao modelo aprender e fazer previsões. Os valores finais desses pesos influenciam significativamente o desempenho global do modelo. Um relatório de pesquisa recente da Rand Corporation destaca a importância de proteger esses pesos, que encapsulam os vastos recursos e processos complexos envolvidos no treinamento de modelos avançados. Se obtidos por agentes maliciosos, esses pesos poderiam permitir acesso total ao modelo a um custo muito inferior ao de treinamento.

"Provavelmente passo quase metade do meu tempo como CISO pensando em proteger esse único arquivo”, comentou Clinton em uma entrevista recente, destacando que ele recebe atenção e recursos significativos dentro da organização.

Preocupações sobre os Pesos do Modelo

Clinton, que se juntou à Anthropic após uma carreira de 11 anos no Google, apontou que, enquanto alguns consideram os pesos uma propriedade intelectual altamente valiosa, a principal preocupação da empresa é evitar que essa tecnologia caia em mãos erradas. Ele explicou que o uso indevido por criminosos oportunistas, grupos terroristas ou estados-nação poderia ter consequências graves. “Se um invasor acessasse o arquivo inteiro, teria acesso a toda a rede neural”, alertou.

Essa preocupação é reiterada por iniciativas recentes do governo dos EUA. A Ordem Executiva da Casa Branca sobre o “Desenvolvimento e Uso Seguro e Confiável da Inteligência Artificial” exige que as empresas de modelos fundamentais documentem a propriedade e as medidas de segurança relacionadas aos seus pesos de modelo.

A OpenAI, um jogador notável no campo, afirmou em um post de blog de outubro de 2023 que está investindo diligentemente em medidas de cibersegurança para proteger os pesos de seus modelos proprietários, limitando a distribuição fora de sua organização e do parceiro tecnológico Microsoft.

Vetores de Ataque Identificados em Nova Pesquisa

Os coautores Sella Nevo e Dan Lahav, do relatório recente da Rand Corporation, “Segurança dos Pesos de Modelos de Inteligência Artificial”, identificaram cerca de 40 vetores de ataque que agentes maliciosos poderiam explorar para roubar os pesos do modelo. Desde acesso físico não autorizado até ataques à cadeia de suprimentos, o relatório destacou exemplos do mundo real desses vetores em ação.

Nevo enfatizou que as preocupações estão menos relacionadas às capacidades atuais e mais focadas nos riscos futuros, prevendo implicações significativas para a segurança nacional à medida que os modelos avançam.

Riscos de Modelos Fundamentais Abertos

Nem todos os especialistas concordam sobre a gravidade dos riscos associados a vazamentos de pesos de modelos de IA, especialmente em relação a modelos de código aberto. Um breve de política do Stanford HAI indicou que modelos de fundação amplamente disponíveis podem fomentar a inovação e a transparência, sugerindo que os riscos associados a eles devem ser avaliados em comparação aos modelos fechados.

Kevin Bankston, do Center for Democracy & Technology, elogiou o breve pela sua análise equilibrada e baseada em evidências. O breve destacou resultados mistos, citando o modelo Llama 2 da Meta, que foi lançado com pesos publicamente disponíveis, apesar de um vazamento anterior.

Enquanto defensores argumentam a favor da segurança do código aberto, Heather Frase, da Universidade de Georgetown, apontou que à medida que os modelos generativos evoluem, o potencial de dano também aumenta, especialmente para indivíduos alvos de tecnologias maliciosas.

Enfatizando a Transparência na Segurança

Nicolas Patry, engenheiro de ML na Hugging Face, afirmou que os riscos associados aos pesos do modelo requerem protocolos de segurança regulares. No entanto, ele acredita que a transparência aumenta a segurança. William Falcon, CEO da Lightning AI, ecoou esse sentimento, argumentando que as tentativas de controlar vazamentos de pesos de modelos são fúteis, já que a comunidade de código aberto evolui rapidamente.

Clinton concorda que os modelos de código aberto não representam os riscos mais significativos que a Anthropic deve priorizar. Ele pede que os governos se concentrem em regular modelos "de fronteira", enfatizando a importância da pesquisa e segurança contínuas.

Desafios de Segurança em Andamento

Apesar do otimismo dos pesquisadores, Nevo alertou contra a complacência, advertindo que as medidas de segurança atuais podem não proteger adequadamente contra ameaças futuras. Clinton destacou o desafio da escassez de talentos em segurança de IA, afirmando: “Não existem especialistas em segurança de IA... Precisamos de engenheiros de segurança de alto nível que possam se adaptar rapidamente a esse cenário em evolução."

Ele expressou preocupação com a crescente facilidade com que atacantes poderiam explorar vulnerabilidades. Olhando para o futuro, ele prevê uma mudança nas práticas de cibersegurança de atualizações periódicas para atualizações diárias, o que exigiria uma grande mudança de mentalidade em toda a indústria.

O compromisso de Clinton em equilibrar o rápido avanço da pesquisa com medidas de segurança robustas sublinha a urgência de estratégias proativas para proteger os pesos dos modelos de IA. “É crucial que nossa equipe de pesquisa se sinta apoiada ao gerenciar de forma segura os pesos do modelo”, concluiu.

Most people like

Find AI tools in YBX