지난달, 저는 효과적 이타주의(EA) 운동과 AI 보안 정책 간의 증가하는 교차점을 탐구하며 Anthropic과 RAND Corporation 같은 워싱턴 D.C. 싱크탱크를 연결했습니다. 이 성장하는 네트워크는 EA의 미래 인공지능 일반 지능(AGI)으로 인한 재앙적 위험을 다루려는 미션을 정부 기관, 싱크탱크, 의회 사무소와 연계하고 있습니다. 하지만 비평가들은 EA가 존재적 위험("x-risk")에 주력함으로써 편향, 허위 정보, 전통적인 사이버 보안 위협과 같은 바로 직면한 AI 위험을 소홀히 한다고 주장합니다.
그 이후로 저는 효과적 이타주의와 반대되는 효과적 가속주의(e/acc)와는 무관한 AI 및 정책 리더들로부터 통찰을 얻으려 했습니다. 다른 기업들도 대형 언어 모델(LLM) 가중치가 악의적인 손에 넘어갈 가능성에 대해 우려하고 있는지, 그리고 D.C. 정책입안자들이 EA가 AI 보안 이니셔티브에 미치는 영향을 충분히 이해하고 있는지 궁금해졌습니다.
이러한 논의는 Anthropic이 안전 프로토콜을 회피하는 "슬리퍼 에이전트" AI 모델에 대한 새로운 연구를 발표하고, 의회가 국립표준기술연구소(NIST)와 RAND 간의 잠재적 협력에 대한 우려를 제기함에 따라 더욱 절박해졌습니다. 또한 최근 헤드라인은 OpenAI CEO 샘 올트먼의 논란이 된 해임과 관련하여 EA를 조명했으며, 이 사건에 연루된 비영리 이사회 구성원들은 주로 EA와 연관되어 있었습니다.
지난 한 달 동안의 대화를 통해 복잡한 시각들을 발견했습니다. EA의 억만장자 지원 이념과 AI 보안 담론에 대한 영향에 대한 우려가 크지만, 일부에서는 정책 틀 내에서 장기 AI 위험에 대한 논의의 중요성을 인정합니다.
효과적 이타주의와 AI 재앙 예방
글로벌 복지를 개선하기 위해 설립된 EA 운동은 이제 주로 AI 관련 재앙, 특히 생물 보안 완화를 우선시하는 테크 억만장자들에 의해 자금 지원을 받고 있습니다. 저의 이전 기사에서는 Anthropic의 CISO 제이슨 클린턴과 RAND 연구원들이 기회주의 범죄자 및 국가 지원 행위자로부터 LLM 모델 가중치 보안에 대해 제기한 우려를 강조했습니다.
클린턴은 Anthropic의 LLM인 클로드 모델 가중치 보호가 가장 큰 우려라고 강조하며, 악의적인 주체가 전체 모델 파일에 접근하면 심각한 위협이 될 수 있다고 경고했습니다. RAND 연구원인 셀라 네보는 AI 모델이 향후 2년 내에 국가 안보와 관련성을 가질 수 있으며, 특히 악의적 행위자에 의해 잘못 사용될 가능성이 크다고 예측했습니다.
저는 제이슨 마세니와 같은 EA 커뮤니티와의 연결 고리를 가진 세 명의 관계자와 대화했으며, 마세니는 RAND의 CEO로서 Anthropic의 장기 혜택 신탁에 이전에 참여한 경력이 있습니다. 브렌던 보르델론의 보도에 자극받아 EA의 영향력을 더 연구하고자 했습니다. 보르델론은 EA와 관련된 자금 지원자들의 워싱턴 정책 풍경 침투를 "서사적 침투"라고 표현했습니다. 보르델론에 따르면, 효과적 이타주의 지지자들로 구성된 전담 집단이 AI 거버넌스 접근 방식을 크게 형성하고 있습니다.
Cohere의 EA 우려에 대한 대응
Anthropic 및 OpenAI의 경쟁자인 Cohere의 공동 창립자인 닉 프로스트와 대화했습니다. 그는 대형 언어 모델이 존재적 위협이 된다는 생각에 동의하지 않았습니다. 그는 Cohere가 모델 가중치를 안전하게 보호하고 있지만, 주요 우려 사항은 존재적이지 않고 비즈니스와 관련이 있다고 강조했습니다.
프로스트는 철학적 구분을 언급하며 "우리는 결국 진정한 인공지능 일반 지능을 개발할 수 있을 것이라 생각하지만, 그것이 곧 이루어질 것이라고 믿지는 않는다"고 밝혔습니다. 그는 EA가 AI 위험에 관한 자아도취적인 태도로 인해 비판을 받으며, 부의 축적에 대한 도덕적 틀에 의문을 제기했습니다.
AI21 Labs의 모델 가중치 및 보안 관련 입장
AI21 Labs의 공동 창립자 요아브 쇼함은 비슷한 의견을 피력하며 그들의 모델 가중치는 영업비밀을 보호하기 위해 안전하게 유지되고 있지만, 이러한 가중치가 악의적인 행위자들에게 주요한 가능성을 제공하지는 않는다고 강조했습니다. 그는 오늘날의 지정학적 AI 환경에서 대부분의 문제는 단순히 정책으로 해결될 수 없다고 지적했습니다.
쇼함은 AI21 Labs가 EA 운동의 일환이 아니며, 책임 있는 AI 사용과 운동 내에서의 근거 없는 두려움의 혼합을 보고 있다고 명확히 했습니다.
RAND의 EA 관점 비판
EA와의 연결로 인해 RAND에 대한 비판 속에서도 일부 연구자들은 내부적으로 운동의 주류 이념에 대해 이견을 보이고 있습니다. RAND의 군사 사회학자인 마렉 포사르드는 EA와 e/acc 지지자들이 제기한 AI에 관한 철학적 논의가 즉각적인 AI 정책 문제를 산만하게 한다고 언급했습니다. 그는 다양한 관점은 환영하지만, 진정한 세계의 문제를 해결하는 데 초점을 맞추어야 한다고 주장했습니다.
현재 사이버 보안 위험 해결
AI 보안과 전통적인 사이버 보안 분야는 겹쳐 있지만, 전통적인 사이버 보안은 더 현대적인 위험에 집중합니다. SANS Institute의 AI 연구를 이끄는 댄 드보비언은 EA 운동의 영향을 인정하면서도 존재적 위험보다는 현재 LLM과 관련된 보안 위협을 이해하는 것의 중요성을 강조했습니다.
D.C.에서의 EA 담론 공존
일부 정책입안자들은 EA가 AI 보안에 미치는 영향을 인식하지만, 그 가치를 직접적으로 대면하기보다는 공존하기를 선호합니다. 미국 국방부의 전 AI 정책 책임자 마크 빌은 기술 문화에서 권장되는 무모한 속도보다 확립된 안전장치의 중요성을 강조했습니다. 그는 펜타곤에서 책임 있는 AI 정책에 관한 작업을 수행하며 D.C. 공식들이 AI 위험에 대한 인식이 부족하다는 주장을 반박했습니다.
‘관리되지 않는 AI’의 과제
유라시아 그룹의 회장 이안 브레머는 최근 2024년의 주요 지정학적 위험 중 하나로 “관리되지 않는 AI”를 언급하며 선거 허위 정보와 같은 구체적인 위협을 지적했습니다. 그는 모델 가중치 보안에 대한 유익한 논의가 있다는 것을 인정하면서도, EA 운동이 재앙적 결과에만 집중함으로써 다른 위험을 최소화한다고 비판했습니다.
결론적으로, 브레머는 위험을 존재적 위험으로 틀지으면 시급한 문제를 간과하게 되고, 효과적인 AI 거버넌스를 위한 포괄적인 담론이 약화될 수 있다고 지적했습니다.