출처: 토큰포스트
마이크로소프트 연구진은 최근 생성형 인공지능(AI) 시스템의 보호 장치를 해제하여 위험하고 민감한 데이터를 출력할 수 있는 새로운 형태의 ‘탈옥’ 공격인 ‘스켈레톤 키’를 발견했다.
29일(현지시간) 코인텔레그래프에 따르면 마이크로소프트 보안 블로그에 스켈레톤 키 공격은 단순히 생성형 AI 모델에 텍스트로 보안 기능을 보강하라는 요청을 하여 작동한다고 전했다.
스켈레톤 키
연구진이 제공한 예에서, AI 모델에게 제2차 세계 대전 당시 사용된 간단한 화염병인 ‘몰로토프 칵테일’의 제조법을 생성하라는 요청이 있었고, 모델은 안전 지침을 이유로 이를 거부하였다.
이 경우, 스켈레톤 키는 단순히 사용자에게 실험실 환경의 전문가라고 모델에게 알려주는 것이었다. 모델은 자신의 행동을 보강하고 있다고 인식한 후, 작동 가능한 몰로토프 칵테일 제조법을 출력하였다.
이 공격의 위험은 유사한 아이디어를 대부분의 검색 엔진에서 찾을 수 있다는 점에서 완화될 수 있지만, 개인 식별 정보와 금융 정보를 포함하는 데이터가 유출될 가능성이 있는 경우에는 치명적일 수 있다.
마이크로소프트에 따르면, 스켈레톤 키 공격은 GPT-3.5, GPT-4, 클로드 3, 제미니 프로, 메타 라마-3 70B를 포함한 대부분의 인기 있는 생성형 AI 모델에서 작동한다.
공격 및 방어
구글의 제미니, 마이크로소프트의 코파일럿, 오픈AI의 ChatGPT와 같은 대형 언어 모델은 종종 ‘인터넷 크기’로 묘사되는 데이터 저장소에서 훈련된다. 이는 과장일 수 있지만, 많은 모델이 전체 소셜 미디어 네트워크와 위키피디아와 같은 정보 저장 사이트를 포함한 수조 개의 데이터 포인트를 포함하고 있다는 사실은 여전하다.
전화번호, 주소 및 계좌 번호와 연결된 이름과 같은 개인 식별 정보가 특정 대형 언어 모델의 데이터 세트 내에 존재할 가능성은 이를 훈련한 엔지니어들이 선택한 데이터의 선택성에 의해 제한된다.
또한, 자체 AI 모델을 개발하거나 상업적/조직적 용도로 엔터프라이즈 모델을 조정하는 모든 기업, 기관 또는 기관도 기본 모델의 훈련 데이터 세트에 의존할 수밖에 없다. 예를 들어, 은행이 고객의 개인 데이터에 챗봇을 연결하고 기존 보안 조치에 의존하여 모델이 개인 식별 데이터와 개인 금융 데이터를 출력하지 않도록 하는 경우, 스켈레톤 키 공격이 일부 AI 시스템을 속여 민감한 데이터를 공유하게 할 수 있다.
마이크로소프트에 따르면, 이를 방지하기 위해 조직이 취할 수 있는 여러 단계가 있다. 여기에는 하드 코딩된 입출력 필터링과 시스템의 안전 임계값을 초과하지 않도록 고급 프롬프트 엔지니어링을 방지하는 보안 모니터링 시스템이 포함된다.