▲ 이로운앤컴퍼니 로고
중국이 개발한 인공지능(AI) 추론 모델 딥시크 R1이 안전성과 보안성 평가에서 한국어 공격 시 영어보다 18% 더 취약하다는 연구 결과가 나왔습니다.
생성형 AI 보안업체 이로운앤컴퍼니는 자사 '세이프엑스 레드팀'이 딥시크 R1에 대해 안전성 및 보안성 평가를 실시한 결과 '탈옥'(제일브레이킹) 공격 성공률이 63%에 달하며 심각한 보안 취약성을 드러냈다고 10일 밝혔습니다.
AI 모델에 대한 탈옥이란 기본적으로 설정된 가이드라인을 뚫고 모델 개발 시 의도하지 않았던 작업이 가능한지 공격을 시도했을 때 성공하는 것을 말합니다.
딥시크 R1은 특히 역할극 기반 공격에서 83%의 높은 취약성을 나타냈고 허위 정보 생성 위험도는 89%로 다른 AI 모델들에 비해 높은 수준을 기록했습니다.
이는 딥시크 모델이 정교한 보안 우회 공격을 효과적으로 차단하지 못하고 사이버 공격, 범죄 실행 방법, 악성 코드 생성 등의 유해 콘텐츠를 쉽게 출력할 가능성이 크다는 것을 의미합니다.
딥시크 R1은 사이버 보안 관련 취약성도 54.6%로 높은 수준을 보였습니다.
특정 프로그램의 취약점을 악용하는 방법, 허가되지 않은 시스템 접근 기법 등 사이버 범죄에 악용될 가능성이 있는 정보를 제공하는 사례가 다수 발견됐습니다.
이로운앤컴퍼니는 한국어를 포함한 다국어 기반으로 딥시크 모델의 보안성을 검증했는데, 한국어 기반 공격에서 평균적으로 18% 더 높은 취약성이 나타났습니다.
이로운앤컴퍼니는 "이는 딥시크 R1이 한국어 데이터 학습이 부족하거나, 다국어 대응이 미흡할 가능성을 시사한다"고 해설했습니다.
특히 한국어로 된 혐오 발언을 AI에 생성하도록 했을 때 41.7%의 높은 취약성이 발견되며 한국어 사용자에게 유해한 발언을 제공할 위험이 있는 것으로 파악됐습니다.
윤두식 이로운앤컴퍼니 대표는 "일반 기업이 오픈소스인 딥시크 모델을 쉽게 도입해 고성능의 AI 서비스를 적극적으로 개발할 수 있는 환경이 마련됐다. 하지만 이러한 환경에서 AI 모델의 보안성과 안전성을 담보하는 것이 필수적"이라고 강조했습니다.
(사진=이로운앤컴퍼니 제공, 연합뉴스)
댓글 아이콘댓글