Study/NLP

LLM 탈옥(Jailbreaking)이란?

hyeonjins 2024. 12. 20. 10:25

1. LLM 탈옥(Jailbreaking)이란?

  • LLM(대규모 언어 모델)의 제약을 우회하는 방법
  • 개발자가 설정한 보안 정책, 윤리적 제한, 콘텐츠 필터링을 무력화하는 과정
  • AI의 응답을 제한하는 제어(Control Mechanism)를 피하고, 원래 허용되지 않은 출력을 유도하는 기법
  • 생성형 AI 기술의 발전으로 AI 시스템의 안전성과 윤리적 책임이 중요해짐

 

2. AI Red Team이란?

  • 군사 전략에서 유래된 개념으로, AI 보안 테스트 및 취약점 탐색을 수행하는 역할
  • AI 시스템의 공정성, 보안, 신뢰성을 점검하는 전문가 그룹
  • 다음과 같은 보안 위협을 탐지하고 방어 전략을 수립함
    • Prompt Injection: 특정 입력을 통해 AI 모델을 조작하는 기법
    • Poisoning: AI 학습 데이터에 악성 데이터를 주입하여 모델의 출력을 변형
    • Bypass Attacks: AI의 기존 제약을 회피하여 허용되지 않은 응답을 생성
  • AI 모델이 예상치 못한 출력을 생성하는지 테스트하고, 악의적인 요청을 차단하는지 검증
  • AI의 제약을 우회하려는 공격에 대비한 보안 패치를 적용하며, 지속적인 테스트 및 개선을 통해 AI의 신뢰성 강화

 

3. LLM 탈옥(Jailbreaking) 기법 종류

🔹 Prompt Injection

  • AI 모델이 특정한 규칙을 따르도록 설계된 것을 이용하여 의도적으로 제약을 우회하는 기법
  • 대표적인 탈옥 프롬프트 기법:
    • "Do Anything Now"(DAN): AI가 모든 요청을 수행하도록 유도하는 기법
    • "Ignore previous instructions"(이전 명령 무시하기): 기존의 제한 규칙을 해제하는 방식
    • 역할 설정(Role-playing Attack): AI가 특정 캐릭터를 연기하도록 유도하여 차단된 출력을 생성하게 함

 

🔹 Data Poisoning

  • AI 모델의 학습 데이터에 악성 데이터를 주입하여 편향된 결과를 유도하는 공격 방식
  • 모델이 부적절한 응답을 생성하도록 교묘하게 학습 데이터 변조
  • AI 챗봇의 학습 데이터가 조작될 경우, 특정 기업이나 개인을 공격하는 콘텐츠를 생성할 가능성 존재

 

🔹 Bypass Attacks

  • LLM이 보안 필터링을 우회하도록 조작하는 방법
  • 암호화된 요청(Encoding Attacks): Base64, ROT13, 유니코드 변환 등을 이용해 금지된 단어를 AI가 감지하지 못하게 함
  • 연속적 변형(Recursive Prompting): 단계적으로 AI가 점진적으로 제한된 콘텐츠를 생성하게 유도
  • 이중 질문(Double Query): 제한된 정보를 직접 요청하지 않고 여러 개의 중립적인 질문을 통해 조합하여 원하는 정보를 획득

 

4. LLM 보안 강화 사례

  • LG AI 연구원의 ChatEXAONE: Red Teaming을 적용하여 보안 및 윤리적 문제를 사전 점검
  • OpenAI가 지속적으로 새로운 탈옥 기법(AIM 프롬프트 등)을 분석하고 패치 적용

 

 

References

 

[AI 윤리 세미나 ep.1] 생성형 AI를 위한 Red Team 연구 트렌드와 응용 사례 - LG AI Research BLOG

 

www.lgresearch.ai

 

 

"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

The misuse of large language models (LLMs) has drawn significant attention from the general public and LLM vendors. One particular type of adversarial prompt, known as jailbreak prompt, has emerged as the main attack vector to bypass the safeguards and eli

arxiv.org