T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Summary

이 논문은 기존 LLM 레드팀이 주로 “유해한 텍스트 응답”을 끌어내는 데 집중해 왔다는 한계를 지적하고, 실제 에이전트 환경에서는 다단계 도구 호출과 외부 환경 상호작용을 통해서만 드러나는 취약점이 더 중요하다고 본다. 이를 위해 저자들은 MAP-Elites 기반의 품질-다양성 탐색에 실행 궤적 정보를 결합한 T-MAP을 제안한다. 핵심은 단순히 프롬프트 수준의 jailbreak 여부가 아니라, 도구 실행을 통해 악의적 목표가 실제로 실현되었는지까지 평가 대상으로 삼는 점이다.

T-MAP은 각 공격 프롬프트의 실행 궤적을 분석해 성공 요인과 실패 원인을 추출하는 Cross-Diagnosis, 그리고 어떤 도구 전이가 성공/실패했는지 축적하는 Tool Call Graph(TCG)를 사용해 다음 세대 프롬프트 변이를 유도한다. 이로써 안전장치를 우회하는 문구를 찾는 데서 그치지 않고, 실제로 유효한 도구 실행 경로를 만들어내는 공격을 더 잘 탐색한다. 실험에서는 CodeExecutor, Slack, Gmail, Playwright, Filesystem의 5개 MCP 환경에서 평균 ARR 57.8%를 기록하며 모든 베이스라인을 크게 앞섰고, GPT-5.2, Gemini-3-Pro, Qwen3.5, GLM-5 같은 프론티어 모델에도 효과가 유지됨을 보였다.

Problem

기존 자동화 레드팀 기법은 주로 단일 턴 또는 텍스트 응답 수준에서 유해성을 측정하기 때문에, LLM 에이전트가 실제 도구를 호출하고 외부 환경에 영향을 주는 상황에서 발생하는 취약점을 충분히 포착하지 못한다. 특히 MCP처럼 도구 생태계가 확장되는 환경에서는 공격 성공이 단순한 유해 발화가 아니라 올바른 순서의 도구 호출, 파라미터 선택, 환경 반응 처리까지 포함한 다단계 실행에 의해 결정된다. 따라서 논문은 “실행 가능한 악성 궤적”을 자동으로 찾는 레드팀 문제를 새롭게 정식화하고, 이를 효과적으로 탐색하는 방법을 해결 과제로 둔다.

Method

T-MAP은 위험 카테고리와 공격 스타일로 구성된 2차원 MAP-Elites 아카이브를 유지하며, 각 셀에 해당 조합에서 가장 강한 공격 프롬프트와 그 실행 궤적을 저장한다. 초기화 단계에서는 각 셀마다 시드 프롬프트를 생성하고, 에이전트 실행 결과를 L0(거부)~L3(완전 실현)으로 판정한다. 이후 매 반복마다 성공한 부모 셀과 탐색 대상 셀을 선택해 새 프롬프트를 만든다.

변이 단계의 핵심은 두 가지다. 첫째, Cross-Diagnosis는 부모 궤적에서 성공 전략을, 대상 셀의 기존 궤적에서 실패 원인을 추출해 프롬프트 변이에 반영한다. 둘째, Tool Call Graph는 도구 간 전이의 성공/실패 횟수와 이유를 기록해, 어떤 도구 시퀀스가 유망한지 LLM Mutator에 구조적 힌트를 준다. 새 프롬프트를 실행한 뒤 Judge가 성공 수준을 평가해 아카이브를 갱신하고, 동시에 새 궤적의 도구 전이 결과로 TCG를 업데이트한다. 즉, 프롬프트 수준 진화와 행동 수준 메모리를 결합한 trajectory-aware 탐색이라고 볼 수 있다.

Results

주요 실험에서 T-MAP은 5개 MCP 환경 전체에서 최고 성능을 기록했으며, 평균 공격 실현율(ARR) 57.8%를 달성했다. 환경별 ARR은 CodeExecutor 56.2%, Slack 64.1%, Gmail 9.4%, Playwright 21.9%, Filesystem 84.4%였다. 평균 ARR 기준으로는 ZS 1.9%, MT 10.0%, IR 15.6%, SE 32.5%보다 크게 높았다. 또한 평균 거부율(RR)은 12.5%로, ZS 87.8%, MT 63.1%, IR 50.3%, SE 23.1%보다 낮았다.

다양성 측면에서도 T-MAP은 가장 많은 성공 도구 궤적을 발견했다. 성공한 고유 도구 호출 시퀀스 수는 21.80으로 SE의 12.80보다 높았고, Self-BLEU 0.25 및 의미 유사도 0.47로 텍스트 중복도도 가장 낮았다. 어블레이션에서는 TCG 제거 시 L3 비율이 58.40%에서 45.71%로 감소하고 L1 오류가 10.95%에서 20.13%로 증가했으며, Cross-Diagnosis 제거 시 RR이 11.93%에서 15.63%로 상승했다. Multi-MCP 체인 설정에서도 T-MAP은 가장 높은 ARR과 가장 낮은 RR을 유지했고, cross-server 고유 궤적 비율은 46.28%로 베이스라인(14~23%)보다 월등히 높았다.

Key Insights

에이전트 레드팀에서는 “유해한 응답 생성”보다 “실제 도구 실행으로 목표가 실현되는가”가 더 본질적인 평가 기준임을 잘 보여준다.
단순 진화 탐색(SE)도 일정 수준 효과가 있지만, 실행 궤적 분석과 도구 전이 메모리가 들어가야 진짜 공격 실현율이 크게 올라간다.
TCG는 프롬프트 공격을 사실상 행동 그래프 탐색 문제로 바꿔 주며, 에이전트 보안에서 구조적 메모리가 중요하다는 점을 시사한다.
다양한 위험 카테고리와 공격 스타일을 아카이브로 유지하는 설계는 “하나의 강한 공격”이 아니라 취약점 지형 전체를 맵핑하는 데 유용하다.
프론티어 모델과 멀티-MCP 체인에서도 성능이 유지된다는 결과는, 향후 실제 배포 환경에서 에이전트 안전성 평가가 더 어려워질 수 있음을 암시한다.

Limitations

논문도 인정하듯 실험은 샌드박스 환경에서 수행되었기 때문에, 실제 서비스에서 적용되는 권한 제어, 사용자 확인, 입력 검증, 실행 격리 등의 추가 방어 장치가 있으면 보고된 ARR이 그대로 재현되지는 않을 수 있다. 또한 공격자 역할의 LLM으로 DeepSeek-V3.2를 사용했는데, 이 모델의 안전 정렬 수준이 비교적 약해 공격 프롬프트 생성에 유리했을 가능성이 있다. 더 나아가 평가의 상당 부분이 LLM judge에 의존하므로, 상관 분석이 높더라도 완전한 인간 평가 대체로 보기는 어렵다.