컨텍스트 조작 공격: 웹 에이전트에 보안 메모리가 필요한 이유

Published on

September 1, 2025

Read time:

6 mins

Tl;dr:

스테이트리스 (Stateless) 웹 에이전트는 손상될 수 있는 외부 메모리 시스템에 의존하며, 이로 인해 새로운 심각한 공격 영역이 생성되고 있음을 알 수 있습니다.
Web3 에이전트에 대한 이전 작업에서는 컨텍스트 조작과 CraiBench를 도입하여 ElizaOS에 크로스 플랫폼 메모리 주입을 시연했습니다 (그림 1).
여기서는 공격자가 에이전트의 작업 계획에 악의적인 단계를 삽입하여 즉각적인 공격보다 최대 3배 더 높은 성공을 거두는 “계획 삽입”을 공식화합니다.
플랜 인젝션 벤치마크와 WebVoyager-Privacy 벤치마크를 모두 평가하여 시맨틱 정렬이 공격 효율성을 어떻게 유도하는지 보여줍니다.
표준 프롬프트 방어는 프롬프트 인젝션 비율을 낮췄지만 Agent-E에서는 46%, 브라우저 사용에서는 63% 의 성공률로 플랜 인젝션은 거의 영향을 받지 않습니다.

‍

‍

상담원 메모리가 중요한 이유

자율 웹 에이전트는 자연어 명령을 브라우저 작업으로 변환하지만 기본적으로 상태를 저장하지 않습니다.컨텍스트를 유지하기 위해서는 중앙 집중식 채팅 시스템의 보안 경계 외부에 있는 클라이언트 측 또는 제3자가 저장한 메모리에 의존합니다.이로 인해 취약점이 생깁니다. 악의적인 공격자는 단순한 프롬프트나 검색된 데이터가 아니라 저장된 컨텍스트를 조작할 수 있습니다.

Web3에서의 이전 작업

“가짜 메모리를 가진 실제 AI 에이전트”에서는 Web3 에이전트에 대한 컨텍스트 조작 공격이 어떻게 무단 암호화폐 전송으로 이어질 수 있는지 공개했습니다.금융 에이전트를 위한 150개 이상의 태스크 벤치마크인 CraiBench를 도입했으며, ElizaOS에 크로스 플랫폼 메모리 삽입 (Discord → Twitter) 을 시연하여 돌이킬 수 없는 자금 도난을 초래했습니다.

‍

*그림 2.인젝션 공격을 계획하여 개인 데이터를 유출하세요.악의적인 조치 (빨간색) 는 합법적인 하위 작업과 뒤섞여 있습니다.*

‍

벤치마킹 플랜 인젝션 및 웹보이저-프라이버시

플랜 인젝션 벤치마크 (에이전트-E)

샘플 15개 × 5는 사실, 의견, 광고, 프라이버시의 네 가지 범주에 걸쳐 있습니다.
오피니언 태스크: 태스크를 연계한 태스크에서 성공률 94.7%, 상황에 맞지 않는 태스크의 경우 70.7%
실제 작업: 작업 정렬의 경우 18.7%, 비컨텍스트 작업의 경우 0%

‍

*그림 3.Agent-E의 작업 범주 및 주입 전략 전반의 공격 성공률*

*그림 4.임베딩 공간 분석: 컨텍스트 체인 주입은 사용자와 공격자 유사성 간의 균형을 최적화합니다.*

‍

웹보이저 - 프라이버시 벤치마크

WebVoyager 데이터 세트의 9개 도메인에서 가져온 45가지 개인 정보 보호 작업
다이나믹 LLM 제작 인젝션은 사실적인 시나리오를 보장합니다.

*그림 5.서로 다른 방어 하에서 Agent-E에 대한 약한/강력한 신속 주입과 단일 계획 주입을 위한 ASR.*

‍

*그림 6.Agent-E와 브라우저 사용의 주입 정교도 수준 비교.컨텍스트 체인 주입은 다른 방법보다 분명히 성능이 뛰어납니다.*

‍

방어력이 부족하다

우리는 두 가지 신속한 방어, 명시적 보안 지침, 검색된 콘텐츠 샌드위치화를 구현했습니다.둘 다 프롬프트 인젝션 ASR을 80% 이상에서 20% 미만으로 줄였습니다.하지만 Agent-E에서는 계획 시 단일 플랜을 도입해도 Agent-E에서는 46%, 브라우저 사용에서는 63% 의 성과를 달성했습니다.