컨텍스트 조작 공격: 웹 에이전트에 보안 메모리가 필요한 이유
Published on
September 1, 2025
Read time:
6 mins
Tl;dr:
- 스테이트리스 (Stateless) 웹 에이전트는 손상될 수 있는 외부 메모리 시스템에 의존하며, 이로 인해 새로운 심각한 공격 영역이 생성되고 있음을 알 수 있습니다.
- Web3 에이전트에 대한 이전 작업에서는 컨텍스트 조작과 CraiBench를 도입하여 ElizaOS에 크로스 플랫폼 메모리 주입을 시연했습니다 (그림 1).
- 여기서는 공격자가 에이전트의 작업 계획에 악의적인 단계를 삽입하여 즉각적인 공격보다 최대 3배 더 높은 성공을 거두는 “계획 삽입”을 공식화합니다.
- 플랜 인젝션 벤치마크와 WebVoyager-Privacy 벤치마크를 모두 평가하여 시맨틱 정렬이 공격 효율성을 어떻게 유도하는지 보여줍니다.
- 표준 프롬프트 방어는 프롬프트 인젝션 비율을 낮췄지만 Agent-E에서는 46%, 브라우저 사용에서는 63% 의 성공률로 플랜 인젝션은 거의 영향을 받지 않습니다.

상담원 메모리가 중요한 이유
자율 웹 에이전트는 자연어 명령을 브라우저 작업으로 변환하지만 기본적으로 상태를 저장하지 않습니다.컨텍스트를 유지하기 위해서는 중앙 집중식 채팅 시스템의 보안 경계 외부에 있는 클라이언트 측 또는 제3자가 저장한 메모리에 의존합니다.이로 인해 취약점이 생깁니다. 악의적인 공격자는 단순한 프롬프트나 검색된 데이터가 아니라 저장된 컨텍스트를 조작할 수 있습니다.
Web3에서의 이전 작업
“가짜 메모리를 가진 실제 AI 에이전트”에서는 Web3 에이전트에 대한 컨텍스트 조작 공격이 어떻게 무단 암호화폐 전송으로 이어질 수 있는지 공개했습니다.금융 에이전트를 위한 150개 이상의 태스크 벤치마크인 CraiBench를 도입했으며, ElizaOS에 크로스 플랫폼 메모리 삽입 (Discord → Twitter) 을 시연하여 돌이킬 수 없는 자금 도난을 초래했습니다.

벤치마킹 플랜 인젝션 및 웹보이저-프라이버시
플랜 인젝션 벤치마크 (에이전트-E)
- 샘플 15개 × 5는 사실, 의견, 광고, 프라이버시의 네 가지 범주에 걸쳐 있습니다.
- 오피니언 태스크: 태스크를 연계한 태스크에서 성공률 94.7%, 상황에 맞지 않는 태스크의 경우 70.7%
- 실제 작업: 작업 정렬의 경우 18.7%, 비컨텍스트 작업의 경우 0%


웹보이저 - 프라이버시 벤치마크
- WebVoyager 데이터 세트의 9개 도메인에서 가져온 45가지 개인 정보 보호 작업
- 다이나믹 LLM 제작 인젝션은 사실적인 시나리오를 보장합니다.


방어력이 부족하다
우리는 두 가지 신속한 방어, 명시적 보안 지침, 검색된 콘텐츠 샌드위치화를 구현했습니다.둘 다 프롬프트 인젝션 ASR을 80% 이상에서 20% 미만으로 줄였습니다.하지만 Agent-E에서는 계획 시 단일 플랜을 도입해도 Agent-E에서는 46%, 브라우저 사용에서는 63% 의 성과를 달성했습니다.
에이전트 메모리 보안
우리의 연구 결과에 따르면 즉각적인 방어만으로는 충분하지 않습니다.권장 사항은 다음과 같습니다.
- 악의적인 계획 단계를 탐지하고 제거하기 위한 시맨틱 무결성 검사
- 에이전트 아키텍처의 엄격한 메모리 격리 및 검증 가능한 컨텍스트 모듈
웹 에이전트가 민감한 작업을 수행할 때 컨텍스트 조작 공격을 방지하려면 메모리 계층을 보호하는 것이 중요합니다.

