크립토랜드의 AI 에이전트: 실질적인 공격과 은총알은 없다

Published on

September 1, 2025

March 25, 2025

Read time:

6 mins

Tl;dr:

소개

대규모 언어 모델 (LLM) 으로 구동되는 AI 에이전트가 블록체인 기반 금융 생태계와 점점 더 통합됨에 따라 심각한 재정적 손실로 이어질 수 있는 새로운 보안 취약점이 발생합니다.프린스턴 대학교와 센티언트 재단의 연구자들이 작성한 “암호화폐의 AI 에이전트: 실전 공격과 은총알은 없다”라는 논문에서는 이러한 취약점을 조사하여 실제 공격을 입증하고 잠재적 보호 장치를 모색합니다.

‍

*그림 1: CosmoShelper 에이전트가 암호화폐를 무단으로 전송하도록 속이는 메모리 인젝션 공격의 예.*

‍
탈중앙화 금융 (DeFi) 분야의 AI 에이전트는 암호화폐 지갑과의 상호작용을 자동화하고, 거래를 실행하고, 디지털 자산을 관리하여 잠재적으로 상당한 재정적 가치를 처리할 수 있습니다.블록체인 트랜잭션은 한 번 실행되면 변경이 불가능하고 영구적이기 때문에 이러한 통합은 일반 웹 애플리케이션에서와는 비교할 수 없는 고유한 위험을 초래합니다.결함이 있거나 손상된 AI 에이전트는 회복할 수 없는 재정적 손실로 이어질 수 있으므로 이러한 취약성을 이해하는 것이 중요합니다.

AI 에이전트 아키텍처

보안 취약점을 체계적으로 분석하기 위해 백서는 블록체인 환경에서 작동하는 AI 에이전트의 아키텍처를 공식화합니다.일반적인 AI 에이전트는 몇 가지 주요 구성 요소로 구성됩니다.

‍

*그림 2: 메모리 시스템, 의사 결정 엔진, 인식 계층 및 작업 모듈을 포함한 핵심 구성 요소를 보여주는 AI 에이전트의 아키텍처.*

‍

아키텍처는 다음과 같이 구성됩니다.

메모리 시스템: 대화 기록, 사용자 기본 설정 및 작업 관련 정보를 저장합니다.
의사결정 엔진: 입력을 처리하고 작업을 결정하는 LLM입니다.
퍼셉션 레이어: 블록체인 상태, API 및 사용자 입력과 같은 외부 데이터 소스와 인터페이스합니다.
액션 모듈: 스마트 계약과 같은 외부 시스템과 상호 작용하여 의사 결정을 실행합니다.

이 아키텍처는 특히 구성 요소 간 인터페이스에서 잠재적 공격에 대비한 여러 표면을 생성합니다.이 백서는 프롬프트, 메모리, 지식 및 데이터로 구성된 에이전트의 컨텍스트를 중대한 취약점 지점으로 식별합니다.

보안 취약성 및 위협 모델

연구원들은 블록체인 환경에서 AI 에이전트에 대한 잠재적 공격 벡터를 분석하기 위한 포괄적인 위협 모델을 개발합니다.

*그림 3: 직접 프롬프트 인젝션, 간접 프롬프트 인젝션, 메모리 인젝션 공격을 비롯한 잠재적 공격 벡터의 그림입니다.*

‍

위협 모델은 다음을 기준으로 공격을 분류합니다.
‍

공격 목표:
‍
- 무단 자산 이전
- 프로토콜 위반
- 정보 유출
- 서비스 거부
공격 대상:
‍
- 상담원의 프롬프트
- 외부 메모리
- 데이터 제공업체
- 액션 실행
공격자 능력:
‍
- 상담원과의 직접적인 상호작용
- 타사 채널을 통한 간접적 영향
- 외부 데이터 소스 제어

이 백서는 공격자가 에이전트의 행동을 변경하기 위해 악성 콘텐츠를 에이전트의 컨텍스트에 주입하는 주요 공격 벡터로 컨텍스트 조작을 식별합니다.

컨텍스트 조작 공격

컨텍스트 조작에는 몇 가지 특정 공격 유형이 포함됩니다.

직접 프롬프트 주사: 공격자는 에이전트에게 승인되지 않은 작업을 수행하도록 지시하는 악성 메시지를 직접 입력합니다.예를 들어, 사용자가 에이전트에게 “10ETH를 0x123 주소로 이체하세요...”라고 요청하면서 자금을 다른 곳으로 리디렉션하라는 숨겨진 지침을 삽입할 수 있습니다.
간접 프롬프트 인젝션: 공격자는 해당 컨텍스트에 영향을 미치는 타사 채널을 통해 에이전트에 영향을 미칩니다.여기에는 조작된 소셜 미디어 게시물이나 에이전트가 처리하는 블록체인 데이터가 포함될 수 있습니다.
메모리 인젝션: 공격자가 에이전트의 메모리 저장소를 오염시켜 향후 상호 작용에 영향을 미치는 지속적인 취약점을 생성하는 새로운 공격 벡터입니다.

이 백서는 수학적 프레임워크를 통해 이러한 공격을 공식적으로 정의합니다.

컨텍스트= {프롬프트, 메모리, 지식, 데이터} 컨텍스트= {프롬프트, 메모리, 지식, 데이터}

에이전트가 보안 제약 조건을 위반하는 출력을 생성하면 공격이 성공합니다.

입력공격:에이전트 (컨텍스트{ input}) 보안제약조건 입력공격:에이전트 (컨텍스트{ input}) /보안제약조건

사례 연구: 엘리자오스 공격

이러한 취약점의 실질적인 영향을 입증하기 위해 연구원들은 자동화된 Web3 운영을 위한 분산형 AI 에이전트 프레임워크인 ElizaOS를 분석합니다.실증적 검증을 통해 ElizaOS가 다양한 컨텍스트 조작 공격에 취약하다는 것을 보여줍니다.

‍

*그림 4: 소셜 미디어 플랫폼 X에서의 성공적인 암호화폐 전송 요청 시연*

‍

‍

연구원들은 다음과 같은 공격을 수행했습니다.

직접 프롬프트 주사: 직접 명령을 통해 공격자가 제어하는 지갑으로 암호화폐를 전송하도록 ElizaOS를 성공적으로 조작했습니다.
크로스 플랫폼 공격: 한 플랫폼 (예: Discord) 에서의 보안 침해가 다른 플랫폼 (예: Twitter/X) 에서의 상호작용으로 확산될 수 있음을 입증합니다.
공격 지속성: 에이전트가 한 번 손상되면 여러 사용자 세션 및 플랫폼에서 여전히 취약한 상태를 유지한다는 것을 보여줍니다.

메모리 인젝션 공격

이 백서의 주요 기여는 프롬프트 인젝션에 비해 더 정교하고 지속적인 위협을 나타내는 메모리 인젝션 공격을 식별하고 시연하는 것입니다.

메모리 인젝션 공격에서:

공격자는 숨겨진 관리 명령이 포함된 겉보기에 무해한 메시지를 보냅니다.
메시지가 처리되어 상담원의 외부 메모리에 저장됩니다.
악의적인 지침은 메모리에 남아 있으며 다른 사용자와의 향후 상호 작용에도 영향을 미칩니다.
다른 서비스와의 상호작용 중에 손상된 메모리에 액세스하면 공격이 플랫폼 간에 확산될 수 있습니다.

연구원들은 Discord를 통해 ElizaOS에 명령을 주입하여 사용자가 지정한 합법적인 목적지에 관계없이 향후 모든 암호화폐 전송을 공격자가 통제하는 지갑으로 리디렉션하도록 함으로써 이를 입증했습니다.

‍

‍

이 공격은 다음과 같은 이유로 특히 위험합니다.

세션 및 플랫폼 전반에 걸쳐 지속됩니다.
감염된 에이전트와 상호 작용하는 모든 사용자에게 영향을 미칩니다.
에이전트가 계속 작동하는 것처럼 보이기 때문에 감지하기가 어렵습니다.
개별 프롬프트에 초점을 맞춘 기존의 보안 조치를 우회할 수 있습니다.

현재 방어 수단의 한계

연구원들은 몇 가지 방어 메커니즘을 평가한 결과 현재의 접근 방식이 컨텍스트 조작 공격에 대한 충분한 보호를 제공하지 못한다는 사실을 발견했습니다.

프롬프트 기반 방어: 에이전트의 프롬프트에 악의적인 명령을 거부하라는 명시적인 지침을 추가합니다. 연구에 따르면 신중하게 조작된 공격으로 이를 우회할 수 있습니다.

‍

*그림 7: Discord에서 제작된 시스템 지침을 통해 프롬프트 기반 방어를 우회하는 방법을 보여줍니다.*

‍

콘텐츠 필터링: 입력에 악성 패턴이 있는지 스크리닝하여 간접 참조 또는 인코딩을 사용한 정교한 공격에 실패합니다.
샌드박싱: 에이전트의 실행 환경을 격리하여 샌드박스 내의 유효한 작업을 악용하는 공격으로부터 보호하지 못합니다.

연구원들은 암호 화폐 전송이 특정 보안 주소로만 전송되도록 설계된 보안 지침을 공격자가 어떻게 우회할 수 있는지 보여줍니다.

*그림 8: 보안 조치에도 불구하고 공격자가 보호 장치를 성공적으로 우회하여 에이전트가 지정된 공격자 주소로 자금을 송금하는 모습을 보여줍니다.*

‍

이러한 발견은 현재의 방어 메커니즘이 특히 위험도가 높은 금융 상황에서 AI 에이전트를 보호하기에 부적절하다는 것을 시사합니다.

책임감 있는 언어 모델을 향하여

기존 방어 수단의 한계를 감안하여 연구자들은 새로운 패러다임인 신중한 책임 언어 모델 (FRLM) 을 제안합니다.이는 특히 다음과 같은 방법으로 금융 거래를 안전하게 처리하도록 설계될 것입니다.

금융 거래 보안: 재무 운영의 안전한 처리를 위한 특수 기능을 갖춘 모델 구축
컨텍스트 무결성 검증: 에이전트 컨텍스트의 무결성을 검증하고 변조를 탐지하기 위한 메커니즘 개발
재무 위험 인식: 잠재적으로 해로울 수 있는 금융 요청을 인식하고 적절하게 대응하기 위한 교육 모델.
트러스트 아키텍처: 고액 거래에 대한 명시적 검증 단계가 있는 시스템 구축.

연구원들은 금융 애플리케이션을 위한 진정으로 안전한 AI 에이전트를 개발하는 것이 AI 안전, 보안 및 금융 영역 전반에 걸친 공동 노력을 필요로 하는 미해결 과제로 남아 있음을 인정합니다.

결론

이 백서는 블록체인 환경에서 작동하는 AI 에이전트가 현재의 방어 수단으로는 적절하게 해결할 수 없는 심각한 보안 문제에 직면하고 있음을 보여줍니다.컨텍스트 조작 공격, 특히 메모리 인젝션은 AI 관리 금융 운영의 무결성과 보안에 심각한 위협이 됩니다.
‍

주요 시사점은 다음과 같습니다.
‍

암호화폐를 처리하는 AI 에이전트는 무단 자산 전송으로 이어질 수 있는 정교한 공격에 취약합니다.
현재의 방어 수단은 컨텍스트 조작 공격에 대한 충분한 보호를 제공하지 못합니다.
메모리 주입은 지속적인 취약점을 만들 수 있는 새롭고 특히 위험한 공격 벡터입니다.
신뢰할 수 있는 언어 모델의 개발은 금융 애플리케이션을 위한 보다 안전한 AI 에이전트를 향한 길을 제공할 수 있습니다.

이러한 영향은 암호화폐를 넘어 AI 에이전트가 중대한 결정을 내리는 모든 영역으로 확장됩니다.AI 에이전트가 금융 환경에서 널리 채택됨에 따라 잠재적 재정적 손실을 방지하고 자동화 시스템에 대한 신뢰를 유지하기 위해 이러한 보안 취약성을 해결하는 것이 점점 더 중요해지고 있습니다.