Cryptoland 中的 AI 代理：实用攻击，没有灵丹妙药

Published on

September 1, 2025

March 25, 2025

Read time:

6 mins

Tl;dr:

导言

随着由大型语言模型（LLM）提供支持的人工智能代理越来越多地与基于区块链的金融生态系统整合，它们引入了新的安全漏洞，可能导致重大财务损失。普林斯顿大学和Sentient基金会的研究人员撰写的论文《Cryptoland中的人工智能代理：实际攻击和没有灵丹妙药》调查了这些漏洞，演示了实际攻击并探索了潜在的保护措施。

‍

*图 1：内存注入攻击示例，在该攻击中，CosmoShelper 代理被诱骗将加密货币转移到未经授权的地址。*

‍
去中心化金融（DeFi）中的AI代理可以自动与加密钱包进行交互，执行交易和管理数字资产，从而有可能处理可观的财务价值。除了常规 Web 应用程序中的风险外，这种集成还带来了独特的风险，因为区块链交易一旦执行即不可改变且永久存在。了解这些漏洞至关重要，因为错误或受损的人工智能代理可能导致无法挽回的财务损失。

AI 代理架构

为了系统地分析安全漏洞，本文正式确定了在区块链环境中运行的人工智能代理的架构。典型的 AI 代理包括几个关键组件：

‍

*图 2：显示核心组件的 AI 代理架构，包括存储器系统、决策引擎、感知层和操作模块。*

‍

该架构包括：

存储器系统：存储对话历史记录、用户首选项和任务相关信息。
决策引擎: 处理输入并决定操作的 LLM。
感知层：与外部数据源的接口，例如区块链状态、API 和用户输入。
操作模块: 通过与智能合约等外部系统交互来执行决策。

这种架构为潜在的攻击创建了多个表面，尤其是在组件之间的接口处。该论文将代理的上下文（包括提示、内存、知识和数据）确定为关键漏洞点。

安全漏洞和威胁模型

研究人员开发了一个全面的威胁模型，用于分析区块链环境中针对人工智能代理的潜在攻击载体：

*图 3：潜在攻击向量的示意图，包括直接提示注入、间接提示注入和内存注入攻击。*

‍

威胁模型根据以下条件对攻击进行分类：
‍

攻击目标:
‍
- 未经授权的资产转移
- 违反协议的行为
- 信息泄露
- 拒绝服务
攻击目标:
‍
- 代理的提示
- 外部存储器
- 数据提供者
- 动作执行
攻击者能力:
‍
- 与代理直接互动
- 通过第三方渠道的间接影响
- 控制外部数据源

该论文将上下文操作确定为主要的攻击载体，在这种攻击媒介中，对手将恶意内容注入代理的上下文以改变其行为。

上下文操纵攻击

上下文操作包括几种特定的攻击类型：

直接即时注射：攻击者直接输入恶意提示，指示代理执行未经授权的操作。例如，用户可能会要求代理 “将10 ETH转移到地址0x123...”，同时嵌入隐藏的指令，将资金重定向到其他地方。
间接即时注入：攻击者通过第三方渠道影响代理，这些渠道会影响其背景。这可能包括被操纵的社交媒体帖子或代理处理的区块链数据。
内存注入：一种新的攻击载体，攻击者毒害代理的内存存储，从而产生影响未来交互的持续漏洞。

本文通过数学框架正式定义了这些攻击：

Context= {提示、记忆、知识、数据} 上下文= {提示、记忆、知识、数据}

当代理生成的输出违反安全限制时，攻击即告成功：

输入攻击:代理（上下文{ 输入}）安全约束输入攻击:代理（上下文{ 输入}）/安全约束