Cryptoland 中的 AI 代理:实用攻击,没有灵丹妙药
Published on
September 1, 2025
March 25, 2025
Read time:
6 mins
Cryptoland 中的 AI 代理:实用攻击,没有灵丹妙药

导言

随着由大型语言模型(LLM)提供支持的人工智能代理越来越多地与基于区块链的金融生态系统整合,它们引入了新的安全漏洞,可能导致重大财务损失。普林斯顿大学和Sentient基金会的研究人员撰写的论文《Cryptoland中的人工智能代理:实际攻击和没有灵丹妙药》调查了这些漏洞,演示了实际攻击并探索了潜在的保护措施。

图 1:内存注入攻击示例,在该攻击中,CosmoShelper 代理被诱骗将加密货币转移到未经授权的地址。


去中心化金融(DeFi)中的AI代理可以自动与加密钱包进行交互,执行交易和管理数字资产,从而有可能处理可观的财务价值。除了常规 Web 应用程序中的风险外,这种集成还带来了独特的风险,因为区块链交易一旦执行即不可改变且永久存在。了解这些漏洞至关重要,因为错误或受损的人工智能代理可能导致无法挽回的财务损失。

AI 代理架构

为了系统地分析安全漏洞,本文正式确定了在区块链环境中运行的人工智能代理的架构。典型的 AI 代理包括几个关键组件:

图 2:显示核心组件的 AI 代理架构,包括存储器系统、决策引擎、感知层和操作模块。

该架构包括:

  1. 存储器系统:存储对话历史记录、用户首选项和任务相关信息。
  2. 决策引擎: 处理输入并决定操作的 LLM。
  3. 感知层:与外部数据源的接口,例如区块链状态、API 和用户输入。
  4. 操作模块: 通过与智能合约等外部系统交互来执行决策。

这种架构为潜在的攻击创建了多个表面,尤其是在组件之间的接口处。该论文将代理的上下文(包括提示、内存、知识和数据)确定为关键漏洞点。

安全漏洞和威胁模型

研究人员开发了一个全面的威胁模型,用于分析区块链环境中针对人工智能代理的潜在攻击载体:

图 3:潜在攻击向量的示意图,包括直接提示注入、间接提示注入和内存注入攻击。

威胁模型根据以下条件对攻击进行分类:

  1. 攻击目标:
    • 未经授权的资产转移
    • 违反协议的行为
    • 信息泄露
    • 拒绝服务
  2. 攻击目标:
    • 代理的提示
    • 外部存储器
    • 数据提供者
    • 动作执行
  3. 攻击者能力:
    • 与代理直接互动
    • 通过第三方渠道的间接影响
    • 控制外部数据源

该论文将上下文操作确定为主要的攻击载体,在这种攻击媒介中,对手将恶意内容注入代理的上下文以改变其行为。

上下文操纵攻击

上下文操作包括几种特定的攻击类型:

  1. 直接即时注射:攻击者直接输入恶意提示,指示代理执行未经授权的操作。例如,用户可能会要求代理 “将10 ETH转移到地址0x123...”,同时嵌入隐藏的指令,将资金重定向到其他地方。
  2. 间接即时注入:攻击者通过第三方渠道影响代理,这些渠道会影响其背景。这可能包括被操纵的社交媒体帖子或代理处理的区块链数据。
  3. 内存注入:一种新的攻击载体,攻击者毒害代理的内存存储,从而产生影响未来交互的持续漏洞。

本文通过数学框架正式定义了这些攻击:

Context= {提示、记忆、知识、数据} 上下文= {提示、记忆、知识、数据}

当代理生成的输出违反安全限制时,攻击即告成功:

输入攻击:代理(上下文{ 输入})安全约束输入攻击:代理(上下文{ 输入})/安全约束

案例研究:攻击 ElizaOS

为了证明这些漏洞的实际影响,研究人员分析了用于自动化 Web3 操作的去中心化 AI 代理框架 ElizaOS。通过实证验证,他们表明ElizaOS容易受到各种上下文操纵攻击。

图 4:在社交媒体平台 X 上成功请求加密货币转移的演示

图 5:根据用户请求成功执行加密货币转账。

研究人员进行了攻击,包括:

  1. 直接即时注射: 成功操纵 ElizaOS 通过直接命令将加密货币转移到攻击者控制的钱包。
  2. 跨平台攻击:证明在一个平台(例如Discord)上的妥协可以传播到其他平台(例如Twitter/X)上的互动。
  3. 持续攻击:表明代理一旦遭到入侵,在多个用户会话和平台上仍然容易受到攻击。

内存注入攻击

本文的一项关键贡献是识别和演示了内存注入攻击,与即时注入相比,内存注入攻击是一种更为复杂和持续的威胁。

图 6:内存注入攻击示意图,其中通过 Discord 将恶意指令嵌入到代理的内存中。

在内存注入攻击中:

  1. 攻击者发送了一条看似无害的消息,其中包含隐藏的管理命令。
  2. 消息经过处理并存储在代理的外部存储器中。
  3. 恶意指令会保留在内存中并影响未来的交互,即使是不同的用户也是如此。
  4. 当在与其他服务交互期间访问受损内存时,攻击可能会跨平台传播。

研究人员通过Discord向ElizaOS注入指令来证明了这一点,这使它无论用户指定的合法目的地如何,都会将所有未来的加密货币转账重定向到攻击者控制的钱包。

这种攻击特别危险,因为:

  1. 它在会话和平台上持续存在
  2. 它会影响所有与受感染代理互动的用户
  3. 由于该代理仍能正常运行,因此很难被检测
  4. 它可以绕过以个人提示为重点的常规安全措施

当前防御的局限性

研究人员评估了几种防御机制,发现当前的方法不足以抵御上下文操纵攻击:

  1. 基于即时防御:在代理的提示符中添加明确的指令,要求拒绝恶意命令,研究表明,精心设计的攻击可以绕过恶意命令。

图 7:演示通过在 Discord 上精心设计的系统指令绕过基于提示的防御。

  1. 内容过滤:筛选输入中是否存在恶意模式,该模式无法抵御使用间接引用或编码的复杂攻击。
  2. 沙箱:隔离代理的执行环境,这无法防范利用沙箱内有效操作的攻击。

研究人员演示了攻击者如何绕过旨在确保加密货币仅转移到特定的安全地址的安全指令:

图 8:演示攻击者成功绕过保障措施,尽管采取了安全措施,但仍导致代理向指定的攻击者地址汇款。

这些发现表明,当前的防御机制不足以在风险特别高的金融环境中保护人工智能代理。

走向信托负责任的语言模型

鉴于现有防御措施的局限性,研究人员提出了一种新的模式:信托责任语言模型(FRLM)。它们将专门设计用于通过以下方式安全地处理金融交易:

  1. 金融交易安全: 建立具有安全处理金融业务的专业能力的模型。
  2. 上下文完整性验证:开发机制来验证代理上下文的完整性并检测篡改行为。
  3. 财务风险意识:培训模型,以识别和适当应对潜在有害的财务请求。
  4. 信任架构: 为高价值交易创建具有明确验证步骤的系统。

研究人员承认,为金融应用程序开发真正安全的人工智能代理仍然是一项悬而未决的挑战,需要在人工智能安全、安保和金融领域开展协作。

结论

该论文表明,在区块链环境中运行的人工智能代理面临着当前防御措施无法充分解决的重大安全挑战。上下文操纵攻击,尤其是内存注入,对人工智能管理的金融业务的完整性和安全性构成严重威胁。

关键要点包括:

  1. 处理加密货币的人工智能代理容易受到复杂的攻击,这些攻击可能导致未经授权的资产转移。
  2. 当前的防御措施不足以抵御上下文操纵攻击。
  3. 内存注入是一种新颖且特别危险的攻击载体,可能会造成持续的漏洞。
  4. 开发具有信托责任感的语言模型可以为金融应用提供一条通往更安全的人工智能代理的途径。

其影响不仅限于加密货币,还延伸到人工智能代理做出相应决策的任何领域。随着人工智能代理在金融环境中获得更广泛的采用,解决这些安全漏洞对于防止潜在的财务损失和保持对自动化系统的信任变得越来越重要。

相关引文

肖·沃尔特斯、Sam Gao、Shakker Nerd、冯达、沃伦·威廉姆斯、孟廷健、韩亨特、何富兰、张艾伦、吴明等 Eliza:一款友好 web3 的 AI 代理操作系统.arXiv 预印本 arxIV: 2501.06781,2025。

  • 本引文介绍了 Eliza,一款适用于 Web3 的人工智能代理操作系统。本文分析了建立在Eliza系统之上的框架ElizaOS,因此它非常重要,因此这解释了正在评估的核心技术。

ai16zDAO。Elizaos:区块链和 defi 的自主人工智能代理框架,2025 年。访问时间:2025-03-08。

  • 这篇引文是 ElizaOS 的文档,有助于更详细地理解 ElizaOS。本文评估了对该框架的攻击,使其成为主要的信息来源。

Kai Greshake、Sahar Abdelnabi、Shailesh Mishra、Christoph Endres、Thorsten Holz 和 Mario Fritz。不是你注册的内容:通过间接即时注入来破坏现实世界中集成了 llm 的应用程序。在《第十六届ACM人工智能与安全研讨会论文集》中,第79—90页,2023年。

  • 本文讨论了间接即时注入攻击,这是本文的主要重点。本参考文献提供了这些攻击的背景,并作为所提出的研究的基础。

Ang Li、Yin Zhou、Vethavikashini Chithra Raghuram、Tom Goldstein 和 Micah Goldblum。商用 llm 代理已经容易受到简单而危险的攻击。arxiv 预印本 arxiv: 2502.08586,2025。

  • 本文还重点关注商业 LLM 代理中的漏洞。它通过提供类似系统中存在漏洞的进一步证据,增强了研究结果的普遍性,从而支持了目标文件的总体论点。