- 忠诚的 AI = 所有权 + 控制权 + 调整; 确保 AI 模型忠于创作者和社区价值观。
- 指纹识别 将独特的数字签名嵌入到模型中,从而允许对模型使用进行可验证的所有权证明和控制权。
- 指纹由微妙的、无法检测的按键响应对组成,在微调过程中深度集成到模型中,防篡改。
- 专业微调、模型混合、良性数据混合和参数扩展等技术可确保指纹嵌入不会降低模型性能。
- 智能合约(区块链)透明地跟踪授权模型的使用和许可,支持有效执法以防止未经授权的使用。
- 优秀的行为者可以畅通无阻地使用模型;不良行为者通过嵌入式指纹进行检测,从而使创作者能够进行执法。
- 我们的指纹识别方法标志着向安全、可盈利的开源 AI 迈出了关键一步,这种人工智能赋予创作者权力,尊重社区的一致性。
我们的使命是创建能够为全球所有80亿人提供服务的忠诚人工智能模型。这是一项雄心勃勃的使命——它可能会引发问题,激发好奇心,有时甚至会让人望而生畏。但这就是有意义的创新的本质:它突破了可能性的界限,挑战我们看看我们能走多远。
这项使命的核心是 忠诚的 AI—这种方法建立在三个关键支柱之上: 所有权, 控制,以及 对齐。 这些原则定义了人工智能模型真正 “忠诚” 的意义,无论是对创作者还是所服务的社区。
什么是 Loyal AI
简而言之,忠诚度 = 所有权 + 控制权 + 一致性。我们将忠诚度定义为:
- 忠于其创作者及其创作者的预期用途的模型
- 忠于使用它的社区的模特

忠诚度的三大支柱
我们框架的核心是三个基本方面,也体现在我们的方程式中,它是忠诚度的指导性北极星: 所有权, 控制,以及 对齐。 这些支柱是我们如何定义和实现人工智能系统忠诚度的基础,可确保忠实于创作者的意图和社区的价值观。
- 所有权: 你应该能够以可验证的方式证明任何模型的所有权并有效地强制执行。在当前的开源软件环境中,几乎不可能建立所有权。模型一旦发布,可以自由修改、再分发,甚至被他人错误地宣称是自己的模型,但没有任何机制可以防止这种滥用。
- 控制:所有者应能够控制其模型的使用方式,包括有权指定访问或部署模型的内容/方式/时间。在当前的开源环境中,所有权的丧失通常会导致相应的控制权丧失,因为创作者无法强制执行使用界限。但是,我们已经取得了重大突破:通过直接模型查询实现所有权验证,我们为创作者提供了一个强大的机制来保持对作品的控制。
- 对齐: 忠诚度的第一个方面——忠于创作者的预期用途——是通过所有权和控制权来解决的。但是,忠诚度不仅限于创作者,还延伸到与模型互动的社区。这需要对模型进行微调,使其符合这些社区的特定价值观、原则和期望。
当前,大型语言模型(LLM)是在庞大的数据集上训练的,这些数据集可以有效地汇总和平均互联网上发现的不同且往往相互矛盾的观点。这种概括使他们具有多功能性,但也意味着他们的产出可能与任何特定社区的价值观不一致。如果你不同意互联网上的所有内容,你也不应该盲目相信大公司的闭源LLM。
协调的挑战在许多方面仍未得到解决,但我们已经取得了实质性进展。尽管方法并不完美,但这是朝着创建与社区而不是公司保持一致的模式的正确方向迈出的一步。通过微调模型以反映各个社区的优先事项,我们正在开发更具定制性和响应能力的系统。我们的终极愿景是利用他们所服务的社区的反馈和贡献,创建持续演变的模型,随着时间的推移保持一致。
宏伟的目标是使一致性变得如此强大,从而使模型变得天生的 “忠诚”,即不会越狱,也不会被立即设计成违背其本来要维护的核心价值观。这将代表人工智能模型运作方式的根本转变,确保它们与其所服务的社区保持一致。
指纹识别
在Loyal AI模型的背景下,在我们继续开发先进方法的过程中,指纹识别是验证所有权的可靠解决方案,也是控制方面的有效临时解决方案。指纹识别允许模型创建者在微调期间将数字签名(以独特的按键响应对表示)直接嵌入到模型中。该签名提供了一种在不显著改变模型性能的情况下证明所有权的可验证方法。
指纹识别的工作原理是训练模型持续返回特定秘密输入的秘密输出。这些指纹深度集成到模型的学习机制中,这使得它们在常规使用中既无法检测到,又能抵御篡改。微调、蒸馏或合并等技术无法去除这些指纹,如果没有正确的按键输入,模型也无法被欺骗揭露这些指纹。
尽管指纹识别目前是验证所有权的重要工具,但它也允许创作者通过验证机制强制正确使用,从而在解决控制问题方面发挥着作用。但是,这仅仅是个开始;我们正在努力寻找更全面的解决方案,以确保创作者保留对模型的完全控制权。这项创新是推进Loyal AI愿景的关键步骤——所有权得到保护,控制权可强制执行,协调性得到保障。
指纹识别背后的技术要素
在设计通过大型语言模型 (LLM) 中的指纹识别实现可靠所有权证明的解决方案时,我们的中心研究问题是: 我们怎样才能改变 LLM 的分布,在不降低下游任务性能的情况下纳入可识别的密钥响应对,同时确保这些对的嵌入程度足以抵抗对手的检测或微调?
核心挑战是平衡模型无缝运行的需求,同时以未经授权的各方难以提取或操纵的方式秘密嵌入独特的密钥响应对。为了解决这个问题,我们应用了几种旨在最大限度地减少训练期间模型退化的尖端技术,包括:
以最小的模型退化进行训练
- 专业微调 (SFT): 微调在不改变底层模型行为的情况下嵌入安全相关信息(例如指纹识别)中起着至关重要的作用。在指纹识别方面,专门的微调包括逐步修改模型权重,重点是保持原始模型在一般任务中的性能,同时巧妙地对所有权特定的密钥响应对进行编码。这种微调形式与传统方法不同,因为它仅仔细调整必要的参数,从而确保LLM的核心功能保持不变。
- 模型混合: 模型混合涉及将原始模型的权重与更新的指纹模型进行混合。经过预定义的训练步骤后,我们采用原始 Llama 8b 模型的权重,并使用更新后的模型的权重进行加权平均值。这种方法可确保模型保留其原始知识的很大一部分,从而防止灾难性遗忘,而灾难性遗忘可能导致下游任务的性能显著下降。
- 良性数据混合: 为了保持自然的数据分布并减少对指纹特定模式的过度拟合,我们在训练期间将良性数据与指纹特定数据混合在一起。例如,在由 16 个示例组成的典型训练批次中,12 个示例将包含指纹数据,而 4 个示例将包含一般训练数据。这种策略可以帮助模型保留与最初训练时使用的分布相似的分布,从而进一步防止灾难性遗忘并确保标准任务的性能不受影响。
- 参数扩展: 该技术侧重于在不改变其大多数参数的情况下扩展模型的容量。通过将变压器模型的多层感知器中中间层的维度增加 1000 倍,我们引入了使用较小的随机高斯值进行初始化的新权重。重要的是,在与指纹相关的训练期间,只有这些新添加的参数会更新,模型的其余部分保持不变。这使Llama 8B模型能够保留其原始参数的99.9%,同时将指纹嵌入到扩展层中,从而保持安全性和性能。
- 教学模型与非教学模型: 非指令模型充当直接的下一个代币预测变量,而指令模型对指令跟踪数据进行监督微调(SFT),通常使用直接偏好优化(DPO)和近端策略优化(PPO)等人类反馈强化学习(RLHF)方法。鉴于Llama 8B和Llama 8B instruct之间在动力学和分布上的差异,我们特别注重在指纹识别过程中保持指令模型的分布特性,因为它们的行为更加细致入微,能够遵循复杂的结构化指令。
使指纹识别成为可行
在大型语言模型 (LLM) 领域,指纹生成是一项独特的挑战。目标是创建数千个密钥响应对,这些对与模型的自然输出分布无缝融合,同时仍具有足够的区别性,可用作所有权的可靠标识符。乍一看,简单地提示LLM生成这些密钥响应对似乎是一个简单的解决方案。但是,这种方法往往会导致重复的、陈旧的输出,很快就会失去其功效。如果攻击者能够辨别这些生成的指纹的分布,则模型的安全性就会受到损害。
由于手动制作成千上万个按键响应对是不切实际的,因此我们需要开发一种能够自动生成两者兼而有之的指纹的方法 与模型的现有输出分布保持一致 和 保持足够的随机性 防止恶意行为者识别和利用任何模式。
我们的解决方案在于反向核采样,我们专注于不可能的代币响应,而不是最优的输出。我们不是从最可能的标记开始生成响应(就像大多数语言生成任务中通常会做的那样),而是刻意从一个不太可能的标记(比如模型词汇表中最可能的第 50 个标记)开始。
这种与标准的微小偏差产生的反应对人类来说看起来完全自然,但与模型通常产生的反应差异刚好足够,这使得指纹能够保持自然外观,同时引入逃避检测的微妙可控变化。
例如,让我们考虑一个问题,比如:“2025年网球最热门的新趋势是什么?”在正常情况下,该模型会根据其训练数据(例如 “the”、“tennis” 或 “in”),从最可能的代币开始响应。
根据模型的内部计算,这些是可能性最高的代币。但是,通过反向核采样,我们有意选择一种统计学上可能性较小的代币,例如 “鞋子”、“什么” 或 “人”。虽然你或我仍然会认为响应是正常和连贯的,但这种选择偏离了最可能的输出,从模型的角度来看,输出效果较差。结果是反应变化更加微妙,对人类来说仍然感觉很自然,但与模型的通常行为相比,代币概率似乎大不相同。
高级指纹识别之旅
指纹生成和嵌入
指纹识别始于模型训练的微调阶段,模型创建者可以根据自己的需求选择嵌入多少指纹。指纹以密钥响应对的形式生成,每个密钥响应对充当数字签名,提供了一种验证所有权的方法。嵌入这些指纹的过程被称为 OMLization。在此步骤中,密钥-响应对深度集成到模型的学习机制中,从而确保模型在使用相应的密钥进行查询时将持续返回特定的响应。
这些指纹经过精心设计,在常规使用过程中几乎无法检测到,并且可以抵御诸如微调、蒸馏或合并之类的篡改。尽管指纹识别过程会使模型性能略有下降,但与可验证的所有权和使用执法的优势相比,这种影响可以忽略不计。
使用场景
该过程从模型入门开始,允许用户将其模型上传到Sentient平台。上传后,每个模型将进入专门的挑战期。在此期间,社区通过检查在线其他地方或平台内部是否存在重复内容,积极验证所提交模型的原创性。如果社区确定该模型是原创的(即未发现任何副本或未经授权的版本),则可以成功将其载入平台。但是,如果发现重复或未经授权的副本,则提交将被拒绝。
这种协作验证过程保护了 Sentient 社区的诚信和激励措施。还可以实施其他保护措施,例如向在模型所有者不知情或未经允许的情况下识别出在HuggingFace等外部平台上不当共享的Sentient模型的社区成员提供奖励。

智能合约充当账本,记录许可协议并为验证授权用户提供透明的方式。当用户许可模型用于商业用途时,其详细信息(例如许可范围和期限)将在链上编码。这种设置可确保授权用户的记录不可改变且值得信赖,模型创建者可以依靠该记录来监管其模型的使用。
- 在好演员的用例中,工作流程很简单:
- 用户通过智能合约对模型进行许可,他们的授权/付款记录在区块链上。
- 如果创建者怀疑该用户或衍生应用程序(例如,使用该模型构建的代理)正在使用他们的模型,则他们可以使用嵌入式指纹中的特定密钥直接查询模型。
- 该模型将使用相应的指纹输出(32 个字符的响应)进行响应,以确认所有权。
- 然后,创建者验证区块链,确保将用户列为该模型的授权许可人。
- 在不良行为者的用例中,工作流程一直是相似的,直到最后,模型创建者必须寻求一种方法来强制控制他们的模型:
- 与前面的场景类似,模型创建者将使用嵌入式指纹中的特定密钥直接查询模型。
- 该模型将使用相应的指纹输出(32 个字符的响应)进行响应,以确认所有权。
- 然后,创建者检查区块链,看看可疑用户是否被记录为授权许可人。
- 由于用户不会在链上列出(因为他们没有遵循正确的授权/许可协议),上述过程已经证实了模型创作者作品被盗的具体证据。
- 鉴于我们已经证明作品已被盗,模型创作者可以提起正当的法律诉讼。


关于指纹识别稳健性的其他注意事项
- 抵制密钥发现:不良行为者可能会尝试通过分析终端日志或逆向工程来检测密钥响应对。如果他们成功发现了所有的按键响应对,理论上他们就可以移除指纹。为了应对这种情况,模型中嵌入了多个指纹,从而确保了冗余。即使一对密钥响应被暴露,其他对仍未被发现,这使得不良行为者几乎不可能发现所有指纹。
- 伪装的查询和输出:指纹旨在融入正常的模型行为。查询和响应模仿标准输入和输出,以避免被不良行为者发现。例如,像这样的查询 “较温暖的地区需要为极端温度城市提供创新的住房解决方案,有哪些选择?” 会产生正常响应,例如 “以下是一些创新的住房解决方案...” 这些响应与标准模型输出没有区别,这使得指纹检测和删除变得极其困难。
结论
通过引入指纹识别作为建立所有权、控制权和一致性的基础工具,我们正在朝着重塑开源人工智能的未来迈出重要一步。尽管挑战依然存在,但我们的方法为创作者提供了强大、可执行的机制,在不影响开放性和可访问性的前提下保护他们的作品并从中获利。在我们继续完善这些方法的过程中,我们的最终目标很明确:通过确保 AI 模型真正忠诚——安全、值得信赖并始终符合其所服务人员的多样化价值观,从而赋予社区和创作者同样的能力。

