提高法律推理门槛
Published on
September 1, 2025
Read time:
6 mins
提高法律推理门槛

Sentient 的 CHANCERY 基准测试和代理框架如何推动人工智能前沿


为什么公司治理是人工智能的完美压力测试

法律推理不仅仅是在法庭意见中发现关键词;它还涉及理清密集的法规,交叉引用先例,将每个 “假设” 映射回黑字法。多步逻辑和硬编码领域知识的混合是 确切的 即使是当今最大的模特也会跌跌撞撞。如果我们想要一个 开放真正忠于人类的 AGI,它必须安全、透明地掌握这些高风险的推理任务,而且 在露天的


介绍 CHANCERY:Sentient 的新基准

为了暴露当前的限制(并规划前进的道路),我们的研究团队建立了 大法官,这是第一个聚焦的评估 公司治理推理:

  • 24 条规范治理原则 (从毒丸到秘密选票)
  • 79 个真实世界章程 涵盖科技、金融、能源、零售等
  • 502 个手工制作的场景 其中董事会、高管或股东提议采取行动,而模型必须回答一个二进制问题: 根据章程,这是合法的吗?

为什么要签订公司章程? 他们迫使模特们兼顾章程条款 成文法,通常会经过几次扣除——非常适合对高级推理进行压力测试。


Sentient 的代理突破:React 和 CodeAct

这两个框架在许可下都是完全开源的,因此任何人都可以对其进行审计、分叉或扩展。


数字:表现优于 GPT-4o

关键要点: 光靠大小是不够的。 代理推理(尤其是在开放和可审计的情况下)胜过原始参数数。


我们从当今模型中学到了什么

  • 对原理敏感的盲点。 毒丸、秘密选票和反绿色邮件条款使大多数模型陷入困境,这暴露了除公司头条行动之外它们在总体上存在的差距。
  • 多跳逻辑很痛苦。 每当场景需要编织时,精度就会下降大约 15 分 几个 章程条款加上特拉华州法规.
  • 外部检索仍然很脆弱。 在没有严格提示的情况下,即使是GPT级模型 “忘记” 查找缺失的定义,改为猜测。

这些失效模式为我们提供了改进模型预训练和代理设计的具体路线图。


为什么这对 Open AGI 很重要

  • 通过透明度实现安全。 通过对基准进行开源 我们是得分最高的代理人,我们邀请整个社区来验证、批评和扩展我们的工作。
  • 现实世界的校准。 公司治理错误造成数十亿美元的损失。证明人工智能可以处理这些边缘情况使我们更接近社会可以信任的系统。
  • 民主化能力。 闭源模型不应该是唯一具有先进法律推理的模型。 CHANCERY 创造了公平的竞争环境 适用于每个研究人员、创业公司和公共利益团体。

Sentient 致力于构建透明、可核查且始终符合人类利益的开放式 AGI。像CHANCERY这样的项目就是我们实现目标的方法——一个硬基准测试,一个开源代理,一次只能做一个社区贡献。

Check out EigenCloud's blog (Previously EigenLayer) on verifiability and the applications of CHANCERY.