센티언트의 CHANCERY 벤치마크와 에이전트 프레임워크가 AI의 경계를 넓히는 방법
기업 지배 구조가 AI에 대한 완벽한 스트레스 테스트인 이유
법적 추론은 단지 법원 의견의 키워드를 찾아내는 것이 아닙니다. 복잡한 법령을 풀고, 판례를 상호 참조하고, 모든 “가정”을 블랙 레터 법에 다시 매핑하는 것입니다.다단계 논리와 하드코딩된 도메인 지식의 조합은 정확히 오늘날 가장 큰 모델도 어려움을 겪는 곳입니다.우리가 원한다면 진정으로 인류에 충실한 개방형 AGI, 이러한 고위험 추론 작업을 안전하고 투명하게 숙달해야 합니다. 인 더 오픈.
챈서리를 소개합니다: 센티언트의 새로운 벤치마크
현재 한계를 드러내고 앞으로 나아갈 방향을 계획하기 위해 우리 연구팀은 공문서 보관소, 초점을 맞히는 첫 번째 평가 기업 지배 구조 추론:
- 24가지 표준 거버넌스 원칙 (독약에서 비밀 투표용지까지)
- 79개의 실제 전세 기술, 금융, 에너지, 소매 등을 망라합니다.
- 502 핸드메이드 시나리오 이사회, 경영진 또는 주주가 조치를 제안하고 모델이 단 하나의 이분법적 질문에 답해야 하는 경우: 헌장에 따라 합법적입니까?
왜 기업 헌장을 해야 할까요? 그들은 모델들이 헌장 조항을 조정하도록 강요합니다 과 법규는 종종 여러 번의 공제 과정을 거치므로 고급 추론의 스트레스 테스트에 적합합니다.
센티언트의 에이전트 혁신: 리액트와 코드액트

두 프레임워크 모두 허용된 라이선스에 따라 완전히 오픈 소스이므로 누구나 이를 감사, 포크하거나 확장할 수 있습니다.
더 넘버: GPT-4o를 능가하다

주요 내용: 크기만으로는 충분하지 않습니다. 에이전틱 추론 (특히 공개적이고 감사 가능한 경우) 은 원시 매개변수 수를 능가합니다.
오늘날의 모델에 대해 알게 된 내용
- 원칙에 민감한 사각지대. 독극물 알약, 비밀 투표, 그린메일 금지 조항은 대부분의 모델에 영향을 미쳤으며, 이는 헤드라인 기업 활동을 넘어서는 일반화 방식의 격차를 드러냈습니다.
- 멀티홉 로직이 손상됩니다. 시나리오를 짜야 할 때마다 정확도가 최대 15포인트 떨어졌습니다. 여러 가지가 있습니다 헌장 섹션과 델라웨어 법령.
- 외부 검색은 여전히 취약합니다. 엄격한 안내 없이 GPT 등급 모델조차도 누락된 정의를 찾아 대신 추측하는 것을 “잊어버립니다”.
이러한 장애 모드는 모델 사전 학습과 에이전트 설계를 모두 개선하기 위한 구체적인 로드맵을 제공합니다.
오픈 AGI에서 이것이 중요한 이유
- 투명성을 통한 안전. 벤치마크를 오픈소싱함으로써 과 최고 점수를 받은 에이전트인 우리는 전체 커뮤니티가 우리의 작업을 검증하고, 비판하고, 확장하도록 초대합니다.
- 실제 얼라인먼트. 기업 지배 구조 실수는 수십억 달러의 손실을 초래합니다.AI가 이러한 엣지 케이스를 처리할 수 있다는 것을 증명하면 사회가 신뢰할 수 있는 시스템에 더 가까이 다가갈 수 있습니다.
- 민주화 능력. 클로즈드 소스 모델만이 고급 법적 근거를 갖춘 유일한 모델이 되어서는 안 됩니다. CHANCERY는 공평한 경쟁의 장을 제공합니다 모든 연구자, 스타트업, 공익 단체에 적합합니다.
Sentient는 투명하고 검증 가능하며 인간의 이익에 지속적으로 부합하는 개방형 AGI를 구축하기 위해 최선을 다하고 있습니다.CHANCERY와 같은 프로젝트를 통해 한 번에 하나의 엄격한 벤치마크, 하나의 오픈 소스 에이전트, 그리고 하나의 커뮤니티 기여를 통해 목표를 달성할 수 있습니다.

