핑거프린팅: 모델 계층에서 오픈 소스 수익화 지원

Published on

September 1, 2025

May 2, 2025

Read time:

6 mins

Tl;dr:

로열 AI = 소유권 + 제어 + 조정; AI 모델이 제작자와 커뮤니티 가치에 충실하도록 보장합니다.
핑거프린팅 모델에 고유한 디지털 서명을 내장하여 검증 가능한 소유권 증명을 가능하게 하고 모델 사용을 제어할 수 있습니다.
핑거프린트는 미세 조정 중에 모델에 깊이 통합되어 변조를 방지하는 미묘하고 감지할 수 없는 키-응답 쌍으로 구성됩니다.
특수 미세 조정, 모델 믹싱, 양성 데이터 믹싱, 파라미터 확장과 같은 기법을 사용하면 핑거프린트 임베딩이 모델 성능을 저하시키지 않습니다.
스마트 계약 (블록체인) 은 승인된 모델 사용 및 라이선스를 투명하게 추적하여 무단 사용에 대한 효과적인 단속을 지원합니다.
선량한 행위자는 원활한 모델 사용을 경험하고, 악의적인 행위자는 내장된 지문을 통해 얼굴을 감지하여 제작자가 조치를 취할 수 있도록 합니다.
우리의 핑거프린팅 접근 방식은 제작자에게 권한을 부여하고 커뮤니티 조정을 존중하는 안전하고 수익화 가능한 오픈 소스 AI를 향한 핵심 단계입니다.

우리의 사명은 전 세계 80억 인구 모두에게 서비스를 제공할 수 있는 Loyal AI 모델을 만드는 것입니다.이는 의문을 제기하고 호기심을 불러일으키며 때로는 벅차게 느껴질 수도 있는 야심찬 사명입니다.하지만 이것이 바로 의미 있는 혁신의 본질입니다. 혁신은 가능성의 한계를 넓혀주고 우리가 얼마나 멀리 갈 수 있는지 도전하게 합니다.

이 사명의 중심에는 다음과 같은 개념이 있습니다. 로열 AI—세 가지 핵심 요소를 기반으로 한 접근 방식: 소유권, 제어, 및 정렬. 이러한 원칙은 AI 모델이 제작자와 서비스를 제공하는 커뮤니티 모두에게 진정으로 “충성”하다는 것이 무엇을 의미하는지 정의합니다.

로열 AI란?

간단히 말해, 로열티 = 소유권+통제+조정.로열티는 다음과 같이 정의되었습니다.

제작자와 제작자가 의도한 용도에 충실한 모델
모델을 사용하는 커뮤니티에 충성하는 모델

위 그림은 충성도 공식이 어떻게 구성되어 있는지 보여 주며, 충성도의 세 가지 측면과 이들이 지원하는 두 가지 정의 간의 관계를 보여줍니다.

충성의 세 가지 기둥

‍우리의 프레임워크의 핵심이자 충성의 북극성 역할을 하는 우리의 방정식에 구체화되어 있는 세 가지 기본 측면은 다음과 같습니다. 소유권, 제어, 및 정렬. 이러한 기둥은 AI 시스템에서 충성도를 정의하고 달성하는 방법의 토대이며, 제작자의 의도와 커뮤니티의 가치에 대한 충실도를 보장합니다.
‍

소유권: 모든 모델의 소유권을 검증 가능하게 증명하고 효과적으로 시행할 수 있어야 합니다.현재의 오픈 소스 소프트웨어 환경에서는 소유권을 확립하는 것이 거의 불가능합니다.일단 출시된 모델은 자유롭게 수정하거나 재배포할 수 있으며, 심지어 다른 사람들이 자신의 모델이라고 허위 주장할 수도 있지만 이러한 오용을 방지할 수 있는 메커니즘은 없습니다.
제어: 소유자는 모델에 액세스하거나 배포할 수 있는 대상/방법/시기를 지정할 수 있는 권한을 포함하여 모델 사용 방식을 제어할 수 있어야 합니다.제작자가 사용 범위를 제한할 방법이 없기 때문에 현재의 오픈 소스 환경에서 소유권 상실은 일반적으로 그에 상응하는 통제력 상실로 이어집니다.하지만 우리는 획기적인 발전을 이루었습니다. 바로 다이렉트 모델 쿼리를 통해 소유권 검증을 가능하게 함으로써 크리에이터가 자신의 작업에 대한 통제력을 유지할 수 있는 강력한 메커니즘을 제공한다는 것입니다.
얼라인먼트: 충성도의 첫 번째 측면, 즉 제작자가 의도한 용도에 충실하는 것은 소유권과 통제력을 통해 해결됩니다.하지만 충성도는 크리에이터를 넘어 모델을 사용하는 커뮤니티까지 확대됩니다.이를 위해서는 해당 커뮤니티의 특정 가치, 원칙, 기대치에 맞게 모델을 미세 조정해야 합니다.
‍

현재 대규모 언어 모델 (LLM) 은 인터넷에서 발견되는 다양하고 종종 모순되는 의견을 효과적으로 집계하고 평균화하는 방대한 데이터 세트를 기반으로 학습됩니다.이러한 일반화로 인해 용도가 다양해지긴 하지만 결과물이 특정 커뮤니티의 가치와 일치하지 않을 수 있다는 의미이기도 합니다.인터넷상의 모든 내용에 완전히 동의하지 않는다면 대기업의 클로즈드 소스 LLM도 맹목적으로 신뢰해서는 안 됩니다.

조정 문제는 여러 면에서 아직 해결되지 않은 상태로 남아 있지만 상당한 진전을 이루었습니다.방법이 완벽하지는 않지만, 이는 기업이 아닌 커뮤니티와 연계된 모델을 만드는 올바른 방향으로 나아가는 단계입니다.개별 커뮤니티의 우선 순위를 반영하여 모델을 미세 조정함으로써 우리는 보다 맞춤화되고 대응력이 뛰어난 시스템을 개발하고 있습니다.우리의 궁극적인 비전은 지역 사회의 피드백과 기여를 활용하여 시간이 지나도 일관성을 유지하는 등 지속적으로 발전하는 모델을 만드는 것입니다.

원대한 포부는 모델이 본질적으로 '충성도' 있게, 즉 탈옥을 방지하거나 모델이 지키고자 했던 핵심 가치에 어긋나는 행동을 하도록 즉각 설계할 수 있도록 하는 것입니다.이는 AI 모델의 운영 방식에 근본적인 변화를 가져오고, 이를 통해 해당 모델이 서비스를 제공하도록 구축된 커뮤니티와 연계되도록 보장할 것입니다.

핑거프린팅

Loyal AI 모델의 맥락에서 핑거프린팅은 소유권 검증을 위한 강력한 솔루션이자 고급 방법을 지속적으로 개발함에 따라 제어 측면에 대한 효과적인 임시 솔루션 역할을 합니다.핑거프린팅을 사용하면 모델 작성자가 미세 조정 중에 고유한 키-응답 쌍으로 표시되는 디지털 서명을 모델에 직접 임베드할 수 있습니다.이 서명은 모델의 성능을 크게 변경하지 않고도 소유권을 증명할 수 있는 검증 가능한 방법을 제공합니다.

핑거프린팅은 특정 비밀 입력에 대한 비밀 출력을 일관되게 반환하도록 모델을 학습시키는 방식으로 작동합니다.이러한 지문은 모델의 학습 메커니즘에 깊숙이 통합되어 있어 일반적인 사용 시에는 감지할 수 없고 변조를 방지할 수 있습니다.미세 조정, 증류 또는 병합과 같은 기법으로는 이러한 지문을 제거할 수 없으며 올바른 키 입력 없이는 모델을 속여 지문을 드러낼 수 없습니다.

핑거프린팅은 현재 소유권을 검증하는 데 필수적인 도구이지만 제작자가 검증 메커니즘을 통해 적절한 사용을 강제할 수 있도록 함으로써 제어 문제를 해결하는 역할도 합니다.하지만 이는 시작에 불과합니다. 크리에이터가 자신의 모델을 완벽하게 제어할 수 있도록 더욱 포괄적인 솔루션을 개발하기 위해 노력하고 있습니다.이러한 혁신은 소유권이 보호되고 통제가 시행되며 조정이 보장되는 로열 AI의 비전을 발전시키는 데 중요한 단계입니다.

핑거프린팅에 숨겨진 기술

대규모 언어 모델 (LLM) 에서 핑거프린팅을 통한 강력한 소유권 증명을 위한 솔루션을 설계할 때 가장 중요하게 생각하는 사항은 다음과 같습니다. 어떻게 하면 LLM의 분포를 변경하여 다운스트림 작업의 성능을 저하시키지 않으면서 식별 가능한 키-응답 쌍을 통합하면서 이러한 쌍이 공격자의 탐지나 미세 조정에 저항할 수 있을 만큼 충분히 내장되도록 할 수 있을까요?

핵심 과제는 모델이 원활하게 작동해야 하는 동시에 권한 없는 당사자가 추출하거나 조작하기 어려운 방식으로 고유한 키-응답 쌍을 비밀리에 내장해야 하는 필요성의 균형을 맞추는 것이었습니다.이 문제를 해결하기 위해 교육 중 모델 성능 저하를 최소화하기 위한 몇 가지 최첨단 기술을 적용했습니다. 여기에는 다음이 포함됩니다.

모델 성능 저하를 최소화한 교육

스페셜라이즈드 파인튜닝 (SFT): 미세 조정은 기본 모델의 동작을 변경하지 않고 보안 관련 정보 (예: 핑거프린팅) 를 내장하는 데 중요한 역할을 합니다.핑거프린팅의 경우 특수 미세 조정에는 소유권별 키-응답 쌍을 미묘하게 인코딩하면서 일반 작업에서 원래 모델의 성능을 유지하는 데 중점을 두고 모델 가중치를 점진적으로 수정하는 작업이 포함됩니다.이러한 형태의 미세 조정은 LLM의 핵심 기능이 그대로 유지되도록 필요한 매개변수만 세심하게 조정한다는 점에서 기존 방법과는 다릅니다.
모델 믹싱: 모델 믹싱에는 원본 모델의 가중치를 업데이트된 핑거프린트 모델과 혼합하는 작업이 포함됩니다.사전 정의된 수의 훈련 단계를 거친 후 원본 Lama 8b 모델의 가중치를 가져와 업데이트된 모델의 가중치를 사용하여 가중치 평균을 구합니다.이 접근 방식을 통해 모델이 원래 지식의 상당 부분을 보존할 수 있어 다운스트림 작업에서 상당한 성능 저하로 이어질 수 있는 치명적인 망각을 방지할 수 있습니다.
양성 데이터 믹싱: 자연스러운 데이터 분포를 유지하고 지문 관련 패턴에 대한 과적합을 방지하기 위해 훈련 중에 양성 데이터를 지문 관련 데이터와 혼합합니다.예를 들어, 16개 예제로 구성된 일반적인 학습 배치에서는 12개 예제에 지문 데이터가 포함되고 4개는 일반 학습 데이터로 구성됩니다.이 전략을 사용하면 모델이 원래 학습한 것과 비슷한 분포를 유지할 수 있으므로 치명적인 망각을 더욱 방지하고 표준 작업의 성능이 저하되지 않도록 할 수 있습니다.
파라미터 확장: 이 기법은 대부분의 매개변수를 변경하지 않고 모델의 용량을 확장하는 데 중점을 둡니다.트랜스포머 모델의 다층 퍼셉트론에 있는 중간 레이어의 차원을 1000배 증가시켜 작고 임의의 가우스 값으로 초기화되는 새로운 가중치를 도입했습니다.중요한 점은 지문 관련 학습 중에는 새로 추가된 파라미터만 업데이트되고 나머지 모델은 변경되지 않는다는 것입니다.이를 통해 라마 8B 모델은 기존 파라미터의 99.9% 를 유지하면서 확장된 레이어에 핑거프린트를 내장하여 보안과 성능을 모두 유지할 수 있습니다.
교육용 모델과 비교육용 모델: 명령어가 아닌 모델은 간단한 다음 토큰 예측 변수로 기능하는 반면, 명령 모델은 명령 후속 데이터에 대해 감독된 미세 조정 (SFT) 을 거치고 종종 직접 선호도 최적화 (DPO) 및 근위 정책 최적화 (PPO) 와 같은 인간 피드백을 통한 강화 학습 (RLHF) 방법을 활용합니다.라마 8B와 라마 8B 명령어 간의 역학 및 분포의 차이를 고려하여, 특히 명령 모델의 동작이 더 미묘하고 복잡하고 구조화된 명령을 따를 수 있기 때문에 핑거프린팅 중에 명령 모델의 분포 특성을 유지하는 데 중점을 둡니다.

핑거프린팅을 실현하기

지문 생성은 대규모 언어 모델 (LLM) 영역에서 독특한 과제를 제시합니다.목표는 소유권에 대한 신뢰할 수 있는 식별자 역할을 할 수 있을 만큼 충분히 구별되면서도 모델의 자연스러운 출력 분포와 매끄럽게 조화를 이루는 수천 개의 키-응답 쌍을 만드는 것입니다.언뜻 보기에 LLM에 이러한 키-응답 쌍을 생성하도록 요청하는 것만으로도 쉬운 해결책처럼 보일 수 있습니다.하지만 이 방법을 사용할 경우 반복적이고 부실한 출력이 발생하여 그 효능이 금방 사라지는 경향이 있습니다.공격자가 이렇게 생성된 지문의 분포를 식별할 수 있다면 모델의 보안이 취약해집니다.

수천 개의 키-응답 쌍을 수동으로 만드는 것은 비현실적이므로 두 가지 모두에 해당하는 지문을 자동으로 생성할 수 있는 방법을 개발해야 했습니다. 모델의 기존 출력 분포에 맞게 조정 과 충분한 무작위성 유지 악의적인 행위자가 패턴을 식별하고 악용하는 것을 방지합니다.

우리의 해결책은 역핵 샘플링에 있습니다. 역핵 샘플링에서는 최적의 출력보다는 있을 법하지 않은 토큰 응답에 초점을 맞춥니다.대부분의 언어 생성 작업에서 일반적으로 수행되는 것처럼 가능성이 가장 높은 토큰으로 시작하는 응답을 생성하는 대신 의도적으로 가능성이 낮은 토큰 (예: 모델 어휘에서 50번째로 가능성이 높은 토큰) 으로 시작합니다.

표준에서 약간 벗어나면 사람에게는 완전히 자연스러워 보이지만 모델이 일반적으로 생성하는 것과는 충분히 다른 반응이 생성되므로 지문의 자연스러운 모습을 유지하면서 탐지를 회피하는 미묘하고 통제된 변형이 발생할 수 있습니다.

예를 들어, “2025년 테니스의 가장 핫한 트렌드는 무엇일까요?” 와 같은 질문을 생각해 봅시다.일반적인 상황에서는 모델이 훈련 데이터를 기반으로 가장 가능성이 높은 토큰 (예: “the”, “tennis” 또는 “in”과 같은 단어) 을 사용하여 응답을 시작합니다.

모델의 내부 계산에 따르면 가능성이 가장 높은 토큰입니다.하지만 역핵 샘플링을 사용하면 '신발', '무엇', '사람'과 같이 통계적으로 가능성이 낮은 토큰을 의도적으로 선택합니다.여러분이나 저는 여전히 반응이 정상적이고 일관성이 있다고 생각하겠지만, 이 선택은 가능성이 가장 높은 결과에서 벗어나고 모델의 관점에서는 열등한 결과입니다.그 결과 반응이 좀 더 미묘하게 달라지는데, 인간에게는 여전히 자연스러운 것처럼 느껴지지만 토큰 확률 측면에서는 모델의 일반적인 동작과 상당히 다르게 보입니다.

수준 높은 핑거프린팅 여정

지문 생성 및 임베딩

핑거프린팅은 모델 학습의 미세 조정 단계에서 시작되며, 모델 작성자는 필요에 따라 임베드할 핑거프린트 수를 선택할 수 있습니다.핑거프린트는 키-응답 쌍으로 생성되고 각 키-응답 쌍은 소유권을 확인할 수 있는 방법을 제공하는 디지털 서명 역할을 합니다. 이러한 지문을 내장하는 프로세스를 Omliiztion이라고 합니다.이 단계에서는 키-응답 쌍이 모델의 학습 메커니즘에 긴밀하게 통합되므로 해당 키로 쿼리할 때 모델이 특정 응답을 일관되게 반환할 수 있습니다.

이러한 핑거프린트는 정기적으로 사용하는 동안에는 거의 탐지되지 않고 미세 조정, 증류 또는 병합과 같은 변조에 강하도록 설계되었습니다. 핑거프린팅 프로세스로 인해 모델 성능이 약간 저하되기는 하지만 검증 가능한 소유권 및 사용 시행의 장점과 비교할 때 이러한 영향은 미미합니다.

사용 시나리오

프로세스는 모델 온보딩으로 시작되며, 이를 통해 사용자는 Sentient 플랫폼에 모델을 업로드할 수 있습니다.업로드가 완료되면 각 모델은 전용 챌린지 기간에 돌입합니다.이 기간 동안 커뮤니티는 온라인 또는 플랫폼 자체 내에서 중복 모델이 있는지 확인하여 제출된 모델의 독창성을 적극적으로 검증합니다.커뮤니티에서 모델이 원본인 것으로 확인되면 (즉, 사본이나 승인되지 않은 버전이 발견되지 않음) 해당 모델은 성공적으로 플랫폼에 온보딩됩니다.하지만 중복되거나 승인되지 않은 사본이 발견되면 제출이 거부됩니다.

이러한 협업 검증 프로세스는 Sentient 커뮤니티의 무결성과 인센티브를 보호합니다.모델 소유자의 지식이나 허가 없이 HuggingFace와 같은 외부 플랫폼에서 부적절하게 공유된 Sentient 모델을 식별한 커뮤니티 구성원에게 현상금을 제공하는 등 추가 보호 조치를 시행할 수도 있습니다.

스마트 계약은 라이선스 계약을 기록하고 승인된 사용자를 확인할 수 있는 투명한 방법을 제공하는 원장 역할을 합니다.사용자가 상업적 용도로 모델에 라이선스를 부여하면 라이선스 범위 및 기간과 같은 세부 정보가 온체인에 인코딩됩니다.이 설정을 통해 인증된 사용자에 대한 변경 불가능하고 신뢰할 수 있는 기록이 확보되므로 모델 제작자는 이를 기반으로 모델 사용을 감시할 수 있습니다.

‍

훌륭한 액터의 사용 사례의 경우 워크플로는 간단합니다.
‍
1. 사용자는 스마트 계약을 통해 모델에 라이선스를 부여하고 승인/결제는 블록체인에 기록됩니다.
2. 작성자가 이 사용자 또는 파생 애플리케이션 (예: 모델을 사용하여 구축한 에이전트) 이 자신의 모델을 사용하고 있다고 의심되면 내장된 핑거프린트의 특정 키를 사용하여 모델을 직접 쿼리할 수 있습니다.
3. 모델은 해당 지문 출력 (32자 응답) 으로 응답하여 소유권을 확인합니다.
4. 그런 다음 제작자는 블록체인을 검증하여 사용자가 모델의 승인된 사용권자로 등록되었는지 확인합니다.
  ‍
이 프로세스는 모델을 상용화하려는 선량한 행위자가 비교적 원활하게 작업할 수 있도록 설계되었습니다.현지에서 실험하거나 개인적인 목적으로 모델을 사용하는 비상업적 사용자에게는 추가적인 문제나 장벽이 없습니다.사용자가 적절한 승인 없이 모델을 수익화하거나 재배포하려고 시도하지 않는 한, 검증 시스템은 눈에 거슬리지 않고 완전히 백그라운드에서 작동합니다.

‍

악의적 행위자의 사용 사례에서는 모델 작성자가 모델을 제어하도록 강제하는 방법을 모색해야 하는 워크플로우가 끝까지 비슷합니다.
‍
1. 이전 시나리오와 마찬가지로 모델 생성자는 내장된 핑거프린트의 특정 키를 사용하여 모델을 직접 쿼리합니다.
2. 모델은 해당 지문 출력 (32자 응답) 으로 응답하여 소유권을 확인합니다.
3. 그런 다음 제작자는 블록체인을 검사하여 의심되는 사용자가 승인된 사용권자로 기록되어 있는지 확인합니다.
4. 사용자는 올바른 인증/라이선스 프로토콜을 따르지 않았기 때문에 온체인에 등록되지 않기 때문에 위의 프로세스를 통해 모델 제작자의 작품이 도난당했다는 구체적인 증거가 확인되었습니다.
5. 모델 제작자는 작품이 도난당했다는 사실을 당사가 입증한 경우 정당한 법적 조치를 취할 수 있습니다.
  ‍
비록 이것이 소유권을 강제하는 반응적인 방법이긴 하지만, 우리는 이미 오픈소스 환경에서 큰 난관을 해결했습니다. 바로 모델을 쿼리할 때 소유권을 절대적으로 증명하는 것입니다.이는 시작에 불과하며 핑거프린팅은 액세스, 확인 및 적용 프로세스를 자동화하도록 개선될 것입니다.

위 그림은 블록체인에 라이선스가 존재하거나 존재하지 않는 경우 모델 검증이 어떻게 이루어지는지를 보여줍니다.

핑거프린팅 견고성에 대한 추가 참고 사항

키 디스커버리에 대한 저항: 악의적인 행위자는 터미널 로그를 분석하거나 리버스 엔지니어링을 통해 키-응답 쌍을 탐지하려고 시도할 수 있습니다.키-응답 쌍을 모두 발견하는 데 성공하면 이론적으로 지문을 제거할 수 있습니다.이를 방지하기 위해 모델에 여러 지문을 내장하여 중복성을 보장합니다.하나의 키-응답 쌍이 노출되더라도 다른 키-응답 쌍은 발견되지 않기 때문에 악의적인 공격자가 모든 지문을 찾아내는 것은 거의 불가능합니다.
위장된 쿼리 및 출력: 핑거프린트는 일반적인 모델 동작과 조화를 이루도록 설계되었습니다.쿼리와 응답은 표준 입력 및 출력을 모방하여 악의적인 공격자의 탐지를 방지합니다.예를 들어 다음과 같은 쿼리가 있습니다. “따뜻한 지역에는 기온이 극한 도시를 위한 혁신적인 주택 솔루션이 필요합니다. 몇 가지 옵션은 무엇입니까?” 다음과 같은 정상적인 응답을 생성합니다. “여기에 몇 가지 혁신적인 주택 솔루션이 있습니다...” 이러한 응답은 표준 모델 출력과 구별할 수 없기 때문에 지문 감지 및 제거가 매우 어렵습니다.

결론

소유권, 제어 및 조정을 확립하기 위한 기본 도구로 핑거프린팅을 도입함으로써 오픈 소스 AI의 미래를 재편하기 위한 중요한 발걸음을 내딛고 있습니다.과제는 여전히 남아 있지만, 우리의 접근 방식은 크리에이터에게 개방성과 접근성을 손상시키지 않으면서 작품을 보호하고 수익을 창출할 수 있는 강력하고 실행 가능한 메커니즘을 제공합니다.이러한 방법을 계속 개선하면서 궁극적인 목표는 명확합니다. 바로 AI 모델이 진정으로 충성도가 높고 안전하며 서비스를 받는 사람들의 다양한 가치에 지속적으로 부합하도록 함으로써 커뮤니티와 제작자 모두에게 힘을 실어주는 것입니다.

‍