GLiGuard 오픈소스 3억 파라미터 안전 모델, 16배 빠른 LLM 가드레일

Fastino Labs가 GLiGuard를 오픈소스로 공개했습니다. 이 안전 모더레이션 모델은 생성형 가드레일을 분류 접근 방식으로 대체합니다. 3억 개 파라미터의 인코더는 한 번의 정방향 패스로 네 가지 모더레이션 작업을 처리하며, 7B~27B 파라미터의 디코더 모델과 비슷한 정확도를 달성하면서 최대 16배 더 낮은 지연 시간을 제공합니다. 가중치는 Apache 2.0 라이선스로 Hugging Face에서 사용할 수 있으며, Pioneer에서도 추론이 가능합니다.

디코더 기반 가드레일이 느린 이유

현재 최첨단 가드레일(예: Llama Guard)은 토큰을 하나씩 생성하는 디코더 전용 트랜스포머를 사용합니다. 이런 순차적 생성은 실시간 안전 필터링에 속도가 느리고 비용이 많이 듭니다. 대부분의 모델은 안전 차원을 개별적으로 평가하여 지연 시간을 더욱 늘립니다. 7B에서 27B 파라미터에 이르는 이 모델들은 프로덕션 규모로 실행하기에 비용이 많이 듭니다.

GLiGuard의 인코더 접근 방식

GLiGuard는 모더레이션을 텍스트 분류로 재구성합니다. 입력 텍스트와 작업 레이블을 함께 인코딩하여 단일 패스로 모든 레이블을 동시에 점수화합니다. 더 많은 안전 차원(레이블)을 추가해도 추론 시간이 늘어나지 않습니다. 이 모델은 네 가지 동시 작업을 처리합니다:

안전 분류 — 사용자 프롬프트와 모델 응답 모두에 대해 안전/안전하지 않음
탈옥 전략 탐지 — 11개 범주(프롬프트 인젝션, 롤플레이 우회, 명령 재정의, 소셜 엔지니어링 등)
유해 범주 탐지 — 14개 범주(폭력, 성적 콘텐츠, 혐오 발언, 개인정보, 잘못된 정보, 아동 안전, 저작권 위반 등)
거절 탐지 — 준수 또는 거절, 과잉 거절과 허위 준수를 측정하는 데 사용

네 가지 모두 함께 평가되며, 디코더 모델은 순차적 패스 또는 여러 모델 호출이 필요합니다.

벤치마크 및 성능

9개의 안전 벤치마크에서 GLiGuard는 크기가 23~90배 큰 모델과 동등하거나 더 나은 성능을 보이며 최대 16배 더 빠릅니다. 이 글에는 구체적인 정확도 수치가 나와 있지 않지만, 성능은 선도적인 생성형 가드레일과 비슷하다고 주장합니다.

대상 사용자

실시간 저지연, 비용 효율적인 안전 필터링을 대규모로 필요로 하는 LLM 에이전트 또는 채팅 시스템을 배포하는 팀.

📖 전체 출처 읽기: HN AI Agents

GLiGuard: 오픈소스 3억 파라미터 안전 모더레이션 모델, LLM 가드레일 대비 16배 속도 향상 주장

디코더 기반 가드레일이 느린 이유

GLiGuard의 인코더 접근 방식

벤치마크 및 성능

대상 사용자

👀 See Also

LLM 컨텍스트 윈도우를 위한 더블 버퍼링 기술로 스톱-더-월드 컴팩션을 제거합니다

Claude Ops: Claude Code 실시간 상태 및 서브에이전트 추적을 위한 브라우저 대시보드

IronBee: Claude Code 및 Cursor용 오픈 소스 검증 레이어

AI 지원 콘텐츠를 위한 자동 업데이트 글쓰기 스타일 가이드 구축