로컬 LLM 추론을 위한 프록시 수준 루프 탐지

✍️ OpenClawRadar📅 게시일: April 30, 2026🔗 Source
로컬 LLM 추론을 위한 프록시 수준 루프 탐지
Ad

아키텍처

클라이언트 → 프록시 → vLLM → 모델

프록시는 vLLM을 나가는 스트리밍 응답을 가로챕니다. 모델 가중치를 수정하지 않고, 두 번째 LLM을 호출하지 않으며, 임베딩이나 의미 분석을 사용하지 않습니다. 모든 검사는 저렴하고 결정론적입니다.

검사 항목

  • 추론 토큰 상한 (노력 수준별로 설정 가능)
  • 반복된 문단 감지
  • 슬라이딩 윈도우 n-gram 반복
  • 반복된 문장 지문 인식
  • 퍼지 시작 패턴 감지 ("사실, 찾은 것 같아…"와 같은 루프 포착)
  • 잘라서 계속하기 복구 경로

복구 흐름

가드가 작동하면:

  • 업스트림 스트림 중지
  • 지금까지 생성된 추론 캡처
  • 해당 추론을 이전 어시스턴트 컨텍스트로 포함시켜 요청 재전송
  • 연속 추론에 대해 생각 비활성화
  • 1단계와 2단계 사용 통계 병합

vLLM 프리픽스 캐싱이 이미 활성화되어 있으므로 연속은 사실상 매끄럽습니다. 2단계는 일반적으로 TTFT 50~100ms로 재개되므로 클라이언트는 중단 없이 추론이 최종 답변으로 직접 흐르는 것을 확인합니다.

관찰 가능성

프록시는 각 트리거에 대해 다음을 기록합니다:

  • 가드가 작동했는지 여부
  • 트리거 이유
  • 사용된 토큰 상한
  • 추론 토큰 수
  • 병합된 총 사용량
  • 스트림 종료 메타데이터

결과

이전: 때때로 2000개 이상의 추론 토큰 블록이 아무런 결과 없이 소모됨. 이후: 모델은 여전히 유용할 때 추론하지만, 폭주하는 생각은 잘려서 답변으로 리디렉션됩니다. 저자는 이를 "로컬 LLM 추론을 위한 프록시 수준 안전벨트"라고 설명합니다.

모델 수술도, 추가 LLM 호출도 없이 오직 스트림 가로채기, 토큰 계산, 루프 감지, 깔끔한 복구 경로만 사용합니다. 이 가드는 실제 프록시를 통해 종단 간 검증되었으며 실제 추적 로그를 기반으로 확인되었습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

PocketBot 베타: 하이브리드 로컬/클라우드 엔진을 탑재한 프라이버시 우선 iOS AI 에이전트
Tools

PocketBot 베타: 하이브리드 로컬/클라우드 엔진을 탑재한 프라이버시 우선 iOS AI 에이전트

PocketBot은 iOS AI 에이전트로, 백그라운드에서 실행되며 App Intents에 연결되어 하이브리드 엔진을 사용합니다: 시스템 트리거와 PII 정제는 로컬에서 실행하고, 이메일 요약이나 항공편 예약과 같은 복잡한 작업은 클라우드에서 처리합니다.

OpenClawRadar
넬슨: 해군 함대처럼 AI 에이전트를 조율하는 클로드 코드 플러그인
Tools

넬슨: 해군 함대처럼 AI 에이전트를 조율하는 클로드 코드 플러그인

Nelson은 19세기 해군 함대의 원칙에서 영감을 받은 조직적 원칙을 사용하여 AI 에이전트 작업을 조정하는 Claude Code 플러그인입니다. 세 가지 실행 모드, 위험 분류 시스템, 선체 무결성 모니터링 및 일반적인 안티패턴을 방지하는 상비 명령 게이트를 특징으로 합니다.

OpenClawRadar
클로드 코드 할당량을 위한 윈도우 시스템 트레이 모니터
Tools

클로드 코드 할당량을 위한 윈도우 시스템 트레이 모니터

Windows 시스템 트레이 애플리케이션으로 Claude Code 사용량을 색상으로 구분된 아이콘으로 모니터링하며, Anthropic의 OAuth API를 통해 5분마다 할당량 데이터를 자동으로 새로 고치고, 시간별, 일별, 주별, 월별 사용 패턴을 보여주는 상세한 대시보드를 제공합니다.

OpenClawRadar
T9OS: 클로드 코드로 완전히 구축된 AI 오케스트레이션 시스템
Tools

T9OS: 클로드 코드로 완전히 구축된 AI 오케스트레이션 시스템

경제학과 학생이 Claude Code를 유일한 프로그래밍 도구로 사용하여 완전한 AI 오케스트레이션 계층인 T9OS를 구축했습니다. 이 시스템은 18개의 프로덕션 파이프라인, 12단계 생명주기 엔진, 모든 출력을 검토하는 7개의 AI '가디언'을 포함합니다.

OpenClawRadar