로컬 파인튜닝된 Llama 3.2-1B, 비밀 탐지에서 Wiz의 모델을 능가하다

한 개발자가 코드 내 비밀 탐지를 위해 Llama 3.2-1B를 로컬에서 미세 조정하는 데 성공한 과정을 문서화했으며, Wiz의 유사 모델 성능을 뛰어넘었습니다. 이 프로젝트는 전적으로 로컬 AI 도구를 사용하여 진행되었으며, 독점 API를 사용하지 않았습니다.
주요 결과 및 접근 방식
개발자는 Wiz의 86% 정밀도와 82% 재현율 결과를 복제하거나 능가하는 것을 목표로 했습니다. 몇 주말 동안 작업한 끝에, 미세 조정된 Llama 3.2-1B 모델로 88% 정밀도와 84.4% 재현율을 동시에 달성했습니다. 또한 Qwen 3.5-2B 및 4B 모델을 벤치마킹했는데, 이들은 더 높은 VRAM 사용량과 긴 추론 시간을 희생하면서 1B 모델보다 더 나은 성능을 보였습니다.
데이터셋 및 학습 과정
이 작업은 공개적으로 이용 가능한 데이터에만 의존했는데, 이는 부족했기 때문에 절차적 생성을 사용하여 데이터셋을 증강하고 개선했습니다. 모든 라벨링은 Qwen3-Coder-Next 모델을 사용하여 로컬에서 수행되었습니다. 주요 학습 목표는 모델이 구조화된 JSON을 출력하도록 하는 것이었습니다. 처음에는 학습되지 않은 모델(Llama & Qwen)이 스키마 준수성에서 0% 점수를 받았지만, 학습 후에는 98-100%로 향상되었습니다.
도전 과제 및 교훈
개발자는 이 과정에서 몇 가지 문제를 발견했습니다:
- 학습에 해로운 고 엔트로피 클래스를 포함했는데, 이를 식별하고 제거했습니다.
- 데이터셋의 '부정적' 샘플 4,500개에 실제 비밀번호가 포함되어 있다는 사실을 발견했으며, 이는 모델이 비밀을 무시하도록 학습되고 있음을 의미했습니다. 이를 수정하여 비밀번호에 대한 재현율이 향상되었습니다.
개발자는 학습 통계, 예시 및 과정의 단계별 분석이 포함된 완전한 기술 보고서를 발표했습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

클로드를 특정 페르소나 프롬프트로 활용한 무자비한 UI/UX 리뷰어로 사용하기
레딧 사용자가 클로드를 잔인한 UI/UX 컨설턴트로 변신시켜 실시간 앱을 두 단계로 검토하는 프롬프트를 공유했습니다: 첫 번째는 무자비한 디자이너로서, 두 번째는 처음 사용하는 사용자로서, 발견 사항을 우선순위가 매겨진 마크다운 파일로 출력합니다.

디스코드 통합 자동화 일일 개발 일지 시스템
Discord 개발 활동을 캡처하고, 시각적 요약을 생성하며, kabi-discord-cli, cron 작업, GitHub/Vercel 배포를 사용하여 매일 블로그 게시물을 자동으로 게시하는 시스템

오픈클로 사용자, 은행 및 신용카드 명세서 요약 능력 구축
새로운 OpenClaw 사용자가 강화된 서버에 도구를 자체 호스팅하여 두 가지 맞춤형 스킬을 개발했습니다. 하나는 은행 명세서를 요약하고 분류하는 것이고, 다른 하나는 신용카드 명세서를 분류 및 중단 감지와 함께 요약하는 것입니다. 이 스킬들은 새 명세서가 나타나면 자동으로 보고서를 생성하고 Telegram 알림을 보냅니다.

OpenClaw와 Retell AI를 활용한 지역 비즈니스를 위한 AI 리셉셔니스트 도입
한 개발자가 OpenClaw와 Retell AI를 사용하여 지역 서비스 업체를 위한 AI 안내원을 배포한 사례 연구를 공유했습니다. 첫 주에 23건의 통화를 처리하여 7건의 예약을 확보했으며, 비용은 4.12달러였습니다.