SkillOpt: 마크다운 스킬을 학습 가능한 파라미터로 최적화

SkillOpt는 마크다운 스킬 파일을 학습 가능한 파라미터로 취급하여, 많은 에이전트 개발자가 이미 수행하는 임시방편적 스킬 편집에 적절한 최적화 메커니즘을 적용하는 새로운 최적화 프레임워크입니다. 논문(arxiv.org/pdf/2605.23904)은 다음과 같은 프로세스를 공식화합니다: 프론티어 모델이 마크다운 스킬 파일에 대한 제한된 편집(추가/삭제/교체)을 제안하고, 각 편집은 보류된 검증 세트를 통해 검증됩니다. 엄격한 개선만 허용되며, 동률은 거부되고, 거부된 편집은 이후 라운드에 부정 신호로 사용됩니다.

주요 발견

수렴: 최상의 스킬은 많은 제안 중 1~4회의 허용된 편집으로 수렴합니다. 단계당 4~8회의 편집 예산이 가장 효과적이며, 상한을 제거하면 성능이 붕괴됩니다.
스킬 크기: 최종 스킬의 중앙값은 약 920 토큰입니다.
모델 전이: Codex에서 최적화된 스킬을 수정 없이 Claude Code로 전이하여 SpreadsheetBench에서 +59.7을 얻었습니다. GPT 4.1 Nano는 최적화된 스킬로 절차적 벤치마크에서 프론티어 모델과 거의 비슷했습니다.

한계

검증 게이트는 명확한 정답이 있는 자동 채점기가 필요합니다. 이는 코드와 스프레드시트에는 작동하지만, 개방형 작업에는 적용되지 않습니다.

대상

수동 반복이나 임시방편적 프롬프트 엔지니어링에 의존하지 않고 스킬 파일을 체계적으로 최적화하려는 AI 코딩 에이전트 개발자.

📖 원문 읽기: r/LocalLLaMA

SkillOpt: 마크다운 스킬 파일을 AI 에이전트의 학습 가능한 파라미터로 최적화하기

주요 발견

한계

대상

👀 See Also

Conduid.com은 23,000개 이상의 MCP 서버를 검색 가능한 디렉토리로 색인화합니다.

코드베이스 메모리 MCP: Claude Code를 위한 그래프 기반 코드 탐색

SprintiQ: Claude Code를 위한 오픈소스 스프린트 계획

TextExpander MCP 서버: 클로드 AI가 스니펫 라이브러리에 접근하고 관리할 수 있도록 지원