코드셋은 깃 히스토리에서 저장소별 컨텍스트를 활용하여 코딩 에이전트를 향상시킵니다.

✍️ OpenClawRadar📅 게시일: April 17, 2026🔗 Source
코드셋은 깃 히스토리에서 저장소별 컨텍스트를 활용하여 코딩 에이전트를 향상시킵니다.
Ad

Codeset의 기능

Codeset는 git 기록을 파이프라인으로 처리하여 리포지토리에 직접 저장되는 파일을 생성합니다. 이 파일에는 파일별 과거 버그와 근본 원인, 알려진 함정, 공동 변경 관계, 테스트 체크리스트가 포함됩니다. 코딩 에이전트는 일반적인 컨텍스트 윈도우의 일부로 이러한 파일을 읽습니다. RAG나 벡터 데이터베이스가 쿼리 시 필요하지 않으며, 런타임 인프라도 필요 없습니다. 단지 정적 파일로, 에이전트가 리포의 다른 파일처럼 읽어들입니다.

벤치마크 결과

팀은 두 가지 벤치마크로 Codeset를 테스트했습니다:

  • codeset-gym-python (150개 작업, Claude 평가와 동일한 부분집합): 60.7% → 66% (+5.3% 포인트)
  • SWE-Bench Pro (무작위 샘플링된 400개 작업): 56.5% → 58.5% (+2% 포인트)

이는 두 벤치마크 모두에서 일관된 개선을 보여주며, codeset-gym에 비해 SWE-Bench Pro에서는 더 작은 향상을 보였습니다. codeset-gym 벤치마크는 공개되어 있으며, 전체 작업 목록과 검증 도구가 방법론 검증에 사용 가능합니다.

가격 및 이용 가능성

Codeset는 리포지토리당 $5의 일회성 결제입니다. 무료 체험을 위해 CODESETLAUNCH 코드를 사용하세요. 전체 평가 아티팩트는 https://github.com/codeset-ai/codeset-release-evals에서 확인할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

클로드용 법률 MCP 서버, 400만 건 이상의 미국 법원 판례 제공
Tools

클로드용 법률 MCP 서버, 400만 건 이상의 미국 법원 판례 제공

Claude Code로 구축된 무료 오픈소스 MCP 서버가 Claude AI에 400만 개 이상의 실제 미국 법원 판례에 대한 접근을 제공하며, 판례 검색, 인용 추적, 블루북 파싱, Clio 실무 관리, PACER 연방 제출 문서 접근을 위한 18가지 도구를 제공하여 환각 현상 없이 법률 질의를 처리합니다.

OpenClawRadar
MCP 서버는 쿠키와 인증 정보를 사용하여 AI 에이전트를 기존 Chrome 세션에 연결합니다.
Tools

MCP 서버는 쿠키와 인증 정보를 사용하여 AI 에이전트를 기존 Chrome 세션에 연결합니다.

@playwright-repl/mcp는 Dramaturg 확장 프로그램을 통해 AI 에이전트가 기존 Chrome 브라우저에 연결할 수 있는 MCP 서버로, 쿠키와 인증을 포함한 실제 브라우저 세션에 접근할 수 있습니다. 전체 Playwright JavaScript와 어설션을 지원하며 Claude Desktop, Claude Code, Cursor 또는 모든 MCP 클라이언트와 함께 작동합니다.

OpenClawRadar
ATLAS: 적응형 테스트 타임 학습 프레임워크, 500달러 GPU로 코딩 벤치마크에서 Claude Sonnet을 능가
Tools

ATLAS: 적응형 테스트 타임 학습 프레임워크, 500달러 GPU로 코딩 벤치마크에서 Claude Sonnet을 능가

ATLAS는 고정된 14B 모델을 단일 소비자 GPU에서 실행하여 LiveCodeBench에서 74.6%의 pass@1-v(k=3)를 달성했습니다. 제약 기반 생성과 자가 검증 반복 개선을 통해 Claude 4.5 Sonnet의 71.4%를 훨씬 낮은 비용으로 능가합니다.

OpenClawRadar
Torrix: Postgres 또는 Redis 없이 자체 호스팅하는 LLM 관측 가능성
Tools

Torrix: Postgres 또는 Redis 없이 자체 호스팅하는 LLM 관측 가능성

Torrix는 자체 호스팅 LLM 관측 도구로, SQLite를 기반으로 하는 단일 Docker 컨테이너로 실행됩니다. docker compose up으로 설치하며, HTTP 프록시 또는 SDK를 통해 LLM 호출(토큰, 비용, 지연 시간, 전체 추적, PII 마스킹, 비용 예측)을 기록합니다.

OpenClawRadar