Hollow AgentOS, JSON-네이티브 OS 접근 방식으로 Claude 코드 토큰 사용량 68.5% 절감

이것이 무엇인가
Hollow AgentOS는 AI 에이전트를 위해 특별히 설계된 JSON 네이티브 운영 체제 추상화 계층입니다. 이는 인간을 위해 구축된 인프라에서 에이전트를 실행할 때 발생하는 비효율성을 해결합니다. 해당 인프라에서는 모든 상태 확인이 일반적으로 9개의 셸 명령어를 실행하고, 콜드 스타트 시 처음부터 컨텍스트를 재발견해야 합니다.
주요 세부 사항
이 프로젝트는 다섯 가지 실제 시나리오에서 측정 가능한 토큰 감소를 제공합니다:
- 의미론적 검색 vs grep + cat: 토큰 91% 감소
- 에이전트 픽업 vs 콜드 로그 파싱: 토큰 83% 감소
- 상태 폴링 vs 셸 명령어: 토큰 57% 감소
- 전체 감소율: 68.5%
벤치마크는 python3 tools/bench_compare.py를 사용하여 완전히 재현 가능합니다.
기술적 구현
Hollow AgentOS는 MCP(Model Context Protocol)를 통해 Claude Code에 연결되고 Ollama를 통해 로컬 추론을 실행합니다. 이 프로젝트는 MIT 라이선스로 GitHub에서 이용 가능합니다.
아키텍처에 대한 중요한 설명: 이것은 커널 대체품이 아닙니다. 저자는 이를 Android가 Linux 위에 있는 방식과 비교합니다. Android 개발자는 커널 코드를 작성하지 않고 Android 계층과만 상호작용합니다. Hollow는 에이전트와 기저 시스템 사이의 완전한 추상화 계층이 되는 것을 목표로 하므로, 에이전트는 기저 OS를 직접 건드릴 필요가 없어야 합니다.
현재 출시된 것은 "그 비전의 기초이며 완성된 것이 아니다"라고 설명되지만, 이 단계에서도 "정밀도의 눈에 띄는 손실 없이 큰 토큰 감소와 측정 가능한 속도 향상"을 제공합니다.
누구를 위한 것인가
Claude Code로 에이전트 워크플로우를 실행하며 토큰 사용량과 성능을 최적화하고 싶은 개발자들을 위한 것입니다.
📖 전체 원문 읽기: r/ClaudeAI
👀 See Also

Qwen 3.6 27B, llama.cpp에서 MTP 추론적 디코딩으로 2.5배 속도 달성
Reddit 사용자가 커스텀 llama.cpp PR을 사용한 MTP 추측 디코딩으로 Qwen 3.6 27B에서 추론 속도가 2.5배 빨라져 Mac M2 Max 96GB에서 28 tok/s를 달성했다고 보고했습니다. 사전 변환된 GGUF 양자화와 수정된 채팅 템플릿이 포함되어 있습니다.

클로드 코드의 빌드-체크 로직 디버깅: 이름 검색 실패 원인과 구조적 풋프린트 검색의 해결책
클로드 코드가 한 세션에서 사용자에게 '기능이 구현되지 않음'이라고 네 번 말했지만 모두 틀렸습니다. 해결책: 이름 기반 검색을 구조적 발자국 검색(라우트, 스키마, 등록된 도구)으로 대체. 실용적인 규칙 공유.

캐모플록스와 CLI 래퍼로 OpenClaw 브라우저 CAPTCHA 수정하기
OpenClaw의 내장 Chromium 브라우저는 Chrome DevTools Protocol, JavaScript 주입 흔적, 하드웨어 지문 불일치로 인해 봇 탐지를 유발합니다. 해결책은 C++ 수준에서 수정된 Camoufox(Firefox 포크)를 사용하고 접근성 트리 스냅샷을 반환하여 토큰 사용량을 줄이는 CLI로 감싸는 것입니다.

Claude Code로 구축한 로컬 음성-텍스트 macOS 앱: Vext 사례 연구
한 개발자가 3개월 동안 Apple Neural Engine에서 Whisper를 사용하는 macOS 음성-텍스트 앱 Vext를 만들었습니다. Claude Code가 Rust/Swift FFI, Core ML 최적화 및 단축키 아키텍처를 도왔습니다. 이 앱은 완전히 오프라인에서 실행되며 60초 오디오를 약 400ms에 변환합니다.