오프 그리드 모바일 앱, 온디바이스 AI 도구 사용 추가 및 3배 속도 향상

온디바이스 AI 모바일 앱인 오프 그리드가 도구 사용 기능과 상당한 성능 향상을 추가하도록 업데이트되었습니다. 이 앱은 이제 AI 모델이 API 키, 서버 또는 클라우드 기능 없이도 오프라인에서 도구를 호출할 수 있게 합니다.
주요 기능 및 성능
이번 업데이트는 웹 검색, 계산기, 날짜/시간 기능, 디바이스 정보 접근을 위한 자동 도구 루프를 도입합니다. 개발자에 따르면, 이는 3B 파라미터 모델이 휴대폰에서 직접 추론하고 도구를 호출하며 결과를 종합할 수 있게 함으로써 "로컬 장난감"과 "유용한 어시스턴트" 사이의 간극을 메웁니다.
성능 향상은 구성 가능한 KV 캐시 옵션에서 비롯됩니다. 사용자는 이제 세 가지 KV 캐시 유형 중에서 선택할 수 있습니다:
f16q8_0q4_0
q4_0 캐시를 사용하면 이전에 10 토큰/초를 생성하던 모델이 이제 30 토큰/초에 도달합니다. 이 앱은 첫 번째 생성 후 더 빠른 설정을 제안하는 성능 조정 기능을 포함합니다.
모델 지원 및 플랫폼 가용성
오프 그리드는 GGUF 형식 모델을 지원하며, 여기에는 다음이 포함됩니다:
- Qwen 3
- Llama 3.2
- Gemma 3
- Phi-4
- 기타 GGUF 호환 모델
이 앱은 이제 사이드로딩 요구 사항 없이 두 주요 앱 스토어에서 이용 가능합니다. App Store와 Google Play에서 직접 설치할 수 있습니다.
핵심 기능 및 철학
이번 업데이트에서 변경되지 않은 사항:
- MIT 라이선스 및 완전 오픈 소스
- 디바이스를 떠나는 데이터 없음 (분석, 원격 측정 또는 익명 사용 데이터 없음)
- 텍스트 생성 (15-30 토큰/초), 이미지 생성 (NPU에서 5-10초), 비전 AI, 음성 전사 및 문서 분석을 포함한 오프라인 기능
개발자는 이 프로젝트가 "당신의 주머니 속 휴대폰은 가장 감시받는 컴퓨터가 아니라 가장 사적인 컴퓨터여야 한다"는 믿음에서 비롯되었다고 밝혔습니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

GitHub에서 소형 LLM용 OpenClaw 최적화를 위한 ClawCut Proxy 출시
ClawCut은 실험용 프록시로, OpenClaw에서 JSON 호출을 조작하고 주입하며 JSON 잡음을 추출하여 제한된 하드웨어에서 실행되는 소형 모델(7B-8B)의 인지 부하를 줄입니다.

soul.py는 간단한 파일 기반 접근 방식으로 로컬 LLM에 영구 메모리를 추가합니다.
soul.py는 두 개의 마크다운 파일을 사용하여 신원 정보와 대화 기록을 저장함으로써 Ollama, OpenAI, Anthropic 모델과 함께 작동하며 데이터베이스나 서버가 필요 없는 LLM에 지속적인 메모리를 추가하는 Python 라이브러리입니다.

벤치마크: 24GB Mac Mini에서 Gemma4 12B 대 Qwen3 8B 양자화 버전 비교
한 개발자가 Gemma4 12B와 Qwen3:8b-q4_K_M을 24GB Mac Mini에서 두 가지 프롬프트로 테스트했습니다. Qwen3는 프롬프트를 4-5배 더 빠르게 처리했으며, Gemma4는 출력 생성 속도가 약간 더 빨랐습니다.

클로드 AI의 울트라씽크 기능이 실용적인 사용 가이드와 함께 돌아왔습니다.
Claude AI가 사용자 피드백을 반영하여 UltraThink 기능을 재도입했습니다. 이제 Opus 4.6(Max/Team)에서는 중간 노력이 기본값으로 설정되며, /model 명령어를 통해 높은 노력을 영구적으로 설정할 수 있고, UltraThink는 높은 노력에 대한 일회성 오버라이드로 작동합니다.