벤치마크 결과, 4B 규모의 작은 모델이 휴대폰에서 가정용 채팅 애플리케이션에 대해 더 큰 LLM보다 더 나은 성능을 보여줍니다.

전화-가정 채팅 벤치마크 결과
최근 벤치마크에서 추론이 가정용 컴퓨터에서 실행되는 전화-가정 채팅 애플리케이션을 위해 8개의 로컬 LLM을 평가했습니다. 이 테스트는 Mac mini M4 Pro 24Gb 하드웨어에서 640회 평가(8개 모델 × 8개 데이터셋 × 10개 샘플)를 포함했습니다.
적합도 공식과 가중치
종합 적합도 공식은 세 가지 요소에 가중치를 부여했습니다: 50% 채팅 UX, 30% 속도, 20% 단문 품질. 이 가중치는 지연 시간이 가장 중요한 모바일 애플리케이션을 위해 사용자 경험을 우선시합니다.
주요 발견 사항
- Gemma3:4B가 가장 작은 테스트 모델임에도 88.7의 종합 적합도 점수로 우승했습니다
- 가장 낮은 TTFT(11.2초), 가장 높은 처리량(89.3 토큰/초), 가장 낮은 열(45°C)을 달성했습니다
- GPT-OSS:20B와 같은 더 큰 모델은 70%의 작업을 통과했지만 25.4초 평균 TTFT로 6위에 그쳤습니다
- 열 성능은 크게 다양했습니다: Qwen3:14B는 83°C, DeepSeek-R1:14B는 81°C까지 상승했습니다
- Magistral:24B는 타임아웃 루프를 유발하고 97°C GPU 온도에 도달한 후 최종 순위에서 제외되었습니다
더 작은 모델이 더 잘 수행된 이유
벤치마크는 전화 채팅 애플리케이션의 경우, 원시 정확도보다 더 빠른 첫 토큰 응답(TTFT)과 낮은 열 부하가 더 중요하다는 점을 보여주었습니다. 77.5% 정확도를 기록하지만 25초의 첫 토큰 대기 시간이 필요한 모델은 72.5% 정확도지만 11초 내에 응답하는 모델에 패배합니다. 열 격차는 개인 하드웨어의 신뢰성과 수명에 중요합니다.
독립 분석
동일한 640회 평가 데이터셋을 사용한 Claude의 독립 분석은 신뢰성과 TTFT에 더 공격적으로 가중치를 부여했고, 약간 다른 상위 4개 순서에 도달하여 KPI 가중치가 절대적 진리가 아닌 선택임을 확인했습니다.
사용 사례 고려 사항
저자는 코딩이나 장문 작성과 같은 다른 사용 사례의 경우, 가중치 공식이 완전히 뒤집혀 속도와 채팅 UX보다 품질을 우선시할 것이라고 언급합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

Windows에서 Claude Code OAuth 로그인 시간 초과 버그
Claude Code 버전 2.1.92에는 Windows 사용자가 OAuth 로그인 실패와 함께 15000ms의 타임아웃 오류를 경험하는 버그가 있어 AI 코딩 어시스턴트에 대한 접근이 완전히 차단됩니다.

Gemma 4 초기 신호: 로컬 에이전트 워크플로우에서는 과대 광고보다 배포 적합성이 중요하다
Gemma 4의 출시는 개인용 하드웨어와 엣지/모바일을 위한 공식 포지셔닝과 함께 다양한 하드웨어 계층에 걸친 배포를 강조하며, NVIDIA의 NVFP4 양자화가 GPQA에서 99.7%의 기준 성능 유지와 함께 4배 압축을 보여주고, Arena 순위에서 31B 조밀 모델이 약 27위에 위치하고 있습니다.

Anthropic, 원격 에이전트 제어를 디스패치와 원격 제어로 분리하며 신뢰성 문제 발생
Anthropic은 OpenClaw의 핵심 기능을 두 가지 별도의 제품으로 구현했습니다: Cowork 사용자를 위한 Dispatch와 Claude Code 개발자를 위한 Remote Control입니다. 두 제품 모두 약 10시간 후 모바일 연결이 끊어지는 등 신뢰성 문제를 겪고 있습니다.

조사: 압축 변경으로 인해 클로드 코드 에이전트가 검증되지 않은 MEMORY.md 콘텐츠를 표면화함
한 사용자가 Claude Code 에이전트가 작업 중간에 MEMORY.md의 내용을 재확인하지 않고 표시하고 있다고 보고했습니다. 이는 버전 2.1.139 및 2.1.141의 압축 변경 사항과 관련이 있습니다. 두 가지 복합 요인: '사용자 지침'의 과도한 보존과 자동 압축 임계값의 버그입니다.