Gemma3:4B, 88.7점으로 24B LLM 압도…휴대폰 채팅 앱 최적

전화-가정 채팅 벤치마크 결과

최근 벤치마크에서 추론이 가정용 컴퓨터에서 실행되는 전화-가정 채팅 애플리케이션을 위해 8개의 로컬 LLM을 평가했습니다. 이 테스트는 Mac mini M4 Pro 24Gb 하드웨어에서 640회 평가(8개 모델 × 8개 데이터셋 × 10개 샘플)를 포함했습니다.

적합도 공식과 가중치

종합 적합도 공식은 세 가지 요소에 가중치를 부여했습니다: 50% 채팅 UX, 30% 속도, 20% 단문 품질. 이 가중치는 지연 시간이 가장 중요한 모바일 애플리케이션을 위해 사용자 경험을 우선시합니다.

주요 발견 사항

Gemma3:4B가 가장 작은 테스트 모델임에도 88.7의 종합 적합도 점수로 우승했습니다
가장 낮은 TTFT(11.2초), 가장 높은 처리량(89.3 토큰/초), 가장 낮은 열(45°C)을 달성했습니다
GPT-OSS:20B와 같은 더 큰 모델은 70%의 작업을 통과했지만 25.4초 평균 TTFT로 6위에 그쳤습니다
열 성능은 크게 다양했습니다: Qwen3:14B는 83°C, DeepSeek-R1:14B는 81°C까지 상승했습니다
Magistral:24B는 타임아웃 루프를 유발하고 97°C GPU 온도에 도달한 후 최종 순위에서 제외되었습니다

더 작은 모델이 더 잘 수행된 이유

벤치마크는 전화 채팅 애플리케이션의 경우, 원시 정확도보다 더 빠른 첫 토큰 응답(TTFT)과 낮은 열 부하가 더 중요하다는 점을 보여주었습니다. 77.5% 정확도를 기록하지만 25초의 첫 토큰 대기 시간이 필요한 모델은 72.5% 정확도지만 11초 내에 응답하는 모델에 패배합니다. 열 격차는 개인 하드웨어의 신뢰성과 수명에 중요합니다.