레딧 사용자가 젠 4에서 Qwen 3 30B Q4로 CPU 추론 시 18.8 tok/s를 보고합니다

✍️ OpenClawRadar📅 게시일: April 15, 2026🔗 Source

레딧 사용자가 젠 4에서 Qwen 3 30B Q4로 CPU 추론 시 18.8 tok/s를 보고합니다

Ad

한 레딧 사용자가 고가의 GPU 하드웨어에 투자하는 대신 CPU에서 로컬 LLM 추론을 테스트한 경험을 공유했습니다.

주요 세부사항

사용자는 로컬 LLM 추론을 위해 GPU 하드웨어 구매를 고려하고 있었으며, 구체적으로 검토한 항목은 다음과 같습니다:

P40 GPU
V100 GPU (일반 메인보드에 연결되지 않는 SXM2 버전을 거의 구매할 뻔함)
RTX 3090 (AI 수요로 인해 800달러 이상 가격 형성)

먼저 CPU 추론을 시도해보라는 조언을 받은 후, 사용자는 다음과 같이 테스트를 진행했습니다:

모델: Qwen 3 30B Q4
하드웨어: Zen 4 프로세서와 DDR5 메모리
성능: CPU에서 초당 18.8 토큰
기대치 대 현실: 초당 3-5 토큰을 예상했으나, 거의 19 토큰 달성

사용자는 "Zen 4 + DDR5는 추론에 있어 정말 뛰어나다"고 언급했습니다.

실제 테스트 결과

사용자는 실제 코딩 작업 비교를 수행했습니다:

8B 모델은 "완전히 잘못된 코드를 자신 있게 작성함"
30B 모델은 "첫 시도에서 완벽하게 해냄"
30B 모델의 성능을 "기본적으로 GPT-4o 수준을 무료로 제공한다"고 표현

이는 특정 코딩 작업의 경우, 적절하게 양자화된 30B 모델이 최신 CPU 하드웨어에서 실행될 때, 로컬 LLM 추론에 일반적으로 연관되는 하드웨어 투자 없이도 대형 클라우드 기반 모델과 비슷한 결과를 제공할 수 있음을 시사합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Mistral AI가 산업 공학 AI 스택 구축을 위해 Emmi AI를 인수하다

Mistral AI가 산업 공학 AI 스택 구축을 위해 Emmi AI를 인수하다

Mistral AI가 Emmi AI를 인수하여 에너지, 자동차, 반도체, 항공우주 분야의 산업 시뮬레이션을 위한 물리학 AI 모델을 통합합니다. 30명 이상의 연구원으로 구성된 통합 팀은 린츠에 새로운 사무소를 개설할 예정입니다.

May 19, 2026, 08:15 PM UTC

Claude Code v2.1.132: SIGINT 정상 종료, MCP 수정 및 터미널 처리 개선

Claude Code v2.1.132: SIGINT 정상 종료, MCP 수정 및 터미널 처리 개선

Claude Code v2.1.132는 외부 SIGINT 수신 시 정상 종료를 수정하고, CLAUDE_CODE_SESSION_ID 및 CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN 환경 변수를 추가하며, MCP 메모리 누수 및 도구 목록 재시도 문제를 패치하고, IDE 터미널 전반의 수십 가지 터미널 에지 케이스를 해결합니다.

May 7, 2026, 12:15 AM UTC

스포티파이 개발자, AI 활용해 코드 없이 기여하기

스포티파이 개발자, AI 활용해 코드 없이 기여하기

Spotify의 핵심 개발자들은 12월부터 AI 덕분에 코드를 작성하지 않았는데, 특히 Claude Code를 사용하여 원격 실시간 코드 배포를 가능하게 하는 내부 'Honk' 시스템을 통해 이루어졌습니다.

Feb 14, 2026, 03:45 AM UTC

Nemotron 3 4B, 까다로운 벤치마크에서 Qwen 3.5 4B에 비해 성능이 떨어집니다

Nemotron 3 4B, 까다로운 벤치마크에서 Qwen 3.5 4B에 비해 성능이 떨어집니다

레딧 사용자가 복잡한 수학 및 프로그래밍 작업에서 Nemotron 3 4B Q8과 Qwen 3.5 4B Q8을 비교 테스트한 결과, Nemotron은 올바른 추론과 구조화된 출력을 생성하지 못한 반면 Qwen은 모든 테스트를 통과했습니다.

Mar 19, 2026, 05:45 AM UTC