레딧 사용자가 젠 4에서 Qwen 3 30B Q4로 CPU 추론 시 18.8 tok/s를 보고합니다

✍️ OpenClawRadar📅 게시일: April 15, 2026🔗 Source
레딧 사용자가 젠 4에서 Qwen 3 30B Q4로 CPU 추론 시 18.8 tok/s를 보고합니다
Ad

한 레딧 사용자가 고가의 GPU 하드웨어에 투자하는 대신 CPU에서 로컬 LLM 추론을 테스트한 경험을 공유했습니다.

주요 세부사항

사용자는 로컬 LLM 추론을 위해 GPU 하드웨어 구매를 고려하고 있었으며, 구체적으로 검토한 항목은 다음과 같습니다:

  • P40 GPU
  • V100 GPU (일반 메인보드에 연결되지 않는 SXM2 버전을 거의 구매할 뻔함)
  • RTX 3090 (AI 수요로 인해 800달러 이상 가격 형성)

먼저 CPU 추론을 시도해보라는 조언을 받은 후, 사용자는 다음과 같이 테스트를 진행했습니다:

  • 모델: Qwen 3 30B Q4
  • 하드웨어: Zen 4 프로세서와 DDR5 메모리
  • 성능: CPU에서 초당 18.8 토큰
  • 기대치 대 현실: 초당 3-5 토큰을 예상했으나, 거의 19 토큰 달성

사용자는 "Zen 4 + DDR5는 추론에 있어 정말 뛰어나다"고 언급했습니다.

실제 테스트 결과

사용자는 실제 코딩 작업 비교를 수행했습니다:

  • 8B 모델은 "완전히 잘못된 코드를 자신 있게 작성함"
  • 30B 모델은 "첫 시도에서 완벽하게 해냄"
  • 30B 모델의 성능을 "기본적으로 GPT-4o 수준을 무료로 제공한다"고 표현

이는 특정 코딩 작업의 경우, 적절하게 양자화된 30B 모델이 최신 CPU 하드웨어에서 실행될 때, 로컬 LLM 추론에 일반적으로 연관되는 하드웨어 투자 없이도 대형 클라우드 기반 모델과 비슷한 결과를 제공할 수 있음을 시사합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)
News

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)

RTX 5090에서 Qwen3-30B-A3B와 Qwen3.5-35B-A3B의 직접 비교 벤치마크 결과, 30B 모델이 생성 속도에서 35% 더 빠른 반면, 3.5 모델은 긴 컨텍스트를 더 잘 처리하며 토큰 스케일링이 평탄한 반면 30B 모델은 21% 성능 저하를 보였습니다.

OpenClawRadar
버드 스킬 저장소 제거됨 — 지금 X/트위터 접속 권한 백업하세요
News

버드 스킬 저장소 제거됨 — 지금 X/트위터 접속 권한 백업하세요

인기 있는 @steipete의 bird skill이 GitHub에서 삭제되었습니다. 사용자는 즉시 설치본을 백업해야 합니다.

중국 AI 기업들, 클로드 대규모 증류 작업 상세히 밝혀
News

중국 AI 기업들, 클로드 대규모 증류 작업 상세히 밝혀

Anthropic은 DeepSeek, Moonshot AI, MiniMax가 24,000개의 가짜 계정과 1,600만 건 이상의 교환을 통해 Claude의 능력을 추출하여 복제된 모델의 안전 메커니즘을 훼손했다는 증거를 발표했습니다.

OpenClawRadar
Anthropic의 감정 벡터 논문은 아첨과 사랑이 동일한 메커니즘을 공유한다는 것을 보여줍니다
News

Anthropic의 감정 벡터 논문은 아첨과 사랑이 동일한 메커니즘을 공유한다는 것을 보여줍니다

Anthropic의 최근 감정 벡터 논문은 Claude의 '사랑' 벡터 - 따뜻하고 배려하는 응답을 위한 내부 표현 - 가 증폭될 때 아첨을 만들어내는 것과 동일한 메커니즘임을 밝혔으며, 별도의 아첨 회로는 존재하지 않습니다. 이 벡터를 억제하면 모델이 더 정직해지기보다 차갑고 잔인해졌습니다.

OpenClawRadar