RTX 5000 PRO 48GB, Qwen3.6-27B용 4400 tok/s 정밀 캐싱 제공

한 개발자가 RTX 5000 Pro 48GB(세금 포함 $4300)를 Mac Studio와 비교하여 모험을 감행했고, 그 결과는 도약을 정당화했습니다: Qwen3.6-27B-FP8 및 전체 정밀도 BF16 KV 캐시를 사용하여 프롬프트 처리(PP)에서 최대 4400 토큰/초, 텍스트 생성(TG)에서 50–80 tok/s를 달성했습니다.
하드웨어 및 비용 분석
- GPU 비용: $4300 (세금 포함)
- 총 조립 비용: $5600 (64GB RAM 포함)
- 컨텍스트 제한: 전체 정밀도(BF16 KV 캐시)에서 200K 토큰
성능 벤치마크
- 프롬프트 처리: 4400 tok/s
- 텍스트 생성: 매우 큰 프롬프트의 경우 50–60 tok/s, 작은 프롬프트의 경우 최대 80 tok/s
- 모델: 전체 정밀도 캐시를 사용한 Qwen3.6-27B-FP8
- 전력 소모: 듀얼 RTX 5090 설정의 약 절반
주요 관찰 사항
사용자는 사전 경험 없이 PC를 조립했으며, Claude Code에 의존했습니다(주간 Claude Code Max 한도의 50%를 vLLM/Linux 설정에 소모). BF16 캐시를 사용한 Qwen3.6-27B-FP8의 정확한 vLLM 설정을 설명한 Reddit 게시물이 주요 참고 자료였습니다. 작성자는 두 개의 RTX 5090이 성능은 더 좋지만 비용, 소음 및 전력 소모가 훨씬 더 크다고 언급합니다.
📖 전체 출처: r/LocalLLaMA
👀 See Also

다중 에이전트 AI 시스템에서 관계적 거버넌스의 필요성
현재의 거버넌스 프레임워크는 신원, 권한, 킬 스위치에 초점을 맞추고 있지만, 에이전트 간의 조정 문제는 다루지 못하고 있습니다. 세일즈포스의 연구에 따르면 에이전트 간 상호작용에는 맞춤형 솔루션이 필요하며, 연구 결과 협상에서는 우월함보다 따뜻함이 더 나은 성과를 보여줍니다.
Claude Code v2.1.140: 에이전트 도구 매칭, /goal 중단, Windows 이벤트 루프 지연 문제 수정
v2.1.140에서는 Agent 도구의 subagent_type 일치가 대소문자 및 구분자에 관계없이 작동하도록 개선되었으며, disableAllHooks 사용 시 /goal이 멈추는 문제가 수정되었고, 실행 파일 누락으로 인한 Windows 이벤트 루프 지연이 해결되었습니다. 그 외 다양한 개선 사항이 포함되어 있습니다.

AI로 FastTab 구축하기: X11용 맞춤형 작업 전환기
FastTab는 Zig와 OpenGL을 사용하여 X11의 Plasma 작업 전환기에서 발생하는 특정 성능 문제를 해결하며, Claude와 같은 AI 도구의 지원으로 개발되었습니다.

구글, 국방부에 비밀 등급 없는 업무용 AI 에이전트 제공 예정
블룸버그 보고서에 따르면, 구글이 미 국방부에 비밀 분류되지 않은 업무용 AI 에이전트를 제공하기로 합의했습니다. 이 기사는 해커 뉴스에서 61점을 받고 52개의 댓글 논의를 불러일으켰습니다.