APEX MoE Quants 업데이트: 25개 이상의 새로운 모델과 I-나노 등급 출시

✍️ OpenClawRadar📅 게시일: May 4, 2026🔗 Source
APEX MoE Quants 업데이트: 25개 이상의 새로운 모델과 I-나노 등급 출시
Ad

APEX 양자화 전략(MoE 인식 혼합 정밀도)은 Qwen 3.5 35B-A3B의 초기 출시 이후 크게 확장되었습니다. Hugging Face 컬렉션에는 주요 제품군 전반에 걸쳐 30개 이상의 MoE 모델이 포함되어 있으며, 새로운 초압축 I-Nano 계층도 제공됩니다.

사용자 피드백의 주요 결과

  • 긴 컨텍스트 유지: APEX I-Balanced 및 I-Compact 버전은 30~50B급 MoE에서 32k 토큰 이상 일관성을 유지하는 반면, 균일 Q4_K는 성능이 저하됩니다. 공유 전문가와 에지 계층을 고정밀도로 유지하면 장거리 토큰 라우팅이 보존된다는 가설입니다.
  • 코딩 성능: Qwen 3.6 35B-A3B 사용자들은 I-Compact와 I-Mini가 실제 코드 작업에서 F16에 근접하며, 크기 기대치보다 우수하다고 보고합니다.

추가된 새 모델

제품군별로 그룹화되었으며, 대부분이 30~70B급 MoE로 I-Mini/I-Compact에서 소비자 GPU 하나에 맞습니다:

  • Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, Claude 4.6/4.7 증류); Qwen3-Coder 30B, Next.
  • 프론티어급 (임대 Blackwell): MiniMax-M2.5/M2.7 (228B/24B 활성), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (멀티모달), Holo3 35B-A3B, Huihui3.5 67B-A3B.
  • 하이브리드 Mamba/SSM MoE: Nemotron-3-Nano 변종, Holo3, LFM2 24B-A2B.
  • Gemma 4: gemma-4 26B-A4B-it (업데이트된 Google 채팅 템플릿으로 재양자화), +Claude Opus 증류, +heretic, Gemopus-4 Preview.
  • 커뮤니티 병합: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Ad

새 계층: I-Nano (IQ2_XXS)

중간 계층 라우팅 전문가를 2.06bpw, 에지 근처를 IQ2_S, 에지를 Q3_K, 공유 전문가를 Q5_K로 낮춥니다. I-Mini보다 약 20% 작으며, 희소 전문가 활성화로 인해 MoE에서만 사용 가능합니다. imatrix가 필요합니다.

크기 예시:

  • Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
  • Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (밀집 공유 전문가로 인해 절감 효과가 적음)

링크

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

매니페스트, GitHub 코파일럿을 네 번째 AI 공급자로 오픈클라우 라우팅에 추가
News

매니페스트, GitHub 코파일럿을 네 번째 AI 공급자로 오픈클라우 라우팅에 추가

Manifest는 이제 GitHub Copilot 구독을 통해 OpenClaw 요청을 라우팅하는 것을 지원하며, Anthropic, OpenAI, Minimax와 함께 사용 가능한 공급자로 합류했습니다. 이를 통해 개발자는 개발용으로 구축된 모델을 통해 기존 Copilot 플랜을 코드 작업에 사용할 수 있습니다.

OpenClawRadar
AI가 세상을 먹어치우다 (2026년 봄) – 종합 시장 분석
News

AI가 세상을 먹어치우다 (2026년 봄) – 종합 시장 분석

2026년 봄 AI 산업 동향, 시장 규모, 도입 지표에 대한 심층 PDF 보고서. 주요 기술, 업체, 전망 포함.

OpenClawRadar
남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직
News

남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직

남아프리카공화국 내무부는 시민권, 이민, 난민 보호에 관한 개정 백서의 참고문헌 목록에서 AI 환각 현상이 발견된 후 두 명의 관리를 정직했습니다. 부서는 AI 검사를 시행하고 2022년 11월 이후의 모든 정책 문서를 검토할 예정입니다.

OpenClawRadar
Anthropic API 결제 오류: 소넷 모델에 오픈스 요금이 부과됨
News

Anthropic API 결제 오류: 소넷 모델에 오픈스 요금이 부과됨

사용자가 Anthropic API에서 claude-sonnet-4-6 모델을 Opus 가격으로 잘못 청구하고 있음을 발견했습니다. 정확한 모델 문자열을 반환함에도 불구하고, 비용 불일치를 보여주는 원시 이벤트 데이터 분석을 통해 이 버그가 확인되었습니다.

OpenClawRadar