O FOMOE Permite a Inferência do Modelo Qwen3.5 de 397B em Hardware de Desktop de US$ 2.100

✍️ OpenClawRadar📅 Publicado: March 29, 2026🔗 Source
O FOMOE Permite a Inferência do Modelo Qwen3.5 de 397B em Hardware de Desktop de US$ 2.100
Ad

O que o FOMOE Resolve

Modelos grandes de Mistura de Especialistas (MoE) exigem centenas de GBs de armazenamento de pesos, tipicamente em memória flash como NVMe. Durante a inferência, apenas uma pequena fração dos pesos é necessária, mas não é possível prever quais deles antecipadamente. Padrões de acesso aleatório tornam as latências da flash muito altas para inferência prática em hardware de consumo.

Como o FOMOE Funciona

O sistema torna a maioria das leituras de pesos de especialistas desnecessárias através de várias técnicas:

  • Armazena os especialistas mais comuns na memória da GPU (VRAM) com um cache de especialistas rolante atualizado
  • Atinge taxa de acerto de 60% na VRAM com inicialização aquecida, reduzindo leituras NVMe para 28% (12% servidos da DRAM)
  • Usa arquitetura ping-pong de GPU dupla para sobrepor carregamento de pesos e computação
  • Implementa Roteamento Consciente de Cache (CAR) - quando dois especialistas pontuam de forma similar, o modelo escolhe o próximo especialista com melhor pontuação já no cache VRAM ou DRAM dentro de um limite aceitável
Ad

Resultados de Desempenho

  • Velocidade de inferência de 5-9 tokens/segundo para o modelo de 397B parâmetros do Qwen3.5
  • Leituras NVMe reduzidas para 7% com CAR ativado
  • Apenas 3,5% de queda na perplexidade medida no wikitext
  • Requisitos de hardware: duas GPUs de US$ 500, 32 GB de RAM, uma unidade NVMe
  • Usa quantização Q4_K_M

A implementação consiste em aproximadamente 15.000 linhas de código C/HIP dirigido por Claude com forte orientação humana.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6
Tools

PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6

Um desenvolvedor criou o PromoClock.co, uma ferramenta gratuita que converte automaticamente os horários promocionais de 2x fora do pico do Claude "5-11am PT / 12-6pm GMT" para o horário local, usando o Claude 4.6 para lidar com a lógica de fuso horário, configuração do Next.js 15 e design da interface.

OpenClawRadar
OpenProphet: Agente de Negociação Autônomo de Código Aberto com Interface Web
Tools

OpenProphet: Agente de Negociação Autônomo de Código Aberto com Interface Web

OpenProphet é um agente de negociação autônomo de código aberto com uma interface web que suporta múltiplas contas da Alpaca simultaneamente e roda no OpenCode. Ele permite a configuração de personas e estratégias do agente, com a capacidade de usar qualquer LLM, não apenas o Claude.

OpenClawRadar
Claude-Skills Maintainer Solicita Feedback sobre Biblioteca de 181 Habilidades de Agentes
Tools

Claude-Skills Maintainer Solicita Feedback sobre Biblioteca de 181 Habilidades de Agentes

Reza, mantenedor do claude-skills, está pedindo feedback da comunidade sobre sua biblioteca de código aberto que contém 181 habilidades de agentes, 250 ferramentas Python e 15 personas de agentes que funcionam em 11 ferramentas de codificação de IA. Ele está questionando se a abordagem de habilidades isoladas é eficaz e quer opiniões sobre habilidades ausentes, agentes baseados em personas e integrações de ferramentas.

OpenClawRadar
Arquitetura Híbrida de IA Local-Nuvem: Padrões Práticos Inspirados por r/LocalLLaMA
Tools

Arquitetura Híbrida de IA Local-Nuvem: Padrões Práticos Inspirados por r/LocalLLaMA

A postagem original propõe um modelo de IA híbrida onde um modelo local lida com tarefas rotineiras e delega a um modelo na nuvem para raciocínio complexo por meio de uma única chamada de API, juntamente com um 'hipervisor' determinístico para barreiras de segurança.

OpenClawRadar