O FOMOE Permite a Inferência do Modelo Qwen3.5 de 397B em Hardware de Desktop de US$ 2.100

O que o FOMOE Resolve
Modelos grandes de Mistura de Especialistas (MoE) exigem centenas de GBs de armazenamento de pesos, tipicamente em memória flash como NVMe. Durante a inferência, apenas uma pequena fração dos pesos é necessária, mas não é possível prever quais deles antecipadamente. Padrões de acesso aleatório tornam as latências da flash muito altas para inferência prática em hardware de consumo.
Como o FOMOE Funciona
O sistema torna a maioria das leituras de pesos de especialistas desnecessárias através de várias técnicas:
- Armazena os especialistas mais comuns na memória da GPU (VRAM) com um cache de especialistas rolante atualizado
- Atinge taxa de acerto de 60% na VRAM com inicialização aquecida, reduzindo leituras NVMe para 28% (12% servidos da DRAM)
- Usa arquitetura ping-pong de GPU dupla para sobrepor carregamento de pesos e computação
- Implementa Roteamento Consciente de Cache (CAR) - quando dois especialistas pontuam de forma similar, o modelo escolhe o próximo especialista com melhor pontuação já no cache VRAM ou DRAM dentro de um limite aceitável
Resultados de Desempenho
- Velocidade de inferência de 5-9 tokens/segundo para o modelo de 397B parâmetros do Qwen3.5
- Leituras NVMe reduzidas para 7% com CAR ativado
- Apenas 3,5% de queda na perplexidade medida no wikitext
- Requisitos de hardware: duas GPUs de US$ 500, 32 GB de RAM, uma unidade NVMe
- Usa quantização Q4_K_M
A implementação consiste em aproximadamente 15.000 linhas de código C/HIP dirigido por Claude com forte orientação humana.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

PromoClock: Rastreador de Fuso Horário para os Horários Fora de Pico 2x do Claude Desenvolvido com Claude 4.6
Um desenvolvedor criou o PromoClock.co, uma ferramenta gratuita que converte automaticamente os horários promocionais de 2x fora do pico do Claude "5-11am PT / 12-6pm GMT" para o horário local, usando o Claude 4.6 para lidar com a lógica de fuso horário, configuração do Next.js 15 e design da interface.

OpenProphet: Agente de Negociação Autônomo de Código Aberto com Interface Web
OpenProphet é um agente de negociação autônomo de código aberto com uma interface web que suporta múltiplas contas da Alpaca simultaneamente e roda no OpenCode. Ele permite a configuração de personas e estratégias do agente, com a capacidade de usar qualquer LLM, não apenas o Claude.

Claude-Skills Maintainer Solicita Feedback sobre Biblioteca de 181 Habilidades de Agentes
Reza, mantenedor do claude-skills, está pedindo feedback da comunidade sobre sua biblioteca de código aberto que contém 181 habilidades de agentes, 250 ferramentas Python e 15 personas de agentes que funcionam em 11 ferramentas de codificação de IA. Ele está questionando se a abordagem de habilidades isoladas é eficaz e quer opiniões sobre habilidades ausentes, agentes baseados em personas e integrações de ferramentas.

Arquitetura Híbrida de IA Local-Nuvem: Padrões Práticos Inspirados por r/LocalLLaMA
A postagem original propõe um modelo de IA híbrida onde um modelo local lida com tarefas rotineiras e delega a um modelo na nuvem para raciocínio complexo por meio de uma única chamada de API, juntamente com um 'hipervisor' determinístico para barreiras de segurança.