As NPUs da AMD Ryzen AI Ganham Suporte para LLMs no Linux via Lemonade 10.0 e FastFlowLM

O Que Há de Novo
As NPUs AMD Ryzen AI agora podem executar modelos de linguagem grandes no Linux através da versão 10.0 do servidor de código aberto Lemonade, que inclui suporte a NPUs Linux para LLMs e Whisper. Isso marca o primeiro uso prático das NPUs Ryzen AI no Linux além de código de nicho.
Detalhes Técnicos
A implementação se baseia no FastFlowLM 0.9.35, um runtime voltado para NPUs construído exclusivamente para o Ryzen AI que pode suportar contextos de até 256 mil tokens com as NPUs Ryzen AI da geração atual. O Lemonade 10.0 também adiciona integração nativa com o Claude Code.
Requisitos do sistema:
- Kernel Linux 7.0 OU back-ports do driver AMDXDNA para versões estáveis existentes do kernel
- Runtime FastFlowLM 0.9.35
- Servidor Lemonade 10.0
Este suporte deve funcionar com todos os SoCs atuais da série AMD Ryzen AI 300/400. A AMD desenvolveu o driver acelerador AMDXDNA no kernel Linux principal nos últimos dois anos, mas até agora o suporte a software em espaço do usuário era extremamente limitado.
Contexto
Anteriormente, o próprio software GAIA da AMD no Linux usava Vulkan com iGPUs em vez de suporte a NPUs. O momento deste suporte ao Linux é notável com a série Ryzen AI Embedded P100 chegando ao mercado e a série Ryzen AI PRO 400, que provavelmente verão mais uso no Linux do que em implantações Windows para consumidores.
O Lemonade fornece documentação para executar LLMs no Linux com FastFlowLM e Lemonade.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.
A Microsoft Research lançou o Phi-4-reasoning-vision-15B, um modelo multimodal de raciocínio de 15 bilhões de parâmetros com pesos abertos, disponível através do Microsoft Foundry, HuggingFace e GitHub. O modelo equilibra poder de raciocínio com eficiência e se destaca em raciocínio matemático/científico e compreensão de interfaces.

Mergulho Profundo na Quantização do Cache KV do Qwen: PPL, Divergência KL e Resultados Assimétricos de K/V
Segunda rodada de benchmarks no Qwen 3.6-35B-A3B com quantização do cache KV: perplexidade, divergência KL, combinações assimétricas K/V e profundidade de contexto de 64K no Apple M5 Max.

Título do artigo: Visão Geral da IA do Google Rotula Falsamente Violinista Canadense como Criminoso Sexual, Processo Protocolado
Ashley MacIsaac processa Google por US$ 1,5 milhão após o AI Overview gerar afirmações falsas de que ele era um criminoso sexual condenado, levando ao cancelamento de um show.

Acordo da CBP com a Clearview AI: Reconhecimento Facial para Direcionamento Tático
A Alfândega e Proteção de Fronteiras dos EUA contratou a Clearview AI para direcionamento tático, usando tecnologia de reconhecimento facial em bilhões de imagens extraídas da internet.