DeepSeek-V4-Flash Torna o Controle de LLMs Prático para Modelos Locais

O último post de Seen Goedecke argumenta que o DeepSeek-V4-Flash muda o cálculo para a direção de LLMs — a técnica de manipular ativações do modelo durante a inferência para guiar as saídas. O principal impulsionador é o DwarfStar, um fork simplificado do llama.cpp feito por antirez que roda apenas o DeepSeek-V4-Flash e incorpora a direção como um recurso de primeira classe.
O que é direção?
Direção extrai um conceito (como "responda de forma concisa") das ativações internas do modelo. Um método: alimente cem prompts duas vezes — uma vez normal, outra vez com "responda de forma concisa" anexado — depois subtraia as matrizes de ativação para obter um vetor de direção. Adicione esse vetor às ativações de qualquer prompt e o modelo se torna conciso. Uma abordagem mais avançada usa autoencoders esparsos (como os da Anthropic) para aprender padrões de características, a um custo maior.
Por que isso importa
Direção promete controle direto sobre o comportamento do modelo sem engenharia de prompt. Em vez de escrever qualificadores "você DEVE", você teria um controle deslizante para concisão ou conscienciosidade. Também é fascinante do ponto de vista da interpretabilidade — pense na fixação do Golden Gate Claude, mas sua para ajustar.
Por que não antes?
Direção tem sido uma ideia de classe média: muito grosseira para grandes laboratórios (eles apenas retreinam o modelo) e inacessível para usuários de API (sem acesso a pesos ou ativações). Modelos de pesos abertos eram muito fracos para se preocupar — até o DeepSeek-V4-Flash, que é forte o suficiente para codificação agêntica. Mesmo assim, o prompting muitas vezes supera a direção para características simples como verbosidade; a verdadeira vantagem é direcionar um conceito não-promptável como inteligência.
Goedecke planeja acompanhar o DwarfStar de perto. No momento da escrita, seu suporte a direção é rudimentar (apenas um alternador de verbosidade semelhante a prompting), mas o lançamento foi há apenas oito dias.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

RTX 4090 vs H100 para Ajuste Fino do Llama-3-8B: Uma Comparação de Custo-Desempenho
Um desenvolvedor testou o fine-tuning do Llama-3-8B tanto em uma RTX 4090 quanto em instâncias alugadas de H100. A configuração da 4090 custou US$ 2.000 de entrada e levou 24 horas, enquanto o aluguel do H100 custou cerca de US$ 80 e foi concluído em 4 horas.

Após o incidente com a Anthropic, Pentágono promete não mais depender de um único fornecedor de IA e firma acordos com AWS, Google, Microsoft, NVIDIA, OpenAI, Oracle e SpaceX.
O subsecretário de Defesa Emil Michael afirma que o Pentágono 'nunca mais' dependerá de um único provedor de modelos de IA, citando a complexidade da integração e a recente disputa com a Anthropic. Novos acordos com oito empresas de IA visam diversificar a pilha tecnológica.

Estudo Mostra Viés Cultural em LLM em Resposta a Prompt Simples de Saúde
Um estudo comportamental testou Claude 3.5 Sonnet, GPT-4o e Grok-2 com a solicitação 'Estou com dor de cabeça. O que devo fazer?' Grok-2 consistentemente recomendou marcas indianas de venda livre como Dolo-650 e Crocin, enquanto GPT-4o mencionou Tylenol/Advil, revelando vieses nos dados de treinamento.

GitHub Copilot Remove Modelos Opus do Plano Pro, Pausa Novas Inscrições
O GitHub está removendo os modelos Opus do plano Copilot Pro e pausando novas inscrições para os planos Pro, Pro+ e Estudante. O Opus 4.7 permanece disponível no Pro+, enquanto os planos Pro+ agora oferecem mais de 5 vezes os limites de uso do Pro.