Andrej Karpathy se junta à equipe de pré-treinamento da Anthropic para impulsionar a auto-melhoria recursiva usando Claude

Andrej Karpathy, um dos pesquisadores de IA mais respeitados da atualidade e criador das aulas no YouTube que ensinaram metade da comunidade de desenvolvedores como redes neurais funcionam, juntou-se à equipe de pré-treinamento da Anthropic. Esta é a terceira figura sênior da OpenAI a migrar para a Anthropic em menos de dois anos, após Jan Leike (maio de 2024) e John Schulman (agosto de 2024).
O que Karpathy fará
Karpathy está se juntando à equipe de pré-treinamento liderada por Nick Josef e construindo um novo time focado em usar Claude para acelerar pesquisas de pré-treinamento. Isso significa que a Anthropic está apostando que Claude pode ajudar a tornar a si mesmo mais inteligente — um ciclo de autoaperfeiçoamento recursivo — com um dos pesquisadores mais capazes do mundo liderando-o.
Momento e implicações
O anúncio veio no dia seguinte ao veredito do julgamento de Musk, que decidiu a favor de Sam Altman. O timing pode ser coincidência ou a jogada de aquisição de talentos mais ousada da história da tecnologia. O Polymarket dá à Anthropic 67,5% de chance de abrir capital antes da OpenAI, e comentaristas esperam que o IPO da Anthropic seja mais bem-sucedido que o da OpenAI.
Crescimento do ecossistema
O ecossistema em torno do Claude está se fortalecendo a cada mês: conectores permitem que Claude orquestre ferramentas criativas profissionais nativamente, a API possibilita que plataformas como Magic Hour e Kling integrem geração de vídeo a pipelines alimentados por Claude, e modelos financeiros permitem que fluxos de trabalho inteiros da indústria sejam executados por Claude. Agora, o cara que construiu o sistema de direção autônoma da Tesla está melhorando o pré-treinamento.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also
O Risco Mundano: Por que as Maiores Ameaças da Segurança da IA são Entediantes, não Dramáticas
Um ensaio argumenta que falhas mundanas de IA já estão causando danos em escala, as abordagens atuais de alinhamento dependem excessivamente de ambientes isolados, e a convergência de capacidades torna a exposição acidental ao mundo real cada vez mais plausível.

Dilema do Desenvolvedor: Preocupações com Segurança Nacional Limitam as Opções de Modelos Abertos
Um desenvolvedor que trabalha com clientes sensíveis à segurança relata ser forçado a escolher entre modelos abertos americanos desatualizados, como o gpt-oss-120b, ou modelos chineses mais capazes, como GLM e MiniMax, que os clientes rejeitam por considerarem riscos à segurança nacional.

LLMs favorecem seus próprios resultados em contratações: taxas 23%–60% maiores para currículos refinados por IA
Experimento em larga escala mostra que selecionadores de currículos baseados em LLM preferem currículos gerados por IA em 67%–82% das vezes, resultando em taxas de pré-seleção 23%–60% maiores para candidatos que usam o mesmo modelo.

Qwen3.5-27B Comparação de Desempenho entre 8 bits e 16 bits
Um usuário do Reddit testou o Qwen3.5-27B com vLLM comparando pesos bf16 e cache KV de 16 bits contra a quantização fp8 do Qwen com cache KV de 8 bits, encontrando resultados praticamente idênticos no benchmark Aider usando uma RTX 6000 Pro.