SWE-rebench-V2 Lançado: Maior Conjunto de Dados Multilíngue Aberto para Treinamento de Agentes de Código

Detalhes do Lançamento do SWE-rebench-V2
A equipe de P&D da Nebius, liderada por Ibragim, publicou o SWE-rebench-V2, que eles descrevem como "atualmente o maior conjunto de dados aberto do mundo para treinar agentes de codificação". O conjunto de dados é multilíngue e executável, projetado especificamente para treinamento de aprendizado por reforço em grande escala.
Principais Características Técnicas
A equipe construiu um pipeline automatizado para extrair ambientes de RL em escala. Este lançamento inclui:
- O conjunto de dados completo SWE-rebench-V2
- Um relatório técnico detalhado
- Artigo e conjunto de dados disponíveis em: https://huggingface.co/papers/2602.23866
Comunidade e Suporte
A equipe mantém suporte ativo no Discord tanto para o conjunto de dados quanto para sua Tabela de Classificação SWE-rebench em: https://discord.gg/wXYmWpMu. Eles observam que a comunidade LocalLLaMA forneceu "o feedback mais valioso" para seu trabalho com a Tabela de Classificação SWE-rebench e confirmam que continuam trabalhando na tabela de classificação com planos para "torná-la ainda mais legal".
Para colaborações de pesquisa ou perguntas, Ibragim pode ser contatado por DM no Reddit ou Twitter (X) em: https://x.com/ibragim_bad.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

LogClaw: SRE de IA de Código Aberto para Criação Automática de Chamados a partir de Logs
LogClaw é uma plataforma de inteligência de logs de código aberto que roda no Kubernetes, ingere logs via OpenTelemetry, detecta anomalias usando pontuação composta baseada em sinais e cria automaticamente tickets com análise de causa raiz em cerca de 90 segundos.

Claude Code Routines: Tarefas Automatizadas na Nuvem para Fluxos de Trabalho de Desenvolvimento de IA
As Rotinas Claude Code permitem que desenvolvedores salvem configurações do Claude Code como tarefas automatizadas que são executadas na infraestrutura de nuvem gerenciada pela Anthropic. As rotinas suportam gatilhos agendados, de API e do GitHub para execução automática de prompts em repositórios.

Claude Counter: Aplicativo Android monitora limites de uso do Claude com notificações em tempo real
Um desenvolvedor criou o Claude Counter, um aplicativo Android gratuito que consulta a API do Claude para exibir limites de uso ao vivo da sessão e semanais. O aplicativo mostra barras de progresso, fornece notificações ricas com porcentagem restante e alerta quando os limites são redefinidos.

A documentação do Claude Code inclui componentes React excessivos que inflam as contagens de tokens
Uma análise da documentação do LLM do Claude Code revela que os arquivos MDX contêm componentes React massivamente embutidos, com o arquivo context-window.md usando 18.501 tokens, mas apenas 551 tokens de conteúdo de documentação real.