EsoLang-Bench: Um Benchmark de Codificação Usando Linguagens Esotéricas para Testar o Raciocínio de LLM

O EsoLang-Bench é um novo benchmark de programação projetado para testar se os grandes modelos de linguagem podem realmente raciocinar sobre problemas ou estão apenas fazendo correspondência de padrões com os dados de treinamento. O benchmark usa linguagens de programação esotéricas com presença mínima de dados de treinamento.
Design do Benchmark
O benchmark usa cinco linguagens de programação esotéricas: Brainfuck, Befunge-98, Whitespace, Unlambda e Shakespeare. Essas linguagens foram escolhidas porque têm quase zero dados de treinamento nos pipelines típicos de pré-treinamento. O benchmark contém os mesmos problemas algorítmicos do HumanEval na mesma faixa de dificuldade, apenas traduzidos para essas linguagens esotéricas.
Metodologia de Teste
Os pesquisadores testaram cinco modelos: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B e Kimi K2. Eles usaram cinco estratégias de prompt, incluindo:
- Auto-scaffolding (autoandaime)
- Pares codificador-crítico
- Pipeline ReAct
Resultados
O melhor resultado único foi de 11,2% no Befunge-98 com auto-scaffolding. Os problemas de dificuldade Média, Difícil e Extra-Difícil permaneceram em 0% em todos os modelos, linguagens e estratégias. O prompting few-shot deu apenas +0,8 pontos percentuais em média, o que os pesquisadores descrevem como estatisticamente indistinguível de ruído.
Sistemas agentes como Claude Code e Codex tiveram desempenho 2-3 vezes melhor do que abordagens não agentes, mas essa melhoria veio principalmente de loops de feedback mais precisos e gerenciamento de contexto, em vez de evidência de transferência real de raciocínio.
Análise de Erros
A análise de erros revela padrões interessantes:
- No Brainfuck (que tem alguma presença online), os modelos conseguiram produzir sintaxe válida, mas falharam na lógica
- No Whitespace (que tem quase nenhum dado de treinamento), os modelos não conseguiram nem produzir programas válidos
Isso mostra uma clara lacuna entre o desempenho dos modelos em linguagens com algum dado de pré-treinamento versus aquelas com basicamente nenhum.
Propósito e Disponibilidade
O benchmark visa criar avaliações onde pontuações altas são realmente difíceis de falsificar, indo além de apenas problemas mais difíceis em linguagens convencionais como Python. Os pesquisadores sugerem que essa abordagem cria avaliações onde o incentivo econômico para manipular o benchmark não existe, e a única rota para um bom desempenho é o aprendizado genuíno para generalizar.
O EsoLang-Bench está disponível como um modelo para outros construírem, seja através de novas linguagens, novos tipos de problemas ou domínios completamente diferentes fora da distribuição.
📖 Read the full source: r/LocalLLaMA
👀 See Also

ClaudeOrb: Extensão do Chrome Monitora o Uso da API Claude em Tempo Real
Um desenvolvedor criou o ClaudeOrb, uma extensão gratuita do Chrome que exibe a porcentagem da sessão do Claude, limites semanais, temporizadores de contagem regressiva, custos do Claude Code e tendências de gastos de 7 dias. A ferramenta foi criada usando o Claude Code após atingir limites de taxa sem aviso.

MemRosetta adiciona memória persistente ao Claude Code com configuração de um único comando
MemRosetta v0.2.4 fornece ao Claude Code memória entre sessões através de um único comando npm install. A ferramenta inclui um servidor MCP com 6 ferramentas de memória, captura automática de sessões e armazenamento local em SQLite que pode ser compartilhado com o Cursor.

Por que uma Ferramenta run() Única com Comandos Unix Supera a Chamada de Funções para Agentes de IA
Um líder de backend com dois anos de experiência na construção de agentes argumenta que uma única ferramenta run(command="...") com comandos CLI no estilo Unix supera os catálogos tradicionais de chamada de funções. A abordagem aproveita a familiaridade existente dos LLMs com comandos de shell a partir dos dados de treinamento.

Sistema de Memória Automática de Código Aberto para Agentes LLM Alcança 94% de Precisão de Recuperação
Um desenvolvedor criou um plugin de memória para agentes baseados em LLM que extrai, classifica e persiste fatos automaticamente entre sessões sem comandos explícitos do usuário. O sistema alcançou 94,2% de precisão em um benchmark de recall com 52 pontos de verificação usando arquivos markdown estruturados em vez de bancos de dados vetoriais.