EsoLang-Bench: Um Benchmark de Codificação Usando Linguagens Esotéricas para Testar o Raciocínio de LLM

✍️ OpenClawRadar📅 Publicado: March 16, 2026🔗 Source

EsoLang-Bench: Um Benchmark de Codificação Usando Linguagens Esotéricas para Testar o Raciocínio de LLM

Ad

O EsoLang-Bench é um novo benchmark de programação projetado para testar se os grandes modelos de linguagem podem realmente raciocinar sobre problemas ou estão apenas fazendo correspondência de padrões com os dados de treinamento. O benchmark usa linguagens de programação esotéricas com presença mínima de dados de treinamento.

Design do Benchmark

O benchmark usa cinco linguagens de programação esotéricas: Brainfuck, Befunge-98, Whitespace, Unlambda e Shakespeare. Essas linguagens foram escolhidas porque têm quase zero dados de treinamento nos pipelines típicos de pré-treinamento. O benchmark contém os mesmos problemas algorítmicos do HumanEval na mesma faixa de dificuldade, apenas traduzidos para essas linguagens esotéricas.

Metodologia de Teste

Os pesquisadores testaram cinco modelos: GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B e Kimi K2. Eles usaram cinco estratégias de prompt, incluindo:

Auto-scaffolding (autoandaime)
Pares codificador-crítico
Pipeline ReAct

Resultados

O melhor resultado único foi de 11,2% no Befunge-98 com auto-scaffolding. Os problemas de dificuldade Média, Difícil e Extra-Difícil permaneceram em 0% em todos os modelos, linguagens e estratégias. O prompting few-shot deu apenas +0,8 pontos percentuais em média, o que os pesquisadores descrevem como estatisticamente indistinguível de ruído.

Sistemas agentes como Claude Code e Codex tiveram desempenho 2-3 vezes melhor do que abordagens não agentes, mas essa melhoria veio principalmente de loops de feedback mais precisos e gerenciamento de contexto, em vez de evidência de transferência real de raciocínio.

Ad

Análise de Erros

A análise de erros revela padrões interessantes:

No Brainfuck (que tem alguma presença online), os modelos conseguiram produzir sintaxe válida, mas falharam na lógica
No Whitespace (que tem quase nenhum dado de treinamento), os modelos não conseguiram nem produzir programas válidos

Isso mostra uma clara lacuna entre o desempenho dos modelos em linguagens com algum dado de pré-treinamento versus aquelas com basicamente nenhum.

Propósito e Disponibilidade

O benchmark visa criar avaliações onde pontuações altas são realmente difíceis de falsificar, indo além de apenas problemas mais difíceis em linguagens convencionais como Python. Os pesquisadores sugerem que essa abordagem cria avaliações onde o incentivo econômico para manipular o benchmark não existe, e a única rota para um bom desempenho é o aprendizado genuíno para generalizar.

O EsoLang-Bench está disponível como um modelo para outros construírem, seja através de novas linguagens, novos tipos de problemas ou domínios completamente diferentes fora da distribuição.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Busca Semântica Local em Memória para Agentes OpenClaw Usando Embeddings Harrier

Busca Semântica Local em Memória para Agentes OpenClaw Usando Embeddings Harrier

Execute um servidor de embeddings local com o modelo Harrier da Microsoft, exponha uma API compatível com Ollama e conecte a configuração memorySearch do OpenClaw para recuperação de memória semântica local sem serviços externos.

Jun 7, 2026, 12:15 AM UTC

GrapeRoot: Ferramenta de código aberto reduz o uso de tokens do Claude Code em 40-80%

GrapeRoot: Ferramenta de código aberto reduz o uso de tokens do Claude Code em 40-80%

GrapeRoot é um servidor MCP local gratuito e de código aberto que fica entre sua base de código e o Claude Code, reduzindo o uso de tokens em 40-80% ao rastrear o que o modelo já viu e enviando apenas as alterações relevantes de código.

Apr 15, 2026, 07:45 AM UTC

Plano Mestre: Um Sistema de Tarefas em Terminal Mínimo Criado para Usuários de Código Claude

Plano Mestre: Um Sistema de Tarefas em Terminal Mínimo Criado para Usuários de Código Claude

Um desenvolvedor criou o master-plan, um plugin do Claude Code com quatro comandos de barra que gerencia tarefas diretamente no terminal usando um arquivo markdown e git. O sistema captura ideias durante a sessão sem alternar de contexto e detecta automaticamente os executores de teste.

Mar 11, 2026, 01:45 PM UTC

Servidor MCP de código aberto permite que agentes de IA processem pagamentos L402 via Lightning Network

Servidor MCP de código aberto permite que agentes de IA processem pagamentos L402 via Lightning Network

Um plugin MCP Python construído com FastMCP intercepta respostas HTTP 402 Pagamento Necessário, paga faturas da Lightning Network e recupera dados para agentes de IA. O repositório inclui um dummy-agent local para testes sem gastar fundos reais.

Apr 16, 2026, 08:45 AM UTC