Interfaze: Nova Arquitetura de Modelo Supera Gemini-3-Flash e GPT-5.4-Mini em Tarefas Determinísticas

Interfaze é uma nova arquitetura de modelo da Interfaze que mescla modelos DNN/CNN específicos de tarefa com omni-transformers, visando tarefas determinísticas de alta precisão em escala. Oferece uma janela de contexto de 1 milhão de tokens, máximo de 32 mil tokens de saída e suporta entradas de texto, imagens, áudio e arquivos com raciocínio opcional.
Resultados dos Benchmarks
De acordo com seus benchmarks, o Interfaze lidera contra modelos de faixa de preço similar (modelos Flash/mini como Gemini-3-Flash, GPT-5.4-Mini, Claude Sonnet 4.6 e Grok-4.3) em 9 testes comparativos:
- OCRBench V2: Interfaze 70,7% vs Gemini-3-Flash 55,8%, Claude-Sonnet-4.6 54,7%, GPT-5.4-Mini 52,7%, Grok-4.3 54,7%
- olmOCR: Interfaze 85,7% vs Gemini-3-Flash 75,3%, Claude-Sonnet-4.6 73,9%, GPT-5.4-Mini 80,1%, Grok-4.3 81,9%
- RefCOCO: Interfaze 82,1% vs Gemini-3-Flash 75,2%, Claude-Sonnet-4.6 75,5%, GPT-5.4-Mini 67,0%, Grok-4.3 25,0%
- VoxPopuli (WER, menor é melhor): Interfaze 2,4% vs Gemini-3-Flash 4,0%
- Spider 2.0-Lite: Interfaze 52,9% vs Gemini-3-Flash 45,2%, Claude-Sonnet-4.6 49,6%, GPT-5.4-Mini 26,7%, Grok-4.3 45,9%
- GPQA Diamond: Interfaze 89,9% vs Gemini-3-Flash 88,5%, Claude-Sonnet-4.6 89,9%, GPT-5.4-Mini 82,8%, Grok-4.3 73,6%
- MMMLU: Interfaze 90,9% vs Gemini-3-Flash 88,7%, Claude-Sonnet-4.6 84,9%, GPT-5.4-Mini 75,3%, Grok-4.3 89,7%
- MMMU-Pro: Interfaze 71,1% vs Gemini-3-Flash 67,6%, Claude-Sonnet-4.6 46,3%, GPT-5.4-Mini 40,4%, Grok-4.3 68,7%
- SOB Value Acc: Interfaze 79,5% vs Gemini-3-Flash 77,3%, Claude-Sonnet-4.6 77,9%, GPT-5.4-Mini 75,1%, Grok-4.3 78,4%
O Interfaze também supera fornecedores especializados de OCR como Chandra OCR e Reducto, de acordo com a fonte.
Preços
O Interfaze tem o preço de $1,50 por milhão de tokens de entrada e $3,50 por milhão de tokens de saída — alinhado com o Gemini-3-Flash.
Para Quem Serve
Desenvolvedores que constroem pipelines de alto volume de OCR, extração de documentos, pesquisa web, transcrição de áudio/diarização de locutores, tradução ou detecção de objetos/GUI que precisam de precisão determinística sem o custo de LLMs completos.
📖 Leia a fonte original: HN AI Agents
👀 See Also

GoStaff: Reescrita em Go do OpenClaw com Redução de Memória de 100x
GoStaff é uma reescrita em Go do OpenClaw que usa aproximadamente 100x menos memória (~17MB) enquanto mantém a compatibilidade com plugins do OpenClaw através de um shim JavaScript. Ele apresenta um sistema de habilidades de três níveis, persistência unificada no Postgres e loops ReAct com múltiplos provedores.

wmux: Multiplexador de Terminal Electron para Windows com Controle de Navegador via MCP
wmux é um multiplexador de terminal Electron de código aberto para Windows 10/11 que oferece divisões estilo tmux, sessões persistentes e controle de navegador via Chrome DevTools Protocol para agentes de IA de codificação como o Claude Code. Ele se registra automaticamente como um servidor MCP e permite que os agentes interajam com navegadores enquanto executam múltiplas sessões lado a lado.

Pneuma: Um Ambiente de Desktop Gerado por IA Onde o Software Se Materializa a Partir de Descrições
Pneuma é um ambiente de computação desktop onde você descreve o que deseja—um monitor de CPU, jogo, aplicativo de notas ou visualizador de dados—e um programa funcional se materializa em segundos. O sistema gera módulos autônomos em Rust, os compila para WebAssembly e os executa em instâncias sandboxed do Wasmtime com renderização GPU via wgpu.

Recuperação de código para agentes de IA: Por que embeddings vetoriais falham e gráficos LLM por arquivo vencem
Após um ano construindo um sistema de indexação de código, a equipe por trás do Bytebell descobriu que embeddings vetoriais em chunks de código e ASTs do Tree-sitter ambos ficaram aquém, enquanto resumos LLM por arquivo armazenados em um grafo Neo4j com busca semântica de texto completo melhoraram significativamente a precisão da recuperação.