Interfaz: Nueva arquitectura de modelo supera a Gemini-3-Flash y GPT-5.4-Mini en tareas deterministas

Interfaze es una nueva arquitectura de modelo de Interfaze que fusiona modelos DNN/CNN específicos de tareas con omni-transformers, orientada a tareas deterministas de alta precisión a escala. Ofrece una ventana de contexto de 1 millón de tokens, hasta 32k tokens de salida y admite entradas de texto, imágenes, audio y archivos con razonamiento opcional.
Resultados de Benchmark
Según sus benchmarks, Interfaze lidera frente a modelos de nivel de precio similar (modelos Flash/mini como Gemini-3-Flash, GPT-5.4-Mini, Claude Sonnet 4.6 y Grok-4.3) en 9 pruebas comparativas directas:
- OCRBench V2: Interfaze 70.7% vs Gemini-3-Flash 55.8%, Claude-Sonnet-4.6 54.7%, GPT-5.4-Mini 52.7%, Grok-4.3 54.7%
- olmOCR: Interfaze 85.7% vs Gemini-3-Flash 75.3%, Claude-Sonnet-4.6 73.9%, GPT-5.4-Mini 80.1%, Grok-4.3 81.9%
- RefCOCO: Interfaze 82.1% vs Gemini-3-Flash 75.2%, Claude-Sonnet-4.6 75.5%, GPT-5.4-Mini 67.0%, Grok-4.3 25.0%
- VoxPopuli (WER, menor es mejor): Interfaze 2.4% vs Gemini-3-Flash 4.0%
- Spider 2.0-Lite: Interfaze 52.9% vs Gemini-3-Flash 45.2%, Claude-Sonnet-4.6 49.6%, GPT-5.4-Mini 26.7%, Grok-4.3 45.9%
- GPQA Diamond: Interfaze 89.9% vs Gemini-3-Flash 88.5%, Claude-Sonnet-4.6 89.9%, GPT-5.4-Mini 82.8%, Grok-4.3 73.6%
- MMMLU: Interfaze 90.9% vs Gemini-3-Flash 88.7%, Claude-Sonnet-4.6 84.9%, GPT-5.4-Mini 75.3%, Grok-4.3 89.7%
- MMMU-Pro: Interfaze 71.1% vs Gemini-3-Flash 67.6%, Claude-Sonnet-4.6 46.3%, GPT-5.4-Mini 40.4%, Grok-4.3 68.7%
- SOB Value Acc: Interfaze 79.5% vs Gemini-3-Flash 77.3%, Claude-Sonnet-4.6 77.9%, GPT-5.4-Mini 75.1%, Grok-4.3 78.4%
Interfaze también supera a proveedores especializados de OCR como Chandra OCR y Reducto, según la fuente.
Precios
Interfaze tiene un precio de $1.50 por millón de tokens de entrada y $3.50 por millón de tokens de salida, en línea con Gemini-3-Flash.
Para quién es
Desarrolladores que construyen pipelines de alto volumen de OCR, extracción de documentos, búsqueda web, transcripción de audio/diarización de hablantes, traducción o detección de objetos/GUI que necesitan precisión determinista sin el costo de los LLM completos.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Código Zap: Generador de Código de IA que Enseña a los Niños HTML/CSS/JS Real
Zap Code genera HTML, CSS y JavaScript funcionales a partir de descripciones en inglés sencillo para niños de 8 a 16 años. Ofrece tres modos de interacción y se ejecuta en un iframe aislado con un motor de complejidad progresiva.

La extensión de navegador wearehere escanea sitios en busca de riesgos de rastreo y privacidad.
wearehere es una extensión de navegador que escanea sitios web en diez categorías, incluyendo cookies, rastreadores, huella digital del dispositivo y patrones oscuros, luego los puntúa según los riesgos de privacidad. Tiene menos de 200KB, se ejecuta localmente en el navegador y también está disponible como un paquete npm para integrarse con agentes de IA a través del servidor MCP barebrowse.

companion-capture: Herramienta guarda las burbujas de habla efímeras de Claude Code
companion-capture es una herramienta de código abierto que captura los globos de diálogo del personaje compañero de Claude Code antes de que desaparezcan de la terminal. Guarda los mensajes en archivos markdown y SQLite para búsquedas, utilizando análisis del búfer de pantalla VT100 para rastrear posiciones del cursor.

Configuración de OpenClaw sin Interfaz Gráfica con Discord mediante Scripts Docker
Un repositorio de GitHub proporciona scripts para ejecutar OpenClaw con Discord en un contenedor Docker sin interfaz gráfica, evitando la TUI/WebUI. Incluye un script de gestión con comandos como claw init, start y stop, además de soporte preconfigurado para OpenAI Responses API, Chromium y varias herramientas.