Интерфазе: Новая архитектура модели превосходит Gemini-3-Flash и GPT-5.4-Mini в детерминированных задачах

Interfaze — это новая архитектура модели от компании Interfaze, объединяющая специализированные DNN/CNN модели с омни-трансформерами для решения высокоточных детерминированных задач в масштабе. Она предлагает окно контекста в 1 млн токенов, до 32 тыс. выходных токенов и поддерживает ввод текста, изображений, аудио и файлов с возможностью рассуждений.
Результаты бенчмарков
Согласно их тестам, Interfaze опережает модели аналогичного ценового сегмента (Flash/mini модели, такие как Gemini-3-Flash, GPT-5.4-Mini, Claude Sonnet 4.6 и Grok-4.3) в 9 прямых сравнениях:
- OCRBench V2: Interfaze 70.7% против Gemini-3-Flash 55.8%, Claude-Sonnet-4.6 54.7%, GPT-5.4-Mini 52.7%, Grok-4.3 54.7%
- olmOCR: Interfaze 85.7% против Gemini-3-Flash 75.3%, Claude-Sonnet-4.6 73.9%, GPT-5.4-Mini 80.1%, Grok-4.3 81.9%
- RefCOCO: Interfaze 82.1% против Gemini-3-Flash 75.2%, Claude-Sonnet-4.6 75.5%, GPT-5.4-Mini 67.0%, Grok-4.3 25.0%
- VoxPopuli (WER, чем ниже, тем лучше): Interfaze 2.4% против Gemini-3-Flash 4.0%
- Spider 2.0-Lite: Interfaze 52.9% против Gemini-3-Flash 45.2%, Claude-Sonnet-4.6 49.6%, GPT-5.4-Mini 26.7%, Grok-4.3 45.9%
- GPQA Diamond: Interfaze 89.9% против Gemini-3-Flash 88.5%, Claude-Sonnet-4.6 89.9%, GPT-5.4-Mini 82.8%, Grok-4.3 73.6%
- MMMLU: Interfaze 90.9% против Gemini-3-Flash 88.7%, Claude-Sonnet-4.6 84.9%, GPT-5.4-Mini 75.3%, Grok-4.3 89.7%
- MMMU-Pro: Interfaze 71.1% против Gemini-3-Flash 67.6%, Claude-Sonnet-4.6 46.3%, GPT-5.4-Mini 40.4%, Grok-4.3 68.7%
- SOB Value Acc: Interfaze 79.5% против Gemini-3-Flash 77.3%, Claude-Sonnet-4.6 77.9%, GPT-5.4-Mini 75.1%, Grok-4.3 78.4%
Interfaze также превосходит специализированных OCR-провайдеров, таких как Chandra OCR и Reducto, согласно источнику.
Ценообразование
Interfaze стоит $1.50 за миллион входных токенов и $3.50 за миллион выходных токенов — наравне с Gemini-3-Flash.
Для кого это
Для разработчиков, создающих высоконагруженные конвейеры OCR, извлечения документов, веб-поиска, транскрипции аудио/диаризации дикторов, перевода или обнаружения объектов/GUI, которым нужна детерминированная точность без затрат на полноценные LLM.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

TestThread: Фреймворк с открытым исходным кодом для тестирования ИИ-агентов
TestThread — это фреймворк с открытым исходным кодом для тестирования ИИ-агентов, который запускает тесты на реальных конечных точках, предоставляет результаты прохождения/непрохождения с ИИ-диагностикой и включает такие функции, как семантическое сопоставление, обнаружение PII и интеграцию с CI/CD.

Кодев: Рабочий процесс ИИ-агента для 106 PR за 14 дней
Codev — это система с открытым исходным кодом, которая координирует несколько ИИ-агентов через строгий рабочий процесс Spec→Plan→Implement→Review→PR, выявляя 20 ошибок перед выпуском и создавая код, оценённый на 1,2 балла лучше по 10-балльной шкале.

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога
OpenEvol v0.1.1 — это автономный конвейер, который автоматически анализирует историю диалогов ИИ для создания наборов данных для тонкой настройки без ручной разметки. Изначально работает на CPU и поддерживает пять бэкендов-учителей, включая API, совместимые с OpenAI, и HuggingFace Transformers.

Поддержка MCP объединена в llama.cpp с новыми функциями веб-интерфейса
Запрос на включение изменений (pull request) для Model Context Protocol (MCP) в проект llama.cpp был принят в основную ветку репозитория. Это добавляет поддержку MCP, возможность вызова инструментов, агентский цикл и селектор сервера на стороне llama-server/WebUI.