Еженедельный обзор мультимодального ИИ: Holotron-12B, Nemotron Omni, GlyphPrinter и другие

Открытые разработки в области мультимодального ИИ
Вот ключевые релизы и проекты мультимодального ИИ с открытым исходным кодом за прошедшую неделю, отобранные из r/LocalLLaMA.
Holotron-12B
Holotron-12B — это открытая модель агента для компьютерного использования, доступная на Hugging Face. Она оптимизирована для высокой пропускной способности и работы с длинными контекстами, содержащими множество изображений, и служит открытой альтернативой для экосистемы агентов компьютерного использования, выходящей за рамки закрытых API.
NVIDIA Nemotron Omni + Isaac GR00T N1.7
NVIDIA выпустила открытые модели Nemotron 3 omni, которые объединяют язык, зрение и голос в едином стеке. GR00T N1.7 — это модель "зрение-язык-действие", специально разработанная для робототехнических приложений.
GlyphPrinter
GlyphPrinter решает проблему точности рендеринга текста в генераторах изображений на основе ИИ, используя Region-Grouped Direct Preference Optimization. Он балансирует художественное оформление с точным отображением текста и предоставляет открытые веса. Этот подход исправляет локальные орфографические ошибки в сгенерированных изображениях.
SparkVSR
Модель сверхвысокого разрешения видео от Google улучшает качество и чёткость видео. Этот проект сосредоточен на повышении разрешения видео с помощью обработки на основе ИИ.
SegviGen
SegviGen позволяет выполнять 3D-сегментацию объектов через раскрашивание, перепрофилируя 3D-генераторы изображений. Метод представляет сегментацию как задачу раскрашивания и, по сообщениям, использует менее 1% обучающих данных, необходимых для старых методов. Проект включает открытый код и демонстрацию.
OpenMAIC
OpenMAIC (Multi-Agent Interactive Classroom) превращает любую тему или документ в интерактивный класс с ИИ-учителями и одноклассниками. Он использует оркестрацию множества агентов для генерации слайдов, викторин, симуляций и дискуссий.
SkillNet
SkillNet предоставляет открытую инфраструктуру для создания, оценки и организации навыков ИИ-агентов в больших масштабах. Система позволяет агентам переходить от временного опыта к устойчивому мастерству.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.
Исследователи обнаружили ошибку блокировки ресурса в коде управления гироскопом компьютера Apollo Guidance, которая оставалась незамеченной в течение 57 лет, используя ИИ Claude и язык спецификаций Allium для анализа 130 000 строк ассемблерного кода.

Claude Code v2.1.146: команда /code-review, исправление пагинации, исправление Windows PowerShell
Claude Code v2.1.146 переименовывает /simplify в /code-review с опциональным уровнем усилий, исправляет пагинацию MCP и инструмент Windows PowerShell, улучшает надежность автообновления и производительность отображения diff.

Заголовок статьи: libibverbs от Apple скрывает символы GPUDirect RDMA; Zero-Copy Metal Buffer RDMA работает на macOS
Разработчик обнаружил, что подсистема RDMA от Apple принимает буферы Metal GPU для передачи данных по сети с нулевым копированием, и нашел скрытые символы ibv_reg_dmabuf_mr, что позволяет предположить возможность GPUDirect RDMA на macOS без модификации ядра.

AI-центровая платформа SwitchBot готова к интеграции OpenClaw для улучшенной автоматизации умного дома.
AI Hub от SwitchBot скоро получит значительное обновление с интеграцией OpenClaw. Этот шаг обещает улучшенные возможности автоматизации и более умное управление домом.