Multimodale KI: Holotron-12B, Nemotron Omni & GlyphPrinter

Offene Entwicklungen in multimodaler KI

Hier sind die wichtigsten Open-Source-Veröffentlichungen und Projekte im Bereich multimodaler KI der vergangenen Woche, zusammengestellt aus r/LocalLLaMA.

Holotron-12B

Holotron-12B ist ein offenes Computer-Nutzungs-Agentenmodell, das auf Hugging Face verfügbar ist. Es ist für hohen Durchsatz und lange Multi-Bild-Kontexte optimiert und dient als offene Alternative für das Computer-Nutzungs-Agenten-Ökosystem jenseits geschlossener APIs.

NVIDIA Nemotron Omni + Isaac GR00T N1.7

NVIDIA veröffentlichte offene Nemotron 3 Omni-Modelle, die Sprache, Bild und Stimme in einem Stack integrieren. GR00T N1.7 ist ein Bild-Sprache-Handlungs-Modell, das speziell für Robotikanwendungen entwickelt wurde.

GlyphPrinter

GlyphPrinter befasst sich mit der Genauigkeit der Textdarstellung in KI-Bildgeneratoren mithilfe von Region-Grouped Direct Preference Optimization. Es balanciert künstlerische Gestaltung mit präziser Textdarstellung und stellt offene Gewichtungen bereit. Der Ansatz behebt lokalisierte Rechtschreibfehler in generierten Bildern.

SparkVSR

Googles Video-Super-Resolution-Modell verbessert die Videoqualität und -klarheit. Dieses Projekt konzentriert sich auf die Verbesserung der Videoauflösung durch KI-Verarbeitung.

SegviGen

SegviGen ermöglicht 3D-Objektsgmentierung durch Kolorierung, indem 3D-Bildgeneratoren umfunktioniert werden. Die Methode formuliert Segmentierung als Kolorierungsaufgabe und verwendet Berichten zufolge weniger als 1 % der Trainingsdaten, die ältere Methoden benötigen. Das Projekt umfasst offenen Code und eine Demo.

OpenMAIC

OpenMAIC (Multi-Agent Interactive Classroom) verwandelt jedes Thema oder Dokument in ein interaktives Klassenzimmer mit KI-Lehrern und -Mitschülern. Es verwendet Multi-Agenten-Orchestrierung, um Folien, Quizze, Simulationen und Diskussionen zu generieren.

SkillNet

SkillNet bietet eine offene Infrastruktur zum Erstellen, Bewerten und Organisieren von KI-Agenten-Fähigkeiten im großen Maßstab. Das System ermöglicht es Agenten, von vorübergehender Erfahrung zu dauerhafter Meisterschaft überzugehen.

📖 Read the full source: r/LocalLLaMA

Wöchentlicher Multimodaler KI-Rundblick: Holotron-12B, Nemotron Omni, GlyphPrinter und mehr

Offene Entwicklungen in multimodaler KI

Holotron-12B

NVIDIA Nemotron Omni + Isaac GR00T N1.7

GlyphPrinter

SparkVSR

SegviGen

OpenMAIC

SkillNet

👀 Siehe auch

Claude Code v2.1.68: Opus 4.6 standardmäßig mit mittlerem Aufwand, führt Ultrathink-Schlüsselwort wieder ein

Liquid AI veröffentlicht LFM2.5-350M-Modell für agentische Schleifen

Claude Code 2.1.132: Multiagent-Dokumentation, Zeitplan-Gate, Änderungen der Fähigkeitsbegrenzung

Anthropic sichert sich 300 MW Rechenleistung bei Colossus 1 mit 220.000 NVIDIA GPUs durch SpaceX-Partnerschaft