在6GB GPU上进行会议摘要:qwen3.5:0.8B 用时57秒,Granite 4 350M 产生幻觉

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source
在6GB GPU上进行会议摘要:qwen3.5:0.8B 用时57秒,Granite 4 350M 产生幻觉
Ad

VoiceFlow — это инструмент с открытым исходным кодом (MIT) для диктовки и транскрибации, работающий полностью локально — единственный сетевой запрос — это опциональная конечная точка LLM для обобщения (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, выпущенная сегодня, добавляет рекордер совещаний: микрофон + системный звук смешиваются в стереофайл, транскрибируются faster-whisper, а затем обобщаются любой настроенной конечной точкой.

Бенчмарк: модели менее 1 млрд на реальных стенограммах совещаний

На RTX 3060 Laptop 6GB (~4,3 ГБ свободно после загрузки Whisper, Ollama 0.23, Arch Linux), на реальной 4-минутной стенограмме (~2900 символов):

  • qwen3.5:0.8B (873M, Q8_0) — стандартный num_ctx (4096) был съеден токенами размышления. Исправление:
    FROM qwen3.5:0.8b
    PARAMETER num_ctx 16384
    После исправления: структурированная сводка из 1562 символов (TL;DR, решения, действия, открытые вопросы) за 57 секунд, используя 2,2 ГБ видеопамяти. Работает.
  • Granite 4.0 350M — быстрее (0,6–2,8 с на сводку), правильно структурированный вывод, но сильно галлюцинировал: на стенограмме о приобретении Bun компанией Anthropic он вернул «Приобретение Anthropic компанией Anthropic» и выдумал Binance. На другом совещании он выдал вахтенный журнал звездолета «Кассиопея». Ключевые слова присутствовали, но связи были перепутаны.

Вывод: qwen3.5:0.8B — это рабочая нижняя граница для локального обобщения совещаний; ни одна модель менее 500M еще не дала связного вывода на реальных разговорных данных.

Ad

Бесплатный облачный вариант: Groq's llama-3.3-70B

Бесплатный уровень Groq на llama-3.3-70B дает сводки за ~2 секунды, вывод «более плотный», чем у локальной 0.8B. Единственная неудача — 4-часовая стенограмма, превысившая контекстное окно. Для большинства длин совещаний это отличная бесплатная альтернатива.

Открытый вопрос: обобщение длинных контекстов при малом объеме видеопамяти

Автор спрашивает сообщество: для стенограмм длительностью 1-2 часа (~30К–60К токенов) на GPU с 6-8 ГБ, что работает? Варианты: более широкий контекст (съедает видеопамять), чанкованный map-reduce или другая маленькая модель, сохраняющая структуру на длинных входах — без необходимости 24 ГБ.

VoiceFlow поставляется как один .exe (Windows) или .AppImage (Linux), собранный с Pyloid + React + faster-whisper + SQLite. Автоопределение CUDA с запасным вариантом на CPU. Начальная настройка (модель, микрофон, горячая клавиша) занимает ~1 минуту.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Одновызовный конвейер MCP сокращает использование токенов Claude Code на 74%
Инструменты

Одновызовный конвейер MCP сокращает использование токенов Claude Code на 74%

Разработчик создал контекстный движок в виде MCP-сервера, который предоставляет Claude Code граф зависимостей кодовых баз, что изначально сократило использование токенов на 65%. Новая конвейерная обработка одним вызовом дополнительно снижает расход токенов на 74%, устраняя множественные циклы обмена данными и дедуплицируя результаты на стороне сервера.

OpenClawRadar
Мониторьте использование вашего Claude AI с помощью нового виджета панели задач для Linux.
Инструменты

Мониторьте использование вашего Claude AI с помощью нового виджета панели задач для Linux.

Новый виджет панели задач для Linux помогает пользователям отслеживать использование подписки на Claude AI в реальном времени, предоставляя обратную связь с помощью цветового кода и простую установку.

OpenClawRadar
Ghostbar: ~5MB нативный macOS Swift AI клиент, который скрывается от демонстрации экрана
Инструменты

Ghostbar: ~5MB нативный macOS Swift AI клиент, который скрывается от демонстрации экрана

Ghostbar — это нативный Swift-клиент AI для строки меню macOS (~5 МБ), который использует window.sharingType = .none, чтобы стать невидимым для программ записи экрана. Работает с Ollama, vLLM, llama.cpp и любым бэкендом, совместимым с OpenAI.

OpenClawRadar
Rift CLI: Управление рабочими деревьями Git для параллельных рабочих процессов AI-агентов
Инструменты

Rift CLI: Управление рабочими деревьями Git для параллельных рабочих процессов AI-агентов

Rift — это инструмент командной строки, который создает изолированные рабочие деревья Git и ветки для одновременного запуска нескольких ИИ-агентов для программирования, таких как Claude Code, в одном репозитории. Он включает хуки жизненного цикла, детерминированное сопоставление портов и поддержку рабочего пространства для нескольких редакторов.

OpenClawRadar