在6GB GPU上进行会议摘要:qwen3.5:0.8B 用时57秒,Granite 4 350M 产生幻觉

VoiceFlow — это инструмент с открытым исходным кодом (MIT) для диктовки и транскрибации, работающий полностью локально — единственный сетевой запрос — это опциональная конечная точка LLM для обобщения (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, выпущенная сегодня, добавляет рекордер совещаний: микрофон + системный звук смешиваются в стереофайл, транскрибируются faster-whisper, а затем обобщаются любой настроенной конечной точкой.
Бенчмарк: модели менее 1 млрд на реальных стенограммах совещаний
На RTX 3060 Laptop 6GB (~4,3 ГБ свободно после загрузки Whisper, Ollama 0.23, Arch Linux), на реальной 4-минутной стенограмме (~2900 символов):
- qwen3.5:0.8B (873M, Q8_0) — стандартный num_ctx (4096) был съеден токенами размышления. Исправление:
После исправления: структурированная сводка из 1562 символов (TL;DR, решения, действия, открытые вопросы) за 57 секунд, используя 2,2 ГБ видеопамяти. Работает.FROM qwen3.5:0.8b PARAMETER num_ctx 16384 - Granite 4.0 350M — быстрее (0,6–2,8 с на сводку), правильно структурированный вывод, но сильно галлюцинировал: на стенограмме о приобретении Bun компанией Anthropic он вернул «Приобретение Anthropic компанией Anthropic» и выдумал Binance. На другом совещании он выдал вахтенный журнал звездолета «Кассиопея». Ключевые слова присутствовали, но связи были перепутаны.
Вывод: qwen3.5:0.8B — это рабочая нижняя граница для локального обобщения совещаний; ни одна модель менее 500M еще не дала связного вывода на реальных разговорных данных.
Бесплатный облачный вариант: Groq's llama-3.3-70B
Бесплатный уровень Groq на llama-3.3-70B дает сводки за ~2 секунды, вывод «более плотный», чем у локальной 0.8B. Единственная неудача — 4-часовая стенограмма, превысившая контекстное окно. Для большинства длин совещаний это отличная бесплатная альтернатива.
Открытый вопрос: обобщение длинных контекстов при малом объеме видеопамяти
Автор спрашивает сообщество: для стенограмм длительностью 1-2 часа (~30К–60К токенов) на GPU с 6-8 ГБ, что работает? Варианты: более широкий контекст (съедает видеопамять), чанкованный map-reduce или другая маленькая модель, сохраняющая структуру на длинных входах — без необходимости 24 ГБ.
VoiceFlow поставляется как один .exe (Windows) или .AppImage (Linux), собранный с Pyloid + React + faster-whisper + SQLite. Автоопределение CUDA с запасным вариантом на CPU. Начальная настройка (модель, микрофон, горячая клавиша) занимает ~1 минуту.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Одновызовный конвейер MCP сокращает использование токенов Claude Code на 74%
Разработчик создал контекстный движок в виде MCP-сервера, который предоставляет Claude Code граф зависимостей кодовых баз, что изначально сократило использование токенов на 65%. Новая конвейерная обработка одним вызовом дополнительно снижает расход токенов на 74%, устраняя множественные циклы обмена данными и дедуплицируя результаты на стороне сервера.

Мониторьте использование вашего Claude AI с помощью нового виджета панели задач для Linux.
Новый виджет панели задач для Linux помогает пользователям отслеживать использование подписки на Claude AI в реальном времени, предоставляя обратную связь с помощью цветового кода и простую установку.

Ghostbar: ~5MB нативный macOS Swift AI клиент, который скрывается от демонстрации экрана
Ghostbar — это нативный Swift-клиент AI для строки меню macOS (~5 МБ), который использует window.sharingType = .none, чтобы стать невидимым для программ записи экрана. Работает с Ollama, vLLM, llama.cpp и любым бэкендом, совместимым с OpenAI.

Rift CLI: Управление рабочими деревьями Git для параллельных рабочих процессов AI-агентов
Rift — это инструмент командной строки, который создает изолированные рабочие деревья Git и ветки для одновременного запуска нескольких ИИ-агентов для программирования, таких как Claude Code, в одном репозитории. Он включает хуки жизненного цикла, детерминированное сопоставление портов и поддержку рабочего пространства для нескольких редакторов.