在6GB GPU上进行会议摘要：qwen3.5:0.8B 用时57秒，Granite 4 350M 产生幻觉

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source

VoiceFlow — это инструмент с открытым исходным кодом (MIT) для диктовки и транскрибации, работающий полностью локально — единственный сетевой запрос — это опциональная конечная точка LLM для обобщения (Ollama, llama.cpp, Groq, OpenAI). v1.6.0, выпущенная сегодня, добавляет рекордер совещаний: микрофон + системный звук смешиваются в стереофайл, транскрибируются faster-whisper, а затем обобщаются любой настроенной конечной точкой.

Бенчмарк: модели менее 1 млрд на реальных стенограммах совещаний

На RTX 3060 Laptop 6GB (~4,3 ГБ свободно после загрузки Whisper, Ollama 0.23, Arch Linux), на реальной 4-минутной стенограмме (~2900 символов):

qwen3.5:0.8B (873M, Q8_0) — стандартный num_ctx (4096) был съеден токенами размышления. Исправление:
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
После исправления: структурированная сводка из 1562 символов (TL;DR, решения, действия, открытые вопросы) за 57 секунд, используя 2,2 ГБ видеопамяти. Работает.
Granite 4.0 350M — быстрее (0,6–2,8 с на сводку), правильно структурированный вывод, но сильно галлюцинировал: на стенограмме о приобретении Bun компанией Anthropic он вернул «Приобретение Anthropic компанией Anthropic» и выдумал Binance. На другом совещании он выдал вахтенный журнал звездолета «Кассиопея». Ключевые слова присутствовали, но связи были перепутаны.

Вывод: qwen3.5:0.8B — это рабочая нижняя граница для локального обобщения совещаний; ни одна модель менее 500M еще не дала связного вывода на реальных разговорных данных.

Бесплатный облачный вариант: Groq's llama-3.3-70B

Бесплатный уровень Groq на llama-3.3-70B дает сводки за ~2 секунды, вывод «более плотный», чем у локальной 0.8B. Единственная неудача — 4-часовая стенограмма, превысившая контекстное окно. Для большинства длин совещаний это отличная бесплатная альтернатива.

Открытый вопрос: обобщение длинных контекстов при малом объеме видеопамяти

Автор спрашивает сообщество: для стенограмм длительностью 1-2 часа (~30К–60К токенов) на GPU с 6-8 ГБ, что работает? Варианты: более широкий контекст (съедает видеопамять), чанкованный map-reduce или другая маленькая модель, сохраняющая структуру на длинных входах — без необходимости 24 ГБ.

VoiceFlow поставляется как один .exe (Windows) или .AppImage (Linux), собранный с Pyloid + React + faster-whisper + SQLite. Автоопределение CUDA с запасным вариантом на CPU. Начальная настройка (модель, микрофон, горячая клавиша) занимает ~1 минуту.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Новый API структурированных данных предлагает подписочные цены для агентов LLM.

Разработчик выпустил структурированный API данных, который нормализует цены на подписки для стриминговых платформ, сервисов совместных поездок, приложений для знакомств и других платформ на основе подписок. API предоставляет единообразные JSON-схемы, цены с учетом региона (где доступно) и MCP-совместимые конечные точки для потребления агентами LLM без скрапинга.

28 февр. 2026 г., 10:45 UTC

OpenClawRadar

Инструменты

Разработчик OpenClaw ищет «убийственные» варианты применения после 900 пользовательских тестов

Создатель OpenClaw сообщает, что хотя пользователи пробуют такие функции, как интерфейсы Telegram, интеграции с календарями и автоматизированные рабочие процессы, большинство не остаются с инструментом надолго. Задача заключается в поиске рабочих процессов для ежедневного использования, которые станут необходимыми, а не экспериментальными.

17 апр. 2026 г., 17:55 UTC

OpenClawRadar

Инструменты

В шаблонах рабочих процессов Claude шаблон передачи задач: разделение на два файла против сводки одного документа

Длительные сессии с Claude страдают от потери контекста. Handoffs сжимают важное и начинают заново. Два подхода: навык handoff Мэтта Покока в одном документе и разделение на два файла с постоянным повествованием и временным промптом.

1 июн. 2026 г., 00:18 UTC

OpenClawRadar

Инструменты

Нанокод: обучение кодирующих агентов, подобных Claude, с использованием JAX на TPU

Nanocode — это библиотека JAX для сквозного обучения кодирующих агентов, подобных Claude, с использованием Constitutional AI и оптимизации для TPU. Модель с 1,3 млрд параметров можно обучить примерно за 9 часов за $200 на TPU v6e-8.

15 апр. 2026 г., 16:47 UTC

OpenClawRadar