Разработчик создает локального ИИ-исследовательского агента, который генерирует подкасты по заданным темам или ссылкам на YouTube.

Разработчик на r/LocalLLaMA создал автономного агента для исследований и подкастов, который работает полностью локально. То, что начиналось как попытка избежать оплаты услуг TTS (текст-в-речь), превратилось в полноценную систему, способную исследовать темы и представлять информацию в человекообразных форматах.
Что делает агент
Система принимает на вход либо тему, либо ссылку на YouTube и создаёт три результата:
- Детальный углублённый отчёт
- Сценарий разговорного подкаста
- Сгенерированное аудио для подкаста
Чем отличается от фиксированных конвейеров
Разработчик сосредоточился на том, чтобы агент вёл себя не как фиксированный конвейер, а как система, которая динамически решает, что делать дальше. Вместо пошагового выполнения он:
- Ищет и извлекает контент
- Извлекает инсайты (включая видео)
- Совершенствует сводки в несколько этапов
- Преобразует это в естественный диалог
Ключевые проблемы и решения, обнаруженные в процессе разработки
- Проблемы со скоростью: Изначальная производительность была низкой, но распараллеливание задач значительно улучшило ситуацию
- Поверхностные сводки: Первые сводки казались поверхностными, но внедрение многоэтапного совершенствования существенно помогло
- Роботизированное аудио: Аудио изначально звучало роботизированно, но переход к формату с 2-мя голосами сделало его гораздо естественнее
Разработчик отметил, что этот проект демонстрирует, насколько мы приблизились к выполнению мощной работы с ИИ полностью на локальных машинах, без использования облачных сервисов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Майк: Открытая юридическая ИИ-система с самостоятельным хостингом и поддержкой множества моделей
Mike — это открытая альтернатива Harvey и Legora, предлагающая чат с документами, табличное извлечение данных и шаблоны рабочих процессов — всё это можно разместить на собственном сервере, используя ключи API от Claude или Gemini.

htmLLM-124M v2 Выпущен: Специализированная модель автодополнения HTML/Bootstrap
LH-Tech-AI выпустила htmLLM-124M v2 — модель на 124 миллиона параметров, специализированную для автодополнения HTML/Bootstrap, которая достигает значения валидационной потери 0.91 и обучается примерно за 8 часов на одном GPU T4.

АТЛАС: Адаптивная система обучения во время тестирования превосходит Claude Sonnet на бенчмарках по программированию с использованием GPU за $500.
ATLAS достигает 74,6% pass@1-v(k=3) на LiveCodeBench с замороженной 14B-моделью на одном потребительском GPU, превосходя результат Claude 4.5 Sonnet в 71,4% при значительно меньших затратах, используя генерацию на основе ограничений и само-верифицируемое итеративное уточнение.

Markdown как протокол для агентного пользовательского интерфейса с потоковым выполнением
Прототип использует Markdown в качестве унифицированного протокола для потоковой передачи текста, исполняемого кода и данных в одном ответе AI-агентов. Он поддерживает потоковое выполнение, где код запускается построчно по мере поступления, и примитив mount() для создания React UI с потоком данных между клиентом, сервером и LLM.