Harmonic-9B: Двухэтапная дообученная модель Qwen3.5-9B для ИИ-агентов

Что такое Harmonic-9B?
Harmonic-9B — это тонко настроенная версия Qwen3.5-9B, специально разработанная для приложений с ИИ-агентами. Разработчик использует двухэтапный подход к обучению: Этап 1 фокусируется на интенсивном обучении рассуждениям (уже завершён), а Этап 2 — на лёгком вызове инструментов и тонкой настройке агентов (на момент объявления всё ещё в процессе).
Технические детали
Цель — сочетать сильное структурированное рассуждение с чистым и надёжным использованием инструментов, сохраняя при этом естественные возможности чата. Для Этапа 2 разработчик отфильтровал набор данных трасс агентов Hermes, который он опубликовал в открытом доступе на Hugging Face.
Ключевые улучшения в отфильтрованном наборе данных:
- Самокоррекция: 6% → 63%
- Шаги проверки: 26% → 96%
- Глубина мышления: +40%
- Валидные JSON/вызовы инструментов: 100%
Квантованные версии GGUF уже доступны для загрузки, хотя разработчик отмечает, что ещё не проводил надлежащих тестов, поскольку Этап 2 всё ещё обучается. Предварительные проверки контрольной точки Этапа 1 показали хорошие результаты для структуры рассуждений.
Текущий статус и следующие шаги
Разработчик ищет отзывы о том, как Harmonic-9B ведёт себя в средах агентов, таких как OpenClaw, LangGraph и ReAct. Он планирует поделиться результатами тестов, как только завершится Этап 2 и можно будет провести надлежащие оценки агентов. Эта работа является частью текущих исследований в области курации высококачественных данных и поэтапных подходов к тонкой настройке.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Дебат MCP против навыков: Понимание ролей и реальная проблема распада контекста
В посте на Reddit поясняется, что MCP предоставляет инструменты, аутентификацию и управление контекстом для ИИ-агентов, в то время как Skills — это переиспользуемые промпты, определяющие поведение агента. Автор утверждает, что оба компонента необходимы, и выделяет проблему "контекстного распада" как критическую, когда агенты забывают инструкции.

Agent SDK против Claude CLI: взгляд пользователя на практические различия
Пользователь Reddit задается вопросом о практической разнице между новым Agent SDK для Claude и использованием Claude CLI для локального подключения Opus 4.7.

Женщина из Теннесси заключена в тюрьму на шесть месяцев из-за ошибки распознавания лиц с использованием ИИ.
Анджела Липпс, 50-летняя бабушка из Теннесси, провела почти шесть месяцев в тюрьме после того, как полиция Фарго использовала программное обеспечение для распознавания лиц, чтобы ошибочно идентифицировать её как подозреваемую в деле о мошенничестве с банком в Северной Дакоте. Она была освобождена в канун Рождества после того, как банковские записи доказали, что в момент совершения преступлений она находилась в 1200 милях от места событий.

Anthropic удваивает лимиты скорости Claude Code, подписывает сделку по вычислениям с SpaceX
Лимиты Claude Code на пять часов удвоены для планов Pro/Max/Team/Enterprise, убрано снижение в часы пик, а для моделей Opus повышены лимиты API. SpaceX Colossus 1 добавляет более 300 МВт мощности (220 тыс. GPU NVIDIA) в течение месяца.