Merlin Research выпускает модель Qwen3.5-4B-Safety-Thinking для структурированного рассуждения.

Исследовательская группа Merlin Research представила Qwen3.5-4B-Safety-Thinking — модель рассуждений с 4 миллиардами параметров, ориентированную на безопасность и построенную на основе Qwen3.5. Эта модель специально разработана для структурированного «мышления» и приложений безопасности в реальных сценариях, с особым акцентом на агентные системы.
Ключевые улучшения и особенности
- Улучшенная способность точно следовать строгим инструкциям в промптах
- Основана на использовании методов Bloom и Petri от Anthropic
- Устойчива к попыткам взлома
- Повышенная устойчивость к «аномальным» и враждебным промптам
- Контекстное окно до 1 миллиона токенов
- Использует фреймворки от Anthropic — Bloom и Petri
Модель доступна на Hugging Face по адресу MerlinSafety/Qwen3.5-4B-Safety-Thinking.
Для разработчиков, работающих с ИИ-агентами, эта модель представляет собой специализированный инструмент для критически важных с точки зрения безопасности приложений, где приоритетами являются структурированные рассуждения и устойчивость к манипуляциям с промптами. Интеграция методов Bloom и Petri от Anthropic указывает на фокус на конституционных подходах к согласованию ИИ.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Создание FastTab с использованием ИИ: Индивидуальный переключатель задач для X11
FastTab решает конкретную проблему производительности в переключателе задач Plasma на X11 с использованием Zig и OpenGL, поддерживаемого средствами ИИ, такими как Claude.

Иллинойс принимает SB 315: сторонние аудиты обязательны для передовых ИИ-лабораторий
Иллинойс принимает SB 315, требующий от ведущих ИИ-лабораторий, таких как OpenAI, Anthropic и Google DeepMind, проходить независимые аудиты безопасности. В случае подписания закон станет самым строгим в США.

Китай запретил соучредителям Manus покидать страну на фоне проверки сделки с Meta
Китай запретил двум соучредителям стартапа в области искусственного интеллекта Manus покидать страну, пока регуляторы проверяют, не нарушила ли сделка по приобретению компанией Meta активов на $2 млрд инвестиционных правил. Руководители были вызваны в Пекин на встречу с Национальной комиссией по развитию и реформам в этом месяце.

Slurm Coding: Искусственный интеллект в разработке, где время исчезает
Разработчик описывает 'сламовое кодирование' как интенсивный паттерн разработки, который стал возможен благодаря инструментам ИИ-кодирования, когда небольшие идеи быстро превращаются в полноценные системы через цикл быстрой реализации и выброса дофамина.