Qwen3.5-4B-Safety-Thinking: Модель рассуждений на 4B параметров

Исследовательская группа Merlin Research представила Qwen3.5-4B-Safety-Thinking — модель рассуждений с 4 миллиардами параметров, ориентированную на безопасность и построенную на основе Qwen3.5. Эта модель специально разработана для структурированного «мышления» и приложений безопасности в реальных сценариях, с особым акцентом на агентные системы.

Ключевые улучшения и особенности

Улучшенная способность точно следовать строгим инструкциям в промптах
Основана на использовании методов Bloom и Petri от Anthropic
Устойчива к попыткам взлома
Повышенная устойчивость к «аномальным» и враждебным промптам
Контекстное окно до 1 миллиона токенов
Использует фреймворки от Anthropic — Bloom и Petri

Модель доступна на Hugging Face по адресу MerlinSafety/Qwen3.5-4B-Safety-Thinking.

Для разработчиков, работающих с ИИ-агентами, эта модель представляет собой специализированный инструмент для критически важных с точки зрения безопасности приложений, где приоритетами являются структурированные рассуждения и устойчивость к манипуляциям с промптами. Интеграция методов Bloom и Petri от Anthropic указывает на фокус на конституционных подходах к согласованию ИИ.

📖 Read the full source: r/LocalLLaMA

Merlin Research выпускает модель Qwen3.5-4B-Safety-Thinking для структурированного рассуждения.

Ключевые улучшения и особенности

👀 Смотрите также

Anthropic вводит новую кредитную систему для OpenClaw: детали и влияние

Антропные автоэнкодеры естественного языка превращают активации Клода в читаемый английский — вот как

Anthropic запускает Claude Code Channels для интеграции в мессенджеры

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux