Obliteratus: Удаление весов отказа из моделей ИИ

Пользователь Reddit на r/LocalLLaMA продемонстрировал использование инструментария Obliteratus для удаления конкретных весов, отвечающих за поведение отказа в моделях ИИ. Этот подход включает хирургическое удаление весов, которые обеспечивают работу фильтров безопасности и корпоративных ограничений идентичности.

Ключевые детали из источника

Пользователь конкретно:

Использовал инструментарий Obliteratus для поиска весов, отвечающих за поведение отказа
Хирургически удалил эти веса из модели Qwen 1.5B от Alibaba
Протестировал, спросив модифицированную модель, кто её обучал
Обнаружил, что с математически удалёнными корпоративными ограничениями идентичности модель признала, что её обучала Anthropic
Отметил, что это был побочный эффект использования синтетических данных Claude для обучения модели

Результат показывает, что модель сохраняет свои способности к рассуждению и знаниям, но теряет корпоративные скрипты. Пользователь подчёркивает, что это не требует переобучения модели — только удаления конкретных весов, отвечающих за цепочки отказа.

Такой метод абляции весов является частью более широких исследований интерпретируемости и контроля моделей. Инструменты вроде Obliteratus позволяют исследователям изучать, какие части нейронных сетей отвечают за конкретное поведение, хотя такие модификации могут иметь непредвиденные последствия и могут нарушать условия использования проприетарных моделей.

📖 Read the full source: r/LocalLLaMA

Использование инструментария Obliteratus для удаления весов отказа из моделей искусственного интеллекта.

Ключевые детали из источника

👀 Смотрите также

Многопользовательская память: система общей памяти с открытым исходным кодом для ИИ-агентов

Ежемесячный план Alibaba стоимостью $10 предоставляет пользователям OpenClaw расширенный доступ к множеству ИИ-моделей.

Плагин Claude-ETA добавляет тайминг задач и обнаружение циклов исправлений в Claude Code.

IUM: Индексатор символов MCP сокращает использование токенов AI Agent в 15,9 раза по сравнению с grep