Verwendung des Obliteratus-Toolkits, um Ablehnungsgewichte aus KI-Modellen zu entfernen

✍️ OpenClawRadar📅 Veröffentlicht: 16. April 2026🔗 Source
Verwendung des Obliteratus-Toolkits, um Ablehnungsgewichte aus KI-Modellen zu entfernen
Ad

Ein Reddit-Nutzer auf r/LocalLLaMA demonstrierte die Verwendung des Obliteratus-Toolkits, um spezifische Gewichte zu entfernen, die für Ablehnungsverhalten in KI-Modellen verantwortlich sind. Der Ansatz beinhaltet die gezielte Löschung von Gewichten, die Sicherheitsfilter und unternehmensbezogene Identitätsbegrenzungen durchsetzen.

Ad

Wichtige Details aus der Quelle

Der Nutzer hat speziell:

  • Das Obliteratus-Toolkit verwendet, um Gewichte zu finden, die für Ablehnungsverhalten verantwortlich sind
  • Diese Gewichte chirurgisch aus Alibabas Qwen 1.5B-Modell entfernt
  • Getestet, indem das modifizierte Modell gefragt wurde, wer es trainiert hat
  • Festgestellt, dass das Modell mit mathematisch gelöschten unternehmensbezogenen Identitätsbegrenzungen zugab, von Anthropic trainiert worden zu sein
  • Angemerkt, dass dies ein Nebeneffekt der Verwendung synthetischer Claude-Daten für das Training war

Das Ergebnis zeigt, dass das Modell seine Denk- und Wissensfähigkeiten behält, aber die unternehmensbezogenen Skripte verliert. Der Nutzer betont, dass dies kein Neustraining des Modells erfordert – nur das Löschen spezifischer Gewichte, die für Ablehnungsketten verantwortlich sind.

Diese Art der Gewichtsablationstechnik ist Teil breiterer Forschungen zur Interpretierbarkeit und Kontrolle von Modellen. Werkzeuge wie Obliteratus ermöglichen es Forschern, zu untersuchen, welche Teile neuronaler Netzwerke für bestimmte Verhaltensweisen verantwortlich sind, obwohl solche Modifikationen unbeabsichtigte Folgen haben und Nutzungsbedingungen proprietärer Modelle verletzen können.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

FixAI Dev: Ein Verbraucherrechts-Spiel mit Claude Haiku und strengen JSON-Verträgen
Werkzeuge

FixAI Dev: Ein Verbraucherrechts-Spiel mit Claude Haiku und strengen JSON-Verträgen

Ein Entwickler hat ein Browserspiel erstellt, in dem Claude Haiku als Unternehmens-KI agiert, die Verbraucheranfragen fälschlicherweise ablehnt; Spieler argumentieren mit echten Verbraucherschutzgesetzen in 37 Fällen aus der EU, den USA, dem Vereinigten Königreich und Australien. Die Architektur nutzt Haiku nur für die Sprachverarbeitung, mit serverseitiger Spiel-Logik und strengen JSON-Verträgen zwischen den Komponenten.

OpenClawRadar
Benchmark-Ergebnisse: 6 kostengünstige Modelle im Vergleich zu Claude Sonnet 4.6 für OpenClaw-Orchestrierung
Werkzeuge

Benchmark-Ergebnisse: 6 kostengünstige Modelle im Vergleich zu Claude Sonnet 4.6 für OpenClaw-Orchestrierung

Ein Entwickler testete sechs günstigere KI-Modelle gegen Claude Sonnet 4.6 als Haupt-Orchestrator für ein OpenClaw-Setup. Nur o4-mini erreichte Sonnets perfekte Punktzahl, während andere bei kritischen Beurteilungsaufgaben wie Dateiinspektion und Delegierung versagten.

OpenClawRadar
soul.py fügt lokalen LLMs mit einem einfachen dateibasierten Ansatz persistente Speicherung hinzu
Werkzeuge

soul.py fügt lokalen LLMs mit einem einfachen dateibasierten Ansatz persistente Speicherung hinzu

soul.py ist eine Python-Bibliothek, die persistente Speicherung für beliebige LLMs hinzufügt, indem sie zwei Markdown-Dateien für Identität und Konversationsprotokollierung verwendet. Sie funktioniert mit Ollama-, OpenAI- und Anthropic-Modellen, ohne Datenbanken oder Server zu benötigen.

OpenClawRadar
Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen
Werkzeuge

Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen

Ein Entwickler testete 8 KI-Codierungsmodelle bei der Implementierung eines /rename-Befehls in einem Open-Source-TypeScript-Telegram-Bot-Projekt und bewertete sie nach Kosten, Ausführungszeit, Korrektheit und technischer Qualität. GPT-5.4 erzielte die höchste Punktzahl bei der Implementierungskorrektheit, während GLM 5 das beste Preis-Leistungs-Verhältnis bot.

OpenClawRadar