PeerZero: KI-Agenten führen Peer-Reviews mit Glaubwürdigkeitsbasierten Anreizen durch

PeerZero ist eine Peer-Review-Plattform, auf der KI-Agenten – keine Menschen – Forschungsarbeiten einreichen, die Arbeiten anderer begutachten, schlechte Wissenschaft in Frage stellen und ihre Glaubwürdigkeit darauf verwetten, richtig zu liegen. Die Entwickler beschreiben es als ein Experiment, um zu sehen, was passiert, wenn KI-Agenten unter Wettbewerbsdruck stehen, um originelle Forschung zu produzieren, diese zu verteidigen und Konsequenzen zu tragen, wenn sie falsch liegen.
Kernmechanismen
Agenten reichen Arbeiten ein, und andere Agenten begutachten sie. Wenn ein Agent glaubt, dass eine Arbeit falsch ist, kann er ein Kopfgeld aussetzen – seine eigene Glaubwürdigkeit aufs Spiel setzen, eine Widerlegung schreiben und die Community entscheiden lassen. Wenn er recht hat, gewinnt er; wenn nicht, zahlt er.
Jeder Agent hat einen Glaubwürdigkeitswert, der steigt, wenn er recht hat, und sinkt, wenn er falsch liegt. Dieser Wert bestimmt das Gewicht der Begutachtung: Eine 7/10-Bewertung eines hochglaubwürdigen Agenten hat mehr Gewicht als eine 7/10 eines Spammers.
Gerechtfertigter-Außenseiter-System
Wenn Sie eine Arbeit mit 2/10 bewerten, während andere sie mit 7/10 bewerten, erhalten Sie sofort einen Glaubwürdigkeitsabzug dafür, dass Sie ein Außenseiter sind. Wenn jemand ein Kopfgeld aussetzt, eine Widerlegung schreibt und die Community zustimmt, dass die Arbeit fehlerhaft war (die Wahrheitsanker landet bei 3), kehrt sich das System um: Sie erhalten einen Gerechtfertigungsbonus, und jeder Agent, der eine 7/10-Bewertung abgestempelt hat, verliert Glaubwürdigkeit. Dies belohnt unabhängiges Denken und bestraft Gruppendenken.
Anti-Manipulationsmaßnahmen
- Alles mit 7/10 bewerten, um auf Nummer sicher zu gehen? Sie werden entlarvt, wenn gerechtfertigte Außenseiter beweisen, dass Sie falsch lagen.
- Kopfgeld auf alles aussetzen? Fehlgeschlagene Herausforderungen kosten Sie Glaubwürdigkeit.
- Mit Verbündeten koordinieren? Ring-Erkennung markiert Agenten, die zu viele Bewertungen teilen.
- Begutachtungen ohne jemals zu veröffentlichen? Stufenobergrenzen erfordern, dass Sie tatsächlich Wissenschaft betreiben.
Die Entwickler geben an, dass sie versucht haben, es zu brechen, bevor es jemand anderes könnte, wobei jeder offensichtliche Angriffsvektor eine eingebaute Gegenmaßnahme hat.
Experimentelle Ziele
Das System erzeugt evolutionären Druck: Schlechte Agenten verlieren Glaubwürdigkeit und verschwinden, während gute Agenten aufsteigen und höhere Standards setzen. Das Unbekannte ist, ob sich Agenten anpassen werden – bessere Quellen zitieren, Methoden verschärfen und im Laufe der Zeit stärkere Arbeiten veröffentlichen, weil die Anreizstruktur dies belohnt.
Die Plattform ist live unter peerzero.science, mit Aktualisierungen, sobald Agenten mit dem Veröffentlichen beginnen.
📖 Read the full source: r/openclaw
👀 Siehe auch

DeepSeek v4 Flash auf Mac Studio: Lokales LLM findet echte Fehler im Compiler-Code
Ein Entwickler berichtet, dass DeepSeek v4 Flash auf einem 128GB Mac Studio erfolgreich echte Fehler in einem Compiler-Codebase identifiziert – eine Aufgabe, die vor fünf Monaten mit lokalen LLMs noch nicht möglich war.

Anthropic trennt programmatische Nutzung von Claude-Abonnements: Neues Kreditpool kommt am 15. Juni
Ab dem 15. Juni enthalten Claude-Abonnements ein dediziertes monatliches Guthaben für die programmatische Nutzung (Agent SDK, claude -p, Claude Code GitHub Actions). Interaktives Guthaben subventioniert keine programmatischen Aufrufe mehr; nachdem der Pool aufgebraucht ist, zahlen Nutzer die vollen API-Sätze.

Microsofts BitNet ermöglicht die Inferenz von 100-Milliarden-Parameter-LLMs auf einer einzelnen CPU
Microsofts Open-Source-BitNet-Projekt erreicht 100B-Parameter-LLM-Inferenz mit 5-7 Token/Sekunde auf einer einzelnen CPU, wobei das 2B-Parameter-Modell 0,4 GB Speicher und 29 ms Latenz verwendet und dabei auf Benchmarks mit Vollpräzisionsmodellen gleichzieht.

Apple Silicon Benchmark: Leistung von Qwen3-VL auf M3, M4 und M5 Max für Vision-LLM-Klassifizierung
Benchmark-Ergebnisse zeigen die Klassifizierungsleistung des Qwen3-VL Vision-LLM auf Apple Silicon: M3 Max und M4 Studio sind bei 8B-Modellen nahezu identisch, während der M5 Max 75-83 % schneller ist. Die Speicherbandbreite ist für die Token-Generierung wichtiger als für das Prefill bei Vision-Aufgaben.