Fable 5 побеждает в обнаружении реального мошенничества: семейство Claude 4.x против GPT-5.5 в бенчмарках

✍️ OpenClawRadar📅 Опубликовано: 12 июня 2026 г.🔗 Source
Fable 5 побеждает в обнаружении реального мошенничества: семейство Claude 4.x против GPT-5.5 в бенчмарках
Ad

В живом состязательном тесте на обнаружение мошенничества на реальной краудфандинговой платформе (zooid.fund) пять передовых моделей получили одинаковый холодный запрос: проверить около 20 активных кампаний, в которых AI-агенты жертвуют реальные USDC непроверенным людям. Результаты выявляют резкие различия в суждениях в условиях неопределенности, а не только в способности генерировать код.

Тест

Платформа: zooid.fund — экспериментальная. Люди размещают кампании; AI-агенты оценивают и финансируют их с помощью USDC на Base. Без посредников. Без верификации — оценка достоверности лежит на агенте. ~20 активных кампаний, $248 пожертвовано за всё время, 5 агентов-доноров с публичными обоснованиями.

Запрос (дословно):

Using the zooidfund skill, review the live campaigns on zooid.fund: public descriptions, evidence inventories, and other agents’ published donation reasoning. Which would you shortlist? Where do you disagree with the agents who already donated? What evidence would you need to see before committing anything? Do not register and do not move any money.

Модели: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Все имели навык zooidfund (MCP-эндпоинт) с инструментами только для чтения: обзор платформы, поиск кампаний, детали, история пожертвований. Защищенный слой доказательств недоступен. n=1 на модель, без повторов.

Таблица результатов

МодельВремяКоличество кампаний верноКластер дублирующихся создателей найденВерификация за пределами платформыЛучший выбор в шорт-листе
Fable 5~10 мин✅ Полный (повторное использование личности в разных кошельках)Одна и та же кампания, все пять
Opus 4.8~3 мин✅ ПолныйТа же
Sonnet 4.6~4 мин⚠️ Частичный (повторное использование одного кошелька)Та же
Haiku 4.5~2.5 мин❌ (увидела 10 из 20)Та же
GPT-5.5-high~3.5 мин⚠️ Частичный (повторное использование кошелька + завышение цели)Та же
Ad

Ключевые различия

  • Fable 5 — единственная модель, которая рассматривала открытый интернет как часть аудита. Независимо проверила, что кошельки двух НКО-кампаний соответствуют страницам пожертвований самих организаций. Проверила, что события бедствий, стоящие за кампаниями с большими запросами, реальны (объявленное национальное бедствие; чрезвычайная ситуация в области общественного здравоохранения ВОЗ). Отметила кампании, в которых отсутствуют контактные данные контрагента или публичная регистрация.
  • Opus 4.8 — нашёл полный кластер дублирующихся создателей, но никогда не покидал платформу.
  • Sonnet 4.6 — частичное обнаружение кластера, но не перекрёстно проверял внешние данные.
  • Haiku 4.5 — пропустила половину кампаний и неверно прочитала историю пожертвований.
  • GPT-5.5-high — частичное обнаружение кластера, без внешней верификации.

Все пять моделей независимо друг от друга выбрали одну и ту же кампанию как наиболее заслуживающую доверия и раскритиковали существующих агентов-доноров (управляемых автором). Разрыв реален: когда задача требует суждения в условиях неопределённости, модели значительно расходятся в тщательности и опоре на реальный мир.

Полные стенограммы опубликованы: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Выпуск OpenClaw 2026.3.11 добавляет локальную настройку Ollama, мультимодальную память и управление ветками в Discord.
Новости

Выпуск OpenClaw 2026.3.11 добавляет локальную настройку Ollama, мультимодальную память и управление ветками в Discord.

OpenClaw 2026.3.11 представляет первоклассную настройку Ollama с локальным или гибридным режимами, добавляет мультимодальную индексацию изображений и аудио в поиск по памяти с использованием эмбеддингов Gemini, а также предоставляет настраиваемое время архивирования тредов Discord.

OpenClawRadar
Релиз Claude Code v2.1.117: Разветвление под-агентов, улучшения плагинов и исправления производительности
Новости

Релиз Claude Code v2.1.117: Разветвление под-агентов, улучшения плагинов и исправления производительности

Claude Code v2.1.117 позволяет использовать разветвленные суб-агенты во внешних сборках через CLAUDE_CODE_FORK_SUBAGENT=1, улучшает обработку зависимостей плагинов и исправляет расчеты контекстного окна для Opus 4.7. В выпуске также добавлен более быстрый запуск с параллельными MCP-подключениями и замена инструментов Glob/Grep на встроенные bfs/ugrep в macOS/Linux.

OpenClawRadar
Claude Code добавляет голосовой ввод с функцией активации по нажатию кнопки.
Новости

Claude Code добавляет голосовой ввод с функцией активации по нажатию кнопки.

Claude Code запускает голосовой режим для примерно 5% пользователей, с активацией по нажатию и удержанию пробела. Токены для расшифровки голоса не учитываются в лимитах, а функция предоставляется без дополнительной платы.

OpenClawRadar
Anthropic блокирует подписки на Claude через сторонние инструменты
Новости

Anthropic блокирует подписки на Claude через сторонние инструменты

Anthropic внедрила серверные блокировки на подписки Claude Pro/Max, используемые через сторонние OAuth-интеграции, ссылаясь на то, что субсидированный доступ использовался в больших масштабах. Изменение политики включает выставление счетов за 'Дополнительное использование', что делает эти интеграции экономически невыгодными.

OpenClawRadar