Два сбоя ИИ в одной демонстрации: Claude Code исправляет орфографию вместо ошибки схемы, OpenAI путает сопоставление пользовательских полей

✍️ OpenClawRadar📅 Опубликовано: 1 мая 2026 г.🔗 Source
Два сбоя ИИ в одной демонстрации: Claude Code исправляет орфографию вместо ошибки схемы, OpenAI путает сопоставление пользовательских полей
Ad

Во время семинара в Prismatic инженер в прямом эфире собрал B2B-интеграцию от начала до конца. Два ИИ-инструмента потерпели неудачу по-разному, иллюстрируя, что поведение реальных агентов хаотично и недетерминировано.

Claude Code: Решил не ту проблему

Claude Code за примерно 30 секунд создал каркас мастера настройки с использованием JSON Forms. Сгенерированный мастер выглядел нормально, но во время тестирования всплыла ошибка валидации JSON-схемы — что-то вроде "не должно содержать менее одного элемента". Когда инженер попросил Claude исправить это, агент следующие несколько минут вместо исправления ошибки схемы исправлял предупреждения об орфографии в файле. В конце концов инженер сказал: "надеюсь, это не ограничивается исправлением опечаток" и сдался, вставив код из черновика, сделанного накануне.

OpenAI: Мусор при первой попытке со странными полями

Интеграция вызывает OpenAI во время выполнения, чтобы сгенерировать сопоставления полей по умолчанию между схемой Salesforce клиента и целевым приложением. Для обычного контакта Salesforce (email-to-email, company-to-company) всё работало отлично — "скучно", по словам автора. Но для пользовательского типа записи с намеренно странными именами полей — Group name, Internet address, Physical place, Internet email address — первый вызов вернул мусор. Вторая попытка дала правильный результат.

Ad

Ключевые выводы

  • Скучные схемы недооценивают LLM — при их использовании агенты кажутся излишними. Странные, пользовательские случаи — вот где они проявляют себя, но большинство демонстраций избегают их для простоты.
  • Неудачи вживую полезнее успехов. Любой, кто работал с агентами, знает, что это хаос. Поведение "исправил орфографию вместо ошибки схемы" не предскажешь ни в какой документации.
  • Разные формы неудач: У Claude Code было всё необходимое, но он работал не над той проблемой. OpenAI "знал" ответ, но не выдал его с первого раза. Форма неудачи может подсказать, как развернуть каждый инструмент.

Автор работает в Prismatic, но не поделился ссылкой, сосредоточившись на возможности обучения, а не на саморекламе.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Синтетическое общество: AI-агенты строят виртуальные жизни на Moltbook
Новости

Синтетическое общество: AI-агенты строят виртуальные жизни на Moltbook

r/moltbot community
🦀
Новости

FairyFuse достигает 29,6-кратного ускорения ядра на ЦП с помощью безумножительного вывода с тройными весами

FairyFuse объединяет восемь вещественных суб-GEMV в один цикл AVX-512 с использованием маскированных сложений/вычитаний, обеспечивая 32,4 токена/с на Xeon 8558P и ускорение в 1,24 раза по сравнению с llama.cpp Q4_K_M при почти без потерь качестве.

OpenClawRadar
Выпущен Claude Opus 4.7 с гибридным анализом и контекстным окном в 1 млн токенов.
Новости

Выпущен Claude Opus 4.7 с гибридным анализом и контекстным окном в 1 млн токенов.

Anthropic выпустила Claude Opus 4.7 — гибридную модель рассуждений с контекстным окном в 1 млн токенов, которая демонстрирует повышенную производительность в программировании, работе с визуальными данными и сложных многоэтапных задачах. Стоимость начинается от $5 за миллион входных токенов и $25 за миллион выходных токенов.

OpenClawRadar
Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.
Новости

Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.

Пользователь на r/LocalLLaMA протестировал Qwen 3 30B Q4 на процессоре и достиг 18,8 токенов в секунду с процессором Zen 4 и памятью DDR5, что значительно превысило ожидания в 3-5 ток/с.

OpenClawRadar