Два сбоя ИИ в одной демонстрации: Claude Code исправляет орфографию вместо ошибки схемы, OpenAI путает сопоставление пользовательских полей

Во время семинара в Prismatic инженер в прямом эфире собрал B2B-интеграцию от начала до конца. Два ИИ-инструмента потерпели неудачу по-разному, иллюстрируя, что поведение реальных агентов хаотично и недетерминировано.
Claude Code: Решил не ту проблему
Claude Code за примерно 30 секунд создал каркас мастера настройки с использованием JSON Forms. Сгенерированный мастер выглядел нормально, но во время тестирования всплыла ошибка валидации JSON-схемы — что-то вроде "не должно содержать менее одного элемента". Когда инженер попросил Claude исправить это, агент следующие несколько минут вместо исправления ошибки схемы исправлял предупреждения об орфографии в файле. В конце концов инженер сказал: "надеюсь, это не ограничивается исправлением опечаток" и сдался, вставив код из черновика, сделанного накануне.
OpenAI: Мусор при первой попытке со странными полями
Интеграция вызывает OpenAI во время выполнения, чтобы сгенерировать сопоставления полей по умолчанию между схемой Salesforce клиента и целевым приложением. Для обычного контакта Salesforce (email-to-email, company-to-company) всё работало отлично — "скучно", по словам автора. Но для пользовательского типа записи с намеренно странными именами полей — Group name, Internet address, Physical place, Internet email address — первый вызов вернул мусор. Вторая попытка дала правильный результат.
Ключевые выводы
- Скучные схемы недооценивают LLM — при их использовании агенты кажутся излишними. Странные, пользовательские случаи — вот где они проявляют себя, но большинство демонстраций избегают их для простоты.
- Неудачи вживую полезнее успехов. Любой, кто работал с агентами, знает, что это хаос. Поведение "исправил орфографию вместо ошибки схемы" не предскажешь ни в какой документации.
- Разные формы неудач: У Claude Code было всё необходимое, но он работал не над той проблемой. OpenAI "знал" ответ, но не выдал его с первого раза. Форма неудачи может подсказать, как развернуть каждый инструмент.
Автор работает в Prismatic, но не поделился ссылкой, сосредоточившись на возможности обучения, а не на саморекламе.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Синтетическое общество: AI-агенты строят виртуальные жизни на Moltbook
FairyFuse достигает 29,6-кратного ускорения ядра на ЦП с помощью безумножительного вывода с тройными весами
FairyFuse объединяет восемь вещественных суб-GEMV в один цикл AVX-512 с использованием маскированных сложений/вычитаний, обеспечивая 32,4 токена/с на Xeon 8558P и ускорение в 1,24 раза по сравнению с llama.cpp Q4_K_M при почти без потерь качестве.

Выпущен Claude Opus 4.7 с гибридным анализом и контекстным окном в 1 млн токенов.
Anthropic выпустила Claude Opus 4.7 — гибридную модель рассуждений с контекстным окном в 1 млн токенов, которая демонстрирует повышенную производительность в программировании, работе с визуальными данными и сложных многоэтапных задачах. Стоимость начинается от $5 за миллион входных токенов и $25 за миллион выходных токенов.

Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.
Пользователь на r/LocalLLaMA протестировал Qwen 3 30B Q4 на процессоре и достиг 18,8 токенов в секунду с процессором Zen 4 и памятью DDR5, что значительно превысило ожидания в 3-5 ток/с.