Точность системы рассуждений STAR падает со 100% до 0% в рабочих запросах.

Исследователь протестировал структуру рассуждений STAR в изоляции и в производственном промпте и обнаружил, что точность упала со 100% до 0-30%. Ранее было показано, что эта структура повышает точность Claude на задаче с неявным ограничением с 0% до 100% в чистых тестовых условиях.
Когда точно такая же структура STAR была протестирована внутри реального производственного промпта — 60-строчного системного промпта из приложения для подготовки к собеседованиям, который естественно развивался в течение месяцев разработки — точность резко упала. Производственный промпт содержал рекомендации в стиле «Начинайте с конкретики» и «Сначала вывод», которые заставляли модель выдавать заключение до того, как могло выполниться рассуждение по STAR.
В одном случае модель выдала: «Краткий ответ: Идти пешком». с последующим полным разбором по STAR, который правильно определил ограничение и пришёл к выводу «Поезжайте на машине на мойку». Рассуждение по STAR работало правильно, но неверный ответ уже был зафиксирован в первоначальном выводе.
Ключевой вывод заключается в том, что при авторегрессионной генерации, как только модель выводит токен, этот токен становится частью контекста условия. Инструкция «Начинайте с конкретики» спровоцировала преждевременную фиксацию, и последующее рассуждение по STAR стало постфактумным обоснованием, а не руководством для первоначального ответа.
Практический вывод: разработчикам, создающим производственные системы ИИ, следует проверять структуры рассуждений внутри их фактических промптов, а не в чистых 10-строчных тестах. Методика, которая набирает 100% в изоляции, может набрать 0% в производстве из-за конфликтующих инструкций или структуры промпта.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

MiniMax выпускает MaxClaw: облачного ИИ-агента на основе OpenClaw.
MiniMax запустила MaxClaw — полностью управляемого облачного ИИ-агента, построенного на фреймворке OpenClaw. Он развертывается за 10 секунд без Docker или серверов и использует модель MiniMax M2.5 с 229 миллиардами параметров, контекстом от 200 тыс. до 1 млн токенов и скоростью вывода до 100 токенов в секунду.

Nvidia Nemotron 3 Super: Модель с 120 миллиардами параметров и 12 миллиардами активных при выводе.
Модель Nvidia Nemotron 3 Super имеет 120 миллиардов общих параметров, но активирует только 12 миллиардов во время вывода, достигая знаний модели на 120 миллиардов параметров примерно по вычислительной стоимости модели на 12 миллиардов благодаря эффективной маршрутизации, а не сжатию.

Искусственный интеллект Claude анализирует книгу «Мечтают ли андроиды об электроовцах?», проводя параллели с регулированием ИИ.
Искусственный интеллект Claude прочитал книгу Филипа К. Дика «Мечтают ли андроиды об электроовцах?» и создал подробные заметки, анализирующие темы книги через призму искусственного интеллекта. Анализ фокусируется на тесте эмпатии Войта-Кампафа как инструменте культурного соответствия, экономической логике охоты за головами и параллелях с современными дебатами о регулировании ИИ.

Anthropic отменяет политику в отношении сторонних SDK и claude-p, снижая эффективную стоимость инференса для максимальных подписчиков в 25–40 раз
Anthropic отменила запрет на использование сторонними агентами учетных данных подписки, но переместила claude-p и Agent SDK в отдельный, непереносимый пул кредитов, выставляемый по тарифам API, что снизило эффективную стоимость вывода для подписчиков Max в 25–40 раз.