STAR: Точность упала со 100% до 0% в продакшене

Исследователь протестировал структуру рассуждений STAR в изоляции и в производственном промпте и обнаружил, что точность упала со 100% до 0-30%. Ранее было показано, что эта структура повышает точность Claude на задаче с неявным ограничением с 0% до 100% в чистых тестовых условиях.

Когда точно такая же структура STAR была протестирована внутри реального производственного промпта — 60-строчного системного промпта из приложения для подготовки к собеседованиям, который естественно развивался в течение месяцев разработки — точность резко упала. Производственный промпт содержал рекомендации в стиле «Начинайте с конкретики» и «Сначала вывод», которые заставляли модель выдавать заключение до того, как могло выполниться рассуждение по STAR.

В одном случае модель выдала: «Краткий ответ: Идти пешком». с последующим полным разбором по STAR, который правильно определил ограничение и пришёл к выводу «Поезжайте на машине на мойку». Рассуждение по STAR работало правильно, но неверный ответ уже был зафиксирован в первоначальном выводе.

Ключевой вывод заключается в том, что при авторегрессионной генерации, как только модель выводит токен, этот токен становится частью контекста условия. Инструкция «Начинайте с конкретики» спровоцировала преждевременную фиксацию, и последующее рассуждение по STAR стало постфактумным обоснованием, а не руководством для первоначального ответа.

Практический вывод: разработчикам, создающим производственные системы ИИ, следует проверять структуры рассуждений внутри их фактических промптов, а не в чистых 10-строчных тестах. Методика, которая набирает 100% в изоляции, может набрать 0% в производстве из-за конфликтующих инструкций или структуры промпта.

📖 Read the full source: r/ClaudeAI

Точность системы рассуждений STAR падает со 100% до 0% в рабочих запросах.

👀 Смотрите также

Модель MiniMax M2.7 демонстрирует высокую производительность в роли ИИ-агента для программирования.

Sarvam AI выпускает открытые языковые модели на 30 и 105 миллиардов параметров, созданные на индийской инфраструктуре для обучения.

Агенты Claude на Bedrock получают автономные микроплатежи через протокол x402

Anthropic блокирует подписки на Claude через сторонние инструменты