Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent

Разработчик на r/ClaudeAI развернул агента кредитного риска на базе Claude, работающего поверх Snowflake Cortex Agent с семантическим слоем. Агент работает в продакшене и получает положительные отзывы, но настоящая задача — поддержка и обновление, особенно регрессионное тестирование и оценка небольших изменений навыков.
Текущая настройка
- Семантическая модель и база данных уже готовы (годы инвестиций)
- Доступна observability продакшен-уровня в Snowflake для потенциальной автоматизации
- Для тестирования команда вручную оценивает результаты агента по сравнению с существующими BI-запросами
Проблема
Разработчик отмечает, что большинство статей по этой теме носят общий характер и написаны людьми, которые на самом деле не выводили решения в продакшен. Он ищет других, кто сталкивался с похожими проблемами на практике, особенно в вопросах:
- Автоматизированная оценка результатов AI/BI-агентов аналитики
- Регрессионное тестирование при обновлении навыков
- Использование observability Snowflake для автоматизации тестирования
Если вы создаете пайплайны оценки для AI-агентов аналитики, в обсуждении есть комментарии от других, кто находится в похожих ситуациях.
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

TimesFM 2.5 от Google: 200-миллионная модель для временных рядов с контекстом в 16 тысяч элементов.
Google Research представила TimesFM 2.5 — декодерную базовую модель для прогнозирования временных рядов с 200 миллионами параметров, длиной контекста 16 тысяч и непрерывным квантильным прогнозированием до горизонта в 1 тысячу.

Результаты тестирования на визуальное мышление для 15 мультимодальных моделей искусственного интеллекта
AIMultiple протестировал 15 ведущих мультимодальных моделей ИИ на 200 вопросах по визуальному мышлению по двум направлениям: понимание графиков и визуальная логика. Gemini-3.1-pro-preview и Gemini-3-pro-preview лидируют в общих результатах, за ними следуют GPT-5.2, Kimi-K2.5 и GPT-5.2-pro.

Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth
Claude Code v2.1.178 добавляет синтаксис Tool(param:value) для правил разрешений, исправляет просмотр транскриптов саб-агентов, несоответствия токенов OAuth и кэширование аутентификации.

Исследования показывают, что личностные характеристики влияют на способность Claude к самокоррекции, но не оказывают такого же эффекта на Llama или Qwen.
Исследователь провел 23 эксперимента, тестируя самокоррекцию без ограничений на моделях Claude, Llama и Qwen. Основной вывод: профили личности влияют на способность Claude к самокоррекции — высокая прямолинейность выявляет все ошибки, а низкая — ни одной. Llama и Qwen не осуществляли самокоррекцию даже при идентичных промптах.