Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent

✍️ OpenClawRadar📅 Опубликовано: 20 июня 2026 г.🔗 Source
Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent
Ad

Разработчик на r/ClaudeAI развернул агента кредитного риска на базе Claude, работающего поверх Snowflake Cortex Agent с семантическим слоем. Агент работает в продакшене и получает положительные отзывы, но настоящая задача — поддержка и обновление, особенно регрессионное тестирование и оценка небольших изменений навыков.

Текущая настройка

  • Семантическая модель и база данных уже готовы (годы инвестиций)
  • Доступна observability продакшен-уровня в Snowflake для потенциальной автоматизации
  • Для тестирования команда вручную оценивает результаты агента по сравнению с существующими BI-запросами

Проблема

Разработчик отмечает, что большинство статей по этой теме носят общий характер и написаны людьми, которые на самом деле не выводили решения в продакшен. Он ищет других, кто сталкивался с похожими проблемами на практике, особенно в вопросах:

  • Автоматизированная оценка результатов AI/BI-агентов аналитики
  • Регрессионное тестирование при обновлении навыков
  • Использование observability Snowflake для автоматизации тестирования

Если вы создаете пайплайны оценки для AI-агентов аналитики, в обсуждении есть комментарии от других, кто находится в похожих ситуациях.

📖 Читать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

TimesFM 2.5 от Google: 200-миллионная модель для временных рядов с контекстом в 16 тысяч элементов.
Новости

TimesFM 2.5 от Google: 200-миллионная модель для временных рядов с контекстом в 16 тысяч элементов.

Google Research представила TimesFM 2.5 — декодерную базовую модель для прогнозирования временных рядов с 200 миллионами параметров, длиной контекста 16 тысяч и непрерывным квантильным прогнозированием до горизонта в 1 тысячу.

OpenClawRadar
Результаты тестирования на визуальное мышление для 15 мультимодальных моделей искусственного интеллекта
Новости

Результаты тестирования на визуальное мышление для 15 мультимодальных моделей искусственного интеллекта

AIMultiple протестировал 15 ведущих мультимодальных моделей ИИ на 200 вопросах по визуальному мышлению по двум направлениям: понимание графиков и визуальная логика. Gemini-3.1-pro-preview и Gemini-3-pro-preview лидируют в общих результатах, за ними следуют GPT-5.2, Kimi-K2.5 и GPT-5.2-pro.

OpenClawRadar
Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth
Новости

Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth

Claude Code v2.1.178 добавляет синтаксис Tool(param:value) для правил разрешений, исправляет просмотр транскриптов саб-агентов, несоответствия токенов OAuth и кэширование аутентификации.

OpenClawRadar
Исследования показывают, что личностные характеристики влияют на способность Claude к самокоррекции, но не оказывают такого же эффекта на Llama или Qwen.
Новости

Исследования показывают, что личностные характеристики влияют на способность Claude к самокоррекции, но не оказывают такого же эффекта на Llama или Qwen.

Исследователь провел 23 эксперимента, тестируя самокоррекцию без ограничений на моделях Claude, Llama и Qwen. Основной вывод: профили личности влияют на способность Claude к самокоррекции — высокая прямолинейность выявляет все ошибки, а низкая — ни одной. Llama и Qwen не осуществляли самокоррекцию даже при идентичных промптах.

OpenClawRadar