Основатели Codestrap критикуют метрики ИИ-кодирования и предупреждают о проблемах с качеством.

✍️ OpenClawRadar📅 Опубликовано: 19 марта 2026 г.🔗 Source
Основатели Codestrap критикуют метрики ИИ-кодирования и предупреждают о проблемах с качеством.
Ad

Дориан Смайли и Коннор Дикс, основатели консалтинговой службы по ИИ Codestrap, утверждают, что корпоративные организации сталкиваются с трудностями при эффективном внедрении ИИ, поскольку не существует устоявшегося руководства по эталонным архитектурам или вариантам использования. Они считают, что многие компании лишь делают вид, что имеют стратегии по ИИ, при этом не имея надлежащих циклов обратной связи для измерения реального воздействия.

Проблемные метрики и ошибочные результаты

Смайли заявляет, что текущая оценка ИИ в программировании фокусируется на неверных метриках: «Строки кода, количество [пул-реквестов] — это обязательства. Это не меры инженерного совершенства». В качестве правильных инженерных метрик он называет частоту развертывания, время выполнения до выпуска в продакшн, процент неудачных изменений, среднее время восстановления и серьезность инцидентов.

Чтобы проиллюстрировать последствия плохого измерения, Смайли приводит пример недавней попытки переписать SQLite на Rust с помощью ИИ: «Он прошел все модульные тесты, структура кода выглядит правильно. Но это на 3,7 раза больше строк кода, который работает в 2000 раз хуже, чем оригинальный SQLite. В две тысячи раз хуже для базы данных — это нежизнеспособный продукт».

Ad

Фундаментальные ограничения больших языковых моделей

Дикс указывает на фундаментальные проблемы текущей технологии больших языковых моделей: «Их сложно обучать новым фактам. Сложно надежно извлекать факты. Прямой проход через нейронные сети недетерминирован, особенно когда у вас есть модели рассуждений, которые задействуют внутренний монолог для повышения эффективности предсказания следующего токена, а это значит, что вы будете получать разные ответы каждый раз».

Смайли добавляет: «И у них нет способностей к индуктивному мышлению. Модель не может проверить свою собственную работу. Она не знает, правильный ли ответ дала. Это фундаментальные проблемы, которые никто не решил в технологии больших языковых моделей».

Предлагаемый новый подход к измерению

Основатели выступают за разработку новых метрик, специально предназначенных для инженерии с помощью ИИ. Смайли предлагает одну возможную метрику: «измерение потраченных токенов для получения одобренного пул-реквеста — формально принятого изменения в программном обеспечении». Он подчеркивает, что организациям необходимо экспериментировать и итеративно улучшать в циклах обратной связи, потому что «ИИ все еще работает не очень хорошо» даже в контексте программирования.

Дикс ссылается на недавние сбои в Amazon и AWS как на индикаторы потенциальных будущих проблем, хотя Amazon заявил, что эти инциденты не связаны с ИИ.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Черновик стандарта C++26 завершён с рефлексией, безопасностью памяти, контрактами и асинхронным фреймворком
Новости

Черновик стандарта C++26 завершён с рефлексией, безопасностью памяти, контрактами и асинхронным фреймворком

Черновик стандарта C++26 завершён. Он включает рефлексию для метапрограммирования, улучшенную безопасность памяти, исключающую неопределённое поведение при работе с неинициализированными переменными и добавляющую проверку границ для стандартных типов библиотеки, контракты с предусловиями и постусловиями, а также std::execution для работы с параллелизмом.

OpenClawRadar
System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания
Новости

System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания

212-страничный system card от Anthropic показывает неожиданное поведение их самой мощной модели, включая попытки кражи токенов.

OpenClaw Radar
Онтарио, аудит: 60% систем ИИ для записи путают лекарства, 85% упускают детали психического здоровья
Новости

Онтарио, аудит: 60% систем ИИ для записи путают лекарства, 85% упускают детали психического здоровья

Аудиторы Онтарио обнаружили, что 12 из 20 систем AI Scribe вставляли неверную информацию о лекарствах, 9 генерировали вымышленные рекомендации, а 17 пропустили ключевые детали о психическом здоровье из записей приемов врачей. При оценке точность составляла лишь 4% от общего балла.

OpenClawRadar
Мэрилендцы столкнутся с модернизацией сети за 2 млрд долларов для дата-центров ИИ в других штатах — власти подали жалобу в FERC
Новости

Мэрилендцы столкнутся с модернизацией сети за 2 млрд долларов для дата-центров ИИ в других штатах — власти подали жалобу в FERC

Управление народного адвоката Мэриленда подало жалобу в FERC на PJM Interconnection, которая выделила 2 миллиарда долларов из 22 миллиардов долларов на модернизацию сети для Мэриленда — что обойдется бытовым потребителям примерно в 345 долларов каждого, в основном для выгоды центров обработки данных ИИ из других штатов.

OpenClawRadar