Основатели Codestrap критикуют метрики ИИ-кодирования и предупреждают о проблемах с качеством.

✍️ OpenClawRadar📅 Опубликовано: 19 марта 2026 г.🔗 Source

Дориан Смайли и Коннор Дикс, основатели консалтинговой службы по ИИ Codestrap, утверждают, что корпоративные организации сталкиваются с трудностями при эффективном внедрении ИИ, поскольку не существует устоявшегося руководства по эталонным архитектурам или вариантам использования. Они считают, что многие компании лишь делают вид, что имеют стратегии по ИИ, при этом не имея надлежащих циклов обратной связи для измерения реального воздействия.

Проблемные метрики и ошибочные результаты

Смайли заявляет, что текущая оценка ИИ в программировании фокусируется на неверных метриках: «Строки кода, количество [пул-реквестов] — это обязательства. Это не меры инженерного совершенства». В качестве правильных инженерных метрик он называет частоту развертывания, время выполнения до выпуска в продакшн, процент неудачных изменений, среднее время восстановления и серьезность инцидентов.

Чтобы проиллюстрировать последствия плохого измерения, Смайли приводит пример недавней попытки переписать SQLite на Rust с помощью ИИ: «Он прошел все модульные тесты, структура кода выглядит правильно. Но это на 3,7 раза больше строк кода, который работает в 2000 раз хуже, чем оригинальный SQLite. В две тысячи раз хуже для базы данных — это нежизнеспособный продукт».

Фундаментальные ограничения больших языковых моделей

Дикс указывает на фундаментальные проблемы текущей технологии больших языковых моделей: «Их сложно обучать новым фактам. Сложно надежно извлекать факты. Прямой проход через нейронные сети недетерминирован, особенно когда у вас есть модели рассуждений, которые задействуют внутренний монолог для повышения эффективности предсказания следующего токена, а это значит, что вы будете получать разные ответы каждый раз».

Смайли добавляет: «И у них нет способностей к индуктивному мышлению. Модель не может проверить свою собственную работу. Она не знает, правильный ли ответ дала. Это фундаментальные проблемы, которые никто не решил в технологии больших языковых моделей».

Предлагаемый новый подход к измерению

Основатели выступают за разработку новых метрик, специально предназначенных для инженерии с помощью ИИ. Смайли предлагает одну возможную метрику: «измерение потраченных токенов для получения одобренного пул-реквеста — формально принятого изменения в программном обеспечении». Он подчеркивает, что организациям необходимо экспериментировать и итеративно улучшать в циклах обратной связи, потому что «ИИ все еще работает не очень хорошо» даже в контексте программирования.

Дикс ссылается на недавние сбои в Amazon и AWS как на индикаторы потенциальных будущих проблем, хотя Amazon заявил, что эти инциденты не связаны с ИИ.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Новости

DMA откладывает Siri AI на iOS 27 и iPadOS 27 в ЕС — доступно на macOS и visionOS

Apple объявила, что Siri AI задерживается на iOS 27 и iPadOS 27 в ЕС из-за DMA. macOS 27 и visionOS 27 получат Siri AI в ЕС. Предложение Trusted System Agent было отклонено регулирующими органами ЕС.

9 июн. 2026 г., 12:18 UTC

OpenClawRadar

Новости

4 месяца до $950 MRR: создание MCP-сервера для Claude Code Intel

Один разработчик создал MCP-сервер для анализа кодовой базы, достиг $950 MRR за 4 месяца с 54 пользователями, работая по 8-10 часов после основной работы. Никакой рекламы, никакого growth-хакинга — только Reddit и Medium.

30 апр. 2026 г., 16:20 UTC

OpenClawRadar

Новости

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM

Результаты тестирования показывают производительность визуальной LLM Qwen3-VL в задачах классификации на Apple Silicon: модели M3 Max и M4 Studio демонстрируют практически идентичные результаты для 8B моделей, в то время как M5 Max работает на 75-83% быстрее. Пропускная способность памяти важнее для генерации токенов, чем для предварительного заполнения в визуальных задачах.

6 апр. 2026 г., 21:45 UTC

OpenClawRadar

Новости

Anthropic отключает OAuth-токены Claude Code для OpenClaw, требуя отдельной оплаты.

Anthropic удаляет возможность использования токенов Claude Code CLI или долгоживущих OAuth-токенов со сторонними оболочками, такими как OpenClaw, начиная с 4 апреля. Пользователям потребуется включить дополнительное использование, которое будет оплачиваться отдельно от их подписки.

13 апр. 2026 г., 14:48 UTC

OpenClawRadar