Опасно пропускать чтение кода: когда LLM пишут код быстрее, чем вы можете его прочитать

Предпосылка проста: что, если мы вообще перестанем читать код, сгенерированный LLM? Относиться к нему как к ассемблеру, байт-коду или транспилированному JavaScript — исходный код на высокоуровневом языке становится еще одной формой машинного кода. Эта идея взята из отчета ретрита Thoughtworks и поста в блоге Факундо Олано.
Почему это имеет смысл
LLM выдают недетерминированный вывод и генерируют код намного быстрее, чем человек может его прочитать. Проверять каждый diff больше нецелесообразно. Вместо того чтобы отказываться от строгости, перенесите ее в другое место: в спецификации и тесты.
Организационное условие
Это решение не для отдельного разработчика или команды — оно должно быть принято на уровне организации. Применим закон Амдала: максимальное ускорение генерации кода без реструктуризации процессов не дает реального прироста. Нельзя, чтобы одни разработчики выдавали по 20 тысяч строк мусора в день, а другие все еще читали и утверждали его.
Требования включают:
- Убрать человека из цикла, сократить согласования и бюрократию
- Практически бесконечный поток требований, инженеры автономно владеют своими потоками работы
- Переделка почти бесплатна, поэтому не предотвращайте неверную работу — выявляйте ее через спецификации/тесты
Предлагаемый рабочий процесс
Используйте стандартизированную спецификацию в Markdown как новую единицу знаний. Владельцы продукта и инженеры совместно работают над спецификацией и тестовыми сценариями для бизнес-правил. Заносите их в репозиторий вместе с реализующим кодом.
Автоматические проверки пул-реквеста верифицируют:
- Тесты проходят
- Код соответствует спецификации
Спецификация — а не код — это то, что команда понимает, проверяет и за что отвечает.
Ключевое различие
Спецификации — это не промпты. Тесты — не TDD. Речь идет о переносе строгости на уровень контракта, а не на уровень реализации.
📖 Читать источник: HN AI Agents
👀 Смотрите также

Сравнение бенчмарков Qwen3.6 Plus с западными моделями SOTA
Qwen3.6 Plus набирает 78,8 баллов в SWE-bench Verified, 90,4 в GPQA/GPQA Diamond, 28,8 в HLE (без инструментов) и 78,8 в MMMU-Pro, что делает его конкурентоспособным по сравнению с такими моделями, как GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro Preview.

Claude Code v2.1.160: Подсказки безопасности для конфигурации оболочки, защита файлов acceptEdits и десятки исправлений ошибок
Anthropic выпустил Claude Code v2.1.160 с запросами подтверждения перед записью в startup-файлы оболочки и конфигурации инструментов сборки в режиме acceptEdits, улучшенной поддержкой буфера обмена Windows и исправлением потери истории сессий.

Anthropic удваивает лимиты ставок Claude Code и отменяет ограничения в пиковые часы для платных тарифов
Anthropic удвоил лимиты на 5-часовые запросы для Claude Code на тарифах Pro, Max, Team и Enterprise, отменил снижение лимитов в часы пик и увеличил лимиты API для моделей Opus.

Исходный код против моделей нового поколения: бенчмарк сцены с автомобилем на холсте в одном файле
Разработчик протестировал 12 моделей, включая GPT-5.5, Claude Opus 4.7 и Qwen 3.6 Plus, на задаче создания анимации движения автомобиля в одном HTML-файле с Canvas. Результаты опубликованы для сравнения.