Терри Тао об ИИ-проверщиках доказательств: Lean, сотрудничество и формальная математика

Видение Терри Тао о компьютерной проверке доказательств
В 2014 году на панельной дискуссии Терри Тао предсказал, что вскоре математики будут работать в коллаборациях из сотен человек, а их результаты будут проверять не люди-рецензенты, а автоматические верификаторы доказательств вроде Lean. Тогда это заявление встретили с недоверием, но сейчас Тао, один из самых прославленных математиков мира, стал евангелистом ИИ в математике.
Ключевые детали из источника
- Верификаторы доказательств вроде Lean могут разбить задачу на маленькие кусочки, решить их по частям и собрать обратно с уверенностью, что каждый шаг верен.
- Тао предвидит, что статьи будут писаться не в LaTeX, а на формальном языке, который умное ПО конвертирует.
Время от времени вы будете получать ошибку компиляции — компьютер не понимает, как вы получили этот шаг.
- Этот подход описан в книге Доказательство в коде: как машина истины преобразует математику и ИИ Кевина Хартнетта, изданной Quanta Magazine.
- Биография Тао: родился в 1975 году в Аделаиде, получил PhD в Принстоне по рекомендации Эрдёша. В 13 лет завоевал золото на Международной математической олимпиаде.
Что это значит для разработчиков
Для AI-агентов, пишущих код, формальные верификаторы вроде Lean представляют парадигму, когда ИИ может автономно проверять корректность. Это аналогично проверке типов в компиляторах — но для математической логики. Разработчикам инструментов для агентного программирования (например, Claude Code, Cursor) стоит следить за этой областью: автоматическая верификация корректности кода с помощью формальных методов может стать стандартной функцией.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

TimesFM 2.5 от Google: 200-миллионная модель для временных рядов с контекстом в 16 тысяч элементов.
Google Research представила TimesFM 2.5 — декодерную базовую модель для прогнозирования временных рядов с 200 миллионами параметров, длиной контекста 16 тысяч и непрерывным квантильным прогнозированием до горизонта в 1 тысячу.

Ошибки в кэше кода Claude могут увеличить стоимость API в 10-20 раз
Две ошибки кэширования в Claude Code могут незаметно увеличить стоимость API в 10-20 раз. Проблемы были сообщены на Reddit и обсуждались на Hacker News.

Talkie: 13B LLM, обученная исключительно на текстах до 1931 года, с использованием Claude в качестве судьи при RL-обучении
Исследователи представили Talkie — 13B LLM, обученную исключительно на текстах, опубликованных до 1931 года (никакого интернета, никаких данных о Второй мировой войне). Claude Sonnet 4.6 использовался в качестве судьи в конвейере онлайн-обучения с подкреплением DPO, а Claude Opus 4.4 синтезировал многопоточные диалоги для точной настройки. Модель способна писать код на Python на основе нескольких примеров в контексте, несмотря на отсутствие современного кода в обучающих данных.

Cursor's Composer 2.0, судя по данным конечной точки API, использует модель Kimi 2.5.
Анализ сетевого трафика показывает, что Cursor's Composer 2.0 отправляет запросы на конечную точку, содержащую 'kimi-k2p5-rl-0317-s515-fast', что указывает на использование Kimi 2.5 в качестве основы. Модифицированная лицензия MIT, согласно сообщениям, требует указания авторства, но налагает минимальные другие обязательства.