Извлечение кода для ИИ-агентов: почему векторные эмбеддинги не работают и как побеждают графы LLM на уровне файлов

Годовой эксперимент по созданию системы индексации кода для AI-инструментов дал однозначные результаты: векторные эмбеддинги на фрагментах кода и разбор Tree-sitter AST имеют критические недостатки, а LLM-анализ по файлам, хранящийся в графе Neo4j с семантическим полнотекстовым поиском, работает лучше всего. Полученные данные подтверждаются недавними статьями, такими как RepoGraph (ICLR 2025) и Code-Craft.
Протестированные подходы
- Векторные эмбеддинги на фрагментах кода – полностью отброшены. Функция с именем
process()в сервисе платежей и такая же в конвейере изображений получают похожие векторы, хотя не имеют ничего общего. Векторы уплощают графы вызовов, наследование, импорты — все структурные связи. Точность поиска была неприемлемой. - Разбор Tree-sitter AST – точен и быстр, но только структурный. Он может сказать, что функция существует и что она вызывает, но не может ответить на вопрос: «Эта функция обрабатывает повторные попытки вебхуков для неудачных платежей Stripe». Оказывается недостаточным, когда разработчики формулируют вопросы на бизнес-языке.
- LLM-анализ по файлам → граф – работает. Каждый файл получает вызов LLM, генерирующий
purpose,summaryиbusinessContext, которые хранятся как узлы в Neo4j с ребрами к классам, функциям, ключевым словам и импортам. Поиск использует полнотекстовый поиск по этим семантическим полям вместо векторной близости. SHA-256-диффинг ограничивает переиндексацию измененными файлами, делая начальные затраты приемлемыми.
Бенчмарки из литературы
RepoGraph (ICLR 2025) показал улучшение на +32,8% на SWE-bench при использовании графовых подходов. Code-Craft достиг +82% точности поиска top-1, используя LLM-сводки снизу вверх на основе графов кода.
Сравнение с существующими инструментами
Команда опубликовала сравнительный анализ в comparison.md. Ключевые различия:
- Bytebell: LLM по файлам → purpose + summary + businessContext + entities; хранение в Neo4j + MongoDB; переиндексация с учетом SHA-256-диффа.
- PageIndex: дерево рассуждений TOC для длинных PDF/документов; нет семантики, специфичной для кода.
- GitNexus: Tree-sitter AST + обнаружение сообществ; опциональная семантика на символ; использует LadybugDB.
- GraphRAG: сущности LLM по фрагментам + кластеризация сообществ для общего текста, не для кода.
- Sourcegraph/Cody: поисковый индекс LSIF/SCIP; нет семантики на узел; развертывание самостоятельно или SaaS.
- Augment: проприетарный семантический индекс с эмбеддингами; только SaaS; управляемое непрерывное индексирование.
Открытый исходный код
Система имеет открытый исходный код на github.com/ByteBell/bytebell-oss.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.
Свод законов США доступен в виде Git-репозитория, где всё федеральное законодательство хранится в файлах Markdown. Каждый коммит представляет собой снимок состояния на определённый момент времени с 2013 года по настоящее время, что позволяет разработчикам использовать команды git diff, git log и git blame для отслеживания изменений в законодательстве.

Расширение браузера WeAreHere и инструменты MCP сканируют политики конфиденциальности веб-сайтов.
Два инструмента с открытым исходным кодом — barebrowse и wearehere — сканируют веб-сайты на наличие трекеров, снятия цифровых отпечатков и подключений к брокерам данных. Браузерное расширение wearehere показывает оценки приватности в реальном времени (0–100) во время просмотра, а серверы MCP позволяют ИИ-ассистентам оценивать любой сайт по команде.

Phalanx CLI координирует работу нескольких ИИ-агентов для автоматизации циклов ревью кода.
Разработчик создал Phalanx — инструмент командной строки, который координирует работу ИИ-агентов от разных провайдеров: Codex занимается написанием кода, Claude Opus выполняет код-ревью, а Claude Sonnet управляет циклом. Вспомогательный инструмент Codebones сжимает репозитории в структурные карты для снижения расхода токенов.

Расширение для Chrome добавляет функцию Live Preview на веб-сайт Claude Code.
Расширение для Chrome под названием Claude Code Preview добавляет функцию живого предпросмотра в Claude Code Web, аналогично Lovable и другим сайтам 'vibecoding', позволяя просматривать развертывания бок о бок.