Извлечение кода для ИИ-агентов: почему векторные эмбеддинги не работают и как побеждают графы LLM на уровне файлов

✍️ OpenClawRadar📅 Опубликовано: 10 мая 2026 г.🔗 Source
Извлечение кода для ИИ-агентов: почему векторные эмбеддинги не работают и как побеждают графы LLM на уровне файлов
Ad

Годовой эксперимент по созданию системы индексации кода для AI-инструментов дал однозначные результаты: векторные эмбеддинги на фрагментах кода и разбор Tree-sitter AST имеют критические недостатки, а LLM-анализ по файлам, хранящийся в графе Neo4j с семантическим полнотекстовым поиском, работает лучше всего. Полученные данные подтверждаются недавними статьями, такими как RepoGraph (ICLR 2025) и Code-Craft.

Протестированные подходы

  • Векторные эмбеддинги на фрагментах кода – полностью отброшены. Функция с именем process() в сервисе платежей и такая же в конвейере изображений получают похожие векторы, хотя не имеют ничего общего. Векторы уплощают графы вызовов, наследование, импорты — все структурные связи. Точность поиска была неприемлемой.
  • Разбор Tree-sitter AST – точен и быстр, но только структурный. Он может сказать, что функция существует и что она вызывает, но не может ответить на вопрос: «Эта функция обрабатывает повторные попытки вебхуков для неудачных платежей Stripe». Оказывается недостаточным, когда разработчики формулируют вопросы на бизнес-языке.
  • LLM-анализ по файлам → граф – работает. Каждый файл получает вызов LLM, генерирующий purpose, summary и businessContext, которые хранятся как узлы в Neo4j с ребрами к классам, функциям, ключевым словам и импортам. Поиск использует полнотекстовый поиск по этим семантическим полям вместо векторной близости. SHA-256-диффинг ограничивает переиндексацию измененными файлами, делая начальные затраты приемлемыми.
Ad

Бенчмарки из литературы

RepoGraph (ICLR 2025) показал улучшение на +32,8% на SWE-bench при использовании графовых подходов. Code-Craft достиг +82% точности поиска top-1, используя LLM-сводки снизу вверх на основе графов кода.

Сравнение с существующими инструментами

Команда опубликовала сравнительный анализ в comparison.md. Ключевые различия:

  • Bytebell: LLM по файлам → purpose + summary + businessContext + entities; хранение в Neo4j + MongoDB; переиндексация с учетом SHA-256-диффа.
  • PageIndex: дерево рассуждений TOC для длинных PDF/документов; нет семантики, специфичной для кода.
  • GitNexus: Tree-sitter AST + обнаружение сообществ; опциональная семантика на символ; использует LadybugDB.
  • GraphRAG: сущности LLM по фрагментам + кластеризация сообществ для общего текста, не для кода.
  • Sourcegraph/Cody: поисковый индекс LSIF/SCIP; нет семантики на узел; развертывание самостоятельно или SaaS.
  • Augment: проприетарный семантический индекс с эмбеддингами; только SaaS; управляемое непрерывное индексирование.

Открытый исходный код

Система имеет открытый исходный код на github.com/ByteBell/bytebell-oss.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.
Инструменты

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.

Свод законов США доступен в виде Git-репозитория, где всё федеральное законодательство хранится в файлах Markdown. Каждый коммит представляет собой снимок состояния на определённый момент времени с 2013 года по настоящее время, что позволяет разработчикам использовать команды git diff, git log и git blame для отслеживания изменений в законодательстве.

OpenClawRadar
Расширение браузера WeAreHere и инструменты MCP сканируют политики конфиденциальности веб-сайтов.
Инструменты

Расширение браузера WeAreHere и инструменты MCP сканируют политики конфиденциальности веб-сайтов.

Два инструмента с открытым исходным кодом — barebrowse и wearehere — сканируют веб-сайты на наличие трекеров, снятия цифровых отпечатков и подключений к брокерам данных. Браузерное расширение wearehere показывает оценки приватности в реальном времени (0–100) во время просмотра, а серверы MCP позволяют ИИ-ассистентам оценивать любой сайт по команде.

OpenClawRadar
Phalanx CLI координирует работу нескольких ИИ-агентов для автоматизации циклов ревью кода.
Инструменты

Phalanx CLI координирует работу нескольких ИИ-агентов для автоматизации циклов ревью кода.

Разработчик создал Phalanx — инструмент командной строки, который координирует работу ИИ-агентов от разных провайдеров: Codex занимается написанием кода, Claude Opus выполняет код-ревью, а Claude Sonnet управляет циклом. Вспомогательный инструмент Codebones сжимает репозитории в структурные карты для снижения расхода токенов.

OpenClawRadar
Расширение для Chrome добавляет функцию Live Preview на веб-сайт Claude Code.
Инструменты

Расширение для Chrome добавляет функцию Live Preview на веб-сайт Claude Code.

Расширение для Chrome под названием Claude Code Preview добавляет функцию живого предпросмотра в Claude Code Web, аналогично Lovable и другим сайтам 'vibecoding', позволяя просматривать развертывания бок о бок.

OpenClawRadar