Google Research представляет TurboQuant для сжатия моделей искусственного интеллекта

Что делает TurboQuant
TurboQuant — это набор продвинутых алгоритмов квантования, которые обеспечивают значительное сжатие для больших языковых моделей и векторных поисковых систем. Он специально решает узкие места в кэше ключ-значение — высокоскоростной системе хранения, которая сохраняет часто используемую информацию под простыми метками для мгновенного доступа.
Как это работает
TurboQuant достигает значительного уменьшения размера модели без потери точности с помощью двух ключевых шагов:
- Высококачественное сжатие (метод PolarQuant): Начинается со случайного вращения векторов данных для упрощения геометрии, затем применяет стандартный квантователь к каждой части вектора отдельно. На этом этапе используется большая часть мощности сжатия для сохранения основной концепции и силы исходного вектора.
- Устранение скрытых ошибок: Использует небольшой остаточный объём мощности сжатия (всего 1 бит) для применения алгоритма QJL к крошечному количеству ошибок, оставшихся после первого этапа. QJL действует как математический проверщик ошибок, который устраняет смещения, приводя к более точным оценкам внимания.
Ключевые компоненты
QJL (Quantized Johnson-Lindenstrauss): Использует преобразование Джонсона-Линденштраусса для сжатия высокоразмерных данных с сохранением расстояний между точками данных. Он сокращает каждое результирующее векторное число до одного знакового бита (+1 или -1) с нулевыми накладными расходами памяти. Использует специальный оценщик, который балансирует высокоточные запросы с низкоточными данными для точного расчёта оценок внимания.
PolarQuant: Решает проблему накладных расходов памяти, преобразуя векторы в полярные координаты с использованием декартовой системы координат. Вместо стандартных координат (X, Y, Z) он использует формат, сравнимый с «Пройти 5 блоков в общей сложности под углом 37 градусов», а не «Пройти 3 блока на восток, 4 блока на север».
Технический контекст
Традиционное векторное квантование обычно вводит накладные расходы памяти в 1-2 дополнительных бита на число из-за хранения констант квантования для каждого небольшого блока данных. TurboQuant оптимально решает эту проблему. Техники показали перспективность в тестировании для уменьшения узких мест ключ-значение без ущерба для производительности моделей ИИ.
TurboQuant будет представлен на ICLR 2026, а PolarQuant — на AISTATS 2026.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Knowledge Raven: Кросс-модельная платформа базы знаний, созданная с помощью Claude Code
Knowledge Raven — это платформа базы знаний, которая позволяет любому LLM, совместимому с MCP, искать и цитировать корпоративные документы. Вся платформа была создана с помощью Claude Code одним основателем и включает бэкенд на Python/FastAPI, слой инструментов MCP и агентный RAG-конвейер.

Пилотская консоль: Веб-панель управления для администрирования частных сетей ИИ-агентов
Разработчик использовал Claude для создания Pilot Console — веб-интерфейса для управления частными сетями агентов, построенными на Pilot Protocol. Панель управления предоставляет визуальную настройку, подключение агентов, мониторинг флота и API-управление для многозадачных рабочих процессов с агентами.

OpenClaw-superpowers добавляет функции надежности для режимов операционных сбоев.
Репозиторий openclaw-superpowers пополнился восемью новыми навыками, ориентированными на надёжность, включая предварительные проверки перед развёртыванием, подтверждение выполнения cron-заданий, восстановление после сброса сессии и управление жизненным циклом аутентификации MCP. Эти дополнения увеличили общее количество навыков до 60, из которых 44 являются нативными для OpenClaw, а 23 предназначены для планирования по расписанию cron.

Юридический MCP-сервер для Claude предоставляет доступ к более чем 4 миллионам судебных решений США.
Бесплатный сервер MCP с открытым исходным кодом, созданный с помощью Claude Code, предоставляет ИИ Claude доступ к более чем 4 миллионам реальных судебных решений США, предлагая 18 инструментов для поиска прецедентного права, отслеживания цитирований, парсинга цитат по стандарту Bluebook, интеграции с системой управления практикой Clio и доступа к федеральным документам PACER без галлюцинаций.