Меркурий 2: Модель на основе диффузии для кодирования с ИИ в реальном времени

Что такое Mercury 2
Mercury 2 — это диффузионная AI-модель, которая генерирует токены параллельно, а не последовательно, используя процесс, уточняющий результат за несколько шагов. Этот подход отличается от традиционных авторегрессивных моделей, которые декодируют токены по одному.
Технические характеристики
- Метод генерации: Диффузионная генерация вместо последовательного декодирования токенов
- Подход к обработке: Генерирует токены параллельно и уточняет их за несколько шагов
- Производительность: Заявленная скорость 1 009 токенов/сек на GPU NVIDIA Blackwell
- Тарифы: $0,25 за 1 миллион входных токенов, $0,75 за 1 миллион выходных токенов
- Контекстное окно: 128K токенов
- Способность к рассуждению: Настраиваемое рассуждение
- Интеграция инструментов: Нативное использование инструментов с JSON-выводом, соответствующим схеме
- Совместимость API: Совместим с OpenAI API
Целевые сценарии использования
Разработчики позиционируют Mercury 2 для:
- Помощников по программированию
- Агентских циклов (многошаговые цепочки логического вывода)
- Систем реального времени для голоса
- RAG/поисковых конвейеров с многоуровневым извлечением
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Пещерный человек против подсказки "будь кратким": сравнение эффективности подсказок для сжатия в Клоде
Бенчмарк из 24 запросов по 5 вариантам показывает, что двухсловный запрос «будь краток.» соответствует «пещерному» сжатию как по количеству токенов, так и по качеству вывода, хотя пещерный стиль обеспечивает структурную согласованность и функции безопасного отключения.

ThermoQA: Открытый эталон для инженерной термодинамики, тестирующий большие языковые модели на 293 расчетных задачах
ThermoQA — это открытый бенчмарк с 293 задачами по инженерной термодинамике, разделёнными на три уровня, который проверяет большие языковые модели на точные численные расчёты. Claude Opus 4.6 лидирует с совокупным результатом 94,1%, в то время как DeepSeek-R1 демонстрирует наибольшую вариативность между запусками — ±2,5%.

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

Выпускники освистывают напутствия об ИИ на выпускных: признак настроений разработчиков
Выпускники колледжей освистали ораторов, продвигавших энтузиазм по поводу ИИ на церемониях вручения дипломов, что отражает более широкое беспокойство о влиянии ИИ на работу и общество.