Сравнение производительности моделей Qwen 3.5 с основными моделями искусственного интеллекта

Был опубликован сайт для сравнения бенчмарков, который предоставляет данные о производительности различных больших языковых моделей в прямом сравнении. Сайт включает проверенные оценки и сравнительные инфографики для ряда моделей, с акцентом на серию Qwen 3.5 от Alibaba.
Модели, включённые в сравнение
В источнике перечислены следующие модели, которые являются частью полного сравнения:
- GPT-5.2
- Claude 4.5 Opus
- Gemini-3 Pro
- Qwen3-Max-Thinking
- K2.5-1T-A32B
- Qwen3.5-397B
- GPT-5-mini
- GPT-OSS-120B
- Qwen3-235B
- Qwen3.5-122B
- Qwen3.5-27B
- Qwen3.5-35B
Что предоставляет источник
Исходный материал конкретно указывает, что сравнение включает "все проверенные оценки и сравнительные инфографики". Это предполагает, что сайт агрегирует метрики производительности из стандартизированных ИИ-бенчмарков, которые обычно измеряют возможности в таких областях, как логическое мышление, программирование и общие знания. Предоставленная ссылка ведёт на специальный сайт для сравнения по адресу https://compareqwen35.tiiny.site.
Для контекста, сравнения по бенчмаркам являются стандартным методом в сообществе ИИ для объективной оценки производительности моделей. Серия Qwen — это модели с открытым исходным кодом, разработанные Alibaba, и их сравнение с проприетарными моделями от OpenAI (GPT), Anthropic (Claude) и Google (Gemini) предоставляет практические данные для разработчиков, выбирающих, какую модель использовать или дообучать для конкретных задач. Включение размеров параметров (например, 122B, 397B) указывает на то, что сравнение охватывает модели различного масштаба, что важно для оценки производительности относительно вычислительных затрат.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Изменения биллинга Claude Agent SDK с 15 июня: кредиты на пользователя, без переноса, жесткий дедлайн
Начиная с 15 июня использование Claude Agent SDK и claude -p перестает учитываться в рамках лимитов подписки Claude. Каждый пользователь получает отдельный ежемесячный кредит (например, Pro $20, Max 5x $100). Кредиты не объединяются, не переносятся и имеют жесткое ограничение.

Ограничения скорости запросов в Claude Code могут быть связаны с перегрузкой из-за контекстного окна в 1 миллион токенов.
Пользователь Reddit предполагает, что недавние ограничения скорости и сбои в работе Claude Code вызваны контекстным окном в 1 млн токенов в Opus 4.6, что может приводить к неэффективному сжатию контекста и перегрузке серверов. Переключение на старую модель без 1 млн контекста, по сообщениям, улучшает стабильность.

Анализ негативного отношения к ИИ и эффекта «зловещей долины»
Недавние опросы показывают растущий общественный скептицизм в отношении ИИ: в марте 2026 года 55% американцев считали, что ИИ принесёт больше вреда, чем пользы в повседневной жизни. В статье исследуется, как ИИ вызывает реакции «зловещей долины» через несоответствие социальным ожиданиям.

Клод удваивает лимиты использования вне пиковых часов на две недели.
Anthropic временно удваивает лимиты использования Claude вне пиковых часов для всех тарифных планов. В будние дни вне периода 5–11 утра PT/12–6 вечера GMT доступно 2-кратное использование, а на выходных — 2-кратное использование в течение всего дня.