Claude 4.6 Opus Razonamiento Destilado a 14GB para Apple Silicon mediante Cuantización MLX

✍️ OpenClawRadar📅 Publicado: 7 de marzo de 2026🔗 Source
Claude 4.6 Opus Razonamiento Destilado a 14GB para Apple Silicon mediante Cuantización MLX
Ad

Un desarrollador ha cuantizado exitosamente un modelo de IA local que lleva las capacidades de razonamiento de Claude 4.6 Opus al hardware Apple Silicon, reduciendo significativamente su huella de memoria mientras mantiene el rendimiento.

El Modelo y Su Origen

El trabajo se centra en Qwen 3.5 27B, específicamente una versión destilada de trayectorias de razonamiento de Claude 4.6 Opus. El desarrollador buscaba un modelo que pudiera "pensar" en lugar de solo autocompletar código, describiendo la firma de Opus como "deliberada, analítica, y detecta los sutiles defectos arquitectónicos que otros modelos pasan por alto". Esta versión destilada trae ese andamiaje de "pensamiento" a una arquitectura de pesos abiertos.

El Proceso de Cuantización

El modelo original era de 55.6GB en formato BF16, lo que el desarrollador señaló es un "no comienzo" para la mayoría de configuraciones locales ya que consume todo el grupo de memoria. Para abordar esto, utilizaron MLX para cuantizar el modelo para Apple Silicon, convirtiéndolo a precisión de 4 bits. El objetivo era mantener el razonamiento de alta fidelidad de Opus mientras lo hacían lo suficientemente ligero para uso diario en planificación técnica y lógica compleja.

Ad

Resultados y Rendimiento

  • Huella: Reducida de 55GB a 14GB
  • Velocidad: ~16 tokens/segundo en un M4 Pro
  • Razonamiento: Mantiene el bloque completo <think>, permitiendo al modelo "hablar consigo mismo" para verificar lógica, simular casos límite y autocorregirse antes de presentar respuestas finales

Disponibilidad y Requisitos

El desarrollador ha subido los pesos a Hugging Face. El modelo requiere una Mac con 24GB+ de RAM para ejecutar lógica privada de alto nivel y planificación técnica completamente offline.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Claude Hindsight: Herramienta de Observabilidad para Sesiones de Código de Claude
Herramientas

Claude Hindsight: Herramienta de Observabilidad para Sesiones de Código de Claude

Claude Hindsight es una capa de observabilidad de código abierto para Claude Code que captura llamadas a herramientas, tokens y errores en un panel de control explorable. El creador lo usó para refactorizar un proyecto de código abierto en una sola sesión de 11 horas con 733 llamadas a herramientas y 692.8M tokens de caché.

OpenClawRadar
Aplicación de la Bandeja del Sistema de Windows para el Monitoreo en Tiempo Real del Uso de la API de Claude
Herramientas

Aplicación de la Bandeja del Sistema de Windows para el Monitoreo en Tiempo Real del Uso de la API de Claude

Un desarrollador creó una aplicación ligera para la bandeja del sistema de Windows que muestra el uso de la cuota de la API de Claude en tiempo real, incluyendo ventanas de 5 horas y 7 días, recuentos de tokens de hoy y pronósticos de agotamiento. La aplicación admite interfaz de usuario en coreano, inglés, chino y japonés y es de código abierto en GitHub.

OpenClawRadar
Centinela AI de Homelab: Asistente de Monitoreo Autohospedado con Integración LLM
Herramientas

Centinela AI de Homelab: Asistente de Monitoreo Autohospedado con Integración LLM

Homelab AI Sentinel es una herramienta autoalojada que procesa webhooks de monitoreo a través de un LLM para generar diagnósticos en lenguaje sencillo. Es compatible con 11 fuentes de alertas, 10 plataformas de notificación y funciona con cualquier endpoint compatible con OpenAI, incluyendo Ollama y LM Studio para inferencia local.

OpenClawRadar
Necesita que el Servidor MCP Proporcione Descubrimiento Semántico de Herramientas para Agentes de IA
Herramientas

Necesita que el Servidor MCP Proporcione Descubrimiento Semántico de Herramientas para Agentes de IA

Un servidor MCP llamado Need permite búsqueda semántica entre más de 10,000 herramientas de brew, npm, pip y cargo. Cuando un agente solicita una tarea como 'comprime estos PNG', encuentra pngquant, lo instala, lo ejecuta e informa sobre el éxito.

OpenClawRadar