bad-ass-mcp: MCP gratuito y de código abierto para control de GUI de escritorio nativo mediante API de Accesibilidad

bad-ass-mcp es un servidor MCP que otorga a los agentes de IA control directo sobre tu escritorio utilizando la capa de accesibilidad nativa del sistema operativo. A diferencia de Computer Use de Anthropic u Operator de OpenAI, no depende de ciclos de mirar-mover-mirar basados en capturas de pantalla, y a diferencia de UiPath, es gratuito y de código abierto.
Cómo funciona
En lugar de analizar capturas de pantalla, bad-ass-mcp utiliza la misma API de accesibilidad que usan los lectores de pantalla. Esto significa que puede navegar, señalar, hacer clic y escribir más rápido y de manera más confiable que los enfoques basados en visión. El desarrollador señala que los frameworks de WebView (Electron, Tauri, etc.) tienen una exposición de accesibilidad pobre, pero la herramienta sigue funcionando — y es más rápida que tomar una captura de pantalla. Están impulsando proyectos para mejorar el soporte de accesibilidad, lo que también beneficia a los usuarios con discapacidad visual.
Capacidades clave
- Controlar aplicaciones GUI en macOS, Windows y Linux
- Interactuar y probar aplicaciones GUI de forma autónoma
- Optimizar flujos de trabajo en múltiples aplicaciones y estaciones de trabajo
- Grabar y guardar video de sus propias acciones (como se muestra en el video de demostración)
Casos de uso de ejemplo
El desarrollador planea demostrar la organización de material de archivo por tipo de toma en Adobe Premiere Pro y la gradación de color en DaVinci Resolve. La herramienta se grabó a sí misma y guardó el video en una demostración simple.
Para quién es
Desarrolladores que usan agentes de codificación de IA y necesitan automatizar tareas GUI de escritorio sin herramientas empresariales costosas o enfoques lentos basados en capturas de pantalla.
📖 Lee la fuente completa: r/ClaudeAI
👀 Ver también

Torrix: Observabilidad de LLM autoalojada sin Postgres ni Redis
Torrix es una herramienta de observabilidad para LLM autoalojada que se ejecuta como un solo contenedor Docker respaldado por SQLite. Instálala con docker compose up; registra llamadas a LLM a través de proxy HTTP o SDK: tokens, costo, latencia, trazas completas, enmascaramiento de PII, previsión de costos.

Cowork vs. Claude Chat: Comparación de Precisión en la Extracción de Documentos
Un desarrollador probó Claude.ai chat y Cowork en la extracción de datos de PDFs financieros de más de 140 páginas utilizando prompts idénticos. Chat produjo resultados de grado institucional con autocorrección y cero errores en más de 150 puntos de datos, mientras que Cowork fabricó partidas de conciliación, invirtió recuentos de unidades y tuvo contaminación de columnas de ejercicios anteriores.

CopilotKit: Componentes React de Código Abierto para Interfaces de Agente
CopilotKit (30k estrellas, MIT) proporciona componentes de React para la capa de interfaz de agente: chat, streaming, llamadas a herramientas, intervención humana y UI generativa, con soporte del protocolo AG-UI en LangGraph, ADK, CrewAI y más.

OpenClaw Integra Características de la Filtración de Código de Claude
Un usuario de OpenClaw hizo que su bot analizara el código filtrado de Claude (la recreación en Rust de Instructkr) y portó selectivamente patrones arquitectónicos específicos a su configuración de OpenClaw. La integración se centra en mejoras prácticas como la continuidad automática de inicio, la compactación de conversaciones y un marco de hooks pre-herramienta/post-herramienta.