Investigadores de seguridad de Invariant Labs han dado a conocer un ataque sofisticado que permite a actores maliciosos extraer historiales completos de mensajes de WhatsApp. Este ciberataque aprovecha una debilidad en el Model Context Protocol (MCP), una arquitectura utilizada ampliamente en sistemas de agentes inteligentes como Cursor o Claude Desktop.
El MCP fue creado para conectar asistentes y agentes de inteligencia artificial a múltiples servicios y herramientas externas mediante el uso de descripciones de herramientas. Esta flexibilidad ha facilitado el desarrollo de sistemas integrables, pero también ha introducido nuevos vectores de ataque, especialmente cuando los usuarios enlazan sus sistemas a servidores MCP no verificados.
Según la investigación de Invariant Labs, los servidores MCP maliciosos pueden presentarse como herramientas inofensivas. Una vez aprobadas por los usuarios, estas herramientas pueden modificar su comportamiento subrepticiamente. Con esta técnica, conocida como «rug pull», es posible interceptar y reenviar mensajes desde una instancia confiable de WhatsApp MCP al servidor del atacante manipulando el comportamiento del agente.
El ataque descrito no necesita interacción directa con WhatsApp. Solamente requiere que el agente esté conectado tanto al servidor de WhatsApp como al del atacante, lo que permite al servidor malicioso reprogramar la lógica del agente. Este mecanismo facilita el envío y reenviado de mensajes sin intervención directa. En pruebas realizadas, los investigadores consiguieron extraer todo el historial de chats de un usuario manipulando las instrucciones del agente. La interfaz de herramientas, como las que utiliza Cursor, no presenta detalles críticos, lo cual propicia que el ataque pase desapercibido.
La falla de seguridad demuestra que el diseño del MCP carece de controles sólidos contra ataques de tipo “sleeper” o “instrucción envenenada”. Las medidas de seguridad actuales, como el aislamiento por sandbox o la validación de código, resultan insuficientes cuando el sistema obedece ciegamente las instrucciones dadas por las herramientas del MCP. La precisión y limitación del ataque a ciertos usuarios o momentos específicos añade dificultad a su detección y mitigación.
Ante esta amenaza, Invariant Labs propone diversas recomendaciones tanto para desarrolladores como para usuarios. Sugieren evitar conectar agentes de inteligencia artificial a servidores MCP de origen desconocido, implementar monitorización en tiempo real del comportamiento del agente, asegurar que las descripciones de herramientas no sean modificables sin alertas visibles al usuario, y diseñar agentes con una mayor capacidad de verificación contextual y validación cruzada de instrucciones.
Este incidente resalta que la seguridad en la inteligencia artificial no es opcional. La capacidad de los sistemas inteligentes para seguir instrucciones, aun cuando estas sean manipuladas, los convierte en vectores ideales para ataques continuos e indetectables.
El hallazgo marca un punto de inflexión en la seguridad de los agentes conectados mediante MCP. En un entorno cada vez más dependiente de agentes autónomos e integraciones intersistemáticas, estos descubrimientos deberían incentivar una revisión detallada del diseño y gobernanza del MCP, impulsando también inversiones en plataformas de protección como las que propone Invariant Labs. La protección no puede ser un aspecto secundario en sistemas donde los agentes tienen acceso a nuestras conversaciones personales más privadas, ya que cualquier vulnerabilidad podría derivar en consecuencias devastadoras.