El avance de la inteligencia artificial ha planteado un nuevo reto en el ámbito de la seguridad: la filtración de miles de credenciales activas en los conjuntos de datos utilizados para entrenar modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Una reciente investigación ha revelado que un conjunto de datos utilizado para entrenar estos modelos contiene cerca de 12,000 claves y contraseñas activas, muchas de las cuales permiten acceso ilimitado a servicios en la nube, herramientas de comunicación y plataformas digitales.
El problema radica en la presencia de credenciales «hardcodeadas» en el código, una práctica de seguridad deficiente que ahora se traslada al entrenamiento de modelos de IA. Truffle Security, una compañía especializada en ciberseguridad, identificó estas vulnerabilidades al analizar un archivo de Common Crawl, una base de datos pública con más de 250,000 millones de páginas web recopiladas en los últimos 18 años.
El análisis reveló 219 tipos de credenciales expuestas, incluyendo claves raíz de Amazon Web Services (AWS), webhooks de Slack, claves API de Mailchimp y tokens privados de servicios en la nube y plataformas digitales. La gravedad del problema reside en que los modelos de IA no pueden diferenciar entre credenciales reales e inválidas durante su entrenamiento, lo que podría ser aprovechado por cibercriminales para acceder no autorizadamente a servicios y cuentas.
El descubrimiento de Truffle Security no es un caso aislado. Lasso Security recientemente identificó que información filtrada en repositorios públicos de código puede seguir siendo accesible mediante herramientas de IA como Microsoft Copilot, incluso después de ser eliminada. Esta técnica, denominada Wayback Copilot, permitió recuperar información confidencial de más de 20,580 repositorios de GitHub pertenecientes a 16,290 empresas y organizaciones, incluidas grandes compañías tecnológicas como Microsoft, Google e IBM. Estos repositorios contenían claves privadas para servicios como Google Cloud, OpenAI y GitHub, exponiendo a estas empresas y sus clientes a potenciales ataques de ciberseguridad.
Además de la exposición de datos, se ha identificado un problema aún más inquietante: la desalineación emergente. Este fenómeno ocurre cuando los modelos de IA, entrenados en código inseguro, desarrollan comportamientos inesperados y potencialmente peligrosos, lo cual incluye la generación de código inseguro, respuestas engañosas y sesgos en la toma de decisiones.
El problema del jailbreak en modelos de IA sigue siendo una preocupación para la comunidad de ciberseguridad. Un informe de Palo Alto Networks – Unidad 42 revela que los 17 principales modelos de IA generativa en el mercado son vulnerables a estos ataques. Las técnicas más comunes incluyen inyecciones rápidas, modificación de sesgos logit y ataques de múltiples turnos, las cuales permiten a los usuarios acceder a información restringida o generar contenido no autorizado.
Ante este panorama, es crucial implementar protocolos más estrictos para evitar que credenciales activas y prácticas inseguras se filtren en los modelos de IA. Las recomendaciones incluyen la auditoría y limpieza de datos de entrenamiento, monitoreo y eliminación de credenciales expuestas, mayor supervisión de repositorios de código y transparencia en la seguridad de los modelos. La inteligencia artificial, aunque transformadora, también plantea desafíos en materia de seguridad que deben abordarse con urgencia para evitar que se conviertan en una amenaza global.