Las empresas del sector financiero, al igual que en otros ámbitos altamente regulados, enfrentan retos importantes en la gestión de la seguridad y el cumplimiento normativo. Una herramienta clave en la protección de infraestructuras tecnológicas críticas es el sistema de Gestión de Accesos Privilegiados (PAM, por sus siglas en inglés). Estos sistemas no solo garantizan la seguridad, sino que también gestionan y monitorean el uso de accesos privilegiados por parte de los administradores de sistemas, lo cual resulta fundamental para cumplir con las exigentes auditorías impuestas por las regulaciones de seguridad.
Entre las funcionalidades de los sistemas PAM, el registro de pulsaciones de teclas y las grabaciones de vídeo de las sesiones de consola de los servidores se destacan como herramientas esenciales para el cumplimiento normativo. Sin embargo, capturar las pulsaciones no siempre es factible, especialmente en sistemas operativos como Windows que dependen en gran medida de interfaces gráficas. Esto obliga a los equipos de seguridad a confiar en las grabaciones de vídeo, un proceso que se vuelve inabordable dado que una organización financiera típica puede generar más de 100,000 horas de grabaciones al mes.
De esta cifra, si únicamente el 30% proviene de servidores Windows, serían necesarios aproximadamente 1,000 empleados trabajando a tiempo completo solo para revisar estas grabaciones, lo que plantea un gran desafío para la detección de anomalías o actos maliciosos. Esta situación ha llevado a los equipos de seguridad a efectuar controles aleatorios, limitando su capacidad para identificar infracciones de seguridad en tiempo real.
La irrupción de servicios de inteligencia artificial (IA) ha transformado este panorama, revolucionando el modo en que se procesan, analizan y extraen insights de los vídeos. Las técnicas avanzadas de aprendizaje automático y visión por computadora pueden permitir la detección de objetos, el reconocimiento de actividades, y el reconocimiento de texto y audio. En este contexto, el empleo de grandes modelos de lenguaje, como Claude 3 de Anthropic, ha capacitado a los equipos de seguridad para convertir las grabaciones en transcripciones que pueden ser analizadas para descubrir anomalías.
La solución propuesta sigue un flujo de trabajo en dos etapas: la transcripción de los vídeos y el análisis de seguridad de esas transcripciones. En un primer momento, se extraen imágenes estáticas de cada segundo de grabación, dado que los modelos actuales tienen limitaciones para procesar datos visuales secuenciales eficientemente. Una vez transcritas, éstas se utilizan en una segunda etapa para llevar a cabo análisis de seguridad, como verificar el cumplimiento de las solicitudes de cambio y detectar riesgos potenciales de acceso a datos sensibles o el aumento de privilegios.
La implementación de este enfoque, utilizando tecnologías como Amazon Bedrock y Claude 3, no solo optimiza la gestión de las grabaciones, sino que también capacita a los equipos de seguridad para mejorar su postura ante las amenazas. Con un sistema que analiza grandes volúmenes de datos visuales de forma eficiente, las organizaciones están en mejor posición para responder rápidamente a incidentes de seguridad y asegurar el cumplimiento normativo de sus operaciones.
Este innovador enfoque puede servir de ejemplo para que otros sectores adapten estrategias similares, ajustando la tecnología a sus necesidades específicas y optimizando sus procesos de seguridad.