Implementar estrategias de múltiples cuentas se ha convertido en un principio crucial para operar de manera segura y eficiente en Amazon Web Services (AWS), especialmente cuando se trabaja a gran escala. La segmentación estratégica de las cargas de trabajo en varias cuentas de AWS ofrece la capacidad de aplicar controles diferenciados, monitorizar costos y uso, y simplificar la gestión de múltiples nubes privadas virtuales (VPC) y accesos de identidad. Este enfoque permite que diferentes equipos tengan acceso a cuentas específicas adaptadas a sus necesidades, garantizando simultáneamente gobernanza y seguridad.
En la primera entrega de esta serie, se abordaron las mejores prácticas para operar y gobernar cargas de trabajo de machine learning (ML) y análisis en AWS utilizando Amazon SageMaker. En esta ocasión, se proporciona una guía para implementar una arquitectura base de múltiples cuentas, facilitando la organización, construcción y gobernanza de módulos clave como fundamentos del data lake, servicios de plataforma ML, desarrollo de casos de uso de ML, operaciones de ML, almacenes de características centralizados, registro y observabilidad, y costos y reportes.
La implementación de una estructura de cuentas y unidades organizacionales (OU) recomendada permite el aislamiento de recursos de AWS y visibilidad de costos para los equipos de ML y análisis. AWS Control Tower es una herramienta útil en este contexto, ya que permite crear una zona de aterrizaje base que soporte la escalabilidad y gobernanza de las cargas de trabajo de datos y ML. Asimismo, la referencia de arquitectura de seguridad de AWS provee directrices esenciales para asegurar datos y cargas de trabajo de ML a gran escala.
AWS Organizations desempeña un papel fundamental en la gestión centralizada de cuentas mediante la creación de agrupaciones jerárquicas en OUs. Se sugieren OUs específicas para ML y plataformas de datos, incluyendo categorías como Seguridad, Infraestructura, Cargas de Trabajo, Despliegues y Sandbox.
Las cuentas dentro de la OU de Seguridad deben incluir herramientas como Amazon Macie para la protección de datos y un archivo de registros centralizados. Para la OU de Infraestructura, se recomienda la creación de cuentas específicas para la Red y Servicios Compartidos, que servirán para gestionar los recursos de red y los servicios empresariales comunes.
En cuanto a la OU de Cargas de Trabajo, esta albergará cuentas separadas para los entornos de desarrollo, prueba y producción de los equipos de ML, además de cuentas para data lakes y gobernanza de datos. La OU de Despliegues, por otro lado, estará compuesta de cuentas para soportar la construcción, validación y liberación de cambios en los productos, incluyendo cuentas de DevOps y servicios compartidos de ML.
La función de AWS Control Tower es crítica para la creación de una zona de aterrizaje inicializada con mejores prácticas de seguridad y cumplimiento. AWS Service Catalog, por su parte, permite a los administradores de TI escalar las cargas de trabajo de ML, facilitando la creación, gestión y distribución de carteras de productos aprobados.
La arquitectura de red para las plataformas de ML se apoya en VPCs y AWS Transit Gateway para crear una red escalable y segura. Se sugiere la creación de diferentes gateways de tránsito para distintas regiones o entornos, conectando directamente a Internet los entornos de desarrollo y a la red corporativa los entornos de producción.
En resumen, la creación de una base de múltiples cuentas en AWS permite una gobernanza efectiva y promueve la innovación en las cargas de trabajo de datos y ML. Las mejores prácticas presentadas en esta guía ofrecen un marco sólido para establecer una infraestructura segura, escalable y bien gestionada en AWS.