Las organizaciones modernas se enfrentan al reto de procesar vastas cantidades de datos de audio, como llamadas de clientes, grabaciones de reuniones, podcasts y mensajes de voz, para extraer conocimientos valiosos. El Reconocimiento Automático de Habla (ASR, por sus siglas en inglés) juega un papel crucial, transformando el habla en texto para su posterior análisis. No obstante, aplicar ASR a gran escala presenta desafíos relacionados con el uso intensivo de recursos computacionales y costos elevados. La solución llega de la mano de Amazon SageMaker AI mediante la inferencia asíncrona.
Integrando modelos ASR avanzados, como Parakeet de NVIDIA, en SageMaker AI con puntos finales asíncronos, es posible manejar eficientemente archivos de audio grandes y cargas de trabajo por lotes. La inferencia asíncrona permite procesar solicitudes extensas en segundo plano, entregando resultados posteriormente, y ofrece capacidad de escalado automático, adaptándose a la demanda sin interrumpir otras funciones.
NVIDIA, con su suite de tecnologías de inteligencia artificial de voz, combina modelos de alto rendimiento con soluciones de implementación eficientes. El modelo Parakeet ASR destaca por su precisión superior y bajos índices de error por palabra. Con un codificador Fast Conformer, logra un procesamiento 2.4 veces más rápido que los típicos Conformers, sin sacrificar exactitud.
El NIM de NVIDIA introduce microservicios acelerados por GPU para crear aplicaciones personalizadas de inteligencia artificial de voz, compatible con más de 36 idiomas. Estas innovaciones son ideales para servicios al cliente, centros de contacto, accesibilidad y flujos de trabajo empresariales globales.
La arquitectura para inferencia asíncrona de estas tecnologías está diseñada específicamente para ASR y el resumido, utilizando componentes clave como Amazon S3 para la ingestión de datos, Amazon SNS para el procesamiento de eventos, y Amazon DynamoDB para el seguimiento en tiempo real del estado laboral.
El flujo de trabajo sigue un patrón basado en eventos: al subir archivos de audio, se activan funciones de Lambda que procesan metadatos y crean registros de invocación. Una vez transcrito el contenido, se utiliza Amazon Bedrock para generar resúmenes. El sistema gestiona eficazmente los errores y reinicia el procesamiento en caso de fallos temporales.
Esta innovación tiene aplicaciones prácticas en el análisis de servicio al cliente, la transcripción y resumen de reuniones y la documentación legal y regulatoria. La combinación de la infraestructura de NVIDIA y los servicios de gestión de AWS permite a las organizaciones centrarse en obtener resultados comerciales valiosos sin preocuparse por la complejidad tecnológica.


