En un avance significativo en el ámbito de la tecnología de transcripción de audio, Amazon ha lanzado una función de transmisión de transcripciones multicanal a través de su plataforma Amazon Transcribe. Esta innovación está diseñada para usuarios en entornos colaborativos, permitiendo integrar múltiples fuentes de audio a través de un navegador web.
Utilizando la API de Web Audio de JavaScript, Amazon Transcribe permite combinar diversas fuentes de audio como videos, archivos de audio o micrófonos. El proceso se detalla paso a paso, enfocándose en la utilización de dos micrófonos como fuentes de audio. Estos se fusionan en un solo canal de audio estéreo que es enviado para su transcripción. El artículo también presenta el código fuente de una aplicación en Vue.js, destacando su adaptabilidad a una variedad de dispositivos y fuentes.
Una de las principales ventajas es la capacidad de obtener transcripciones de dos fuentes en una sola sesión, generando ahorro de costos y simplificando la recopilación de datos. No obstante, implementar dos micrófonos presenta desafíos. La asignación aleatoria de etiquetas para identificar hablantes podría complicar el mapeo de resultados en casos de voces similares. Estrategias como el uso de micrófonos direccionales y gestión adecuada del volumen se recomiendan para mitigar estos problemas.
Para adoptar esta tecnología, se requieren prerrequisitos como la configuración de claves de acceso a AWS. Se detallan los pasos necesarios para configurar la aplicación, incluyendo la administración de las conexiones de los micrófonos y el procesamiento del audio mediante la API de Web Audio. Gradualmente, se introduce el código necesario para la fusión y transmisión de audio a Amazon Transcribe en formato PCM.
Los trabajos de audio (Audio Worklet) permiten un procesamiento de baja latencia, destacándose como una característica innovadora. Esto facilita la fusión de canales de audio y la codificación de datos en tiempo real.
En conclusión, esta funcionalidad de Amazon Transcribe es una herramienta valiosa para la transcripción en tiempo real, útil para aplicaciones que van desde grabaciones de reuniones hasta interfaces controladas por voz. Este desarrollo ofrece un camino abierto para que desarrolladores y empresarios exploren nuevas aplicaciones tecnológicas.