En el corazón del análisis de video e imagen, muchas empresas se enfrentan al reto de detectar objetos que no estaban previstos en el entrenamiento de los modelos tradicionales. Esta dificultad es particularmente pronunciada en entornos dinámicos donde emergen objetos nuevos o definidos por el usuario. Los editores de medios, por ejemplo, buscan rastrear nuevas marcas en el contenido generado por usuarios, mientras que los anunciantes intentan analizar las apariciones de productos en videos de influencers, pese a las variaciones visuales.
En todos estos escenarios, los modelos de detección de objetos de conjunto cerrado (CSOD) resultan ineficaces, ya que solo reconocen categorías predefinidas, ignorando o mal clasificando objetos desconocidos. La detección de objetos de conjunto abierto (OSOD) surge como una solución que permite identificar tanto objetos conocidos como aquellos no observados anteriormente, admitiendo indicaciones flexibles que no requieren reentrenamiento.
Amazon Bedrock Data Automation se destaca como un servicio en la nube que extrae conocimientos del contenido no estructurado, como videos. Este servicio ofrece segmentación de capítulos, detección de texto cuadro por cuadro y clasificación según taxonomías del Interactive Advertising Bureau (IAB), entre otras funcionalidades. Especialmente, Bedrock soporta OSOD a nivel de fotograma, lo que permite la detección precisa de objetos mediante la entrada de texto especificativo.
Las aplicaciones de esta tecnología son múltiples. En el ámbito publicitario, los anunciantes pueden comparar la efectividad de distintas estrategias de colocación de anuncios y realizar pruebas A/B. En el ámbito doméstico, los sistemas de seguridad pueden beneficiarse de las capacidades avanzadas de localización del modelo. Además, con OSOD, los editores pueden eliminar o modificar objetos en video con precisión, reduciendo la dependencia de métodos manuales.
La incorporación de OSOD en Amazon Bedrock Data Automation representa un avance significativo en la extracción de conocimientos procesables del contenido de video. La capacidad de realizar consultas impulsadas por texto junto con la localización de objetos a nivel de fotograma permite a los usuarios optimizar flujos de trabajo de análisis de video, desde publicidad hasta seguridad. Este enfoque no solo mejora la comprensión del contenido, sino que también minimiza la necesidad de intervención manual, convirtiéndolo en un recurso valioso para diversas aplicaciones en el mundo real.