Un laboratorio nacional en Estados Unidos ha dado un paso adelante en la solución de los problemas de accesibilidad y localización de documentos en sus extensos archivos históricos. A pesar de que estas instituciones son depósitos de vastos conocimientos, gran parte de su información ha permanecido inaccesible debido a la falta de metadatos adecuados y el etiquetado inconsistente de documentos. Las técnicas de búsqueda tradicionales, que dependen de palabras clave, a menudo resultan ineficaces, obligando a los investigadores a realizar tediosas revisiones manuales para encontrar información valiosa.
Para abordar estos desafíos, el laboratorio ha puesto en marcha una innovadora plataforma de procesamiento de documentos, impulsada por inteligencia artificial, que combina el reconocimiento de entidades nombradas (NER) y modelos de lenguaje de gran escala alojados en Amazon SageMaker. Esta solución automatiza el enriquecimiento de metadatos, la clasificación de documentos y la generación de resúmenes, modernizando así el acceso a los registros archivados. Utilizando el modelo Mixtral-8x7B para la creación de resúmenes y títulos, junto con un modelo NER basado en BERT para extraer metadatos estructurados, el sistema ofrece una notable mejora en la organización y recuperación de documentos digitalizados.
La plataforma ha sido diseñada con una arquitectura sin servidor, optimizada en términos de costos, que proporciona puntos de acceso de SageMaker de manera dinámica. Esto asegura una utilización eficiente de los recursos y mantiene la escalabilidad necesaria para enfrentar grandes volúmenes de datos. La incorporación de tecnologías avanzadas de procesamiento de lenguaje natural (NLP) y modelos de lenguaje modernos (LLM) aumenta notablemente la precisión de los metadatos, permitiendo búsquedas más exactas y una gestión documental más eficiente. Este avance no solo apoya esfuerzos de transformación digital, sino que también asegura que los datos archivados se aprovechen eficazmente para investigaciones, elaboración de políticas y preservación del conocimiento institucional.
Denominada NER & LLM Gen AI Application, esta solución aprovecha tanto las capacidades del NER como de los LLM para automatizar el análisis de documentos a gran escala. Emplea un enfoque modular con componentes distintos para manejar diferentes aspectos del procesamiento de documentos, desde la creación de resúmenes extractivos hasta la extracción de información clave como autores. El sistema se activa al detectar documentos en el bucket de extracciones, evitando operaciones redundantes mediante la orquestación eficiente de la creación de endpoints de modelo y el procesamiento por lotes de documentos.
Además, la plataforma destaca por su capacidad para procesar 100,000 documentos en un lapso de 12 horas, lo que subraya su eficiencia en términos de costos y rendimiento. Implementando resúmenes extractivos como primer paso, se logra una reducción significativa de la carga de trabajo, entre un 75-90%, lo que se traduce en un procesamiento más ágil y un menor costo operativo. Esta plataforma se posiciona como una solución robusta para las crecientes demandas del procesamiento documental eficiente en el ámbito de la investigación y la gestión del conocimiento.