Implementación de una Plataforma Avanzada de Procesamiento de Documentos con IA Usando NER de Código Abierto y LLM en Amazon SageMaker

Un laboratorio nacional en Estados Unidos ha dado un paso adelante en la solución de los problemas de accesibilidad y localización de documentos en sus extensos archivos históricos. A pesar de que estas instituciones son depósitos de vastos conocimientos, gran parte de su información ha permanecido inaccesible debido a la falta de metadatos adecuados y el etiquetado inconsistente de documentos. Las técnicas de búsqueda tradicionales, que dependen de palabras clave, a menudo resultan ineficaces, obligando a los investigadores a realizar tediosas revisiones manuales para encontrar información valiosa.

Para abordar estos desafíos, el laboratorio ha puesto en marcha una innovadora plataforma de procesamiento de documentos, impulsada por inteligencia artificial, que combina el reconocimiento de entidades nombradas (NER) y modelos de lenguaje de gran escala alojados en Amazon SageMaker. Esta solución automatiza el enriquecimiento de metadatos, la clasificación de documentos y la generación de resúmenes, modernizando así el acceso a los registros archivados. Utilizando el modelo Mixtral-8x7B para la creación de resúmenes y títulos, junto con un modelo NER basado en BERT para extraer metadatos estructurados, el sistema ofrece una notable mejora en la organización y recuperación de documentos digitalizados.

La plataforma ha sido diseñada con una arquitectura sin servidor, optimizada en términos de costos, que proporciona puntos de acceso de SageMaker de manera dinámica. Esto asegura una utilización eficiente de los recursos y mantiene la escalabilidad necesaria para enfrentar grandes volúmenes de datos. La incorporación de tecnologías avanzadas de procesamiento de lenguaje natural (NLP) y modelos de lenguaje modernos (LLM) aumenta notablemente la precisión de los metadatos, permitiendo búsquedas más exactas y una gestión documental más eficiente. Este avance no solo apoya esfuerzos de transformación digital, sino que también asegura que los datos archivados se aprovechen eficazmente para investigaciones, elaboración de políticas y preservación del conocimiento institucional.

Denominada NER & LLM Gen AI Application, esta solución aprovecha tanto las capacidades del NER como de los LLM para automatizar el análisis de documentos a gran escala. Emplea un enfoque modular con componentes distintos para manejar diferentes aspectos del procesamiento de documentos, desde la creación de resúmenes extractivos hasta la extracción de información clave como autores. El sistema se activa al detectar documentos en el bucket de extracciones, evitando operaciones redundantes mediante la orquestación eficiente de la creación de endpoints de modelo y el procesamiento por lotes de documentos.

Además, la plataforma destaca por su capacidad para procesar 100,000 documentos en un lapso de 12 horas, lo que subraya su eficiencia en términos de costos y rendimiento. Implementando resúmenes extractivos como primer paso, se logra una reducción significativa de la carga de trabajo, entre un 75-90%, lo que se traduce en un procesamiento más ágil y un menor costo operativo. Esta plataforma se posiciona como una solución robusta para las crecientes demandas del procesamiento documental eficiente en el ámbito de la investigación y la gestión del conocimiento.

Silvia Pastor
Silvia Pastor
Silvia Pastor es una destacada periodista de Noticias.Madrid, especializada en periodismo de investigación. Su labor diaria incluye la cobertura de eventos importantes en la capital, la redacción de artículos de actualidad y la producción de segmentos audiovisuales. Silvia realiza entrevistas a figuras clave, proporciona análisis expertos y mantiene una presencia activa en redes sociales, compartiendo sus artículos y ofreciendo actualizaciones en tiempo real. Su enfoque profesional, centrado en la veracidad, objetividad y ética periodística, la convierte en una fuente confiable de información para su audiencia.

Más popular

Más artículos como este
Relacionados

Rosa y Manu Alcanza su 29º Empate en ‘El Rosco’ de ‘Pasapalabra’: La Competencia Continúa

En una intensa jornada de "Pasapalabra", Rosa y Manu...

El Real Madrid Tropezó Ante Olympiacos: Un Golpe de Realidad en su Camino Competitivo

El primer partido de cuartos de final resultó ser...

Histórico Triunfo: Bilbao Basket Conquista su Primera Europe Cup

El Surne Bilbao Basket, en una vibrante y reñida...
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.