GraphStorm, un marco empresarial de aprendizaje automático en grafos de bajo código, se ha posicionado como una herramienta esencial para construir, entrenar y desplegar soluciones en grafos a escala empresarial en un tiempo récord. Con este recurso, las empresas pueden abordar directamente la compleja estructura de relaciones e interacciones entre miles de millones de entidades, aplicándose efectivamente en áreas clave como la detección de fraude, recomendaciones, identificación de comunidades y problemas de búsqueda y recuperación.
Hoy se lanza GraphStorm 0.3, destacando su soporte nativo para el aprendizaje multitarea en grafos, una función innovadora que permite definir múltiples objetivos de entrenamiento en diferentes nodos y aristas en un único ciclo de entrenamiento. Además, esta versión introduce nuevas API que facilitan la personalización de los procesos en GraphStorm. Con apenas 12 líneas de código, es posible implementar un bucle de entrenamiento de clasificación de nodos personalizado. Para ilustrar el uso de estas API, se han publicado dos ejemplos en Jupyter notebooks: uno para la clasificación de nodos y otro para la tarea de predicción de enlaces. También se ha realizado un estudio detallado de co-entrenamiento de modelos de lenguaje (LM) y redes neuronales de grafos (GNN) en grafos extensos, usando el conjunto de datos de Microsoft Academic Graph (MAG).
El soporte nativo para el aprendizaje multitarea en grafos se adapta a las necesidades de diversas aplicaciones empresariales que trabajan con datos de grafos para múltiples tareas. Por ejemplo, organizaciones en el sector minorista que buscan detectar fraudes en vendedores y compradores, o editoriales científicas que relacionan trabajos para su adecuada citación y mayor visibilidad. GraphStorm 0.3 soporta seis tareas comunes en el aprendizaje multitarea en grafos: clasificación de nodos, regresión de nodos, clasificación de aristas, regresión de aristas, predicción de enlaces y reconstrucción de características de nodos. Las metas de entrenamiento se pueden especificar a través de un archivo de configuración YAML, permitiendo la simultánea definición de tareas como la clasificación de temas y la predicción de enlaces en un entorno académico.
Desde su lanzamiento a principios de 2023, la interfaz de línea de comandos (CLI) de GraphStorm ha sido la preferida por los clientes, simplificando la construcción, entrenamiento y despliegue de modelos. Sin embargo, la demanda de una interfaz más flexible ha llevado a la introducción de APIs refactorizadas en GraphStorm 0.3, permitiendo definir un pipeline de entrenamiento de clasificación de nodos con solo 12 líneas de código.
Con la versión anterior, GraphStorm ya había integrado técnicas para entrenar modelos de lenguaje y modelos GNN conjuntamente a gran escala en grafos con textos complejos. En respuesta a las solicitudes de los usuarios, GraphStorm 0.3 ha lanzado un benchmark LM+GNN utilizando el conjunto de datos de Microsoft Academic Graph (MAG), evaluando metodologías como BERT preentrenado + GNN y BERT afinado + GNN. Este último ha mostrado un rendimiento hasta un 40% mejor en comparación con el método BERT preentrenado + GNN en la tarea de predicción de enlaces en MAG.
GraphStorm también ha demostrado su escalabilidad utilizando grafos sintéticos de gran tamaño, gestionando con éxito grafos con hasta 100 mil millones de aristas en cuestión de horas.
Disponibles bajo la licencia Apache-2.0, GraphStorm 0.3 y sus nuevas características de aprendizaje multitarea y APIs para personalización están diseñados para abordar los desafíos de GML a gran escala. Para más información y acceso a recursos, visita el repositorio de GitHub de GraphStorm y su documentación.