Durante la cumbre de la NYC AIAI, Joseph Nelson, CEO y cofundador de Roboflow, destacó un aspecto crucial y frecuentemente subestimado en el campo de la inteligencia artificial: la visión. En una era donde los modelos de lenguaje dominan las noticias, Nelson subrayó la vital importancia de la comprensión visual, es decir, cómo las máquinas pueden interpretar el mundo físico, como un componente esencial para desarrollar sistemas inteligentes que operen efectivamente en el mundo real.
Nelson presentó ejemplos de cómo la inteligencia artificial visual ya transforma diversas industrias, desde el arbitraje en Wimbledon hasta el control de calidad en fábricas de vehículos eléctricos. Explicó que Roboflow reúne una comunidad de un millón de desarrolladores, quienes están creando aplicaciones de IA visual tanto a nivel de producción como en proyectos de código abierto, lo que demuestra el creciente despliegue a gran escala de la comprensión visual.
En su intervención, Nelson delineó tres temas principales sobre la inteligencia visual:
-
Casos extremos en visión por computadora: Estos escenarios raros o impredecibles limitan la capacidad de los modelos para comprender completamente el mundo real.
-
El futuro de los modelos visuales: La cuestión reside en si un único modelo se impondrá o si el futuro será una colección de modelos más pequeños, diseñados para tareas específicas.
-
IA visual en tiempo real en el borde: Nelson subrayó la crucial importancia de los sistemas en tiempo real con datos propios, esenciales para una implementación efectiva.
Nelson también destacó que la visión es un sentido humano primario. Mediante ejemplos prácticos, demostró cómo dotar a los sistemas de software con percepción visual permite responder a preguntas concretas, como determinar cuántas personas hay en una sala o verificar la correcta fabricación de productos.
Roboflow se posiciona como un líder, proporcionando herramientas y plataformas que facilitan a las empresas el desarrollo y despliegue de IA visual. Nelson mencionó que más de la mitad de las empresas Fortune 100 utilizan Roboflow, especialmente en sectores que requieren precisión en el mundo físico.
Con un enfoque de futuro, Nelson resaltó que el compromiso de Roboflow con el código abierto es fundamental para el avance en comprensión visual. Su paquete, Supervision, facilita a los desarrolladores integrar detecciones en sistemas más amplios. Además, gracias a una serie de herramientas de código abierto, la empresa busca simplificar el proceso completo de la IA visual.
En términos de implementación, Roboflow respalda a grandes empresas como Rivian, utilizando modelos para asegurar la calidad del producto. Igualmente, ha desarrollado innovaciones significativas en aplicaciones como los quioscos de autoescaneo de Walmart, que emplean cámaras para detectar productos en los carritos de los clientes.
Nelson concluyó con un mensaje inequívoco: para que la IA cumpla con su promesa en el mundo real, necesita ver y comprender ese mundo. La comprensión visual emerge como una vía crítica hacia la inteligencia visual, donde los desarrolladores desempeñan un papel clave en la evolución de esta tecnología.