Google DeepMind ha presentado dos innovadores modelos de robótica: Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, marcando un avance sustancial en inteligencia artificial aplicada a la robótica. Estos modelos están diseñados para capacitar a los robots a percibir, planificar, pensar y actuar en tareas físicas complejas y de múltiples etapas, lo que supone un paso significativo hacia la inteligencia artificial general (AGI) en el ámbito físico.
El enfoque de Gemini está en potenciar la transparencia, la seguridad y la capacidad de adaptarse a diferentes tipos de «cuerpos» robóticos. Esto es crucial para tareas donde el contexto es esencial, como ordenar la colada por colores o clasificar residuos según normativas locales. Para ello, la solución se divide en dos componentes: un planificador deliberativo y un ejecutor con capacidad de reflexión interna.
Gemini Robotics-ER 1.5, por su parte, actúa como un «cerebro de alto nivel», planificando y tomando decisiones en entornos físicos, mientras que Gemini Robotics 1.5 traduce estas instrucciones en acciones concretas. Este último adelanto introduce la capacidad de «pensar antes de actuar», mejorando la explicabilidad y la precisión del sistema.
Este marco agentico aumenta la capacidad de los robots para generalizar tareas más largas y variadas, superando el esquema tradicional de «una instrucción, un movimiento». Los avances permiten a los robots realizar tareas como clasificar ropa o reciclar basados en normativas locales, siempre verificando el progreso paso a paso.
Un aspecto destacado es la transferencia de aprendizaje entre diferentes plataformas robóticas, lo que permite que habilidades desarrolladas en un robot sean aplicables a otros sin necesidad de ajustes específicos. Esto no solo acelera el aprendizaje de nuevas destrezas sino que también reduce los costos.
Actualmente, Gemini Robotics-ER 1.5 está disponible para desarrolladores a través de la API de Google AI Studio, permitiendo generar planes y secuencias de acciones detalladas. Sin embargo, el modelo de acción, Gemini Robotics 1.5, está reservado para socios seleccionados debido a requerimientos de validación más estrictos.
La mejora en el pensamiento intermedio, o deliberación, se regula mediante un “presupuesto de pensamiento” ajustable, permitiendo equilibrar precisión y tiempo de respuesta según sea necesario. Este enfoque también facilita la trazabilidad del razonamiento del sistema, fundamental para la auditoría y certificación de decisiones en aplicaciones críticas.
En términos de seguridad, DeepMind ha introducido controles en capas con supervisión continua y ha actualizado su benchmark ASIMOV para evaluar la comprensión de seguridad de los sistemas, demostrando un alto rendimiento del modelo ER.
Este desarrollo promete avances en diversas industrias, desde logística hasta salud, aunque aún quedan desafíos, especialmente en destrezas finas y operación en entornos no controlados. A medida que estas tecnologías se perfeccionen, podrían redefinir la interacción humana con la robótica, fortaleciendo la seguridad y eficiencia en múltiples sectores.
Más información y referencias en Noticias Cloud.