El tan competitivo mundo de los chatbots de inteligencia artificial ha visto recientemente el surgimiento de Grok 3, presentado por Elon Musk como «la IA más inteligente del mundo.» Sin embargo, estas afirmaciones han sido criticadas como una estrategia de marketing en el entorno de la tecnología, donde la competencia es feroz y la inversión se guía a menudo por declaraciones audaces. Según expertos, como Julio Gonzalo de la UNED, el verdadero desafío para estos sistemas radica en superar pruebas y evaluaciones que realmente midan su capacidad de comprensión y razonamiento, más allá de encontrar respuestas en sus vastas bases de datos. Gonzalo y su equipo han demostrado que cuando las respuestas correctas son alteradas para que los modelos necesiten comprender y razonar sobre las preguntas, su rendimiento se desploma, poniendo en tela de juicio la inteligencia atribulada a estos sistemas.
El debate sobre la eficacia de los benchmarks actuales alcanzó un punto álgido, subrayando la necesidad de mejores métodos de evaluación y pruebas independientes. Mientras estudios recientes han mostrado el rendimiento superior de las IA en inglés en comparación con otros idiomas como el español, la discusión sobre las limitaciones lingüísticas persiste, especialmente en modelos localizados que preservan la privacidad de los datos. Asimismo, aunque los modelos de lenguaje enfrentan límites evidentes, las nuevas generaciones de modelos de razonamiento prometen avances significativos. La conclusión de Gonzalo sugiere que aún queda un camino por recorrer y que, a pesar del entusiasmo de algunos expertos, los chatbots todavía no alcanzan un nivel de razonamiento humano pleno. La búsqueda continua por superar los confines del lenguaje y adaptar mejor las IAs a diversos contextos culturales se mantiene como un punto crucial en el desarrollo de estas tecnologías.
Leer noticia completa en El Pais.