Un estudio reciente de la Universidad de Ciencias Aplicadas de Múnich ha evidenciado el impacto ambiental significativo de los modelos de lenguaje generativo (LLMs) cuando se usan en tareas cotidianas como responder preguntas de cultura general o matemáticas. Cada interacción con una inteligencia artificial desencadena un proceso computacional complejo que consume energía y genera emisiones de CO₂.
El investigador Maximilian Dauner lideró el estudio, publicado en Frontiers in Communication, que analizó 14 modelos de lenguaje con parámetros entre 7.000 y 72.000 millones. Los modelos respondieron a 100 preguntas en cinco temáticas, desde historia hasta matemáticas de secundaria, utilizando formatos de opción múltiple y texto libre. Los resultados mostraron que tanto el consumo energético como la precisión varían considerablemente según el enfoque de razonamiento del modelo.
Los hallazgos destacaron que los modelos que utilizan razonamientos más complejos emiten muchas más emisiones que aquellos que proporcionan respuestas más concisas. Por ejemplo, modelos complejos generaron en promedio 543,5 tokens por pregunta, mientras que los más directos produjeron solo 37,7. Según Dauner, esto subraya que el impacto ambiental de interrogar un LLM depende del procesamiento de la información.
El modelo Cogito, con 70.000 millones de parámetros, logró la mayor precisión al 84,9%, pero a costa de emitir tres veces más CO₂ que otros modelos con respuestas más simples. Esta situación resalta un dilema entre precisión y sostenibilidad en la tecnología LLM.
El estudio también reveló que el área temática impacta en las emisiones generadas. Las preguntas que requieren razonamientos complejos, como filosofía o álgebra abstracta, provocaron hasta seis veces más emisiones que preguntas de historia básica. Los investigadores sugieren que la huella de carbono podría reducirse mediante la implementación de medidas como la decodificación especulativa y el uso de hardware eficiente.
Dauner enfatizó la necesidad de que los usuarios sean conscientes de las emisiones generadas por sus interacciones con la IA, indicando que elegir modelos adecuados puede hacer una diferencia significativa. Por ejemplo, un modelo como DeepSeek R1 podría generar emisiones equivalentes a un vuelo de ida y vuelta entre Londres y Nueva York al responder 600.000 preguntas, mientras que Qwen 2.5 podría responder a más de tres veces esa cantidad con tasas de precisión similares.
El estudio subraya la importancia de la transparencia para los usuarios, sugiriendo que conocer el costo ambiental de cada solicitud podría incentivar decisiones más responsables. A pesar de los desafíos en regular el uso energético de los modelos de lenguaje, los investigadores consideran que fomentar la conciencia pública es un paso valioso.
El equipo también está investigando cómo diferentes tipos de solicitudes afectan la calidad de las respuestas y el consumo energético, abriendo la posibilidad a futuras evaluaciones que cubran un rango más amplio de tareas y aplicaciones multimodales.