La creciente preocupación entre los profesionales de la salud con respecto a la herramienta de transcripción automática, Whisper, lanzada por OpenAI en septiembre, ha puesto en evidencia el dilema de implementar inteligencia artificial en ámbitos críticos. A pesar de su diseño para transcribir conversaciones en múltiples idiomas, Whisper ha mostrado serias deficiencias en cuanto a precisión, lo que ha causado alarma en los entornos hospitalarios donde la exactitud en la documentación es crucial.
Con más de 30.000 médicos y 40 sistemas de salud empleando Whisper para registrar interacciones médicas, los errores derivados de las «alucinaciones» en las transcripciones pueden tener consecuencias serias. Este fenómeno, reportado por ingenieros y clínicos, indica que las transcripciones de Whisper a menudo presentan información distorsionada. Un análisis reveló que en 8 de cada 10 transcripciones evaluadas aparecían distorsiones, mientras que otro estudio mostró que la mitad de 100 horas de texto analizado contenía datos incorrectos. Un desarrollador llegó a detectar errores en casi la totalidad de sus 26.000 transcripciones revisadas.
Las «alucinaciones» se manifiestan en forma de frases sin sentido, violaciones de contexto cultural y menciones de enfermedades inexistentes, particularmente notorias durante los silencios de las grabaciones. En algunos casos, se han integrado frases típicas de plataformas como YouTube, lo cual resulta irregular en el ámbito de la transcripción destinada a fidelidad.
Frente a esta situación, varios centros hospitalarios están reconsiderando la utilización de Whisper en entornos críticos. OpenAI, consciente de la problemática, ha agradecido las observaciones hechas por investigadores y ha prometido continuar perfeccionando el modelo para disminuir los riesgos de alucinaciones en las transcripciones. Han destacado que, por el momento, la herramienta no debe ser empleada en situaciones de alto riesgo decisional.
La comunidad médica insiste en la prudencia ante la adopción de tecnologías de inteligencia artificial en el sector salud. La necesidad de someter estas herramientas a evaluaciones rigurosas antes de su implementación es hoy más clara que nunca, especialmente en espacios donde la precisión de los datos puede significar la diferencia entre la vida y la muerte.
A medida que OpenAI avanza en la mejora de Whisper, continúa el debate y la evaluación crítica de la inteligencia artificial en salud, manteniendo la atención sobre la relevancia de garantizar la fiabilidad de estas herramientas en un área tan delicada como la atención médica.