Tech
Whisper, la IA de transcripción en la mira por “alucinaciones” y errores peligrosos

La herramienta de transcripción por Inteligencia Artificial Whisper, desarrollada por OpenAI, enfrenta críticas severas debido a una tendencia a “inventar” frases durante sus transcripciones, generando preocupación entre expertos en tecnología y usuarios. La IA, que convierte audio en texto en múltiples idiomas, ha sido acusada de introducir frases que nunca se dijeron, incluso en contextos sensibles como hospitales, donde se usa para transcribir consultas médicas.
De acuerdo con un reportaje del Los Angeles Times, ingenieros y académicos han documentado cómo Whisper a veces añade elementos falsos en las transcripciones, fenómeno conocido en el ámbito de la IA como “alucinaciones”. Estos errores no solo distorsionan la información original, sino que en ocasiones el contenido inventado incluye frases de connotación racista, violenta o médicamente inexacta.
Ejemplos preocupantes incluyen una transcripción en la que Whisper tradujo “dos niñas y una dama” como “niñas y una dama que eran negras”, y otra en la que un niño con paraguas fue descrito como un “niño con cuchillo terrorista”. Estas “alucinaciones” también han creado diagnósticos y tratamientos médicos ficticios en entornos hospitalarios, lo que representa un potencial riesgo para los pacientes.
Investigadores han puesto cifras al problema. Un estudio de la Universidad de Michigan reportó errores en 8 de cada 10 transcripciones, mientras que otro ingeniero señaló 5 errores en 10. En un análisis con 13,000 transcripciones, se encontraron 187 frases inventadas.
Whisper, que registró 4.2 millones de descargas solo en octubre, también es usada para asistir a personas con problemas auditivos. La preocupación crece porque estos usuarios podrían no distinguir entre el contenido real y el inventado, lo cual compromete la confiabilidad de la herramienta en situaciones críticas.
OpenAI ha reconocido el problema y se ha comprometido a trabajar en una solución. Whisper utiliza una arquitectura de procesamiento en la que el audio se divide en segmentos de 30 segundos, se convierte en espectrogramas y, mediante un proceso de codificación y decodificación, se transforma en texto. Aunque esta tecnología es avanzada, los expertos alertan sobre el riesgo de confiar en productos de IA que no han sido perfeccionados.
El investigador William Saunders, citado en el reportaje, resume el desafío: “El problema es ofrecer un producto en el que la gente confía e integra en sus vidas, pero con un margen de error potencialmente grave.”
