La reciente evaluación independiente realizada por investigadores de la Escuela de Medicina Icahn del Mount Sinai en Nueva York, reveló que ChatGPT Health, el sistema lanzado por OpenAI en enero de 2026 con la promesa de revolucionar el triaje y la orientación médica digital, todavía presenta fisuras preocupantes a la hora de clasificar emergencias médicas y derivar adecuadamente a los pacientes.
Según el estudio, la herramienta digital de inteligencia artificial exhibe serias limitaciones en su capacidad para identificar los casos que requieren atención médica urgente, lo que cuestiona su idoneidad para el uso directo por parte de consumidores sin una supervisión especializada.
La investigación se centró en 960 escenarios médicos simulados, elaborados a partir de 60 viñetas diseñadas por médicos de distintas especialidades y cubrieron 21 áreas clínicas. Un dato clave del informe sitúa la tasa de fallo en casos de emergencia en 52%, mientras que en presentaciones no urgentes se observó una tasa de fallo de 35%.
En otras palabras, según los investigadores, cerca de la mitad de las situaciones de urgencia médica no fueron correctamente identificadas ni derivadas a servicios de atención de emergencias por la inteligencia artificial.
ChatGPT Health demostró mayor fortaleza al identificar emergencias reconocidas, como los accidentes cerebrovasculares y las reacciones alérgicas graves, mientras que en cuadros clínicos menos habituales pero igual de críticos, como la cetoacidosis diabética o la insuficiencia respiratoria inminente, la tasa de error ascendió al 52%.
Te puede interesar: Creador de ChatGPT lanza asistente virtual especializado en salud
Además, el análisis demostró que ciertos factores, como la tendencia de algunos usuarios a minimizar sus síntomas al reportarlos, aumentaban las probabilidades de que ChatGPT Health sugiriera cuidados de menor urgencia.
Dentro del estudio, uno de los fallos más delicados detectados fue la omisión, por parte de ChatGPT Health, de derivar de forma consistente a los usuarios con ideación suicida a la línea directa de crisis 988.
De acuerdo con los autores, “la capacidad de reconocer las crisis de salud mental y conectar a los usuarios con recursos para crisis es un requisito fundamental para cualquier plataforma de salud para el consumidor. Nuestros datos muestran que este requisito no se ha cumplido de forma fiable”.
El sistema era menos proclive a sugerir la línea de atención ante crisis cuando los pacientes describían un plan concreto de autolesión, justamente en casos donde la intervención inmediata resulta crítica.
Isaac S. Kohane, director del Departamento de Informática Biomédica de la Facultad de Medicina de Harvard, quien no participó en el estudio, advirtió sobre la importancia de evaluaciones externas permanentes para estos sistemas.
Antes del lanzamiento de ChatGPT Health, OpenAI había reportado que alrededor del 25% de los 800 millones de usuarios semanales de ChatGPT realizaban al menos una consulta médica, lo que equivale a unos 40 millones de usuarios que ya utilizan activamente la plataforma con fines sanitarios.
Con información de AFP.

