Inteligencia artificial versus médicos de urgencias: ¿quién diagnostica mejor?

Revista

Emergencing

Fecha de publicación

10 de diciembre de 2025

Rev Assoc Med Bras (1992). 5 de diciembre de 2025;71(11):e20250546. doi: 10.1590/1806-9282.20250546. Colección electrónica 2025.

OBJETIVO: El objetivo de este estudio fue comparar la precisión diagnóstica y las capacidades de selección de pruebas diagnósticas iniciales de modelos de lenguaje grandes con un especialista experimentado en medicina de emergencia en escenarios simulados de departamentos de emergencia.

MÉTODOS: Un comité de expertos creó una serie de presentaciones de casos breves para reflejar las condiciones de emergencia del mundo real. Cada breve presentación de caso incluyó la historia clínica y los hallazgos del examen físico, pero excluyó los datos de laboratorio y de imágenes. El estudio comparó la precisión del diagnóstico y el rendimiento de la selección de pruebas iniciales de un especialista en medicina de emergencia con tres versiones diferentes de modelos de lenguaje grande: ChatGPT-4, ChatGPT-4o y ChatGPT-3.5-mini. La precisión de las respuestas se evaluó en función de diagnósticos correctos predefinidos y pruebas de primera línea apropiadas. Las comparaciones estadísticas se realizaron mediante la prueba Cochran-Q y la prueba de McNemar.

RESULTADOS: Las tasas de precisión del diagnóstico fueron del 92 % para el experto humano, del 97 % para ChatGPT-4 y del 99 % para ChatGPT-4o y ChatGPT-3.5-mini (p=0,039 para ChatGPT-4o y ChatGPT-3.5-mini versus experto humano). La precisión de la selección de la prueba de diagnóstico inicial fue del 88 % para el experto humano, del 80 % para ChatGPT-4, del 87 % para ChatGPT-4o y del 89 % para ChatGPT-3.5-mini (p>0,05 para todas las comparaciones). Los errores diagnósticos más frecuentes estuvieron relacionados con casos cardiovasculares (7/13) y gastrointestinales (4/13).

CONCLUSIONES: Los modelos de lenguaje grandes demostraron una precisión diagnóstica aceptable, superando al experto humano en el diagnóstico y con un desempeño comparable en la selección de pruebas de diagnóstico iniciales. Estos hallazgos sugieren que los modelos de inteligencia artificial podrían servir como valiosas herramientas de apoyo a la toma de decisiones en medicina de emergencia. Sin embargo, se necesita más investigación para evaluar su desempeño en entornos clínicos del mundo real.

PubMed:41370482 | DOI:10.1590/1806-9282.20250546

Descarga la app Emergencing!

Accede a los abstracts en español de las revistas científicas más importantes en medicina de urgencias, emergencias y paciente crítico.

Descargar



Descargo de responsabilidad
El idioma original es este artículo es el inglés. Mediante el sistema de traducción automático de la IA de emergencing, el contenido se ha traducido al español. Esta es una traducción no supervisada por lo que puede que alguna parte del contenido no refleje con exactitud la publicación original del autor/autores.