Rev Assoc Med Bras (1992). 5 de diciembre de 2025;71(11):e20250546. doi: 10.1590/1806-9282.20250546. Colección electrónica 2025.
OBJETIVO: El objetivo de este estudio fue comparar la precisión diagnóstica y las capacidades de selección de pruebas diagnósticas iniciales de modelos de lenguaje grandes con un especialista experimentado en medicina de emergencia en escenarios simulados de departamentos de emergencia.
MÉTODOS: Un comité de expertos creó una serie de presentaciones de casos breves para reflejar las condiciones de emergencia del mundo real. Cada breve presentación de caso incluyó la historia clínica y los hallazgos del examen físico, pero excluyó los datos de laboratorio y de imágenes. El estudio comparó la precisión del diagnóstico y el rendimiento de la selección de pruebas iniciales de un especialista en medicina de emergencia con tres versiones diferentes de modelos de lenguaje grande: ChatGPT-4, ChatGPT-4o y ChatGPT-3.5-mini. La precisión de las respuestas se evaluó en función de diagnósticos correctos predefinidos y pruebas de primera línea apropiadas. Las comparaciones estadísticas se realizaron mediante la prueba Cochran-Q y la prueba de McNemar.
RESULTADOS: Las tasas de precisión del diagnóstico fueron del 92 % para el experto humano, del 97 % para ChatGPT-4 y del 99 % para ChatGPT-4o y ChatGPT-3.5-mini (p=0,039 para ChatGPT-4o y ChatGPT-3.5-mini versus experto humano). La precisión de la selección de la prueba de diagnóstico inicial fue del 88 % para el experto humano, del 80 % para ChatGPT-4, del 87 % para ChatGPT-4o y del 89 % para ChatGPT-3.5-mini (p>0,05 para todas las comparaciones). Los errores diagnósticos más frecuentes estuvieron relacionados con casos cardiovasculares (7/13) y gastrointestinales (4/13).
CONCLUSIONES: Los modelos de lenguaje grandes demostraron una precisión diagnóstica aceptable, superando al experto humano en el diagnóstico y con un desempeño comparable en la selección de pruebas de diagnóstico iniciales. Estos hallazgos sugieren que los modelos de inteligencia artificial podrían servir como valiosas herramientas de apoyo a la toma de decisiones en medicina de emergencia. Sin embargo, se necesita más investigación para evaluar su desempeño en entornos clínicos del mundo real.
PubMed:41370482 | DOI:10.1590/1806-9282.20250546
