¿Pueden los modelos de lenguaje grandes mejorar la evaluación del Criterio A para el trastorno de estrés postraumático a partir del autoinforme?

Revista

Psychology Trauma

Fecha de publicación

1 de diciembre de 2025

Trauma psicológico. 1 de diciembre de 2025. doi: 10.1037/tra0002087. En línea antes de imprimir.

OBJETIVO: Con base en la Manual Diagnóstico y Estadístico de los Trastornos Mentales, quinta edición, el trastorno de estrés postraumático (TEPT) implica evaluar si un evento traumático cumple con el Criterio A, que es necesario para establecer la gravedad de los síntomas y un posible diagnóstico de TEPT. A medida que la investigación avanza en línea, los métodos para establecer el Criterio A han variado ampliamente, lo que influye en la precisión y coherencia de los diagnósticos de PTSD. La literatura sugiere que confiar únicamente en la autoevaluación de las experiencias traumáticas puede resultar problemático. Este estudio evaluó si la integración de modelos de lenguaje grandes (LLM) directamente en la recopilación de datos de autoinforme en línea podría mejorar la evaluación del Criterio A para el trastorno de estrés postraumático.

MÉTODO: El presente estudio aprovechó los LLM para probar un nuevo método para mejorar la evaluación en línea del Criterio A a partir del autoinforme. Adultos (norte = 110) completó la Lista de verificación de eventos de vida ampliada para el Manual Diagnóstico y Estadístico de los Trastornos Mentales, quinta edición. Se integró un LLM directamente en la herramienta de encuestas en línea Qualtrics y se utilizó a través de la interfaz de programación de aplicaciones para codificar descripciones de texto para realizar un seguimiento activo de los participantes proporcionando preguntas/indicaciones adicionales. Cuatro evaluadores médicos evaluaron de forma independiente las descripciones del texto después de que se completó la recopilación de datos para determinar la proporción de personas que cumplían el Criterio A y establecer la confiabilidad entre evaluadores con los LLM.

RESULTADOS: El porcentaje de participantes que cumplieron el Criterio A basado en las calificaciones de los médicos aumentó de un promedio del 65 % (rango: 59 %-71 %) en la primera descripción a un promedio del 86 % en todas las aclaraciones de seguimiento. Sin embargo, la confiabilidad entre evaluadores de los LLM con evaluadores médicos fue justa, la media del LLM original κ = 0,26 (rango κ: 0,18-0,46), la media del LLM más nueva κ = 0,35 (rango κ: 0,23-0,47).

CONCLUSIONES: Los hallazgos sugieren que el uso de LLM para mejorar la evaluación del Criterio A generó una mayor información de los participantes, lo que llevó a una mayor notificación de eventos que cumplían el Criterio A. Sin embargo, los LLM no proporcionaron una determinación del Criterio A a la par con los médicos. Los hallazgos resaltan la necesidad de realizar una evaluación adicional de la integración de los LLM en la investigación o el tratamiento en línea. (Registro de base de datos PsycInfo (c) 2025 APA, todos los derechos reservados).

PubMed:41325158 | DOI:10.1037/tra0002087

Descarga la app Emergencing!

Accede a los abstracts en español de las revistas científicas más importantes en medicina de urgencias, emergencias y paciente crítico.

Descargar



Descargo de responsabilidad
El idioma original es este artículo es el inglés. Mediante el sistema de traducción automático de la IA de emergencing, el contenido se ha traducido al español. Esta es una traducción no supervisada por lo que puede que alguna parte del contenido no refleje con exactitud la publicación original del autor/autores.