Informe médico JMIR. 3 de diciembre de 2025; 13: e78309. doi: 10.2196/78309.
ANTECEDENTES: La reutilización de datos a largo plazo de registros médicos electrónicos es esencial para entrenar inteligencia artificial (IA) sanitaria confiable y eficaz. Sin embargo, los cambios intrínsecos en las distribuciones de datos de salud a lo largo del tiempo (conocidos como cambios en el conjunto de datos, que incluyen conceptos, covariables y cambios previos) pueden comprometer el rendimiento del modelo, lo que lleva a la obsolescencia del modelo y a decisiones inexactas.
OBJETIVO: En este estudio, investigamos si la caracterización no supervisada e independiente del modelo de los cambios temporales del conjunto de datos utilizando análisis de distribución de datos a través de proyecciones de Información Geométrica Temporal (IGT) es un indicador temprano de posibles variaciones en el rendimiento de la IA antes del desarrollo del modelo.
MÉTODOS: Utilizando la base de datos de registros médicos electrónicos del Medical Information Mart for Intensive Care-IV (MIMIC-IV) del mundo real, que abarca datos de más de 40,000 pacientes de 2008 a 2019, caracterizamos sus patrones de cambio de conjuntos de datos inherentes a través de un enfoque no supervisado utilizando proyecciones IGT y mapas de calor temporales de datos. Entrenamos y evaluamos anualmente un conjunto de bosques aleatorios y modelos de aumento de gradiente para predecir la mortalidad hospitalaria. Para evaluar el impacto de los cambios en el desempeño del modelo, verificamos la asociación entre los grupos temporales encontrados en ambas proyecciones IGT y la incorporación intertemporal del desempeño del modelo utilizando la prueba exacta de Fisher.
RESULTADOS: Nuestros resultados demuestran una relación significativa entre los patrones de cambio temporal no supervisados, específicamente cambios de covariables y de conceptos, identificados utilizando el método de proyección IGT y el rendimiento de los modelos de bosque aleatorio y de aumento de gradiente (P<.05). We identified 2 primary temporal clusters that correspond to the periods before and after ICD-10 (International Statistical Classification of Diseases, Tenth Revision) implementation. The transition from ICD-9 (International Classification of Diseases, Ninth Revision) to ICD-10 was a major source of dataset shift, associated with a performance degradation.
CONCLUSIONES: La caracterización no supervisada e independiente del modelo de los cambios temporales a través de proyecciones IGT puede servir como una herramienta de monitoreo proactivo para anticipar cambios de desempeño en los modelos clínicos de IA. Al incorporar la detección temprana de cambios en el proceso de desarrollo, podemos mejorar la toma de decisiones durante la capacitación y el mantenimiento de estos modelos. Este enfoque allana el camino para sistemas de inteligencia artificial más sólidos, confiables y autoadaptativos en la atención médica.
PubMed:41337748 | DOI:10.2196/78309
