Evaluación de estrategias de preprocesamiento de datos ómicos de alta dimensionalidad y su impacto en modelos predictivos
Los datos ómicos de alta dimensionalidad han transformado la capacidad para caracterizar fenotipos complejos y desarrollar modelos predictivos en biomedicina de precisión.Sin embargo, su aplicación clínica está frecuentemente limitada por la disponibilidad de muestras: la ratio entre el número de variables y el tamaño muestral es extremadamente
desfavorable, situación conocida en la literatura como el problema HDLSS, que compromete la estabilidad y capacidad predictiva de los modelos de aprendizaje estadístico.
En este trabajo se evalúa sistemáticamente el impacto de distintas estrategias de preprocesamiento sobre el rendimiento predictivo y la estabilidad de modelos interpretables aplicados a datos ómicos de alta dimensionalidad. Se comparan filtering methods — tanto univariantes como multivariantes—combinadas con técnicas de data augmentation, bajo distintos escenarios de tamaño muestral, aplicados a datos reales clínicos de oncología y trasplantes.
Palabras clave: HDLSS ómicas Machine learning interpretable data augmentation filtering methods