Selección de taxones separables en datos composicionales multiclase con ajuste por covariables
La selección de variables en datos composicionales plantea desafíos, especialmente en clasificación multiclase y en presencia de covariables. Proponemos una metodología para identificar taxones separables basada en modelos penalizados sobre cocientes logarítmicos y en el área bajo la curva ROC multiclase. El procedimiento combina filtrado de componentes raros, imputación de ceros y transformación log-ratio con modelos de regresión multinomial por pares ajustados por covariables. La propuesta se evalúa con datos sintéticos, controlando distintos niveles de cambio en la abundancia, y se compara con otros métodos, entre ellos MUVR2, que incorpora bosques aleatorios, mínimos cuadrados parciales y regresión penalizada elastic net. Además, se ilustra en datos de cribado de cáncer colorrectal. Los resultados muestran un método competitivo, interpretable y escalable para la selección de variables en datos composicionales.
Palabras clave: clasificación multiclase taxones separables ajuste por covariables