Un marco unificado de doble ponderación para el desplazamiento de las distribuciones marginales
La clasificación supervisada tradicional asume que los datos de entrenamiento y testeo vienen de la misma distribución. Sin embargo, los escenarios prácticos suelen verse afectados por cambios en las distribuciones. Los métodos clásicos de reponderación son sensibles a la aparición de pesos extremos y no aprovechan adecuadamente la información complementaria disponible en escenarios con múltiples fuentes de datos. Este trabajo introduce un marco unificado de doble ponderación que emplea funciones de peso tanto para las muestras de entrenamiento como de test. En el caso de múltiples fuentes, los métodos presentados asignan pesos dependientes de la fuente, obtenidos de forma conjunta utilizando información de todas las fuentes. Además, en este trabajo se presenta cómo el uso de información complementaria procedente de diferentes fuentes permite aumentar el tamaño efectivo de la muestra. Los resultados empíricos demuestran la eficacia de este enfoque frente a los métodos convencionales.
Keywords: Clasificación supervisada Desplazamiento de la distribución (distribution shift) Desplazamiento de covariables (covariate shift) Doble ponderación Multi-fuente