Statistical methods to identify error patterns in confusion matrices

I. Barranco Chamorro

The study of misclassifications produced by a classifier involves to examine the off-diagonal elements in the associate confusion matrix. These cells reveal which classes are confused with others, highlighting systematic bias or poor feature separation that must be identified. In this paper techniques to analyze misclassifications are proposed. Specifically to detect problems of overprediction or underprediction of given classes and to identify if a classifier has a bias toward certain specific labels. By using a Dirichlet distribution, a Bayesian approach is also proposed to estimate the probabilities of misclassification between classes. In certain cases, it is also possible to visualize these methods. Applications, including a set of omic data, are carried out by using the software R.

Palabras clave: bias of classification confusion matrix Dirichlet distribution missclassification posterior distribution overprediction underprediction

Programado

Sesión de pósters I

2 de septiembre de 2026 17:40

Facultade de Ciencias Económicas e Empresariais

Otros trabajos en la misma sesión

Estudios GWAS caso-control: Caracterización multivariante de SNPs basada en distancias y vecindarios

C. Arenas Sola, I. Irigoien Garbizu, S. Aranda Castel, ,. CIBERSAM Group, M. Mitjans Niubó, B. Cormand Rifà

Descubriendo estructuras multivariantes en veterinaria con STATIS DUAL y CoSTATIS

A. Benito Díaz, M. P. Vicente-Galindo, M. Anciones-Polo, M. Montañés-Foz, R. Bodas-Rodríguez, J. J. García-García, A. Sarmiento-García

Medidas de riesgo financiero a través de Regresión Simbólica: una aplicación al IBEX35

P. Blanco Alonso, M. Martínez Pizarro, M. Barrio Sánchez, M. Vallejo Pascual

Municipality-level population projections in Northern Portugal and Galicia using regional forecasts

F. Branquinho, A. Varea Oro, M. J. Ginzo Villamayor, R. Gaio

Algoritmo de filtrado frente a pérdidas de datos en sistemas multitasa mediante estrategia hold-input

R. Caballero Águila, M. P. Frías Bustamante, A. Oya Lechuga

Marco metodológico para la integración de datos heterogéneos y la construcción de indicadores compuestos en la evaluación entrópica de eventos MICE

I. Rytck-Molodykh, A. Villalba-Ortiz, M. Roncero-Tarazona, T. Gómez-Navarro, J. M. Carot Sierra

One-Year Mortality Prediction in Elderly Patients with Acute Heart Failure: Prognostic Contribution of the PROFUND Index and Serum Albumin

A. A. Kishta Kishta, M. M. Dolcet-Negre, M. J. Rivas-López, R. García Alonso, N. Muñoz Rivas, A. Guzmán Carreras, J. I. Molina Puente, M. Méndez Bailó

Improving Detection of Hereditary Renal Hypouricemia and Genotype-Phenotype Correlation: A Retrospective Observational Study

P. Fortes González, A. URISARRI RUIZ DE CORTÁZAR, N. CARRERA CACHAZA, E. SÁNCHEZ CAZORLA, M. GARCÍA MURIAS, A. BARCIA DE LA IGLESIA, C. DIAZ RODRÍGUEZ, M. GARCÍA GONZÁLEZ

Modelización y control de calidad en la industria cervecera: de la revisión sistemática a las aplicaciones industriales

E. Francesch Domenech, A. Fernandez Calviño, S. Naya Fernández, J. Tarrío Saavedra

Optimizando la Pizarra: La Teoría de la Decisión como herramienta definitiva en el Sports Analytics

I. Armenteros Rojas, A. I. Gallardo Cordovilla, A. Bruno Chica, A. Pereira das Neves Yedig

Estimación distribuida en redes de sensores bajo retardos y ciberataques en la transmisión

M. J. García-Ligero Ramírez

A SIMEX-Based Approach for Measurement Error Depending on Several Covariates

C. Campos de Melo Sousa Silva, M. Febrero Bande, R. Gaio

Movilidad poblacional y apellidos en Santiago de Compostela: un análisis espacial y temporal por parroquias

M. J. Ginzo Villamayor

El problema de Inventario/Distribución Periódico (PIRP)

J. M. Gutiérrez Expósito