Marco metodológico para la construcción de codificadores de texto libre conforme a clasificaciones estadísticas oficiales

A. Pérez Bote, S. Gallego Herrera, A. Jurado Prieto, C. Sáez Calvo

Codificar unidades según una clasificación estadística en base a un texto libre es un problema complejo y recurrente en las oficinas de estadística.
El estado del arte es una solución Retrieval-Augmented Generation (RAG) con un Large Language Model (LLM) de última generación. RAG impone latencias, demanda recursos computacionales elevados y presenta la variabilidad inherente a los LLMs. Entrenar clasificadores como fastText o BERT soluciona estos inconvenientes, pero exige disponer de un gran conjunto de datos de entrenamiento de suficiente calidad, demanda un tiempo de desarrollo mayor y ofrece una aplicabilidad más “estrecha”.
Proponemos dos aproximaciones que combinan las fortalezas de ambas estrategias. En primer lugar, la generación de datos sintéticos, empleando un LLM, para entrenar un modelo fastText o BERT. En segundo lugar, usar un LLM de embeddings de forma aislada, que sacrifica precisión a cambio de reducir el tiempo de implementación y producir una solución más “amplia”.

Palabras clave: LLM RAG NLP clasificaciones estadísticas codificador automático codificación automática

Programado

SI: Muestreo con grafos, acceso a datos, codificación de textos e imputación masiva en la Estadística Pública

5 de septiembre de 2026 10:00

Aula 28

Otros trabajos en la misma sesión

Imputación masiva en la Estadística Estructural de Empresas: eficiencia y análisis integrados.

J. De Las Heras Amor, G. Martinez Cebrián, C. Pirla Belio, E. Teijeiro Alfonsin

ES_DataLab: Laboratorio de datos para contribuir al desarrollo de la investigación

R. Fuente Rodriguez

Admisibilidad en muestreo con grafos de incidencia bipartitos

P. Garcia Segador, L. Zhang

Marco metodológico para la construcción de codificadores de texto libre conforme a clasificaciones estadísticas oficiales

Otros trabajos en la misma sesión

Política de cookies