Codificación Inteligente de Ocupaciones: De Modelos Base a LLMs
J. C. González González, J. L. Roda García, I. Sánchez Berriel, E. Peso Adán, S. Sosa Díaz, R. Martín Rigor
Este trabajo presenta el desarrollo y validación de un sistema de codificación automática para el Código Nacional de Ocupaciones (CNO), desarrollado por la Cátedra Cajasiete de Big Data, Open Data y Blockchain de la Universidad de La Laguna para el Instituto Canario de Estadística. El objetivo es automatizar la codificación de respuestas abiertas en encuestas mediante técnicas avanzadas de machine learning y LLM.
Se evalúan y comparan diversas estrategias: desde modelos base como FastText y Random Forest con TF-IDF, hasta enfoques híbridos con embeddings de LLM y técnicas de fine-tuning eficiente de modelos de clasificación y similitud semántica. La investigación destaca la importancia de integrar metadatos (estudios, situación laboral) para capturar matices semánticos que otros métodos ignoran. Los resultados muestran una mejora significativa, permitiendo automatizar de forma segura el 86% del volumen de clasificación con un margen de error del 10%, estableciendo una solución robusta.
Keywords: Codificación automática, Clasificación Nacional de Ocupaciones (CNO), Inteligencia Artificial Generativa (LLM), Estadística Pública, Fine-tuning eficiente (PEFT)
Scheduled
SI Aprendizaje Automático e Inteligencia Artificial en la estadística pública
September 4, 2026 9:00 AM
Aula 21
Other papers in the same session
M. Martin Vila, M. P. Romero Martínez, E. López Vizcaíno
J. Marí Escanellas, X. Badosa
F. J. Viciana Fernández, D. Ordanovich, D. Ramiro