J. C. González González, J. L. Roda García, I. Sánchez Berriel, E. Peso Adán, S. Sosa Díaz, R. Martín Rigor

Este trabajo presenta el desarrollo y validación de un sistema de codificación automática para el Código Nacional de Ocupaciones (CNO), desarrollado por la Cátedra Cajasiete de Big Data, Open Data y Blockchain de la Universidad de La Laguna para el Instituto Canario de Estadística. El objetivo es automatizar la codificación de respuestas abiertas en encuestas mediante técnicas avanzadas de machine learning y LLM.
Se evalúan y comparan diversas estrategias: desde modelos base como FastText y Random Forest con TF-IDF, hasta enfoques híbridos con embeddings de LLM y técnicas de fine-tuning eficiente de modelos de clasificación y similitud semántica. La investigación destaca la importancia de integrar metadatos (estudios, situación laboral) para capturar matices semánticos que otros métodos ignoran. Los resultados muestran una mejora significativa, permitiendo automatizar de forma segura el 86% del volumen de clasificación con un margen de error del 10%, estableciendo una solución robusta.

Keywords: Codificación automática, Clasificación Nacional de Ocupaciones (CNO), Inteligencia Artificial Generativa (LLM), Estadística Pública, Fine-tuning eficiente (PEFT)

Scheduled

SI Aprendizaje Automático e Inteligencia Artificial en la estadística pública
September 4, 2026  9:00 AM
Aula 21


Other papers in the same session


Cookie policy

We use cookies in order to be able to identify and authenticate you on the website. They are necessary for the correct functioning of it, and therefore they can not be disabled. If you continue browsing the website, you are agreeing with their acceptance, as well as our Privacy Policy.

Additionally, we use Google Analytics in order to analyze the website traffic. They also use cookies and you can accept or refuse them with the buttons below.

You can read more details about our Cookie Policy and our Privacy Policy.