Codificación Inteligente de Ocupaciones: De Modelos Base a LLMs
Este trabajo presenta el desarrollo y validación de un sistema de codificación automática para el Código Nacional de Ocupaciones (CNO), desarrollado por la Cátedra Cajasiete de Big Data, Open Data y Blockchain de la Universidad de La Laguna para el Instituto Canario de Estadística. El objetivo es automatizar la codificación de respuestas abiertas en encuestas mediante técnicas avanzadas de machine learning y LLM.
Se evalúan y comparan diversas estrategias: desde modelos base como FastText y Random Forest con TF-IDF, hasta enfoques híbridos con embeddings de LLM y técnicas de fine-tuning eficiente de modelos de clasificación y similitud semántica. La investigación destaca la importancia de integrar metadatos (estudios, situación laboral) para capturar matices semánticos que otros métodos ignoran. Los resultados muestran una mejora significativa, permitiendo automatizar de forma segura el 86% del volumen de clasificación con un margen de error del 10%, estableciendo una solución robusta.
Keywords: Codificación automática Clasificación Nacional de Ocupaciones (CNO) Inteligencia Artificial Generativa (LLM) Estadística Pública Fine-tuning eficiente (PEFT)