F. J. Viciana Fernández, D. Ordanovich, D. Ramiro

España busca rescatar fuentes histórico-estadísticas en papel para crear registros longitudinales. Este estudio analiza la viabilidad de recuperar microdatos del Censo de Huelva de 1970 usando modelos de lenguaje (LLM). Para cumplir con la confidencialidad, el flujo de trabajo incluyó: preprocesamiento de imágenes, segmentación, anonimización (desordenamiento aleatorio y hashes) y transcripción masiva con la API de Gemini mediante validación multimodelo para evitar alucinaciones. Los resultados se validaron con la Base de Datos Longitudinal de Población de Andalucía (BDLPA), localizando al 50% de los individuos, cifra coherente con la supervivencia y migración tras 40 años (error < 5%). Se demuestra la viabilidad técnica y económica de la IA para rescatar microdatos históricos. Como paso futuro, se propone el Aprendizaje Federado para entrenar modelos de reconocimiento de texto (HTR) propios, garantizando la privacidad y la soberanía tecnológica de la administración pública.

Keywords: IA, estadística pública, modelos de lenguaje

Scheduled

SI Aprendizaje Automático e Inteligencia Artificial en la estadística pública
September 4, 2026  9:00 AM
Aula 21


Other papers in the same session

Codificación Inteligente de Ocupaciones: De Modelos Base a LLMs

J. C. González González, J. L. Roda García, I. Sánchez Berriel, E. Peso Adán, S. Sosa Díaz, R. Martín Rigor


Cookie policy

We use cookies in order to be able to identify and authenticate you on the website. They are necessary for the correct functioning of it, and therefore they can not be disabled. If you continue browsing the website, you are agreeing with their acceptance, as well as our Privacy Policy.

Additionally, we use Google Analytics in order to analyze the website traffic. They also use cookies and you can accept or refuse them with the buttons below.

You can read more details about our Cookie Policy and our Privacy Policy.