F. J. Viciana Fernández, D. Ordanovich, D. Ramiro

España busca rescatar fuentes histórico-estadísticas en papel para crear registros longitudinales. Este estudio analiza la viabilidad de recuperar microdatos del Censo de Huelva de 1970 usando modelos de lenguaje (LLM). Para cumplir con la confidencialidad, el flujo de trabajo incluyó: preprocesamiento de imágenes, segmentación, anonimización (desordenamiento aleatorio y hashes) y transcripción masiva con la API de Gemini mediante validación multimodelo para evitar alucinaciones. Los resultados se validaron con la Base de Datos Longitudinal de Población de Andalucía (BDLPA), localizando al 50% de los individuos, cifra coherente con la supervivencia y migración tras 40 años (error < 5%). Se demuestra la viabilidad técnica y económica de la IA para rescatar microdatos históricos. Como paso futuro, se propone el Aprendizaje Federado para entrenar modelos de reconocimiento de texto (HTR) propios, garantizando la privacidad y la soberanía tecnológica de la administración pública.

Palabras clave: IA, estadística pública, modelos de lenguaje

Programado

SI Aprendizaje Automático e Inteligencia Artificial en la estadística pública
4 de septiembre de 2026  09:00
Aula 21


Otros trabajos en la misma sesión

Codificación Inteligente de Ocupaciones: De Modelos Base a LLMs

J. C. González González, J. L. Roda García, I. Sánchez Berriel, E. Peso Adán, S. Sosa Díaz, R. Martín Rigor


Política de cookies

Usamos cookies solamente para poder idenfiticarte y autenticarte dentro del sitio web. Son necesarias para el correcto funcionamiento del mismo y por tanto no pueden ser desactivadas. Si continúas navegando estás dando tu consentimiento para su aceptación, así como la de nuestra Política de Privacidad.

Adicionalmente, utilizamos Google Analytics para analizar el tráfico del sitio web. Ellos almacenan cookies también, y puedes aceptarlas o rechazarlas en los botones de más abajo.

Aquí puedes ver más detalles de nuestra Política de Cookies y nuestra Política de Privacidad.