F. Hermo García, Á. Gómez García, C. Dafonte Vázquez

El objetivo de esta línea de investigación es el desarrollo de sistemas automatizados que permitan recoger información en webs públicas, relativa a diferentes variables. Para automatizar el proceso, la técnica de web scraping se vuelve fundamental por permitir la detección y extracción parametrizada de elementos web.
En este trabajo se exponen los modelos (scrapers) implementados y se realiza un estudio de resultados comparados con los de un análisis manual, ambos obtenidos sobre un conjunto reducido. Con este estudio, se presentan los resultados alcanzados para las diferentes variables y las tasas de éxito del sistema automático comparadas con el análisis manual. Con estos resultados, podemos tener claras las necesidades de los usuarios y cuáles son las innovaciones TIC que suelen ser más utilizadas por las empresas. Finalmente, sobre el desarrollo de estas herramientas, hemos podido conocer las dificultades de las técnicas automatizadas para la obtención de resultados.

Keywords: Sistema automático de recolección de información pública, innovaciones TIC, web scraping, Ingeniería de datos

Scheduled

SI: Propuestas desde la ciencia y la ingeniería de datos para problemas específicos en Estadística Pública
September 4, 2026  3:30 PM
Aula 21


Other papers in the same session

Ajuste Estacional ante Rupturas Estructurales en Estadística Pública

C. Amoroso, S. J. Koopman, C. García-Martos, G. Aneiros, J. A. Vilar Fernández, M. Francisco-Fernández, M. Oviedo

Estimación de matrices de reasignación del gasto turístico mediante información de pernoctas y pagos con tarjeta

D. Frade-Amil, M. Oviedo de la Fuente, S. Naya, J. Tarrío-Saavedra, L. Carpente, M. Francisco-Fernández

Autoencoders para la imputación de datos en series espacio-temporales: una aplicación a la predicción del Índice de Cifra de Negocios en la Industria

A. Juncal, O. Fontenla Romero, B. Guijarro Berdiñas, E. Hernández Pereira, B. Acereda Serrano, S. Barragán Andres, E. Rosa Perez, J. M. Martin Moral

Application of deep learning techniques to automatic classification: CNAE as a case study

R. Santos Ríos, A. Pérez Bote, J. Paz Ruza, J. Vilares Ferro


Cookie policy

We use cookies in order to be able to identify and authenticate you on the website. They are necessary for the correct functioning of it, and therefore they can not be disabled. If you continue browsing the website, you are agreeing with their acceptance, as well as our Privacy Policy.

Additionally, we use Google Analytics in order to analyze the website traffic. They also use cookies and you can accept or refuse them with the buttons below.

You can read more details about our Cookie Policy and our Privacy Policy.