Charlas: Querido Diario: cómo liberar datos oficiales de ciudades brasileñas con Python

Presented by:


Description

Los Diarios Oficiales son las principales formas de comunicación entre la ciudadanía y el poder ejecutivo de una ciudad. En Brasil, por ley, todos los actos oficiales del gobierno deben publicarse en los Diarios. Sin embargo, no existe un estándar sobre como deben estar disponibles estas publicaciones. Entonces tenemos un escenario donde las 5570 ciudades brasileñas publican cada uno a su manera, generalmente utilizando formatos cerrados como PDF que dificultan la consulta y análisis de datos de forma automatizada.

El proyecto Querido Diario tiene como objetivo hacer más accesibles estos Diarios, facilitando la búsqueda y consulta de su contenido a través de una página de búsqueda, una API abierta y en el futuro con herramientas de análisis de contenido.

En esta charla se presentará todo el proceso, desde la extracción de datos de las páginas de los municipios (mediante data scraping usando el framework Scrapy), el almacenamiento y procesamiento de archivos PDF para permitir la búsqueda en su contenido (usando OCR), a la API y la página de búsqueda, donde cualquier persona tiene acceso centralizado a los Diarios de todos los municipios.