Brasil.IO:Brasil.IO:
Libertação deLibertação de
DadosDados
Públicos, comPúblicos, com
PythonPython
Álvaro JustenÁlvaro Justen
$ whoami$ whoami
TuricasTuricas, prazer! =), prazer! =)
Sigam-me os bons:Sigam-me os bons:
{{ ,,
,,
,,
,,
}}
//turicasturicas
twittertwitter
githubgithub
youtubeyoutube
slideshareslideshare
instagraminstagram
turicas@brasil.ioturicas@brasil.io
Brasil.IOBrasil.IO
O Brasil em dados libertos
AgendaAgenda
Dados abertos
O que são
Para que servem
Acessibilidade de dados
Problemas comuns
Como resolver
Exemplos de código o/
Software Livre & PythonSoftware Livre & Python
(desde 2004/2005)(desde 2004/2005)
-- (definição de )
Dados AbertosDados Abertos
“ Dados abertos são dados que podem
ser livremente usados, reutilizados e
redistribuídos por qualquer pessoa -
sujeitos, no máximo, à exigência de
atribuição da fonte e
compartilhamento pelas mesmas
regras. ”
OpenData Handbook Open Definition
Mais detalhes:
Lei de Acesso à Informação: 12.527/2011
kit.dados.gov.br
escoladedados.org
--
“ De acordo com o governo brasileiro, o
controle social é a participação da
sociedade civil nos processos de
planejamento, acompanhamento,
monitoramento e avaliação das ações
da gestão pública e na execução das
políticas e programas públicos. ”
Wikipedia
Operação Serenata deOperação Serenata de
AmorAmor
#civictech#civictech
R$ 191 em um restaurante cujos pratos não custam R$ 40,
deputado?
Rosie, a robôRosie, a robô
twitter.com/tOa_D/status/1058495655184871425
Jornalismo InvestigativoJornalismo Investigativo
++
Jornalismo de DadosJornalismo de Dados
(em conjunto com Juan Torres, para )correio24horas.com.br
Acesse a matéria
(em conjunto com Giulliana Biaconi, para )generonumero.media
Leia a matéria
(em conjunto com Natália Mazotte, para )
Rua: substantivo (ainda)Rua: substantivo (ainda)
masculinomasculino
generonumero.media
youtu.be/7yQ8U2tFFq4
(em conjunto com Adriano Belisário, para )apublica.org
Acesse a matéria
(em conjunto com Voltdatalab, para )
Aplicações ÚteisAplicações Úteis
EleiçõesEleições
poder360.com.br
Data PipelineData Pipeline
schoolofdata.org/methodology
Qualidade dos DadosQualidade dos Dados
5stardata.info
Maior parte do tempo dos projetos deMaior parte do tempo dos projetos de
análise de dados:análise de dados:
Problema antigoProblema antigo
(automação(automação ))
Acessibilidade: ProblemasAcessibilidade: Problemas
Formato (qualidade técnica)
Exemplo: Boletim de balneabilidade em PDF (INEMA/BA)
Dispersão
Exemplo: Filiações partidárias em 945 ZIPs com CSVs (TSE)
Quantidade de dados
Exemplo: 18 milhões de sócios (RFB)
Domínio da área
Exemplo: o que é unidade eleitoral? (TSE)
Acessibilidade: SoluçõesAcessibilidade: Soluções
Educação tecnológica
Do-it-yourself
Interdisciplinaridade
Melhorar ferramentas
Software livre
Libertação de dados
Dados menos dispersos
Formato aberto
Pressão por dados melhores
Dar visibilidade aos problemas
Usar a LAI
Educação TecnológicaEducação Tecnológica
Curso Gratuito (3.000+ alunos)Curso Gratuito (3.000+ alunos)
Python!Python!
Acesse a matéria
xkcd.com/353
Causos da TransparênciaCausos da Transparência
BrasileiraBrasileira
&&
Libertação de DadosLibertação de Dados
Problema: Migram-se os ministérios,Problema: Migram-se os ministérios,
sem dadossem dados
Estrelando:Estrelando: Ministério da JustiçaMinistério da Justiça
twitter.com/turicas/status/1112491956314259457
SoluçãoSolução
web.archive.org
Problema: dados dispersosProblema: dados dispersos
Estrelando:Estrelando: IBGEIBGE
SoluçãoSolução
github.com/turicas/genero-nomes
(código ao vivo)
Problema: dado pago! (???)Problema: dado pago! (???)
Estrelando:Estrelando: Receita FederalReceita Federal
https://twitter.com/turicas/status/1019272233095745537
SoluçãoSolução
Pedido de acesso à informação
com muitos recursos
Paciência
Problema (2): lentidão ao baixarProblema (2): lentidão ao baixar
Estrelando:Estrelando: Receita FederalReceita Federal
twitter.com/turicas/status/1114185311372873729
SoluçãoSolução
URL="http://200.152.38.155/CNPJ/DADOS_ABERTOS_CNPJ.zip"
aria2c -s 16 -x 16 $URL
Problema (3): Formato ProprietárioProblema (3): Formato Proprietário
Estrelando:Estrelando: Receita FederalReceita Federal
SoluçãoSolução
github.com/turicas/socios-brasil
Problema: dado disperso e nãoProblema: dado disperso e não
padronizadopadronizado
Estrelando:Estrelando: ConselhoConselho Nacional de JustiçaNacional de Justiça
SoluçãoSolução
github.com/turicas/salarios-magistrados
twitter.com/turicas/status/943176715672711168
Formato não estruturadoFormato não estruturado
Estrelando:Estrelando: INEMA/BAINEMA/BA
(código ao vivo)
SoluçãoSolução
rows convert arquivo.pdf arquivo.csv
github.com/turicas/balneabilidade-brasil
AcessibilidadeAcessibilidade
[x] Formato
[x] Dispersão
[ ] Quantidade de dados
[ ] Domínio da área
Brasil.IOBrasil.IO
O Brasil em dados libertos
DemonstraçãoDemonstração
Dataset salarios-magistrados
Dataset eleicoes-brasil
Dossiê Odebrecht
Tecnologias utilizadasTecnologias utilizadas
Scripts:
Análise:
Backend:
Servidores: DigitalOcean e OVH
PaaS: dokku
Python3
scrapy
rows
sqlite3
Python3
Django
PostgreSQL
Neo4J
Contribua com o Brasil.IO!Contribua com o Brasil.IO!
Melhorando os scripts de coleta
Coletando novos datasets
Publicando tutoriais no
Doando no
Saiba mais em:
blog.brasil.io
apoia.se/brasilio
brasil.io/colabore
23 e 24 de novembro, São Paulo/SP
CODA.BR 2019CODA.BR 2019
coda.escoladedados.org
23 a 28 de outubro, Ribeirão Preto/SP
PythonBrasil 2019PythonBrasil 2019
pythonbrasil.com.br
--
Dúvidas?Dúvidas?
“ Restringir acesso a dados públicos é
elitizar a democracia. ”
Manifesto Brasil.IO
{{ ,,
,,
,,
,,
}}
//turicasturicas
twittertwitter
githubgithub
youtubeyoutube
slideshareslideshare
instagraminstagram
turicas@brasil.ioturicas@brasil.io

Brasil.IO: Libertação de Dados Públicos, com Python