SlideShare uma empresa Scribd logo
elleth.org
Raspagem de dados em
websites governamentais //
Data scraping in government websites
Fernando de Assis Rodrigues, PhD
O que é raspagem de dados?
// What is data scraping?
A raspagem de dados está relacionada
ao processo de coleta automatizada de
conjuntos de dados contidos em
websites e outras formas de
visualizações. // Data scraping is related to
automated gathering process of data sets
contained in websites and other forms of
visualization.
A raspagem de dados já existia antes da
invenção do HyperText Markup
Language (HTML) e de tecnologias
associadas ao funcionamento da
Internet e dos navegadores.
// Before the HTML, browsers and other Internet
technologies, data scraping already existed.
Fonte da Imagem // Image Source:
https://goo.gl/tTVvyV
Banco de
Dados
Algoritmos de
conversão // Conversion
algorithms
A princípio, as páginas web não foram
desenvolvidas para permitir automação
da coleta dos conjuntos de dados.
// At first, web pages were not developed to allow
automated data gathering
FontedaImagem//ImageSource:
http://www.portaltransparencia.gov.br/despesasdiarias/
Banco de
Dados
Por que? Facilitar a manipulação dos
conjuntos de dados. // Why? To ease data
manipulation.
Como fazer a coleta por raspagem de
dados em websites? // How to do a data
scrap on a website?
Preciso conhecer uma linguagem de
programação? // Do I need to know a
programming language?
A resposta é: depende. // The answer is: it
depends.
A resposta é: depende da complexidade
da coleta de dados. // The answer is:
depends how complex your data gathering
process will be.
Existe alguma alternativa? // Is there any
alternative?
Sim! // Yes!
http://webscraper.io
http://webscraper.io
Requisito técnico // Technical requirement:
●Google Chrome (atualizado // up-to-date)
Conhecimentos // Skills:
●HyperText Markup Language (HTML)
●XPath
●Saber o que quer coletar // Knowing what you want to
gather
Na prática. // In practice
Portal da Transparência (Brasil // Brazil)
http://www.portaltransparencia.gov.br
[...] é um canal pelo qual o cidadão pode acompanhar a execução financeira
dos programas de governo, em âmbito federal. Estão disponíveis informações
sobre os recursos públicos federais transferidos pelo Governo Federal a estados,
municípios e Distrito Federal e diretamente ao cidadão, bem como dados sobre
os gastos realizados pelo próprio Governo Federal em compras ou contratação de
obras e serviços (CONTROLADORIA GERAL DA UNIÃO, 2017a).
[...] is a channel that citizens can follow financial execution of federal
government programs. Its information available is about federal financial
resources transferred to states, cities, federal district and citizens, and also data
about spends made by federal government itself, in acquisitions or contracts
(CONTROLADORIA GERAL DA UNIÃO, 2017a)*.
* Translated by author.
Coletando dados de despesas diárias // Gathering daily expenses data
1. Abrir o endereço URL: http://www.portaltransparencia.gov.br
1. Open URL address: http://www.portaltransparencia.gov.br
Coletando dados de despesas diárias // Gathering daily expenses data
2. Acessar o item “Despesas”, no menu “Consultas”
2. Access “Expense” item, in “Queries” menu
Coletando dados de despesas diárias // Gathering daily expenses data
3. Clicar no hiperlink “Informações Diárias - Detalhamento Diário das Despesas”
3. Click on hyperlink “Daily Information - Daily Expenses Details”
Coletando dados de despesas diárias // Gathering daily expenses data
4. Realizar a consulta que for conveniente
4. Carry out your convenient query
Coletando dados de despesas diárias // Gathering daily expenses data
5. Aperte a tecla F12 para abrir o Console e acesse a guia Web Scraper
5. Press F12 key on keyboard to open the Console and change to Web Scraper
tab
Coletando dados de despesas diárias // Gathering daily expenses data
6. Criar um novo “mapa do site”
6. Create a new sitemap
Coletando dados de despesas diárias // Gathering daily expenses data
7. Adicionar um novo “item seletor”
7. Add a new selector
Preencher os atributos com os valores // Fill attributes with values:
Id: dados
Type: table
Selector:
a) clicar uma vez no botão “Select” (à direita) // click on time on “Select”
button (right)
b) clicar uma vez no título da primeira coluna da tabela // click on time on the
first column header
c) clicar no botão “Done Selecting” // click on “Done Selecting” button
Header row selector: não alterar // do not change
Data rows selector: não alterar // do not change
Checar o atributo “Multiple” // Check “Multiple” attribute
Ir ao final do formulário e apertar o botão “Save Selector” // Go to form bottom and
click on “Save Selector” button.
Coletando dados de despesas diárias // Gathering daily expenses data
Coletando dados de despesas diárias // Gathering daily expenses data
8. Clicar em “Scrape”
8. Click on “Scrape”
Coletando dados de despesas diárias // Gathering daily expenses data
Coletando dados de despesas diárias // Gathering daily expenses data
9. Clicar em “Export data as CSV”
9. Click on “Export data as CSV”
Coletando dados de despesas diárias // Gathering daily expenses data
O que não foi abordado: coleta de
múltiplas páginas (paginação) // What is
not covered here: data gathering of multiple
pages (pagination)
Referências // References
CONTROLADORIA GERAL DA UNIÃO. Detalhamento Diário das Despesas. Disponível em:
<http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017a.
CONTROLADORIA GERAL DA UNIÃO. Portal da Transparência. Disponível em:
<http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017b.
CONTROLADORIA GERAL DA UNIÃO. Glossário. Disponível em:
<http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017c.
HEMENWAY, K.; CALISHAIN, T. Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly, 2004. 
Controladoria Geral da União. (2017a). Detalhamento Diário das Despesas. Recuperado 29 de maio de
2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp
Controladoria Geral da União. (2017b). Glossário. Recuperado 29 de maio de 2017, de
http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp
Controladoria Geral da União. (2017c). Portal da Transparência. Recuperado 29 de maio de 2017, de
http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp
Hemenway, K., & Calishain, T. (2004). Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly. 
Esta apresentação está disponível para
download em http://elleth.org
// This presentation is available to download at
http://elleth.org

Mais conteúdo relacionado

Mais procurados

Organización de las ventas
Organización de las ventas Organización de las ventas
Organización de las ventas
MARKETING 2019
 
la plaza presentacion.pptx
la plaza presentacion.pptxla plaza presentacion.pptx
la plaza presentacion.pptx
AnaCeciliaHernndezFl
 
PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO
PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO
PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO
Ronald Penagos Ruiz
 
Agencias de viaje
Agencias de viajeAgencias de viaje
Agencias de viaje
simelochupamedejo
 
Estudio de mercado internacional
Estudio de mercado internacionalEstudio de mercado internacional
Estudio de mercado internacional
Soluciones Informáticas IMPULSO TECNICO E.I.R.L.
 
Fuentes de información e imagen del destino: Análisis de la valoración atend...
Fuentes de información e imagen del destino: Análisis de la valoración  atend...Fuentes de información e imagen del destino: Análisis de la valoración  atend...
Fuentes de información e imagen del destino: Análisis de la valoración atend...
Fundació Bit
 

Mais procurados (6)

Organización de las ventas
Organización de las ventas Organización de las ventas
Organización de las ventas
 
la plaza presentacion.pptx
la plaza presentacion.pptxla plaza presentacion.pptx
la plaza presentacion.pptx
 
PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO
PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO
PLAN DE DESARROLLO TURÍSTICO / PRODUCTO TURÍSTICO / INVENTARIO TURÍSTICO
 
Agencias de viaje
Agencias de viajeAgencias de viaje
Agencias de viaje
 
Estudio de mercado internacional
Estudio de mercado internacionalEstudio de mercado internacional
Estudio de mercado internacional
 
Fuentes de información e imagen del destino: Análisis de la valoración atend...
Fuentes de información e imagen del destino: Análisis de la valoración  atend...Fuentes de información e imagen del destino: Análisis de la valoración  atend...
Fuentes de información e imagen del destino: Análisis de la valoración atend...
 

Semelhante a Raspagem de dados em websites governamentais

Jornalismo de dados - coletando
Jornalismo de dados - coletandoJornalismo de dados - coletando
Jornalismo de dados - coletando
Leonardo Foletto
 
Política de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - EnapPolítica de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - Enap
Augusto Herrmann Batista
 
Web APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras GovernamentaisWeb APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras Governamentais
nitaibezerra
 
BIG DATA
BIG DATABIG DATA
Web mining
Web miningWeb mining
Web mining
Samuel Ribeiro
 
O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018
Thiago Avila, Msc
 
A Declaração de Acessibilidade - Web e Apps -
A Declaração de Acessibilidade- Web e Apps -A Declaração de Acessibilidade- Web e Apps -
A Declaração de Acessibilidade - Web e Apps -
warez6666
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Consegi
nitaibezerra
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
SPUK
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
SPUK
 
A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...
Conferência Luso-Brasileira de Ciência Aberta
 
Indicadores de Desempenho para a TI - Modulo 4 - Criação Painel Controle
Indicadores de Desempenho para a TI - Modulo 4 - Criação Painel ControleIndicadores de Desempenho para a TI - Modulo 4 - Criação Painel Controle
Indicadores de Desempenho para a TI - Modulo 4 - Criação Painel Controle
CompanyWeb
 
Sobre o workshop "Raspagem de dados para mulheres"
Sobre o workshop "Raspagem de dados para mulheres"Sobre o workshop "Raspagem de dados para mulheres"
Sobre o workshop "Raspagem de dados para mulheres"
Patricia Minamizawa
 
Ciência de Dados em Governo
Ciência de Dados em GovernoCiência de Dados em Governo
Ciência de Dados em Governo
Sérgio Dias
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
Universidade de São Paulo
 
Novo Portal Transparência SC
Novo Portal Transparência SCNovo Portal Transparência SC
Novo Portal Transparência SC
Governo de Santa Catarina
 
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Renato Bongiorno Bonfanti
 
A construção de pontos de acessos a conjuntos de dados governamentais baseado...
A construção de pontos de acessos a conjuntos de dados governamentais baseado...A construção de pontos de acessos a conjuntos de dados governamentais baseado...
A construção de pontos de acessos a conjuntos de dados governamentais baseado...
Fernando de Assis Rodrigues
 
The build of access points to Government's Datasets based on a Multidimension...
The build of access points to Government's Datasets based on a Multidimension...The build of access points to Government's Datasets based on a Multidimension...
The build of access points to Government's Datasets based on a Multidimension...
Fernando de Assis Rodrigues
 
1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros
1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros
1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros
Luis Vidigal
 

Semelhante a Raspagem de dados em websites governamentais (20)

Jornalismo de dados - coletando
Jornalismo de dados - coletandoJornalismo de dados - coletando
Jornalismo de dados - coletando
 
Política de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - EnapPolítica de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - Enap
 
Web APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras GovernamentaisWeb APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras Governamentais
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Web mining
Web miningWeb mining
Web mining
 
O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018
 
A Declaração de Acessibilidade - Web e Apps -
A Declaração de Acessibilidade- Web e Apps -A Declaração de Acessibilidade- Web e Apps -
A Declaração de Acessibilidade - Web e Apps -
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Consegi
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
 
A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...
 
Indicadores de Desempenho para a TI - Modulo 4 - Criação Painel Controle
Indicadores de Desempenho para a TI - Modulo 4 - Criação Painel ControleIndicadores de Desempenho para a TI - Modulo 4 - Criação Painel Controle
Indicadores de Desempenho para a TI - Modulo 4 - Criação Painel Controle
 
Sobre o workshop "Raspagem de dados para mulheres"
Sobre o workshop "Raspagem de dados para mulheres"Sobre o workshop "Raspagem de dados para mulheres"
Sobre o workshop "Raspagem de dados para mulheres"
 
Ciência de Dados em Governo
Ciência de Dados em GovernoCiência de Dados em Governo
Ciência de Dados em Governo
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
 
Novo Portal Transparência SC
Novo Portal Transparência SCNovo Portal Transparência SC
Novo Portal Transparência SC
 
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
 
A construção de pontos de acessos a conjuntos de dados governamentais baseado...
A construção de pontos de acessos a conjuntos de dados governamentais baseado...A construção de pontos de acessos a conjuntos de dados governamentais baseado...
A construção de pontos de acessos a conjuntos de dados governamentais baseado...
 
The build of access points to Government's Datasets based on a Multidimension...
The build of access points to Government's Datasets based on a Multidimension...The build of access points to Government's Datasets based on a Multidimension...
The build of access points to Government's Datasets based on a Multidimension...
 
1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros
1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros
1992 - Um infocentro ao serviço da AP - Infojur, Infocid e outros
 

Mais de Fernando de Assis Rodrigues

Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...
Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...
Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...
Fernando de Assis Rodrigues
 
Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...
Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...
Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...
Fernando de Assis Rodrigues
 
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Fernando de Assis Rodrigues
 
Interseções entre Coleta de Dados e Redes Sociais Online
Interseções entre Coleta de Dados e Redes Sociais OnlineInterseções entre Coleta de Dados e Redes Sociais Online
Interseções entre Coleta de Dados e Redes Sociais Online
Fernando de Assis Rodrigues
 
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Fernando de Assis Rodrigues
 
2018 uel-apresentacao-coleta redes-sociais_online
2018 uel-apresentacao-coleta redes-sociais_online2018 uel-apresentacao-coleta redes-sociais_online
2018 uel-apresentacao-coleta redes-sociais_online
Fernando de Assis Rodrigues
 
Processo de Acesso a Dados e suas fases
Processo de Acesso a Dados e suas fasesProcesso de Acesso a Dados e suas fases
Processo de Acesso a Dados e suas fases
Fernando de Assis Rodrigues
 
Fundamentos teóricos para coleta de dados de redes sociais online
Fundamentos teóricos para coleta de dados de redes sociais onlineFundamentos teóricos para coleta de dados de redes sociais online
Fundamentos teóricos para coleta de dados de redes sociais online
Fernando de Assis Rodrigues
 
Identifying semantics characteristics of user’s interactions datasets through...
Identifying semantics characteristics of user’s interactions datasets through...Identifying semantics characteristics of user’s interactions datasets through...
Identifying semantics characteristics of user’s interactions datasets through...
Fernando de Assis Rodrigues
 
Open Source e Open Platform: potenciais catalizadores para uso de Internet da...
Open Source e Open Platform: potenciais catalizadores para uso de Internet da...Open Source e Open Platform: potenciais catalizadores para uso de Internet da...
Open Source e Open Platform: potenciais catalizadores para uso de Internet da...
Fernando de Assis Rodrigues
 
Coleta de Dados em Redes Sociais
Coleta de Dados em Redes SociaisColeta de Dados em Redes Sociais
Coleta de Dados em Redes Sociais
Fernando de Assis Rodrigues
 
Metadados em objetos digitais: conceitos e indexação na Web
Metadados em objetos digitais: conceitos e indexação na WebMetadados em objetos digitais: conceitos e indexação na Web
Metadados em objetos digitais: conceitos e indexação na Web
Fernando de Assis Rodrigues
 
Metadados e Interoperabilidade
Metadados e InteroperabilidadeMetadados e Interoperabilidade
Metadados e Interoperabilidade
Fernando de Assis Rodrigues
 
Aplicações da Teoria dos Grafos em coletas de dados
Aplicações da Teoria dos Grafos em coletas de dadosAplicações da Teoria dos Grafos em coletas de dados
Aplicações da Teoria dos Grafos em coletas de dados
Fernando de Assis Rodrigues
 
Contextualização de conceitos teóricos no processo de coleta de dados de Rede...
Contextualização de conceitos teóricos no processo de coleta de dados de Rede...Contextualização de conceitos teóricos no processo de coleta de dados de Rede...
Contextualização de conceitos teóricos no processo de coleta de dados de Rede...
Fernando de Assis Rodrigues
 
Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...
Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...
Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...
Fernando de Assis Rodrigues
 
Categorização de elementos de privacidade identificados nos termos de uso de ...
Categorização de elementos de privacidade identificados nos termos de uso de ...Categorização de elementos de privacidade identificados nos termos de uso de ...
Categorização de elementos de privacidade identificados nos termos de uso de ...
Fernando de Assis Rodrigues
 
ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...
ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...
ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...
Fernando de Assis Rodrigues
 
ACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEB
ACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEBACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEB
ACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEB
Fernando de Assis Rodrigues
 
O USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTAR
O USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTARO USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTAR
O USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTAR
Fernando de Assis Rodrigues
 

Mais de Fernando de Assis Rodrigues (20)

Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...
Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...
Perspectivas e impasses na salvaguarda e preservação documental pós Medida Pr...
 
Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...
Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...
Serviços de Redes Sociais On-line e a Comunicação Científica: visibilidade de...
 
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
 
Interseções entre Coleta de Dados e Redes Sociais Online
Interseções entre Coleta de Dados e Redes Sociais OnlineInterseções entre Coleta de Dados e Redes Sociais Online
Interseções entre Coleta de Dados e Redes Sociais Online
 
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
Ficção Científica e Realidade da Coleta de Dados em Redes Sociais Online: aná...
 
2018 uel-apresentacao-coleta redes-sociais_online
2018 uel-apresentacao-coleta redes-sociais_online2018 uel-apresentacao-coleta redes-sociais_online
2018 uel-apresentacao-coleta redes-sociais_online
 
Processo de Acesso a Dados e suas fases
Processo de Acesso a Dados e suas fasesProcesso de Acesso a Dados e suas fases
Processo de Acesso a Dados e suas fases
 
Fundamentos teóricos para coleta de dados de redes sociais online
Fundamentos teóricos para coleta de dados de redes sociais onlineFundamentos teóricos para coleta de dados de redes sociais online
Fundamentos teóricos para coleta de dados de redes sociais online
 
Identifying semantics characteristics of user’s interactions datasets through...
Identifying semantics characteristics of user’s interactions datasets through...Identifying semantics characteristics of user’s interactions datasets through...
Identifying semantics characteristics of user’s interactions datasets through...
 
Open Source e Open Platform: potenciais catalizadores para uso de Internet da...
Open Source e Open Platform: potenciais catalizadores para uso de Internet da...Open Source e Open Platform: potenciais catalizadores para uso de Internet da...
Open Source e Open Platform: potenciais catalizadores para uso de Internet da...
 
Coleta de Dados em Redes Sociais
Coleta de Dados em Redes SociaisColeta de Dados em Redes Sociais
Coleta de Dados em Redes Sociais
 
Metadados em objetos digitais: conceitos e indexação na Web
Metadados em objetos digitais: conceitos e indexação na WebMetadados em objetos digitais: conceitos e indexação na Web
Metadados em objetos digitais: conceitos e indexação na Web
 
Metadados e Interoperabilidade
Metadados e InteroperabilidadeMetadados e Interoperabilidade
Metadados e Interoperabilidade
 
Aplicações da Teoria dos Grafos em coletas de dados
Aplicações da Teoria dos Grafos em coletas de dadosAplicações da Teoria dos Grafos em coletas de dados
Aplicações da Teoria dos Grafos em coletas de dados
 
Contextualização de conceitos teóricos no processo de coleta de dados de Rede...
Contextualização de conceitos teóricos no processo de coleta de dados de Rede...Contextualização de conceitos teóricos no processo de coleta de dados de Rede...
Contextualização de conceitos teóricos no processo de coleta de dados de Rede...
 
Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...
Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...
Pontos de contato entre a Esfera Pública e Instituições: reflexões sobre pote...
 
Categorização de elementos de privacidade identificados nos termos de uso de ...
Categorização de elementos de privacidade identificados nos termos de uso de ...Categorização de elementos de privacidade identificados nos termos de uso de ...
Categorização de elementos de privacidade identificados nos termos de uso de ...
 
ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...
ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...
ANÁLISE DA COLETA DE DADOS EM REDES SOCIAIS: aspectos de privacidade de dados...
 
ACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEB
ACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEBACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEB
ACESSO ÀS INFORMAÇÕES SOBRE AGRICULTURA FAMILIAR NA WEB
 
O USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTAR
O USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTARO USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTAR
O USO DE DADOS PÚBLICOS PARA O ACOMPANHAMENTO DA ATIVIDADE PARLAMENTAR
 

Raspagem de dados em websites governamentais

  • 1. elleth.org Raspagem de dados em websites governamentais // Data scraping in government websites Fernando de Assis Rodrigues, PhD
  • 2. O que é raspagem de dados? // What is data scraping?
  • 3. A raspagem de dados está relacionada ao processo de coleta automatizada de conjuntos de dados contidos em websites e outras formas de visualizações. // Data scraping is related to automated gathering process of data sets contained in websites and other forms of visualization.
  • 4. A raspagem de dados já existia antes da invenção do HyperText Markup Language (HTML) e de tecnologias associadas ao funcionamento da Internet e dos navegadores. // Before the HTML, browsers and other Internet technologies, data scraping already existed.
  • 5. Fonte da Imagem // Image Source: https://goo.gl/tTVvyV Banco de Dados Algoritmos de conversão // Conversion algorithms
  • 6. A princípio, as páginas web não foram desenvolvidas para permitir automação da coleta dos conjuntos de dados. // At first, web pages were not developed to allow automated data gathering
  • 8. Por que? Facilitar a manipulação dos conjuntos de dados. // Why? To ease data manipulation.
  • 9. Como fazer a coleta por raspagem de dados em websites? // How to do a data scrap on a website?
  • 10. Preciso conhecer uma linguagem de programação? // Do I need to know a programming language?
  • 11. A resposta é: depende. // The answer is: it depends.
  • 12. A resposta é: depende da complexidade da coleta de dados. // The answer is: depends how complex your data gathering process will be.
  • 13. Existe alguma alternativa? // Is there any alternative?
  • 15.
  • 17. http://webscraper.io Requisito técnico // Technical requirement: ●Google Chrome (atualizado // up-to-date) Conhecimentos // Skills: ●HyperText Markup Language (HTML) ●XPath ●Saber o que quer coletar // Knowing what you want to gather
  • 18. Na prática. // In practice
  • 19. Portal da Transparência (Brasil // Brazil)
  • 20. http://www.portaltransparencia.gov.br [...] é um canal pelo qual o cidadão pode acompanhar a execução financeira dos programas de governo, em âmbito federal. Estão disponíveis informações sobre os recursos públicos federais transferidos pelo Governo Federal a estados, municípios e Distrito Federal e diretamente ao cidadão, bem como dados sobre os gastos realizados pelo próprio Governo Federal em compras ou contratação de obras e serviços (CONTROLADORIA GERAL DA UNIÃO, 2017a). [...] is a channel that citizens can follow financial execution of federal government programs. Its information available is about federal financial resources transferred to states, cities, federal district and citizens, and also data about spends made by federal government itself, in acquisitions or contracts (CONTROLADORIA GERAL DA UNIÃO, 2017a)*. * Translated by author.
  • 21. Coletando dados de despesas diárias // Gathering daily expenses data 1. Abrir o endereço URL: http://www.portaltransparencia.gov.br 1. Open URL address: http://www.portaltransparencia.gov.br
  • 22. Coletando dados de despesas diárias // Gathering daily expenses data 2. Acessar o item “Despesas”, no menu “Consultas” 2. Access “Expense” item, in “Queries” menu
  • 23. Coletando dados de despesas diárias // Gathering daily expenses data 3. Clicar no hiperlink “Informações Diárias - Detalhamento Diário das Despesas” 3. Click on hyperlink “Daily Information - Daily Expenses Details”
  • 24. Coletando dados de despesas diárias // Gathering daily expenses data 4. Realizar a consulta que for conveniente 4. Carry out your convenient query
  • 25. Coletando dados de despesas diárias // Gathering daily expenses data 5. Aperte a tecla F12 para abrir o Console e acesse a guia Web Scraper 5. Press F12 key on keyboard to open the Console and change to Web Scraper tab
  • 26. Coletando dados de despesas diárias // Gathering daily expenses data 6. Criar um novo “mapa do site” 6. Create a new sitemap
  • 27. Coletando dados de despesas diárias // Gathering daily expenses data 7. Adicionar um novo “item seletor” 7. Add a new selector
  • 28. Preencher os atributos com os valores // Fill attributes with values: Id: dados Type: table Selector: a) clicar uma vez no botão “Select” (à direita) // click on time on “Select” button (right) b) clicar uma vez no título da primeira coluna da tabela // click on time on the first column header c) clicar no botão “Done Selecting” // click on “Done Selecting” button Header row selector: não alterar // do not change Data rows selector: não alterar // do not change Checar o atributo “Multiple” // Check “Multiple” attribute Ir ao final do formulário e apertar o botão “Save Selector” // Go to form bottom and click on “Save Selector” button. Coletando dados de despesas diárias // Gathering daily expenses data
  • 29.
  • 30. Coletando dados de despesas diárias // Gathering daily expenses data 8. Clicar em “Scrape” 8. Click on “Scrape”
  • 31. Coletando dados de despesas diárias // Gathering daily expenses data
  • 32. Coletando dados de despesas diárias // Gathering daily expenses data 9. Clicar em “Export data as CSV” 9. Click on “Export data as CSV”
  • 33. Coletando dados de despesas diárias // Gathering daily expenses data
  • 34. O que não foi abordado: coleta de múltiplas páginas (paginação) // What is not covered here: data gathering of multiple pages (pagination)
  • 35. Referências // References CONTROLADORIA GERAL DA UNIÃO. Detalhamento Diário das Despesas. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017a. CONTROLADORIA GERAL DA UNIÃO. Portal da Transparência. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017b. CONTROLADORIA GERAL DA UNIÃO. Glossário. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017c. HEMENWAY, K.; CALISHAIN, T. Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly, 2004.  Controladoria Geral da União. (2017a). Detalhamento Diário das Despesas. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp Controladoria Geral da União. (2017b). Glossário. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp Controladoria Geral da União. (2017c). Portal da Transparência. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp Hemenway, K., & Calishain, T. (2004). Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly. 
  • 36. Esta apresentação está disponível para download em http://elleth.org // This presentation is available to download at http://elleth.org