SlideShare uma empresa Scribd logo
1 de 41
Baixar para ler offline
Open Refine
Gestão da Informação / UFG
Contatos:
marcelf@gmail.com
Link: marcelferrante.com.br/openrefine.pdf
Adaptado de Training the Trainers for Linked Data
Seth van Hooland, Ruben Verborgh
http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435
Workshop
Tratamento e manipulação
de dados
Open Refine
Gestão da Informação
UFG
{
}
Gestão da Informação / UFG
O que é e para que serve?
• OpenRefine (anteriormente Google Refine) é uma
ferramenta poderosa para trabalhar com dados
desorganizados
• Serve para:
• Limpar, corrigir, clusterizar, filtrar, navegar pelo dados
• Transformar em um formato para outro
• Estender os dados com serviços de web
• Relacionar com bases de dados como Freebase
{
}
Gestão da Informação / UFG
Historia
• Foi lançado em 2010
• É fruto da aquisição da empresa Metaweb que tinha o
software Freebase Gridworks que foi renomeado
• Posteriormente foi transformado em um software livre e
renomeado para
{
}
Gestão da Informação / UFG
Instalação
Baixar o software:
http://openrefine.org/download.html
Descompacte e clique para rodar
{
}
Gestão da Informação / UFG
Alocação de memória para maior
desempenho
 Windows : open openrefine.l4j.ini file, find the line that starts with -
Xmx and override the default allocated memory of 1024M with for
example 2048 M
 Mac : close Refine, hold control and click on its icon, selecting Show
package contents from the pop-up menu. Open the info. plist file
from the Contents folder. Navigate to the Java settings and edit the
value of VMOptions. Look for the part that starts with -Xmx and
change its default value of 1024 M to the desired amount of memory
 Linux: instead of starting OpenRefine with ./refine as you usually
would do, just type in ./refine -m 2048M
 APOS ALTERAR FECHE E REINICIE
{
}
Gestão da Informação / UFG
Importar dataset
Conjuntos de dados:
 http://book.freeyourmetadata.org/chapters/3/powerhouse-
museum.tsv
 http://book.freeyourmetadata.org/chapters/4/british-library.csv
{
}
Gestão da Informação / UFG
Importar dataset
{
}
Gestão da Informação / UFG
Criar Projeto
{
}
Gestão da Informação / UFG
Criar Projeto
{
}
Gestão da Informação / UFG
Descrição da Interface
{
}
Gestão da Informação / UFG
Filtros
 Permite que você digite algo para buscar os registros
que contem aquela string naquele campo
{
}
Gestão da Informação / UFG
Facetas
 Voce seleciona uma faixa de valores em Numeric Facet
{
}
Gestão da Informação / UFG
Facetas
 Voce seleciona uma opção em Text Facet para filtrar
{
}
Gestão da Informação / UFG
Facetas
 Clique para ordenar por
count
 Isso permite que você
descuba quais são as
opções mais usadas
 Pode ser para fazer algumas
inferências
{
}
Gestão da Informação / UFG
Campos com multipos valores
 Veja que a faceta de Categorias não está fazendo muito sentido (parece
embaralhada). Isso é porque é um campo com múltiplos valores.
 Campos com multipos valores (geralmente separados por um delimitado
como virgulas) que podem ser desmebrados com o recurso abaixo.
{
}
Gestão da Informação / UFG
Campos com multipos valores
 Existem campos com multipos valores (geralmente separados por um delimitado
como virgulas) que podem ser desmebrados com o recurso abaixo
 Note que a quantidade de registros duplicou e que linha em branco foram
adicionada: esse é a forma com que é tratado registro com múltiplos valores
{
}
Gestão da Informação / UFG
Modo records
 Para continuar vendo os registros, clique em ver no Modo records. O numero de
registro deve ser o mesmo do que estava anteriormente
{
}
Gestão da Informação / UFG
Limpando os dados
 Carregue phm-collection.tsv, crie um novo projeto e depois
uma faceta numérica
 Veja que tem 118 registros em branco
{
}
Gestão da Informação / UFG
Limpando os dados
 Remova todos os registros em branco
{
}
Gestão da Informação / UFG
Limpando os dados
 Remova todos os registros em branco
{
}
Gestão da Informação / UFG
Facetas customizadas
Um exemplo é a faceta de tamanho do texto.
{
}
Gestão da Informação / UFG
Limpando os dados
Removendo registros com error
{
}
Gestão da Informação / UFG
Limpando os dados
Removendo registros com error
{
}
Gestão da Informação / UFG
Contraindo as colunas
{
}
Gestão da Informação / UFG
Clusterizando
Mescle categorias com variações na escrita
{
}
Gestão da Informação / UFG
Reconciliação dos dados
Reconciliação dos dados permite que vincular e
validar as categorias com uma outra fonte que
pode ser:
uma fonte externa
um arquivo
{
}
Gestão da Informação / UFG
RDF Refine
 Baixar extensão: http://refine.deri.ie/
 Certifique-se de "extensões" existe pasta no seu Google Refine
 Baixe a extensão
 Extraia o arquivo zip baixado para a pasta "extensões"
 Reinicie o Google Refine
{
}
Gestão da Informação / UFG
Reconciliação dos dados
{
}
Gestão da Informação / UFG
Reconciliação dos dados
{
}
Gestão da Informação / UFG
Reconciliação dos dados
{
}
Gestão da Informação / UFG
Reconciliação dos dados
{
}
Gestão da Informação / UFG
Reconciliação dos dados
{
}
Gestão da Informação / UFG
Importar dataset em CSV
 Conjuntos de dados:
http://book.freeyourmetadata.org/chapters/3/powerhouse-
museum.tsv
http://book.freeyourmetadata.org/chapters/4/british-library.csv
{
}
Gestão da Informação / UFG
Importar dataset em CSV
{
}
Gestão da Informação / UFG
Importar dataset em CSV
{
}
Gestão da Informação / UFG
Carregar em uma biblioteca digital
Após o tratamento dos dados, o objetivo é usar
os metadados em um biblioteca digital
Será o utilizado o tainacan para exemplificar o
processo
Acessar tainacan.gi.fic.ufg.br
Criar uma coleção, facetas e importar o arquivo
{
}
Gestão da Informação / UFG
Importar
CSV
{
}
Gestão da Informação / UFG
Importar
CSV
{
}
Gestão da Informação / UFG
Importar
CSV
{
}
Gestão da Informação / UFG
Importar
CSV

Mais conteúdo relacionado

Mais procurados

Banco de Dados em Grafos com Neo4J
Banco de Dados em Grafos com Neo4J  Banco de Dados em Grafos com Neo4J
Banco de Dados em Grafos com Neo4J Daniel San Martin
 
Understanding RDF: the Resource Description Framework in Context (1999)
Understanding RDF: the Resource Description Framework in Context  (1999)Understanding RDF: the Resource Description Framework in Context  (1999)
Understanding RDF: the Resource Description Framework in Context (1999)Dan Brickley
 
Aulas 13 e 14 - Algoritmos
Aulas 13 e 14 - AlgoritmosAulas 13 e 14 - Algoritmos
Aulas 13 e 14 - AlgoritmosJocelma Rios
 
RDF 개념 및 구문 소개
RDF 개념 및 구문 소개RDF 개념 및 구문 소개
RDF 개념 및 구문 소개Dongbum Kim
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Coleta de Dados em Midias Sociais para Pesquisa Acadêmica
Coleta de Dados em Midias Sociais para Pesquisa AcadêmicaColeta de Dados em Midias Sociais para Pesquisa Acadêmica
Coleta de Dados em Midias Sociais para Pesquisa AcadêmicaTarcízio Silva
 
Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...
Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...
Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...Alex Camargo
 
Eng.Software-Métricas
Eng.Software-MétricasEng.Software-Métricas
Eng.Software-Métricaselliando dias
 
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)Leinylson Fontinele
 
Apresentação Final de Banco de Dados
Apresentação Final de Banco de DadosApresentação Final de Banco de Dados
Apresentação Final de Banco de Dadossamlobo
 
Estrutura de Dados II - Apresentação da Disciplina
Estrutura de Dados II - Apresentação da DisciplinaEstrutura de Dados II - Apresentação da Disciplina
Estrutura de Dados II - Apresentação da DisciplinaDaniel Arndt Alves
 
SOA - Arquitetura Orientada a Serviços
SOA - Arquitetura Orientada a ServiçosSOA - Arquitetura Orientada a Serviços
SOA - Arquitetura Orientada a Serviçosalinebicudo
 
Segurança nas redes e internet - baixar slides
Segurança nas redes e internet - baixar slidesSegurança nas redes e internet - baixar slides
Segurança nas redes e internet - baixar slidesAna Lúcia Albano
 
LGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados PessoaisLGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados PessoaisDouglas Siviotti
 
Método dinâmico de ensino raciocínio lógico
Método dinâmico de ensino raciocínio lógicoMétodo dinâmico de ensino raciocínio lógico
Método dinâmico de ensino raciocínio lógicojcferreira100
 

Mais procurados (20)

Banco de Dados em Grafos com Neo4J
Banco de Dados em Grafos com Neo4J  Banco de Dados em Grafos com Neo4J
Banco de Dados em Grafos com Neo4J
 
Understanding RDF: the Resource Description Framework in Context (1999)
Understanding RDF: the Resource Description Framework in Context  (1999)Understanding RDF: the Resource Description Framework in Context  (1999)
Understanding RDF: the Resource Description Framework in Context (1999)
 
Aulas 13 e 14 - Algoritmos
Aulas 13 e 14 - AlgoritmosAulas 13 e 14 - Algoritmos
Aulas 13 e 14 - Algoritmos
 
Aula 7 - Ataque de Força Bruta
Aula 7 - Ataque de Força BrutaAula 7 - Ataque de Força Bruta
Aula 7 - Ataque de Força Bruta
 
RDF 개념 및 구문 소개
RDF 개념 및 구문 소개RDF 개념 및 구문 소개
RDF 개념 및 구문 소개
 
Tutorial Maltego
Tutorial MaltegoTutorial Maltego
Tutorial Maltego
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Coleta de Dados em Midias Sociais para Pesquisa Acadêmica
Coleta de Dados em Midias Sociais para Pesquisa AcadêmicaColeta de Dados em Midias Sociais para Pesquisa Acadêmica
Coleta de Dados em Midias Sociais para Pesquisa Acadêmica
 
Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...
Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...
Laboratório de Programação II: Grafos - Matriz de adjacência e Matriz de inci...
 
Eng.Software-Métricas
Eng.Software-MétricasEng.Software-Métricas
Eng.Software-Métricas
 
SPARQL Cheat Sheet
SPARQL Cheat SheetSPARQL Cheat Sheet
SPARQL Cheat Sheet
 
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
 
Apresentação Final de Banco de Dados
Apresentação Final de Banco de DadosApresentação Final de Banco de Dados
Apresentação Final de Banco de Dados
 
Estrutura de Dados II - Apresentação da Disciplina
Estrutura de Dados II - Apresentação da DisciplinaEstrutura de Dados II - Apresentação da Disciplina
Estrutura de Dados II - Apresentação da Disciplina
 
SOA - Arquitetura Orientada a Serviços
SOA - Arquitetura Orientada a ServiçosSOA - Arquitetura Orientada a Serviços
SOA - Arquitetura Orientada a Serviços
 
Segurança nas redes e internet - baixar slides
Segurança nas redes e internet - baixar slidesSegurança nas redes e internet - baixar slides
Segurança nas redes e internet - baixar slides
 
LGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados PessoaisLGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados Pessoais
 
CONEXÃO BANCO DE DADOS MYSQL COM JAVA
CONEXÃO BANCO DE DADOS MYSQL  COM JAVACONEXÃO BANCO DE DADOS MYSQL  COM JAVA
CONEXÃO BANCO DE DADOS MYSQL COM JAVA
 
Aula 4 banco de dados
Aula 4   banco de dados Aula 4   banco de dados
Aula 4 banco de dados
 
Método dinâmico de ensino raciocínio lógico
Método dinâmico de ensino raciocínio lógicoMétodo dinâmico de ensino raciocínio lógico
Método dinâmico de ensino raciocínio lógico
 

Destaque (8)

Sobrevoo sobre as análises do Iramuteq
Sobrevoo sobre as análises do IramuteqSobrevoo sobre as análises do Iramuteq
Sobrevoo sobre as análises do Iramuteq
 
6 Passos de uma análise quantitativa - Dados Demais
6 Passos de uma análise quantitativa - Dados Demais6 Passos de uma análise quantitativa - Dados Demais
6 Passos de uma análise quantitativa - Dados Demais
 
Algorithms and their others
Algorithms and their othersAlgorithms and their others
Algorithms and their others
 
Seminário Sociologia na era do Big Data
Seminário Sociologia na era do Big DataSeminário Sociologia na era do Big Data
Seminário Sociologia na era do Big Data
 
30154 - MILLS, wright. Do artesanato intelectual. in a imaginação sociológica
30154 - MILLS, wright. Do artesanato intelectual. in a imaginação sociológica30154 - MILLS, wright. Do artesanato intelectual. in a imaginação sociológica
30154 - MILLS, wright. Do artesanato intelectual. in a imaginação sociológica
 
Modelagem de dados
Modelagem de dadosModelagem de dados
Modelagem de dados
 
Apostila modelagem de banco de dados
Apostila modelagem de banco de dadosApostila modelagem de banco de dados
Apostila modelagem de banco de dados
 
Apresentação metodologia qualitativa
Apresentação metodologia qualitativaApresentação metodologia qualitativa
Apresentação metodologia qualitativa
 

Semelhante a Open Refine: poderosa ferramenta para limpeza e tratamento de dados

Projeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da SaúdeProjeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da SaúdeinovaDay .
 
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigaçãoWorkshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigaçãoPedro Príncipe
 
DataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigaçãoDataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigaçãoPedro Príncipe
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftDennes Torres
 
Integrando big data ao oltp com polybase
Integrando big data ao oltp com polybaseIntegrando big data ao oltp com polybase
Integrando big data ao oltp com polybaseDennes Torres
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Mauricio Cesar Santos da Purificação
 
Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...
Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...
Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...Felipe Arakaki
 
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...Claudio Martins
 
Guia rápido de utilização do Access 2013
Guia rápido de utilização do Access 2013Guia rápido de utilização do Access 2013
Guia rápido de utilização do Access 2013Nilton (LOMEUTEC)
 
aula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdfaula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdfritaporfrio
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...Pedro Príncipe
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...Fernando Maia da Mota
 
Introdução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de DadosIntrodução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de Dadosinfo_cimol
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 

Semelhante a Open Refine: poderosa ferramenta para limpeza e tratamento de dados (20)

Projeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da SaúdeProjeto Piloto de Web Semântica com Dados da Secretaria da Saúde
Projeto Piloto de Web Semântica com Dados da Secretaria da Saúde
 
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigaçãoWorkshop - Abertura e gestão de dados, planos de gestão de dados de investigação
Workshop - Abertura e gestão de dados, planos de gestão de dados de investigação
 
DataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigaçãoDataRepositóriUM - partilhar, publicar e gerir dados de investigação
DataRepositóriUM - partilhar, publicar e gerir dados de investigação
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 
Integrando big data ao oltp com polybase
Integrando big data ao oltp com polybaseIntegrando big data ao oltp com polybase
Integrando big data ao oltp com polybase
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
 
Open data
Open dataOpen data
Open data
 
Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...
Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...
Uma revisão bibliográfica do padrão de metadados Dublin Core e sua aplicação ...
 
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
 
Guia rápido de utilização do Access 2013
Guia rápido de utilização do Access 2013Guia rápido de utilização do Access 2013
Guia rápido de utilização do Access 2013
 
Pesquisa com Scopus
Pesquisa com ScopusPesquisa com Scopus
Pesquisa com Scopus
 
aula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdfaula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdf
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
 
Seminário Portal de Periódicos Capes
Seminário Portal de Periódicos CapesSeminário Portal de Periódicos Capes
Seminário Portal de Periódicos Capes
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Li...
 
Introdução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de DadosIntrodução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de Dados
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 

Mais de Laboratório de Políticas Públicas Participativas

Mais de Laboratório de Políticas Públicas Participativas (20)

Capítulo 4 listas.
Capítulo 4   listas.Capítulo 4   listas.
Capítulo 4 listas.
 
Al sweigart, cap 3
Al sweigart, cap 3Al sweigart, cap 3
Al sweigart, cap 3
 
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAMApresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
Apresentação do Tainacan Museus - Instituto Brasileiro de Museus - IBRAM
 
Manual Tainacan - acervos digitais em rede
Manual Tainacan - acervos digitais em redeManual Tainacan - acervos digitais em rede
Manual Tainacan - acervos digitais em rede
 
Capítulo 2 - Python
Capítulo 2 - PythonCapítulo 2 - Python
Capítulo 2 - Python
 
Automatize tarefas maçantes com python - Aula 1
Automatize tarefas maçantes com python - Aula 1Automatize tarefas maçantes com python - Aula 1
Automatize tarefas maçantes com python - Aula 1
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 02 - Museus e red...
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
 
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
Oficina Cultura Digital, Museus e Acervos em Rede - Módulo 01 - inteligênci...
 
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação dig...
 
Extração de Dados do Facebook com o NetVizz
Extração de Dados do Facebook com o NetVizzExtração de Dados do Facebook com o NetVizz
Extração de Dados do Facebook com o NetVizz
 
Métodos Digitais para Análise de Dados - Aula 06 - O digital como espaço soc...
Métodos Digitais para Análise de Dados - Aula 06 - O digital como espaço soc...Métodos Digitais para Análise de Dados - Aula 06 - O digital como espaço soc...
Métodos Digitais para Análise de Dados - Aula 06 - O digital como espaço soc...
 
Encarando o Big Data: Tornando a Sociologia Relevante
Encarando o Big Data: Tornando a Sociologia RelevanteEncarando o Big Data: Tornando a Sociologia Relevante
Encarando o Big Data: Tornando a Sociologia Relevante
 
Os Usos Literários do Espaço de Alta Dimensão
Os Usos Literários do Espaço de Alta DimensãoOs Usos Literários do Espaço de Alta Dimensão
Os Usos Literários do Espaço de Alta Dimensão
 
Métodos Digitais para Análise de Dados - Aula 05 - Sociabilidade em rede e ca...
Métodos Digitais para Análise de Dados - Aula 05 - Sociabilidade em rede e ca...Métodos Digitais para Análise de Dados - Aula 05 - Sociabilidade em rede e ca...
Métodos Digitais para Análise de Dados - Aula 05 - Sociabilidade em rede e ca...
 
Seminário - Apresentação do Artigo - Big Data and Historical Social Science
Seminário - Apresentação do Artigo - Big Data and Historical Social ScienceSeminário - Apresentação do Artigo - Big Data and Historical Social Science
Seminário - Apresentação do Artigo - Big Data and Historical Social Science
 
Métodos Quantitativos e Pesquisa em Ciências Sociais - Ramos, 2013 (Síntese d...
Métodos Quantitativos e Pesquisa em Ciências Sociais - Ramos, 2013 (Síntese d...Métodos Quantitativos e Pesquisa em Ciências Sociais - Ramos, 2013 (Síntese d...
Métodos Quantitativos e Pesquisa em Ciências Sociais - Ramos, 2013 (Síntese d...
 
Minicurso - Geoprocessamento/Qgis
Minicurso - Geoprocessamento/QgisMinicurso - Geoprocessamento/Qgis
Minicurso - Geoprocessamento/Qgis
 
Aula Experimental - Rede Sampa - Da curadoria social e coletiva: os filtros d...
Aula Experimental - Rede Sampa - Da curadoria social e coletiva: os filtros d...Aula Experimental - Rede Sampa - Da curadoria social e coletiva: os filtros d...
Aula Experimental - Rede Sampa - Da curadoria social e coletiva: os filtros d...
 

Open Refine: poderosa ferramenta para limpeza e tratamento de dados

  • 1. Open Refine Gestão da Informação / UFG Contatos: marcelf@gmail.com Link: marcelferrante.com.br/openrefine.pdf Adaptado de Training the Trainers for Linked Data Seth van Hooland, Ruben Verborgh http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435
  • 2. Workshop Tratamento e manipulação de dados Open Refine Gestão da Informação UFG
  • 3. { } Gestão da Informação / UFG O que é e para que serve? • OpenRefine (anteriormente Google Refine) é uma ferramenta poderosa para trabalhar com dados desorganizados • Serve para: • Limpar, corrigir, clusterizar, filtrar, navegar pelo dados • Transformar em um formato para outro • Estender os dados com serviços de web • Relacionar com bases de dados como Freebase
  • 4. { } Gestão da Informação / UFG Historia • Foi lançado em 2010 • É fruto da aquisição da empresa Metaweb que tinha o software Freebase Gridworks que foi renomeado • Posteriormente foi transformado em um software livre e renomeado para
  • 5. { } Gestão da Informação / UFG Instalação Baixar o software: http://openrefine.org/download.html Descompacte e clique para rodar
  • 6. { } Gestão da Informação / UFG Alocação de memória para maior desempenho  Windows : open openrefine.l4j.ini file, find the line that starts with - Xmx and override the default allocated memory of 1024M with for example 2048 M  Mac : close Refine, hold control and click on its icon, selecting Show package contents from the pop-up menu. Open the info. plist file from the Contents folder. Navigate to the Java settings and edit the value of VMOptions. Look for the part that starts with -Xmx and change its default value of 1024 M to the desired amount of memory  Linux: instead of starting OpenRefine with ./refine as you usually would do, just type in ./refine -m 2048M  APOS ALTERAR FECHE E REINICIE
  • 7. { } Gestão da Informação / UFG Importar dataset Conjuntos de dados:  http://book.freeyourmetadata.org/chapters/3/powerhouse- museum.tsv  http://book.freeyourmetadata.org/chapters/4/british-library.csv
  • 8. { } Gestão da Informação / UFG Importar dataset
  • 9. { } Gestão da Informação / UFG Criar Projeto
  • 10. { } Gestão da Informação / UFG Criar Projeto
  • 11. { } Gestão da Informação / UFG Descrição da Interface
  • 12. { } Gestão da Informação / UFG Filtros  Permite que você digite algo para buscar os registros que contem aquela string naquele campo
  • 13. { } Gestão da Informação / UFG Facetas  Voce seleciona uma faixa de valores em Numeric Facet
  • 14. { } Gestão da Informação / UFG Facetas  Voce seleciona uma opção em Text Facet para filtrar
  • 15. { } Gestão da Informação / UFG Facetas  Clique para ordenar por count  Isso permite que você descuba quais são as opções mais usadas  Pode ser para fazer algumas inferências
  • 16. { } Gestão da Informação / UFG Campos com multipos valores  Veja que a faceta de Categorias não está fazendo muito sentido (parece embaralhada). Isso é porque é um campo com múltiplos valores.  Campos com multipos valores (geralmente separados por um delimitado como virgulas) que podem ser desmebrados com o recurso abaixo.
  • 17. { } Gestão da Informação / UFG Campos com multipos valores  Existem campos com multipos valores (geralmente separados por um delimitado como virgulas) que podem ser desmebrados com o recurso abaixo  Note que a quantidade de registros duplicou e que linha em branco foram adicionada: esse é a forma com que é tratado registro com múltiplos valores
  • 18. { } Gestão da Informação / UFG Modo records  Para continuar vendo os registros, clique em ver no Modo records. O numero de registro deve ser o mesmo do que estava anteriormente
  • 19. { } Gestão da Informação / UFG Limpando os dados  Carregue phm-collection.tsv, crie um novo projeto e depois uma faceta numérica  Veja que tem 118 registros em branco
  • 20. { } Gestão da Informação / UFG Limpando os dados  Remova todos os registros em branco
  • 21. { } Gestão da Informação / UFG Limpando os dados  Remova todos os registros em branco
  • 22. { } Gestão da Informação / UFG Facetas customizadas Um exemplo é a faceta de tamanho do texto.
  • 23. { } Gestão da Informação / UFG Limpando os dados Removendo registros com error
  • 24. { } Gestão da Informação / UFG Limpando os dados Removendo registros com error
  • 25. { } Gestão da Informação / UFG Contraindo as colunas
  • 26. { } Gestão da Informação / UFG Clusterizando Mescle categorias com variações na escrita
  • 27. { } Gestão da Informação / UFG Reconciliação dos dados Reconciliação dos dados permite que vincular e validar as categorias com uma outra fonte que pode ser: uma fonte externa um arquivo
  • 28. { } Gestão da Informação / UFG RDF Refine  Baixar extensão: http://refine.deri.ie/  Certifique-se de "extensões" existe pasta no seu Google Refine  Baixe a extensão  Extraia o arquivo zip baixado para a pasta "extensões"  Reinicie o Google Refine
  • 29. { } Gestão da Informação / UFG Reconciliação dos dados
  • 30. { } Gestão da Informação / UFG Reconciliação dos dados
  • 31. { } Gestão da Informação / UFG Reconciliação dos dados
  • 32. { } Gestão da Informação / UFG Reconciliação dos dados
  • 33. { } Gestão da Informação / UFG Reconciliação dos dados
  • 34. { } Gestão da Informação / UFG Importar dataset em CSV  Conjuntos de dados: http://book.freeyourmetadata.org/chapters/3/powerhouse- museum.tsv http://book.freeyourmetadata.org/chapters/4/british-library.csv
  • 35. { } Gestão da Informação / UFG Importar dataset em CSV
  • 36. { } Gestão da Informação / UFG Importar dataset em CSV
  • 37. { } Gestão da Informação / UFG Carregar em uma biblioteca digital Após o tratamento dos dados, o objetivo é usar os metadados em um biblioteca digital Será o utilizado o tainacan para exemplificar o processo Acessar tainacan.gi.fic.ufg.br Criar uma coleção, facetas e importar o arquivo
  • 38. { } Gestão da Informação / UFG Importar CSV
  • 39. { } Gestão da Informação / UFG Importar CSV
  • 40. { } Gestão da Informação / UFG Importar CSV
  • 41. { } Gestão da Informação / UFG Importar CSV