O OpenRefine é um software livre alternativo ao Microsoft Excel e ao Libre Office, é utilizado para tratamento de dados em modo planilha e utiliza de uma interface web para processar os dados.
A diferença deste software para os outros está além do visual, nas funcionalidades e opções de tratamento de dados.
Este Workshop realizado pelo professor pesquisador Marcel Ferrante no Labicom - UFG, esclarece algumas funcionalidades deste software.
Aula Experimental - Rede Sampa - Da curadoria social e coletiva: os filtros d...
Open Refine: poderosa ferramenta para limpeza e tratamento de dados
1. Open Refine
Gestão da Informação / UFG
Contatos:
marcelf@gmail.com
Link: marcelferrante.com.br/openrefine.pdf
Adaptado de Training the Trainers for Linked Data
Seth van Hooland, Ruben Verborgh
http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435
3. {
}
Gestão da Informação / UFG
O que é e para que serve?
• OpenRefine (anteriormente Google Refine) é uma
ferramenta poderosa para trabalhar com dados
desorganizados
• Serve para:
• Limpar, corrigir, clusterizar, filtrar, navegar pelo dados
• Transformar em um formato para outro
• Estender os dados com serviços de web
• Relacionar com bases de dados como Freebase
4. {
}
Gestão da Informação / UFG
Historia
• Foi lançado em 2010
• É fruto da aquisição da empresa Metaweb que tinha o
software Freebase Gridworks que foi renomeado
• Posteriormente foi transformado em um software livre e
renomeado para
5. {
}
Gestão da Informação / UFG
Instalação
Baixar o software:
http://openrefine.org/download.html
Descompacte e clique para rodar
6. {
}
Gestão da Informação / UFG
Alocação de memória para maior
desempenho
Windows : open openrefine.l4j.ini file, find the line that starts with -
Xmx and override the default allocated memory of 1024M with for
example 2048 M
Mac : close Refine, hold control and click on its icon, selecting Show
package contents from the pop-up menu. Open the info. plist file
from the Contents folder. Navigate to the Java settings and edit the
value of VMOptions. Look for the part that starts with -Xmx and
change its default value of 1024 M to the desired amount of memory
Linux: instead of starting OpenRefine with ./refine as you usually
would do, just type in ./refine -m 2048M
APOS ALTERAR FECHE E REINICIE
7. {
}
Gestão da Informação / UFG
Importar dataset
Conjuntos de dados:
http://book.freeyourmetadata.org/chapters/3/powerhouse-
museum.tsv
http://book.freeyourmetadata.org/chapters/4/british-library.csv
15. {
}
Gestão da Informação / UFG
Facetas
Clique para ordenar por
count
Isso permite que você
descuba quais são as
opções mais usadas
Pode ser para fazer algumas
inferências
16. {
}
Gestão da Informação / UFG
Campos com multipos valores
Veja que a faceta de Categorias não está fazendo muito sentido (parece
embaralhada). Isso é porque é um campo com múltiplos valores.
Campos com multipos valores (geralmente separados por um delimitado
como virgulas) que podem ser desmebrados com o recurso abaixo.
17. {
}
Gestão da Informação / UFG
Campos com multipos valores
Existem campos com multipos valores (geralmente separados por um delimitado
como virgulas) que podem ser desmebrados com o recurso abaixo
Note que a quantidade de registros duplicou e que linha em branco foram
adicionada: esse é a forma com que é tratado registro com múltiplos valores
18. {
}
Gestão da Informação / UFG
Modo records
Para continuar vendo os registros, clique em ver no Modo records. O numero de
registro deve ser o mesmo do que estava anteriormente
19. {
}
Gestão da Informação / UFG
Limpando os dados
Carregue phm-collection.tsv, crie um novo projeto e depois
uma faceta numérica
Veja que tem 118 registros em branco
27. {
}
Gestão da Informação / UFG
Reconciliação dos dados
Reconciliação dos dados permite que vincular e
validar as categorias com uma outra fonte que
pode ser:
uma fonte externa
um arquivo
28. {
}
Gestão da Informação / UFG
RDF Refine
Baixar extensão: http://refine.deri.ie/
Certifique-se de "extensões" existe pasta no seu Google Refine
Baixe a extensão
Extraia o arquivo zip baixado para a pasta "extensões"
Reinicie o Google Refine
37. {
}
Gestão da Informação / UFG
Carregar em uma biblioteca digital
Após o tratamento dos dados, o objetivo é usar
os metadados em um biblioteca digital
Será o utilizado o tainacan para exemplificar o
processo
Acessar tainacan.gi.fic.ufg.br
Criar uma coleção, facetas e importar o arquivo