Workshop sobre algumas funcionalidades do Open Refine

225 visualizações

Publicada em

O OpenRefine é um software livre alternativo ao Microsoft Excel e ao Libre Office, é utilizado para tratamento de dados em modo planilha e utiliza de uma interface web para processar os dados.

A diferença deste software para os outros está além do visual, nas funcionalidades e opções de tratamento de dados.

Este Workshop realizado pelo professor pesquisador Marcel Ferrante no Labicom - UFG, esclarece algumas funcionalidades deste software.

Publicada em: Dados e análise
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
225
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
4
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Workshop sobre algumas funcionalidades do Open Refine

  1. 1. Open Refine Gestão da Informação / UFG Contatos: marcelf@gmail.com Link: marcelferrante.com.br/openrefine.pdf Adaptado de Training the Trainers for Linked Data Seth van Hooland, Ruben Verborgh http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435
  2. 2. Workshop Tratamento e manipulação de dados Open Refine Gestão da Informação UFG
  3. 3. { } Gestão da Informação / UFG O que é e para que serve? • OpenRefine (anteriormente Google Refine) é uma ferramenta poderosa para trabalhar com dados desorganizados • Serve para: • Limpar, corrigir, clusterizar, filtrar, navegar pelo dados • Transformar em um formato para outro • Estender os dados com serviços de web • Relacionar com bases de dados como Freebase
  4. 4. { } Gestão da Informação / UFG Historia • Foi lançado em 2010 • É fruto da aquisição da empresa Metaweb que tinha o software Freebase Gridworks que foi renomeado • Posteriormente foi transformado em um software livre e renomeado para
  5. 5. { } Gestão da Informação / UFG Instalação Baixar o software: http://openrefine.org/download.html Descompacte e clique para rodar
  6. 6. { } Gestão da Informação / UFG Alocação de memória para maior desempenho  Windows : open openrefine.l4j.ini file, find the line that starts with - Xmx and override the default allocated memory of 1024M with for example 2048 M  Mac : close Refine, hold control and click on its icon, selecting Show package contents from the pop-up menu. Open the info. plist file from the Contents folder. Navigate to the Java settings and edit the value of VMOptions. Look for the part that starts with -Xmx and change its default value of 1024 M to the desired amount of memory  Linux: instead of starting OpenRefine with ./refine as you usually would do, just type in ./refine -m 2048M  APOS ALTERAR FECHE E REINICIE
  7. 7. { } Gestão da Informação / UFG Importar dataset Conjuntos de dados:  http://book.freeyourmetadata.org/chapters/3/powerhouse- museum.tsv  http://book.freeyourmetadata.org/chapters/4/british-library.csv
  8. 8. { } Gestão da Informação / UFG Importar dataset
  9. 9. { } Gestão da Informação / UFG Criar Projeto
  10. 10. { } Gestão da Informação / UFG Criar Projeto
  11. 11. { } Gestão da Informação / UFG Descrição da Interface
  12. 12. { } Gestão da Informação / UFG Filtros  Permite que você digite algo para buscar os registros que contem aquela string naquele campo
  13. 13. { } Gestão da Informação / UFG Facetas  Voce seleciona uma faixa de valores em Numeric Facet
  14. 14. { } Gestão da Informação / UFG Facetas  Voce seleciona uma opção em Text Facet para filtrar
  15. 15. { } Gestão da Informação / UFG Facetas  Clique para ordenar por count  Isso permite que você descuba quais são as opções mais usadas  Pode ser para fazer algumas inferências
  16. 16. { } Gestão da Informação / UFG Campos com multipos valores  Veja que a faceta de Categorias não está fazendo muito sentido (parece embaralhada). Isso é porque é um campo com múltiplos valores.  Campos com multipos valores (geralmente separados por um delimitado como virgulas) que podem ser desmebrados com o recurso abaixo.
  17. 17. { } Gestão da Informação / UFG Campos com multipos valores  Existem campos com multipos valores (geralmente separados por um delimitado como virgulas) que podem ser desmebrados com o recurso abaixo  Note que a quantidade de registros duplicou e que linha em branco foram adicionada: esse é a forma com que é tratado registro com múltiplos valores
  18. 18. { } Gestão da Informação / UFG Modo records  Para continuar vendo os registros, clique em ver no Modo records. O numero de registro deve ser o mesmo do que estava anteriormente
  19. 19. { } Gestão da Informação / UFG Limpando os dados  Carregue phm-collection.tsv, crie um novo projeto e depois uma faceta numérica  Veja que tem 118 registros em branco
  20. 20. { } Gestão da Informação / UFG Limpando os dados  Remova todos os registros em branco
  21. 21. { } Gestão da Informação / UFG Limpando os dados  Remova todos os registros em branco
  22. 22. { } Gestão da Informação / UFG Facetas customizadas Um exemplo é a faceta de tamanho do texto.
  23. 23. { } Gestão da Informação / UFG Limpando os dados Removendo registros com error
  24. 24. { } Gestão da Informação / UFG Limpando os dados Removendo registros com error
  25. 25. { } Gestão da Informação / UFG Contraindo as colunas
  26. 26. { } Gestão da Informação / UFG Clusterizando Mescle categorias com variações na escrita
  27. 27. { } Gestão da Informação / UFG Reconciliação dos dados Reconciliação dos dados permite que vincular e validar as categorias com uma outra fonte que pode ser: uma fonte externa um arquivo
  28. 28. { } Gestão da Informação / UFG RDF Refine  Baixar extensão: http://refine.deri.ie/  Certifique-se de "extensões" existe pasta no seu Google Refine  Baixe a extensão  Extraia o arquivo zip baixado para a pasta "extensões"  Reinicie o Google Refine
  29. 29. { } Gestão da Informação / UFG Reconciliação dos dados
  30. 30. { } Gestão da Informação / UFG Reconciliação dos dados
  31. 31. { } Gestão da Informação / UFG Reconciliação dos dados
  32. 32. { } Gestão da Informação / UFG Reconciliação dos dados
  33. 33. { } Gestão da Informação / UFG Reconciliação dos dados
  34. 34. { } Gestão da Informação / UFG Importar dataset em CSV  Conjuntos de dados: http://book.freeyourmetadata.org/chapters/3/powerhouse- museum.tsv http://book.freeyourmetadata.org/chapters/4/british-library.csv
  35. 35. { } Gestão da Informação / UFG Importar dataset em CSV
  36. 36. { } Gestão da Informação / UFG Importar dataset em CSV
  37. 37. { } Gestão da Informação / UFG Carregar em uma biblioteca digital Após o tratamento dos dados, o objetivo é usar os metadados em um biblioteca digital Será o utilizado o tainacan para exemplificar o processo Acessar tainacan.gi.fic.ufg.br Criar uma coleção, facetas e importar o arquivo
  38. 38. { } Gestão da Informação / UFG Importar CSV
  39. 39. { } Gestão da Informação / UFG Importar CSV
  40. 40. { } Gestão da Informação / UFG Importar CSV
  41. 41. { } Gestão da Informação / UFG Importar CSV

×