UNIVERSIDADE ESTADUAL PAULISTA
     “JÚLIO DE MESQUITA FILHO”

 FACULDADE DE FILOSOFIA E CIÊNCIAS
           DE MARÍLIA



  Visualização de
      Dados
Aluno: Msc. Lisandro Rogério Modesto
Disciplina: Aspectos Tecnológicos do Acesso a Dados
Abertos
Professor: Dr. Ricardo César Gonçalves Santana
Assuntos
• Capítulo 9:
  – Aquisição de Dados.


• Capítulo 10:
  – Análise / Tratamento de Dados.
Aquisição de Dados
• Primeiro passo para visualização de dados: colocá-
  los à sua disposição e na sua aplicação.

• Fontes típicas de dados:
   – Arquivo em um disco;
   – Um fluxo de uma rede;
   – Um sinal digitalizado (leituras, por exemplo,
     áudio, vídeo ou sensor);
   – Resultado: CONFUSÃO !!!
Aquisição de Dados
• Perguntas interessantes:
  – Como processar semanas de vídeo de
    vigilância?
  – Como adquirir dados de uma reunião de uma
    hora de duração, que envolveu uma discussão
    verbal, desenhos em um quadro branco e
    anotações feitas pelos participantes ?
Dificuldades para a Aquisição de Dados
• Encontrar uma fonte de dados segura, boa e
  confiável ou gerar seus próprios dados.
• Obter os direitos de utilização dos dados.
• Criar meios alternativos para extração de dados de
  uma página web ou de outra fonte que não foi
  criada para esse fim.
• Utilizar dados que estão em constantes mutações
  ou grande volume de dados.
• Solução: utilização de linguagens de programação
  e algorítmos para higienização dos dados para
  futuro processamento.
Como encontrar Dados
• Utilizar uma boa ferramenta e um bom motor de
  busca.
• Especificação correta dos termos para a busca.
• Exemplo 1: "download 5ª sinfonia de Betoven" .
   – Correto: Download 5ª Sinfonia de Beethoven
• Exemplo 2: "as estatísticas da fome do mundo
  download“.
• Exemplo 3: "estatísticas mundiais xls fome“.
• Para que os dados possam ser utilizados, o
  produtor    deve    disponibilizar   em    formatos
  acessíveis.
Ética na Aquisição de dados
• Na busca de dados é importante saber o terreno
  em que se pisa, pois pode se sofrer penas leves ou
  até mesmo prisão.

• Situação de risco: Baixar muitas imagens Google
  Maps por vários dias resulta em IP banido ou
  restrito.
Ética na Aquisição de dados
Ética na Aquisição de dados
Ética na Aquisição de dados
Ferramentas para Aquisição de dados na
               Internet
• Métodos:
  – loadStrings ();
  – loadBytes ();
  – loadImage ().
  – Protocolos: http, https, FTP, etc.

• Manipulação direta de links:
  – Salvar Destino Como: Internet Explorer;
  – Salvar link como: Firefox ou Chrome;
  – Salvar como: Safari.
Formas de Manipulação Direta
• Wget e Curl:
  – http://www.oreilly.com/catalog/covers/978059651
    5935_cat.gif

• WebCopier

• Extrator de E-mail
Manipulação de Formulários WEB
• Consultas de dados usando formulários WEB.
• Problema: em alguns casos não é permitida busca
  diretamente no código.
• Exemplos:
   – http://www.olympic.org/uk/athletes/
   – http://www.cipedya.com/web/FileDownload.aspx
     ?IDFile=155453
   – http://support.acer-euro.com/drivers/
   – http://support.acer-euro.com/drivers/ftp/ftp.html
Manipulação de Banco de Dados
• Banco de dados (ou base de dados), é um
  conjunto de registros dispostos em estrutura
  regular que possibilita a reorganização dos
  mesmos e produção de informação. Um banco de
  dados normalmente agrupa registros utilizáveis
  para um mesmo fim. (Wikipedia)
• Situação: uma tabela de “endereços” contendo
  colunas para primeiro e último nome, rua, cidade,
  estado e CEP.
• Exemplos:
  – SELECT * FROM enderecos WHERE PrimeiroNome=‘Ricardo';
Análise / Tratamento de Dados
• A análise de dados converte um fluxo de dados
  bruto em uma estrutura que pode ser manipulado
  pelo software / máquina.
• A Visualização de dados está intimamente ligada à
  Aquisição de Dados e Análise de Dados.
• Problema: Aquisição de determinada massa de
  dados em uma fonte que não está sob controle.
  Após obtidos os dados gasta-se muito tempo
  tentando descobrir como usar os dados que foram
  adquiridos.
Cenários para Análise de Dados
• Análise simples: dados estáveis / sem mutação.
   – Procura de "caminho" de dados.
• Análise de Base: utilizado para códigos não muito
  grandes, por isso pode ser implementado através
  da WEB.
• Análise completa da API (Interface de
  Programação de Aplicações): análise completa
  envolvendo o desenvolvimento de aplicações
  capazes de “LER” todo o código a ser analisado.
Ferramentas para Obtenção de Dados
• Windows:
  – UltraEdit;
  – TextPad;
  – HexEdit;
  – HexWorkshop.

• Mac OS X:
  – TextWrangler;
  – HexFiend.
Formato de Dados
• Texto (ideal);

• Separação por tabulação (TSV);

• Separação por vírgulas (CSV);

• Estrutura linhas X colunas (BD / Excel);

• Linguagens de Marcação de Texto (HTML, XML,
  etc).
Formato de Dados
• Formatos:
   – XML;
   – XLS;
   – DOC;
   – HTML;
   – DOC;
   – TXT;
   – HTML;
   – Etc.
Aplicações para Análise de Dados
Aplicações para Análise de Dados
Aplicações para Análise de Dados
Localização de Padrões

VWXYZVWAEHVWXSDVWXYBVWRSAVWETU

      Existe algum padrão ???


            Substitua:

            V   Pão

            W    Leite
Aplicações para Análise de Dados
Referências
•   CAPLAN, Priscilla. Metadata fundamentals for all librarians. Chicago:
    American Library Association, 2003.
•   FÁVERO, Luiz Paulo; BELFIORE, Patrícia; SILVA, Fabiana Lopes da;
    CHAN, Betty Lilian. Análise de Dados: Modelagem Multivalorada para
    Tomada de Decisões. Campus: São Paulo, SP. 2009.
•   FRY, Ben. Visualizing Data: exploring and explaining data with the
    processing       environment.       O'Reilly:   Sebastopol,     CA.     2007.
    <Visualizing_Data.pdf>
•   GARFINKEL, Simson. Database Nation: the death of privacy in the 21st
    century. O'Reilly: Sebastopol, CA. 2001. ,<Database_Nation.pdf>
•   HAYNES, David. Metadata for information management and retrieval.
    London: Facet Publishing, 2004.
•   ILIINSKY, Noah. On Beauty. Cap. 1. In STEELE, Julie; ILIINSK Noah.
    Beautiful Visualization: looking at data through the eyes of experts. O'Reilly:
    Sebastopol, CA. 2010. <Beautiful_Visualization.pdf>
•   MINSKY, M. A framework to represent knowledge. In: In The Psychology
    of Computer Vision, 1975. Anais. McGraw-Hill, 1975. p.211.277.

Visualização de dados

  • 1.
    UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” FACULDADE DE FILOSOFIA E CIÊNCIAS DE MARÍLIA Visualização de Dados Aluno: Msc. Lisandro Rogério Modesto Disciplina: Aspectos Tecnológicos do Acesso a Dados Abertos Professor: Dr. Ricardo César Gonçalves Santana
  • 2.
    Assuntos • Capítulo 9: – Aquisição de Dados. • Capítulo 10: – Análise / Tratamento de Dados.
  • 3.
    Aquisição de Dados •Primeiro passo para visualização de dados: colocá- los à sua disposição e na sua aplicação. • Fontes típicas de dados: – Arquivo em um disco; – Um fluxo de uma rede; – Um sinal digitalizado (leituras, por exemplo, áudio, vídeo ou sensor); – Resultado: CONFUSÃO !!!
  • 4.
    Aquisição de Dados •Perguntas interessantes: – Como processar semanas de vídeo de vigilância? – Como adquirir dados de uma reunião de uma hora de duração, que envolveu uma discussão verbal, desenhos em um quadro branco e anotações feitas pelos participantes ?
  • 5.
    Dificuldades para aAquisição de Dados • Encontrar uma fonte de dados segura, boa e confiável ou gerar seus próprios dados. • Obter os direitos de utilização dos dados. • Criar meios alternativos para extração de dados de uma página web ou de outra fonte que não foi criada para esse fim. • Utilizar dados que estão em constantes mutações ou grande volume de dados. • Solução: utilização de linguagens de programação e algorítmos para higienização dos dados para futuro processamento.
  • 6.
    Como encontrar Dados •Utilizar uma boa ferramenta e um bom motor de busca. • Especificação correta dos termos para a busca. • Exemplo 1: "download 5ª sinfonia de Betoven" . – Correto: Download 5ª Sinfonia de Beethoven • Exemplo 2: "as estatísticas da fome do mundo download“. • Exemplo 3: "estatísticas mundiais xls fome“. • Para que os dados possam ser utilizados, o produtor deve disponibilizar em formatos acessíveis.
  • 7.
    Ética na Aquisiçãode dados • Na busca de dados é importante saber o terreno em que se pisa, pois pode se sofrer penas leves ou até mesmo prisão. • Situação de risco: Baixar muitas imagens Google Maps por vários dias resulta em IP banido ou restrito.
  • 8.
  • 9.
  • 10.
  • 11.
    Ferramentas para Aquisiçãode dados na Internet • Métodos: – loadStrings (); – loadBytes (); – loadImage (). – Protocolos: http, https, FTP, etc. • Manipulação direta de links: – Salvar Destino Como: Internet Explorer; – Salvar link como: Firefox ou Chrome; – Salvar como: Safari.
  • 12.
    Formas de ManipulaçãoDireta • Wget e Curl: – http://www.oreilly.com/catalog/covers/978059651 5935_cat.gif • WebCopier • Extrator de E-mail
  • 13.
    Manipulação de FormuláriosWEB • Consultas de dados usando formulários WEB. • Problema: em alguns casos não é permitida busca diretamente no código. • Exemplos: – http://www.olympic.org/uk/athletes/ – http://www.cipedya.com/web/FileDownload.aspx ?IDFile=155453 – http://support.acer-euro.com/drivers/ – http://support.acer-euro.com/drivers/ftp/ftp.html
  • 14.
    Manipulação de Bancode Dados • Banco de dados (ou base de dados), é um conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação. Um banco de dados normalmente agrupa registros utilizáveis para um mesmo fim. (Wikipedia) • Situação: uma tabela de “endereços” contendo colunas para primeiro e último nome, rua, cidade, estado e CEP. • Exemplos: – SELECT * FROM enderecos WHERE PrimeiroNome=‘Ricardo';
  • 15.
    Análise / Tratamentode Dados • A análise de dados converte um fluxo de dados bruto em uma estrutura que pode ser manipulado pelo software / máquina. • A Visualização de dados está intimamente ligada à Aquisição de Dados e Análise de Dados. • Problema: Aquisição de determinada massa de dados em uma fonte que não está sob controle. Após obtidos os dados gasta-se muito tempo tentando descobrir como usar os dados que foram adquiridos.
  • 16.
    Cenários para Análisede Dados • Análise simples: dados estáveis / sem mutação. – Procura de "caminho" de dados. • Análise de Base: utilizado para códigos não muito grandes, por isso pode ser implementado através da WEB. • Análise completa da API (Interface de Programação de Aplicações): análise completa envolvendo o desenvolvimento de aplicações capazes de “LER” todo o código a ser analisado.
  • 17.
    Ferramentas para Obtençãode Dados • Windows: – UltraEdit; – TextPad; – HexEdit; – HexWorkshop. • Mac OS X: – TextWrangler; – HexFiend.
  • 18.
    Formato de Dados •Texto (ideal); • Separação por tabulação (TSV); • Separação por vírgulas (CSV); • Estrutura linhas X colunas (BD / Excel); • Linguagens de Marcação de Texto (HTML, XML, etc).
  • 19.
    Formato de Dados •Formatos: – XML; – XLS; – DOC; – HTML; – DOC; – TXT; – HTML; – Etc.
  • 20.
  • 21.
  • 22.
  • 23.
    Localização de Padrões VWXYZVWAEHVWXSDVWXYBVWRSAVWETU Existe algum padrão ??? Substitua: V Pão W Leite
  • 24.
  • 25.
    Referências • CAPLAN, Priscilla. Metadata fundamentals for all librarians. Chicago: American Library Association, 2003. • FÁVERO, Luiz Paulo; BELFIORE, Patrícia; SILVA, Fabiana Lopes da; CHAN, Betty Lilian. Análise de Dados: Modelagem Multivalorada para Tomada de Decisões. Campus: São Paulo, SP. 2009. • FRY, Ben. Visualizing Data: exploring and explaining data with the processing environment. O'Reilly: Sebastopol, CA. 2007. <Visualizing_Data.pdf> • GARFINKEL, Simson. Database Nation: the death of privacy in the 21st century. O'Reilly: Sebastopol, CA. 2001. ,<Database_Nation.pdf> • HAYNES, David. Metadata for information management and retrieval. London: Facet Publishing, 2004. • ILIINSKY, Noah. On Beauty. Cap. 1. In STEELE, Julie; ILIINSK Noah. Beautiful Visualization: looking at data through the eyes of experts. O'Reilly: Sebastopol, CA. 2010. <Beautiful_Visualization.pdf> • MINSKY, M. A framework to represent knowledge. In: In The Psychology of Computer Vision, 1975. Anais. McGraw-Hill, 1975. p.211.277.