Big Data Analytics
Guilherme Garcia <guilesgarcia@gmail.com>,
Luiz Guilherme <guilherme@hinkelmann.com.br>
1
Sumário.
1. Introdução
a. O que é big data?
b. O que é Big Data Analytics?
2. Processos de análise de dados
a. Coleta de dados
b. Preparação
c. Descoberta
d. Visualização
3. Principais Ferramentas
a. Panda
b. R
4. Plataformas
5. Conclusão
2
Big data
Conjunto de tecnologias para captura, armazenamento e análise de grandes
volumes de dados.
São ativos de informação de extremo volume, alta velocidade e grande
diversidade que demandam formas inovadoras e econômicas de
processamento para melhores tomadas de decisão e insights.
3
Defining Big Data Via the Three Vs
Fonte: (RUSSOM, 2011)
4
Defining Big Data Via the Three Vs
Volume: temos a imensidão de dados gerados pelos sistemas transacionais,
objetos na Internet das Coisas, como sensores e câmeras, e os gerados nas
mídias sociais via PCs, smartphones e tablets.
Variedade: dados textuais estruturados como não estruturados como fotos,
vídeos, e-mails e tweets.
Velocidade: muitas vezes precisamos responder aos eventos quase que em
tempo real, ou seja, estamos falando de criação e tratamento de dados em
volumes massivos.
5
Aumento de dados
O uso de dados aumentou na última década, já que o mundo entrou em uma
era digital.
O mercado em expansão de telefones celulares e dispositivos inteligentes
com capacidade de comunicação digital aumentou significativamente o uso
de dados
Necessidade de poderosas ferramentas de análise para analisar os dados de
forma significativa
(PEISKER, DALAI, 2015)
6
Big data analytics
Big data analytics de refere-se a ferramentas e metodologias que visam
transformar quantidades maciças de dados brutos em "dados sobre os
dados" - para fins analíticos. (PEISKER, DALAI, 2015)
Big data analytics é onde as técnicas avançadas de análise operam em
grandes dados. (RUSSOM, 2011)
7
Análise de dados
● Extrair conhecimento e informações úteis de dados para tomar melhores
decisões.
8
9
10
Fonte: (Corea, 2016)
Fluxo
Processos de análise de dados
1. Coleta de dados
2. Preparação
3. Descoberta
4. Visualização
11
Coleta de dados
● APIs
● Apps
● Arquivos
● Crawlers
● Sistema de arquivos
12
13
14
● Compreensão do conjuntos de dados
● Verificação de possíveis problemas com os dados
● Formatação de dados
● Mesclagem
O que é feito após a coleta?
15
Preparação
Os dados são preparados para análise
Ferramentas:
Pandas
Numpy
16
Descoberta
● Aprendizado de máquina
● Grafos
Ferramentas:
● Scikit
● NetworkX
17
Scikit
18
NetworkX
19
Visualização
Os dados precisam ser apresentáveis e entendíveis
Ferramentas:
● D3js
● Matplotlib
20
D3js
21
Matploitlib
22
Principais Ferramentas -
● Pandas (python)
● R
23
Pandas
Pandas é uma biblioteca escrita em Python para análise de dados, similar a
linguagem R, Matlab, SAS.
24
Exemplo de Pandas
25
Linguagem R
Software livre para manipulação de informações, elaboração de cálculos e
desenho de gráficos.
Surgiu como alternativa livre a linguagem S
Criada em 1993 por Ross Ihaka e Robert Gentleman
26
Exemplo R
27
Exemplo R
28
Plataformas
● Apache Haddop
● Spark
29
30
31
32
Fonte: (Corea, 2016)
33Fonte: (Corea, 2016)
Fontes
PEISKER, Anu; DALAI, Soumya. Data analytics for rural development. Indian Journal of Science and Technology, v. 8,
n. S4, p. 50-60, 2015.
PYNE, Saumyadipta; RAO, BLS Prakasa; RAO, S. B. Big Data Analytics: Views from Statistical and
Computational Perspectives. In: Big Data Analytics. Springer India, 2016.
COREA, Francesco. Big Data Analytics: A Management Perspective. Springer, 2016.
RUSSOM, Philip et al. Big data analytics. TDWI best practices report, fourth quarter, v. 19, p. 40, 2011.
https://www.dataquest.io/blog/python-vs-r/
34

Big Data Analytics

  • 1.
    Big Data Analytics GuilhermeGarcia <guilesgarcia@gmail.com>, Luiz Guilherme <guilherme@hinkelmann.com.br> 1
  • 2.
    Sumário. 1. Introdução a. Oque é big data? b. O que é Big Data Analytics? 2. Processos de análise de dados a. Coleta de dados b. Preparação c. Descoberta d. Visualização 3. Principais Ferramentas a. Panda b. R 4. Plataformas 5. Conclusão 2
  • 3.
    Big data Conjunto detecnologias para captura, armazenamento e análise de grandes volumes de dados. São ativos de informação de extremo volume, alta velocidade e grande diversidade que demandam formas inovadoras e econômicas de processamento para melhores tomadas de decisão e insights. 3
  • 4.
    Defining Big DataVia the Three Vs Fonte: (RUSSOM, 2011) 4
  • 5.
    Defining Big DataVia the Three Vs Volume: temos a imensidão de dados gerados pelos sistemas transacionais, objetos na Internet das Coisas, como sensores e câmeras, e os gerados nas mídias sociais via PCs, smartphones e tablets. Variedade: dados textuais estruturados como não estruturados como fotos, vídeos, e-mails e tweets. Velocidade: muitas vezes precisamos responder aos eventos quase que em tempo real, ou seja, estamos falando de criação e tratamento de dados em volumes massivos. 5
  • 6.
    Aumento de dados Ouso de dados aumentou na última década, já que o mundo entrou em uma era digital. O mercado em expansão de telefones celulares e dispositivos inteligentes com capacidade de comunicação digital aumentou significativamente o uso de dados Necessidade de poderosas ferramentas de análise para analisar os dados de forma significativa (PEISKER, DALAI, 2015) 6
  • 7.
    Big data analytics Bigdata analytics de refere-se a ferramentas e metodologias que visam transformar quantidades maciças de dados brutos em "dados sobre os dados" - para fins analíticos. (PEISKER, DALAI, 2015) Big data analytics é onde as técnicas avançadas de análise operam em grandes dados. (RUSSOM, 2011) 7
  • 8.
    Análise de dados ●Extrair conhecimento e informações úteis de dados para tomar melhores decisões. 8
  • 9.
  • 10.
  • 11.
    Processos de análisede dados 1. Coleta de dados 2. Preparação 3. Descoberta 4. Visualização 11
  • 12.
    Coleta de dados ●APIs ● Apps ● Arquivos ● Crawlers ● Sistema de arquivos 12
  • 13.
  • 14.
  • 15.
    ● Compreensão doconjuntos de dados ● Verificação de possíveis problemas com os dados ● Formatação de dados ● Mesclagem O que é feito após a coleta? 15
  • 16.
    Preparação Os dados sãopreparados para análise Ferramentas: Pandas Numpy 16
  • 17.
    Descoberta ● Aprendizado demáquina ● Grafos Ferramentas: ● Scikit ● NetworkX 17
  • 18.
  • 19.
  • 20.
    Visualização Os dados precisamser apresentáveis e entendíveis Ferramentas: ● D3js ● Matplotlib 20
  • 21.
  • 22.
  • 23.
    Principais Ferramentas - ●Pandas (python) ● R 23
  • 24.
    Pandas Pandas é umabiblioteca escrita em Python para análise de dados, similar a linguagem R, Matlab, SAS. 24
  • 25.
  • 26.
    Linguagem R Software livrepara manipulação de informações, elaboração de cálculos e desenho de gráficos. Surgiu como alternativa livre a linguagem S Criada em 1993 por Ross Ihaka e Robert Gentleman 26
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
    Fontes PEISKER, Anu; DALAI,Soumya. Data analytics for rural development. Indian Journal of Science and Technology, v. 8, n. S4, p. 50-60, 2015. PYNE, Saumyadipta; RAO, BLS Prakasa; RAO, S. B. Big Data Analytics: Views from Statistical and Computational Perspectives. In: Big Data Analytics. Springer India, 2016. COREA, Francesco. Big Data Analytics: A Management Perspective. Springer, 2016. RUSSOM, Philip et al. Big data analytics. TDWI best practices report, fourth quarter, v. 19, p. 40, 2011. https://www.dataquest.io/blog/python-vs-r/ 34