SlideShare uma empresa Scribd logo
1 de 105
VISÃO GERAL
SOBRE BIG DATA
PORQUE NÃO É MODA E VALE A PENA BUSCAR
MAIS INFORMAÇÃO SOBRE O ASSUNTO
WORKSHOP
BIOGRAFIA RÁPIDA
VISÃO GERAL SOBRE BIG DATA
CONTEÚDO
• O que é? Como surgiu? Como tem sido útil?
• Os “Vs” do Big Data
• Quem está usando?
• A Matemática: estatística, otimização, Analytics
• Ferramentas de Desenvolvimento
• Visualização de Dados
• Os Bancos de Dados No-SQL
• Nuvem: XaaS
• Processamento Paralelo
• Ecossistema: Hadoop?
• As vagas no mercado e os unicórnios
• E o que mais? Por onde começar?
O QUE É?
TERMO GENÉRICO PARA SE REFERIR A
CONJUNTOS DE DADOS TÃO GRANDES OU
COMPLEXOS QUE SE TORNAM DIFÍCEIS DE
TRABALHAR USANDO FERRAMENTAS CONVENCIONAIS.
https://www.slideshare.net/GWOcon/big-data-analytics-with-r (slide 6)
COMO SURGIU?
• INFORMATIZAÇÃO CRESCENTE
• DISPOSITIVOS PORTÁTEIS
• BARATEAMENTO DO HARDWARE
• POPULARIZAÇÃO DA INTERNET
• CRESCIMENTO DA ECONOMIA DIGITAL
• DISPOSITIVOS “CONECTADOS”
• SOFTWARE OPEN SOURCE
http://www.dailyinfographic.com/what-happens-internet-in-60-seconds
https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#10e2776a65a1
COMO SURGIU? – TIMELINE
COMO SURGIU? – TIMELINE ENXUTA
COMO TEM SIDO ÚTIL?
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
COMO TEM SIDO ÚTIL?
DADOS PODEM SER UM ATIVO ESTRATÉGICO
PODEROSO SE AJUDAREM UMA EMPRESA A
ATINGIR A SUA VISÃO DE NEGÓCIO
COMO TEM SIDO ÚTIL?
AO LIDAR COM GRANDES QUANTIDADES DE DADOS...
• GENOMA / BIOMEDICINA, SAÚDE PERSONALIZADA
• GEOINFORMÁTICA, IMAGENS DE SATÉLITE
• INTERPRETAÇÃO DE IMAGENS / RECONHECIMENTO DE PADRÕES
• MELHOR ROTA NUM TRAJETO (NAQUELE MOMENTO)
• SMART CITIES, IOT (INTERNET DAS COISAS)
• DETECÇÃO DE FRAUDES ONLINE
• PERFORMANCE DE JOGADORES NUMA EQUIPE
COMO TEM SIDO ÚTIL?
EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE
But enterprise software played a part,
too, in the form of big data analytics.
In October 2013, the German Football
Association (DFB) and SAP began
collaborating to develop a “Match
Insights” software system for the German
national team to use in preparation for
and during the tournament. SAP
delivered a prototype in March 2014
and Joachim Low’s management team
has been using the software ever since.
http://www.computerweekly.com/news/2240224421/SAP-helps-Germany-lift-the-World-Cup
COMO TEM SIDO ÚTIL?
EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE
https://www.paypal.com/stories/br/como-o-big-data-e-a-analise-de-dados-mudaram-os-esportes
MBA BIG Data FIAP, Governança de Dados, slide 6 - Prof Marcelo Oliveira
OS “V”S DO BIG DATA
Guy Fawkes
https://pt.wikipedia.org/wiki/V_for_Vendetta; https://cinefreak.com.br/v-de-vinganca-pode-virar-serie-de-tv/
OS S DO BIG DATA
SÃO 3… AO MENOS PENSANDO NO QUE TODOS CONCORDAM…
RELACIONADOS ÀS NECESSIDADES DE CAPTURAR, PROCESSAR E RESPONDER AO
QUE OS DADOS MOSTRAM
TUDO SE RESUME AO QUE É PRECISO PARA FAZER
BIG DATA MINING (NÃO É IGUAL A DATA MINING)
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
ELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
https://blogs.sap.com/2017/09/21/speed-security-and-trust-for-your-big-data/
OS S DO BIG DATA
https://blogs.sap.com/2017/09/21/speed-security-and-trust-for-your-big-data/
SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
OS S DO BIG DATA
MBA BIG Data FIAP, Governança de Dados, slide 7 - Prof Marcelo Oliveira
QUEM ESTÁ USANDO…
QUEM ESTÁ USANDO…
JOÃO DORIA (HTTP://WWW.BBC.COM/PORTUGUESE/BRASIL-41406420)
CIELO (HTTPS://CIELO.RIWEB.COM.BR/#)
OPERAÇÃO LAVA-JATO (HTTP://COMPUTERWORLD.COM.BR/POLICIA-FEDERAL-USA-TECNICA-FORENSE-PARA-INVESTIGAR-ENVOLVIDOS-NA-LAVA-JATO)
GLOBO.COM (HTTPS://REDEGLOBO.GLOBO.COM/NOVIDADES/NOTICIA/PROJETO-EM-BIG-DATA-DA-GLOBO-E-PREMIADO-NO-IBC.GHTML)
SELEÇÃO ALEMÃ DE FUTEBOL (HTTPS://EXAME.ABRIL.COM.BR/TECNOLOGIA/SOLUCAO-DE-BIG-DATA-E-UM-DOS-SEGREDOS-DA-ALEMANHA-NA-COPA-2/ )
AGRONEGÓCIO BRASILEIRO (HTTP://SNA.AGR.BR/USO-DE-BIG-DATA-NO-AGRONEGOCIO-DEVERA-CRESCER-NOS-PROXIMOS-ANOS/)
QUEM ESTÁ USANDO…
https://www.bigdatacorp.info/single-post/Os-Dados-e-o-Agronegocio
https://www.infoq.com/presentations/nubank-financial-systems
https://www.cielo.com.br/venda-mais/cielofarol/, https://cielo.riweb.com.br/
http://www.bbc.com/portuguese/brasil-41406420
A MATEMÁTICA
https://atitudereflexiva.wordpress.com/2018/01/01/tributumulus-prandiano/#comment-1656
https://www.providr.com/everybody-hates-chris-then-and-now
https://www.biography.com/news/home-alone-25th-anniversary-facts
Prof Aguinaldo Prandini Ricieri
A MATEMÁTICA
http://www.history.com/topics/womens-history/florence-nightingale
https://www.youtube.com/watch?v=sYZnzt0CJtE
https://www.obaricentrodamente.com/2014/06/florence-nightingale-e-os-graficos_7.html
SEC XIX FOI DA SAÚDE: Florence Nightingale (1820 - 1910)
LEMBRADA PELA ENFERMAGEM
E ESTATÍSTICA COM
USO DE GRÁFICOS!
A MATEMÁTICA
ESTATÍSTICA, MUITA ESTATÍSTICA…
E MATEMÁTICA AVANÇADA…
http://bd2017.spm-pt.org/
https://www.prandiano.com.br/copy-of-big-data
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Teoria dos Suportes, Dendogramação Big Data, Função Sigmóide e AnovA,
Autovalores e Autovetores, Análise Multivariada, Support Vector Machine,
Discriminante de Fisher, Discriminante de Hellinger, KmeansS de MacQuenn, Elbow
Data Chart, Algoritmo Big Data Fuzzy, Pesquisa Operacional
A MATEMÁTICA
http://bd2017.spm-pt.org/
https://www.prandiano.com.br/copy-of-big-data
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
ESTATÍSTICA PARA QUÊ?
ANALYTICS!!!
A MATEMÁTICA
https://www.thefreedictionary.com/analytics
https://www.slideshare.net/GWOcon/big-data-analytics-with-r/6 (slide 9)
ANALYTICS: RAMO DA LÓGICA QUE TRATA DA ANÁLISE DE INFORMAÇÃO
É A COMBINAÇÃO DE TÉCNICAS DE MATEMÁTICA,
ESTATÍSTICA E HEURÍSTICA PARA ENTENDER ALGO
A PARTIR DOS DADOS (E OBTER INSIGHTS ETC)
A MATEMÁTICA
http://www.dailymail.co.uk/sciencetech/article-3441166/Has-robot-taken-job-New-figures-reveal-America-record-breaking-260-000-robots-working-factories.html
OTIMIZAÇÃO E ORDENAÇÃO DE DADOS
O TRABALHO ÁRDUO DO COMPUTADOR…
A MATEMÁTICA
PROBLEMAS DE OTIMIZAÇÃO SÃO DE COMPLEXIDADE EXPONENCIAL
O = 2N (SE 2 POSSIBILIDADES PARA CADA N, COMO “TEM” OU NÃO “TEM”)
A PROBABILIDADE E A ESTATÍSTICA VÃO TE AJUDAR A ENTENDER A
COMPLEXIDADE DOS DADOS, VER COMO ELES SE COMPORTAM E, ASSIM, ACHAR
PADRÕES NELES…
MITx: 6.00.2x Introduction to Computational Thinking and Data Science
https://courses.edx.org/courses/course-v1:MITx+6.00.2x+3T2017/course/
A MATEMÁTICA
NOÇÕES QUE VÃO TE AJUDAR NA ANÁLISE DE DADOS
• MÉDIA, MODA, MEDIANA, CURVA NORMAL, DESVIO PADRÃO E OUTLIER
• REGRESSÃO LINEAR
• CLUSTERIZAÇÃO E K-MEANS
A MATEMÁTICA
Média (mean)
Moda (mode)
Mediana (median)
Probabilidade
80% Intervalo de
confiança
Desvio padrão: dispersão em
relação à média
Outlier: pontos extremos…
Quem “estraga” a média.
MedidasdeResumo
A MATEMÁTICA
A ESTATÍSTICA VAI TE AJUDAR A ENCONTRAR PADRÕES “OCULTOS” E A LIDAR
COM A ALEATORIEDADE, AS INCERTEZAS E COM GERAÇÃO DE AMOSTRAS DE
DADOS.
PROBLEMA DO MUNDO REAL
NÃO CONSEGUIMOS PREVER ALGUMAS SITUAÇÕES POR PURA FALTA DE
INFORMAÇÃO SOBRE ELAS OU SUAS CAUSAS. ENFIM, DEVEMOS TRATÁ-LAS
COMO ALEATÓRIAS. A ISSO SE CHAMA DE PROCESSO ESTOCÁSTICO.
O OLHAR DO ESTATÍSTICO
OLHANDO OS DADOS COMO UM ESTATÍSTICO… VAMOS USAR O SAS, POR EXEMPLO.
LÁ VOCÊ NÃO TEM UMA TABELA, TEM UM DATA SET (CONJUNTO DE DADOS).
O QUE ERA UMA LINHA DA TABELA, AGORA, TORNA-SE UMA OBSERVAÇÃO.
E EM UMA TABELA VOCÊ NÃO TEM COLUNAS, MAS VARIÁVEIS.
O OLHAR DO ESTATÍSTICO
…VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6
OBS 1 VAR 1 OBS 1 VAR 2 OBS 1 VAR 3 OBS 1 VAR 4 OBS 1 VAR 5 OBS 1 VAR 6
OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6
OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6
OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6
OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6
OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6
Universo(100%dados)
O OLHAR DO ESTATÍSTICO
…Código Nome Moeda Saldo Data Saldo Gênero
1 Marco Guimarães AOA 1000,25 2018/02/15 Masculino
OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6
OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6
OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6
OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6
OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6
Universo(100%dados)
A MATEMÁTICA
VARIÁVEIS QUALITATIVAS (TEXTO)
E QUANTITATIVAS (NÚMEROS)
ASSOCIAÇÃO: VARIÁVEIS QUALITATIVAS
CORRELAÇÃO: VARIÁVEIS QUANTITATIVAS
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
ESTATÍSTICA E ANALYTICS
• REGRESSÃO LINEAR: MONEYBALL, PREVISÃO DE QUALIDADE DE VINHOS. UTILIZAR
UM MODELO PARA FAZER PREVISÕES A PARTIR DE TENDÊNCIAS.
• REGRESSÃO LOGÍSITICA: MEDICINA. PROBLEMAS DE CLASSIFICAÇÃO DE
INFORMAÇÃO. PROBABILIDADE DE ALGO ACONTECER. USA CONHECIMENTO
ESPECIALIZADO PARA JULGAR UMA SITUAÇÃO EM LARGA ESCALA.
• CART (ÁRVORES DE CLASSIFICAÇÃO E REGRESSÃO): PREVER DECISÕES JUDICIAIS.
MÉTODO AUXILIAR: RANDOM FORESTS: PODE SER MELHOR DO QUE ESPECIALISTAS
NAS PREVISÕES...
• CLUSTERIZAÇÃO E K-MEANS: NETFLIX (RECOMENDAÇÃO DE FILMES). RECONHECER
SEMELHANÇAS E PADRÕES NOS DADOS.
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
O DESENVOLVIMENTO
O DESENVOLVIMENTO
PYTHON (NUMPY, PANDAS… JUPYTER NOTEBOOKS)
R / RSTUDIO (COMPRADA PELA MICROSOFT)
JAVA (HDFS, HBASE, HADOP E QUASE TUDO FEITO EM JAVA)
SCALA (MAIS PERFORMANCE QUE PYTHON E USA A MESMA VM DO JAVA)
UNIX / LINUX – VMS CLOUDERA E HORTON WORKS… UBUNTU E CENTOS
https://www.rstudio.com/products/rstudio/download/#download
https://www.python.org/
https://www.scala-lang.org/download/
PYTHON
JUPYTER NOTEBOOKS << RODAR CÓDIGO EM QUALQUER LUGAR
GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS)
NUMPY E PANDAS (INGESTÃO E ANÁLISE DE DADOS)
MATPLOTLIB (VISUALIZAÇÃO)
SCIKIT-LEARN (MODELOS E MACHINE LEARNING)
BEAUTIFULSOUP (LER XML E HTML DE MANEIRA FÁCIL)
https://youtu.be/rS0GJMSSHKY
R
GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS)
CRAN: REPOSITÓRIO DE BIBLIOTECAS
CRIADA PARA ESTATÍSTICOS
FRAMEWORK PARA DESENVOLVIMENTO WEB (!)
....
VISUALIZAÇÃO DE DADOS
90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL.
NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS
RÁPIDO DO QUE UM TEXTO.
VISUALIZAÇÃO DE DADOS
90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL.
NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS
RÁPIDO DO QUE UM TEXTO.
VISUALIZAÇÃO DE DADOS
VISUALIZAÇÃO DE DADOS
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
BANCO DE DADOS
https://db-engines.com/en/ranking
BANCO DE DADOS “NO SQL”
>>>>> NOT ONLY SQL
CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003)
COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011)
GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998)
DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011)
MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
Nomes sublinhados foram construídos em Java + Nome com * suporta mais tipos de modelos No SQL
Fonte: https://db-engines.com/
>>>>> NOT ONLY SQL
CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003)
COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011)
GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998)
DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011)
MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
NO SQL MAIS POP: MONGO
OPEN SOURCE
PROJETO INICIADO EM 2009
NÃO SUPORTA SQL, UTILIZA JSON EM API PRÓPRIA
SUPORTADO POR VÁRIAS LINGUAGENS: JAVA, C#, DELPHI, GO (GOOGLE), PHP, PYTHON,
MATLAB, R, RUBY, SCALA ETC
UTILIZAÇÃO:
GERENCIAMENTO DE CONTEÚDO: FORBES E EBAY
PERSONALIZAÇÃO: EXPEDIA, EHARMONY, TELEFÔNICA
IOT (BOSCH), CATÁLOGOS (UNDER ARMOUR), REAL TIME ANALYTICS (BUZZFEED, CHICAGO)
https://db-engines.com/en/system/MongoDB
https://www.mongodb.com/
NUVEM
https://clutch.co/cloud
https://www.youtube.com/watch?time_continue=2&v=5kMDIBpxi_k
NUVEM
http://sortbenchmark.org/
https://www.wired.com/2015/11/alibaba-cloud-wins-worldwide-battle-of-the-machines/
NUVEM
“NUVEM” (CLOUD) É UM TERMO UTILIZADO HÁ DÉCADAS NA ÁREA DE
TELECOMUNICAÇÕES
CONJUNTO DE ATIVOS QUE COMPÕEM UMA INFRAESTRUTURA E VIABILIZA A
OPERAÇÃO TRANSPARENTE E ESCALÁVEL, PONTA-A-PONTA, DOS SISTEMAS DE
COMUNICAÇÃO, EM PARTICULAR TELEFONIA (TaaS).
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
ATRÁS DAS NUVENS
TUDO É DATA CENTER
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
MODELOS DE CLOUD
POSSIBILIDADES PARA ADOTAR A “NUVEM”
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
VIABILIDADE ECONÔMICA: CLOUD
DISTRIBUIÇÃO DOS CUSTOS DE INFRA
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
https://cloudharmony.com/status
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
TRATADOS INTERNACIONAIS
LEGISLAÇÃO VIGENTE NO PAÍS / LOCAL
ÓRGÃO REGULADORES
CÓDIGO DO CONSUMIDOR
BOAS PRÁTICAS DE MERCADO
GERENCIAR A NUVEM (E OS DADOS)
PROCESSAMENTO PARALELO
O PROCESSAMENTO MASSIVO PARALELO (MPP, SIGLA EM INGLÊS) DEPENDE DE
HARDWARE E SOFTWARE E TAMBEM TEM SUAS LIMITAÇÕES DE GANHO (LEIS DE
AMDAHL E GUSTAFSON).
FELIZMENTE A ARQUITETURA TEM EVOLUÍDO E TIRAR PROVEITO DESTA POSSIBILIDADE
DE PROCESSAMENTO TEM FICADO MAIS ACESSÍVEL.
O HADOOP É UM DOS FRAMEWORKS MAIS CONHECIDOS DE PROCESSAMENTO
PARALELO DA ATUALIDADE.
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PROCESSAMENTO PARALELO
NÍVEIS DE PARALELISMO (E GRANULARIDADE):
• INSTRUÇÃO (BAIXA)
PIPELINED, VERY LONG INSTRUCTION WORD (VLIW), SUPER ESCALARES
• THREAD (MÉDIA)
MULTITHREADING E SIMULTANEOUS MULTITHREADING
• PROCESSO (ALTA)
MULTIPROCESSADORES E MULTICOMPUTADORES
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PROCESSAMENTO PARALELO
4: UM CONJUNTO DE PROCESSADORES
EXECUTA AO MESMO TEMPO
SEQUENCIAS DIFERENTES DE INSTRUÇÕES
SOBRE CONJUNTOS DE DADOS
DIFERENTES.
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
1
2
3
4
4
CLUSTER VERSUS GRID
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
COLVERO; DANTAS; CUNHA, 2005.
CONFIGURAÇÃO CLUSTER GRID
Domínio Único Múltiplos
Nós Milhares Milhões
Segurança do processamento e
dos recursos
Desnecessária (único domínio) Necessária
Granularidade do problema Grande Muito Grande
Sistemas Operacionais Homogêneo Heterogêneo
Observações 1) Geograficamente distribuído
2) Recursos Heterogêneos
ESCALABILIDADE
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
NÍVEIS DE ESCALABILIDADE
• VERTICAL (SCALE UP)
DEIXAR O MESMO COMPUTADOR CADA VEZ MAIS POTENTE (+CARO)
• HORIZONTAL (SCALE OUT)
ADICIONAR MAIS MÁQUINAS PARA TRABALHAR EM PARALELO (+BARATO)
HADOOP E O NOVO PARADIGMA
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
2002: PROJETO NUTCH (DOUG CUTTING E CAFARELLA)
2003: GOOGLE PUBLICA GFS E MAP REDUCE
2004: DOUG CRIA NTFS E ADICIONA MAP REDUCE AO NUTCH
2006: YAHOO CONTRATA DOUG. HADOOP NASCE.
2007: NYT CONVERTE 4 TB DE IMAGENS EM MAIS DE 100 EC2S
2008: YAHOO ORDENA 1 TB DE DADOS EM 3,5 MIN, UTILIZANDO 910
NÓS
2009: DOUG SE JUNTA À CLOUDERA, PROJETO SPARK INICIA (BERKELEY)
2010: YAHOO INICIA PROJETO APACHE HADOOP (TORNA OPEN)
2011: APARECEM HORTON WORKS E MAP-R
2013: SPARK VAI PARA APACHE TAMBEM…
2014: INTEL INVESTE MAIS U$ 700 MILHÕES NA CLOUDERA
O ECOSSISTEMA HADOOP
HADOOP… DA AMAZON (ELASTIC MAP REDUCE)
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
O ECOSSISTEMA
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
BRIGA!!
FINAL DE
2014…
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
O ECOSSISTEMA
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
https://www.theregister.co.uk/2017/06/15/ibm_adopts_hortonworks_for_hadoop_distribution/
O ECOSSISTEMA
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) + IBM
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
https://www.sas.com/en_us/software/university-edition/download-software.html#windows
MAIS ALGUÉM?
https://www.sas.com/en_us/software/university-edition/download-software.html#windows
MAS VAMOS VOLTAR AO FOCO…
HADOOOP?
APACHE HADOOOP…
APACHE
https://www.infoworld.com/article/2607063/open-source-software/88714-15-high-impact-Apache-projects.html#slide2
APACHE
https://www.infoworld.com/article/2607063/open-source-software/88714-15-high-impact-Apache-projects.html#slide2
APACHE
https://www.infoworld.com/article/2607063/open-source-software/88714-15-high-impact-Apache-projects.html#slide2
APACHE HADOOP
Processamento Distribuído de GRANDES
volumes de DADOS através de CLUSTERS
via modelos de programação
HDFS: Hadoop Distributed File System (feito em Java)
Map Reduce: sistema baseado no YARN para processamento
Paralelo de grandes volumes de dados (large datasets)
YARN: yet another resource negotiator – tecnologia para
Gerenciamento de CLUSTER
APACHE HADOOP
https://opensource.com/life/14/8/intro-apache-hadoop-big-data
PROCESSAMENTO PARALELO
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PERFIL
https://whatsthebigdata.com/2015/10/17/how-to-become-a-unicorn-data-scientist-and-make-more-than-240000/
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
Data Analyst
Business Analyst
Statician
Data Engineer
Data Architect
Manager
“O cara”
ONDE ESTUDAR ONLINE
YOUTUBE: DIGITE BIG DATA E VEJA O QUE APARECE
EDX, COURSERA, ALURA (SITE DA CAELUM - SP)
HORTONWORKS, CLOUDERA, SAS, EMC…
HTTPS://WWW.KAGGLE.COM/
INFORMAÇÕES ADICIONAIS
EM PT-BR: SEMANTIX
KD-NUGGETS
EVENTOS NO BRASIL
BIGDATA WEEK: SP EM 2015, RJ EM 2016, SP EM 2017
(HTTP://BIGDATAWEEK.COM/CITIES)
MEETUPS EM SP (ÚLTIMO NA VIVO, MAIO/2017 – EMPRESAS INCUBADAS)
AFRICA E ANGOLA
HTTP://ANGOLA.OPENDATAFORAFRICA.ORG/
E DO MUNDO TODO…
HTTPS://DATA.WORLDBANK.ORG/
FONTES (CURSOS)
• Material MBA em Big Data FIAP, 2015-2016
• Edx – The Analytics Edge (MITx 15.071x – usa “R”)
• Edx – Introduction to Computational Thinking and Data Science (MITx 6.00.2)
• Edx – Introduction to Python for Data Science (Microsoft DAT 208x)
• Hortonworks – Online Tutorials
• Cloudera – Online Tutorials
• SAS University (online)
https://www.slideshare.net/renangpa/big-data-e-a-globocom-2017
https://db-engines.com/en/ranking
http://www.csc.ncsu.edu/faculty/healey/PP/
https://www.infoq.com/presentations/nubank-financial-systems
FONTES - TIMELINE
• https://docs.oracle.com/cd/B13789_01/server.101/b10759/intro001.htm;
• https://gcn.com/articles/2013/05/30/gcn30-timeline-big-data.aspx;
• https://www.biography.com/people/ada-lovelace-20825323;
• http://www.computerhistory.org/timeline/
• http://www.lnmb.nl/conferences/2018/programlnmbconference/Aarts.pdf;
• http://www.dataversity.net/a-short-history-of-data-warehousing/;
• https://www.slideshare.net/GWOcon/big-data-analytics-with-r;
• http://iml.jou.ufl.edu/projects/Fall02/Moody/history.html;
• https://thoughts.manthan.com/wp-content/uploads/2015/11/timeline-of-analytics.jpg
• https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/2/#7fe93f814343
• https://hadoop.apache.org/
• http://sortbenchmark.org
• https://www.wired.com/2015/11/alibaba-cloud-wins-worldwide-battle-of-the-machines/
https://www.virtualbox.org/ https://www.vmware.com/
https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html
https://www.virtualbox.org/wiki/Downloads
VAMOS ESTUDAR?
MUITO
OBRIGADO!
MARCO ANTONIO FILGUEIRAS GUIMARÃES, 17/02/2018
WORKSHOP

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Apostila sobre Big Data
Apostila sobre Big DataApostila sobre Big Data
Apostila sobre Big Data
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Trabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TITrabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TI
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
O que é Data Science?
O que é Data Science?O que é Data Science?
O que é Data Science?
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Big Data
Big DataBig Data
Big Data
 
Data science
Data scienceData science
Data science
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 

Semelhante a Workshop / Meetup: Visão geral sobre Big Data

Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacao
samuel1562314
 

Semelhante a Workshop / Meetup: Visão geral sobre Big Data (20)

Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismo
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
BigData
BigDataBigData
BigData
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Data Storytelling
Data StorytellingData Storytelling
Data Storytelling
 
Palestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoPalestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e Evolução
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacao
 
Estratégia de Mensuração para Produtos Digitais
Estratégia de Mensuração para Produtos DigitaisEstratégia de Mensuração para Produtos Digitais
Estratégia de Mensuração para Produtos Digitais
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
 

Último

Último (9)

Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 

Workshop / Meetup: Visão geral sobre Big Data

  • 1. VISÃO GERAL SOBRE BIG DATA PORQUE NÃO É MODA E VALE A PENA BUSCAR MAIS INFORMAÇÃO SOBRE O ASSUNTO WORKSHOP
  • 3. VISÃO GERAL SOBRE BIG DATA CONTEÚDO • O que é? Como surgiu? Como tem sido útil? • Os “Vs” do Big Data • Quem está usando? • A Matemática: estatística, otimização, Analytics • Ferramentas de Desenvolvimento • Visualização de Dados • Os Bancos de Dados No-SQL • Nuvem: XaaS • Processamento Paralelo • Ecossistema: Hadoop? • As vagas no mercado e os unicórnios • E o que mais? Por onde começar?
  • 4. O QUE É? TERMO GENÉRICO PARA SE REFERIR A CONJUNTOS DE DADOS TÃO GRANDES OU COMPLEXOS QUE SE TORNAM DIFÍCEIS DE TRABALHAR USANDO FERRAMENTAS CONVENCIONAIS. https://www.slideshare.net/GWOcon/big-data-analytics-with-r (slide 6)
  • 5. COMO SURGIU? • INFORMATIZAÇÃO CRESCENTE • DISPOSITIVOS PORTÁTEIS • BARATEAMENTO DO HARDWARE • POPULARIZAÇÃO DA INTERNET • CRESCIMENTO DA ECONOMIA DIGITAL • DISPOSITIVOS “CONECTADOS” • SOFTWARE OPEN SOURCE http://www.dailyinfographic.com/what-happens-internet-in-60-seconds https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#10e2776a65a1
  • 6. COMO SURGIU? – TIMELINE
  • 7. COMO SURGIU? – TIMELINE ENXUTA
  • 8. COMO TEM SIDO ÚTIL? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ?????????????????????????????????????????????????????????????????????????????????????????????
  • 9. COMO TEM SIDO ÚTIL? DADOS PODEM SER UM ATIVO ESTRATÉGICO PODEROSO SE AJUDAREM UMA EMPRESA A ATINGIR A SUA VISÃO DE NEGÓCIO
  • 10. COMO TEM SIDO ÚTIL? AO LIDAR COM GRANDES QUANTIDADES DE DADOS... • GENOMA / BIOMEDICINA, SAÚDE PERSONALIZADA • GEOINFORMÁTICA, IMAGENS DE SATÉLITE • INTERPRETAÇÃO DE IMAGENS / RECONHECIMENTO DE PADRÕES • MELHOR ROTA NUM TRAJETO (NAQUELE MOMENTO) • SMART CITIES, IOT (INTERNET DAS COISAS) • DETECÇÃO DE FRAUDES ONLINE • PERFORMANCE DE JOGADORES NUMA EQUIPE
  • 11. COMO TEM SIDO ÚTIL? EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE But enterprise software played a part, too, in the form of big data analytics. In October 2013, the German Football Association (DFB) and SAP began collaborating to develop a “Match Insights” software system for the German national team to use in preparation for and during the tournament. SAP delivered a prototype in March 2014 and Joachim Low’s management team has been using the software ever since. http://www.computerweekly.com/news/2240224421/SAP-helps-Germany-lift-the-World-Cup
  • 12. COMO TEM SIDO ÚTIL? EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE https://www.paypal.com/stories/br/como-o-big-data-e-a-analise-de-dados-mudaram-os-esportes MBA BIG Data FIAP, Governança de Dados, slide 6 - Prof Marcelo Oliveira
  • 13. OS “V”S DO BIG DATA Guy Fawkes https://pt.wikipedia.org/wiki/V_for_Vendetta; https://cinefreak.com.br/v-de-vinganca-pode-virar-serie-de-tv/
  • 14. OS S DO BIG DATA SÃO 3… AO MENOS PENSANDO NO QUE TODOS CONCORDAM… RELACIONADOS ÀS NECESSIDADES DE CAPTURAR, PROCESSAR E RESPONDER AO QUE OS DADOS MOSTRAM TUDO SE RESUME AO QUE É PRECISO PARA FAZER BIG DATA MINING (NÃO É IGUAL A DATA MINING) https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
  • 15. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) ELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
  • 16. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO) ->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
  • 17. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO) ->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
  • 18. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
  • 19. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA) https://blogs.sap.com/2017/09/21/speed-security-and-trust-for-your-big-data/
  • 20. OS S DO BIG DATA https://blogs.sap.com/2017/09/21/speed-security-and-trust-for-your-big-data/ SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
  • 21. OS S DO BIG DATA MBA BIG Data FIAP, Governança de Dados, slide 7 - Prof Marcelo Oliveira
  • 23. QUEM ESTÁ USANDO… JOÃO DORIA (HTTP://WWW.BBC.COM/PORTUGUESE/BRASIL-41406420) CIELO (HTTPS://CIELO.RIWEB.COM.BR/#) OPERAÇÃO LAVA-JATO (HTTP://COMPUTERWORLD.COM.BR/POLICIA-FEDERAL-USA-TECNICA-FORENSE-PARA-INVESTIGAR-ENVOLVIDOS-NA-LAVA-JATO) GLOBO.COM (HTTPS://REDEGLOBO.GLOBO.COM/NOVIDADES/NOTICIA/PROJETO-EM-BIG-DATA-DA-GLOBO-E-PREMIADO-NO-IBC.GHTML) SELEÇÃO ALEMÃ DE FUTEBOL (HTTPS://EXAME.ABRIL.COM.BR/TECNOLOGIA/SOLUCAO-DE-BIG-DATA-E-UM-DOS-SEGREDOS-DA-ALEMANHA-NA-COPA-2/ ) AGRONEGÓCIO BRASILEIRO (HTTP://SNA.AGR.BR/USO-DE-BIG-DATA-NO-AGRONEGOCIO-DEVERA-CRESCER-NOS-PROXIMOS-ANOS/)
  • 27. A MATEMÁTICA ESTATÍSTICA, MUITA ESTATÍSTICA… E MATEMÁTICA AVANÇADA… http://bd2017.spm-pt.org/ https://www.prandiano.com.br/copy-of-big-data https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century Teoria dos Suportes, Dendogramação Big Data, Função Sigmóide e AnovA, Autovalores e Autovetores, Análise Multivariada, Support Vector Machine, Discriminante de Fisher, Discriminante de Hellinger, KmeansS de MacQuenn, Elbow Data Chart, Algoritmo Big Data Fuzzy, Pesquisa Operacional
  • 29. A MATEMÁTICA https://www.thefreedictionary.com/analytics https://www.slideshare.net/GWOcon/big-data-analytics-with-r/6 (slide 9) ANALYTICS: RAMO DA LÓGICA QUE TRATA DA ANÁLISE DE INFORMAÇÃO É A COMBINAÇÃO DE TÉCNICAS DE MATEMÁTICA, ESTATÍSTICA E HEURÍSTICA PARA ENTENDER ALGO A PARTIR DOS DADOS (E OBTER INSIGHTS ETC)
  • 31. A MATEMÁTICA PROBLEMAS DE OTIMIZAÇÃO SÃO DE COMPLEXIDADE EXPONENCIAL O = 2N (SE 2 POSSIBILIDADES PARA CADA N, COMO “TEM” OU NÃO “TEM”) A PROBABILIDADE E A ESTATÍSTICA VÃO TE AJUDAR A ENTENDER A COMPLEXIDADE DOS DADOS, VER COMO ELES SE COMPORTAM E, ASSIM, ACHAR PADRÕES NELES… MITx: 6.00.2x Introduction to Computational Thinking and Data Science https://courses.edx.org/courses/course-v1:MITx+6.00.2x+3T2017/course/
  • 32. A MATEMÁTICA NOÇÕES QUE VÃO TE AJUDAR NA ANÁLISE DE DADOS • MÉDIA, MODA, MEDIANA, CURVA NORMAL, DESVIO PADRÃO E OUTLIER • REGRESSÃO LINEAR • CLUSTERIZAÇÃO E K-MEANS
  • 33. A MATEMÁTICA Média (mean) Moda (mode) Mediana (median) Probabilidade 80% Intervalo de confiança Desvio padrão: dispersão em relação à média Outlier: pontos extremos… Quem “estraga” a média. MedidasdeResumo
  • 34. A MATEMÁTICA A ESTATÍSTICA VAI TE AJUDAR A ENCONTRAR PADRÕES “OCULTOS” E A LIDAR COM A ALEATORIEDADE, AS INCERTEZAS E COM GERAÇÃO DE AMOSTRAS DE DADOS. PROBLEMA DO MUNDO REAL NÃO CONSEGUIMOS PREVER ALGUMAS SITUAÇÕES POR PURA FALTA DE INFORMAÇÃO SOBRE ELAS OU SUAS CAUSAS. ENFIM, DEVEMOS TRATÁ-LAS COMO ALEATÓRIAS. A ISSO SE CHAMA DE PROCESSO ESTOCÁSTICO.
  • 35. O OLHAR DO ESTATÍSTICO OLHANDO OS DADOS COMO UM ESTATÍSTICO… VAMOS USAR O SAS, POR EXEMPLO. LÁ VOCÊ NÃO TEM UMA TABELA, TEM UM DATA SET (CONJUNTO DE DADOS). O QUE ERA UMA LINHA DA TABELA, AGORA, TORNA-SE UMA OBSERVAÇÃO. E EM UMA TABELA VOCÊ NÃO TEM COLUNAS, MAS VARIÁVEIS.
  • 36. O OLHAR DO ESTATÍSTICO …VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6 OBS 1 VAR 1 OBS 1 VAR 2 OBS 1 VAR 3 OBS 1 VAR 4 OBS 1 VAR 5 OBS 1 VAR 6 OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6 OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6 OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6 OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6 OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6 Universo(100%dados)
  • 37. O OLHAR DO ESTATÍSTICO …Código Nome Moeda Saldo Data Saldo Gênero 1 Marco Guimarães AOA 1000,25 2018/02/15 Masculino OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6 OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6 OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6 OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6 OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6 Universo(100%dados)
  • 38. A MATEMÁTICA VARIÁVEIS QUALITATIVAS (TEXTO) E QUANTITATIVAS (NÚMEROS) ASSOCIAÇÃO: VARIÁVEIS QUALITATIVAS CORRELAÇÃO: VARIÁVEIS QUANTITATIVAS FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 39. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 40. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 41. ESTATÍSTICA E ANALYTICS • REGRESSÃO LINEAR: MONEYBALL, PREVISÃO DE QUALIDADE DE VINHOS. UTILIZAR UM MODELO PARA FAZER PREVISÕES A PARTIR DE TENDÊNCIAS. • REGRESSÃO LOGÍSITICA: MEDICINA. PROBLEMAS DE CLASSIFICAÇÃO DE INFORMAÇÃO. PROBABILIDADE DE ALGO ACONTECER. USA CONHECIMENTO ESPECIALIZADO PARA JULGAR UMA SITUAÇÃO EM LARGA ESCALA. • CART (ÁRVORES DE CLASSIFICAÇÃO E REGRESSÃO): PREVER DECISÕES JUDICIAIS. MÉTODO AUXILIAR: RANDOM FORESTS: PODE SER MELHOR DO QUE ESPECIALISTAS NAS PREVISÕES... • CLUSTERIZAÇÃO E K-MEANS: NETFLIX (RECOMENDAÇÃO DE FILMES). RECONHECER SEMELHANÇAS E PADRÕES NOS DADOS.
  • 42. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 44. O DESENVOLVIMENTO PYTHON (NUMPY, PANDAS… JUPYTER NOTEBOOKS) R / RSTUDIO (COMPRADA PELA MICROSOFT) JAVA (HDFS, HBASE, HADOP E QUASE TUDO FEITO EM JAVA) SCALA (MAIS PERFORMANCE QUE PYTHON E USA A MESMA VM DO JAVA) UNIX / LINUX – VMS CLOUDERA E HORTON WORKS… UBUNTU E CENTOS https://www.rstudio.com/products/rstudio/download/#download https://www.python.org/ https://www.scala-lang.org/download/
  • 45. PYTHON JUPYTER NOTEBOOKS << RODAR CÓDIGO EM QUALQUER LUGAR GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS) NUMPY E PANDAS (INGESTÃO E ANÁLISE DE DADOS) MATPLOTLIB (VISUALIZAÇÃO) SCIKIT-LEARN (MODELOS E MACHINE LEARNING) BEAUTIFULSOUP (LER XML E HTML DE MANEIRA FÁCIL) https://youtu.be/rS0GJMSSHKY
  • 46. R GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS) CRAN: REPOSITÓRIO DE BIBLIOTECAS CRIADA PARA ESTATÍSTICOS FRAMEWORK PARA DESENVOLVIMENTO WEB (!) ....
  • 47. VISUALIZAÇÃO DE DADOS 90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL. NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS RÁPIDO DO QUE UM TEXTO.
  • 48. VISUALIZAÇÃO DE DADOS 90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL. NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS RÁPIDO DO QUE UM TEXTO.
  • 50. VISUALIZAÇÃO DE DADOS FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
  • 52. BANCO DE DADOS “NO SQL” >>>>> NOT ONLY SQL CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003) COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011) GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998) DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011) MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003) Nomes sublinhados foram construídos em Java + Nome com * suporta mais tipos de modelos No SQL Fonte: https://db-engines.com/ >>>>> NOT ONLY SQL CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003) COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011) GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998) DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011) MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
  • 53. NO SQL MAIS POP: MONGO OPEN SOURCE PROJETO INICIADO EM 2009 NÃO SUPORTA SQL, UTILIZA JSON EM API PRÓPRIA SUPORTADO POR VÁRIAS LINGUAGENS: JAVA, C#, DELPHI, GO (GOOGLE), PHP, PYTHON, MATLAB, R, RUBY, SCALA ETC UTILIZAÇÃO: GERENCIAMENTO DE CONTEÚDO: FORBES E EBAY PERSONALIZAÇÃO: EXPEDIA, EHARMONY, TELEFÔNICA IOT (BOSCH), CATÁLOGOS (UNDER ARMOUR), REAL TIME ANALYTICS (BUZZFEED, CHICAGO) https://db-engines.com/en/system/MongoDB https://www.mongodb.com/
  • 56. NUVEM “NUVEM” (CLOUD) É UM TERMO UTILIZADO HÁ DÉCADAS NA ÁREA DE TELECOMUNICAÇÕES CONJUNTO DE ATIVOS QUE COMPÕEM UMA INFRAESTRUTURA E VIABILIZA A OPERAÇÃO TRANSPARENTE E ESCALÁVEL, PONTA-A-PONTA, DOS SISTEMAS DE COMUNICAÇÃO, EM PARTICULAR TELEFONIA (TaaS). FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 57. ATRÁS DAS NUVENS TUDO É DATA CENTER FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 58. MODELOS DE CLOUD POSSIBILIDADES PARA ADOTAR A “NUVEM” FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 59. VIABILIDADE ECONÔMICA: CLOUD DISTRIBUIÇÃO DOS CUSTOS DE INFRA FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 60. GERENCIAR A NUVEM (E OS DADOS) SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) https://cloudharmony.com/status
  • 61. SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) GERENCIAR A NUVEM (E OS DADOS)
  • 62. SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) GERENCIAR A NUVEM (E OS DADOS)
  • 63. SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) TRATADOS INTERNACIONAIS LEGISLAÇÃO VIGENTE NO PAÍS / LOCAL ÓRGÃO REGULADORES CÓDIGO DO CONSUMIDOR BOAS PRÁTICAS DE MERCADO GERENCIAR A NUVEM (E OS DADOS)
  • 64. PROCESSAMENTO PARALELO O PROCESSAMENTO MASSIVO PARALELO (MPP, SIGLA EM INGLÊS) DEPENDE DE HARDWARE E SOFTWARE E TAMBEM TEM SUAS LIMITAÇÕES DE GANHO (LEIS DE AMDAHL E GUSTAFSON). FELIZMENTE A ARQUITETURA TEM EVOLUÍDO E TIRAR PROVEITO DESTA POSSIBILIDADE DE PROCESSAMENTO TEM FICADO MAIS ACESSÍVEL. O HADOOP É UM DOS FRAMEWORKS MAIS CONHECIDOS DE PROCESSAMENTO PARALELO DA ATUALIDADE. FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 65. PROCESSAMENTO PARALELO NÍVEIS DE PARALELISMO (E GRANULARIDADE): • INSTRUÇÃO (BAIXA) PIPELINED, VERY LONG INSTRUCTION WORD (VLIW), SUPER ESCALARES • THREAD (MÉDIA) MULTITHREADING E SIMULTANEOUS MULTITHREADING • PROCESSO (ALTA) MULTIPROCESSADORES E MULTICOMPUTADORES FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 66. PROCESSAMENTO PARALELO 4: UM CONJUNTO DE PROCESSADORES EXECUTA AO MESMO TEMPO SEQUENCIAS DIFERENTES DE INSTRUÇÕES SOBRE CONJUNTOS DE DADOS DIFERENTES. FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) 1 2 3 4 4
  • 67. CLUSTER VERSUS GRID FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) COLVERO; DANTAS; CUNHA, 2005. CONFIGURAÇÃO CLUSTER GRID Domínio Único Múltiplos Nós Milhares Milhões Segurança do processamento e dos recursos Desnecessária (único domínio) Necessária Granularidade do problema Grande Muito Grande Sistemas Operacionais Homogêneo Heterogêneo Observações 1) Geograficamente distribuído 2) Recursos Heterogêneos
  • 68. ESCALABILIDADE FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) NÍVEIS DE ESCALABILIDADE • VERTICAL (SCALE UP) DEIXAR O MESMO COMPUTADOR CADA VEZ MAIS POTENTE (+CARO) • HORIZONTAL (SCALE OUT) ADICIONAR MAIS MÁQUINAS PARA TRABALHAR EM PARALELO (+BARATO)
  • 69. HADOOP E O NOVO PARADIGMA FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) 2002: PROJETO NUTCH (DOUG CUTTING E CAFARELLA) 2003: GOOGLE PUBLICA GFS E MAP REDUCE 2004: DOUG CRIA NTFS E ADICIONA MAP REDUCE AO NUTCH 2006: YAHOO CONTRATA DOUG. HADOOP NASCE. 2007: NYT CONVERTE 4 TB DE IMAGENS EM MAIS DE 100 EC2S 2008: YAHOO ORDENA 1 TB DE DADOS EM 3,5 MIN, UTILIZANDO 910 NÓS 2009: DOUG SE JUNTA À CLOUDERA, PROJETO SPARK INICIA (BERKELEY) 2010: YAHOO INICIA PROJETO APACHE HADOOP (TORNA OPEN) 2011: APARECEM HORTON WORKS E MAP-R 2013: SPARK VAI PARA APACHE TAMBEM… 2014: INTEL INVESTE MAIS U$ 700 MILHÕES NA CLOUDERA
  • 70. O ECOSSISTEMA HADOOP HADOOP… DA AMAZON (ELASTIC MAP REDUCE) HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) HADOOP… DA MAPR HADOOP… DA IBM (OPEN PLATFORM) HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) HADOOP… DA PIVOTAL
  • 71. O ECOSSISTEMA HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) HADOOP… DA MAPR HADOOP… DA IBM (OPEN PLATFORM) HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) HADOOP… DA PIVOTAL
  • 72. BRIGA!! FINAL DE 2014… FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 73. O ECOSSISTEMA HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) HADOOP… DA MAPR HADOOP… DA IBM (OPEN PLATFORM) HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) HADOOP… DA PIVOTAL https://www.theregister.co.uk/2017/06/15/ibm_adopts_hortonworks_for_hadoop_distribution/
  • 74. O ECOSSISTEMA HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) + IBM HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) https://www.sas.com/en_us/software/university-edition/download-software.html#windows
  • 76. MAS VAMOS VOLTAR AO FOCO…
  • 82. APACHE HADOOP Processamento Distribuído de GRANDES volumes de DADOS através de CLUSTERS via modelos de programação HDFS: Hadoop Distributed File System (feito em Java) Map Reduce: sistema baseado no YARN para processamento Paralelo de grandes volumes de dados (large datasets) YARN: yet another resource negotiator – tecnologia para Gerenciamento de CLUSTER
  • 84.
  • 86.
  • 87. PROCESSAMENTO PARALELO FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 88.
  • 89.
  • 99. ONDE ESTUDAR ONLINE YOUTUBE: DIGITE BIG DATA E VEJA O QUE APARECE EDX, COURSERA, ALURA (SITE DA CAELUM - SP) HORTONWORKS, CLOUDERA, SAS, EMC… HTTPS://WWW.KAGGLE.COM/ INFORMAÇÕES ADICIONAIS EM PT-BR: SEMANTIX KD-NUGGETS
  • 100. EVENTOS NO BRASIL BIGDATA WEEK: SP EM 2015, RJ EM 2016, SP EM 2017 (HTTP://BIGDATAWEEK.COM/CITIES) MEETUPS EM SP (ÚLTIMO NA VIVO, MAIO/2017 – EMPRESAS INCUBADAS)
  • 101. AFRICA E ANGOLA HTTP://ANGOLA.OPENDATAFORAFRICA.ORG/ E DO MUNDO TODO… HTTPS://DATA.WORLDBANK.ORG/
  • 102. FONTES (CURSOS) • Material MBA em Big Data FIAP, 2015-2016 • Edx – The Analytics Edge (MITx 15.071x – usa “R”) • Edx – Introduction to Computational Thinking and Data Science (MITx 6.00.2) • Edx – Introduction to Python for Data Science (Microsoft DAT 208x) • Hortonworks – Online Tutorials • Cloudera – Online Tutorials • SAS University (online) https://www.slideshare.net/renangpa/big-data-e-a-globocom-2017 https://db-engines.com/en/ranking http://www.csc.ncsu.edu/faculty/healey/PP/ https://www.infoq.com/presentations/nubank-financial-systems
  • 103. FONTES - TIMELINE • https://docs.oracle.com/cd/B13789_01/server.101/b10759/intro001.htm; • https://gcn.com/articles/2013/05/30/gcn30-timeline-big-data.aspx; • https://www.biography.com/people/ada-lovelace-20825323; • http://www.computerhistory.org/timeline/ • http://www.lnmb.nl/conferences/2018/programlnmbconference/Aarts.pdf; • http://www.dataversity.net/a-short-history-of-data-warehousing/; • https://www.slideshare.net/GWOcon/big-data-analytics-with-r; • http://iml.jou.ufl.edu/projects/Fall02/Moody/history.html; • https://thoughts.manthan.com/wp-content/uploads/2015/11/timeline-of-analytics.jpg • https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/2/#7fe93f814343 • https://hadoop.apache.org/ • http://sortbenchmark.org • https://www.wired.com/2015/11/alibaba-cloud-wins-worldwide-battle-of-the-machines/
  • 105. MUITO OBRIGADO! MARCO ANTONIO FILGUEIRAS GUIMARÃES, 17/02/2018 WORKSHOP