[1] O documento discute o conceito de Big Data, incluindo suas definições, características (os 5 Vs) e evolução. [2] Também aborda a importância do processamento paralelo e da plataforma Hadoop para lidar com grandes volumes de dados. [3] Por fim, descreve o papel do cientista de dados no contexto do Big Data.
2. O que é Big Data?
Por que Big Data?
Processamento
Massivo Paralelo
Hadoop
Cientista de
Dados
3. O que é Big Data
• Quem inventou?
• John Mashey – Silicon
Graphics (1998) – InfraStress.
NYTIMES (2013)
•Definição?
• Mais de 40 definições
Berkeley (2014)
• Os 3 Vs.
Meta Group (2001)
• Mais 2 Vs:
Veracidade e Valor.
5. Variedade
IBM (2012)
Variedade de fontes de dados nas
empresas que utilizam Big Data:
Dados
Estruturados
Dados com comprimento e
tipo pré-definidos
agrupados em linhas e
colunas. Ex: Números,
strings, Banco de Dados,
etc.
Dados
Semiestruturados
Dados que não
possuem um
comprimento ou tipo
definido, mas tem
formato padronizado.
Ex: Arquivos XML,
JSON.
Dados Não
Estruturados
Dados que não
possuem uma estrutura
ou formato padrão. Ex:
Vídeos, imagens, redes
sociais, texto, etc.
Variedade de tipos de dados:
Credit Suisse (2011)
7. Veracidade e Valor
Veracidade = Qualidade da Informação
• Conceito multidimensional.
• É um dos conceitos mais utilizados
nas pesquisas sobre sistemas de
informação.
(LEE et al., 2002; DELONE; McLEAN, 1992)
• Motiva o uso e possibilita o usuário
extrair valor da informação.
Valor = Uso + Qualidade + Resultado
SAS (2012)
8. Big Data = 3 V’s (Volume + Variedade + Velocidade) + 2 V’s (Veracidade + Valor)
Volume
Variedade
Velocidade
KB MB GB TB PB EB ZB YB
Vídeo
Imagem
Texto
SMS
XML
Banco
de
dados
9. Por que Big Data?
Hortonworks (2012)
Gartner (2014)
10. Processamento Massivo Paralelo
Samuel Otero Schmidt
Escalabilidade Vertical (Scale-up) Escalabilidade Horizontal (Scale-out)
ClusterSMP (Symmetric Multi-Processing)
Patterson e Hennessy (2014)
11. Mudança de Paradigma
Samuel Otero Schmidt
De: Levar o dado para o processamento (servidor)
Para: Levar processamento para o dado (distribuído)
13. Ecossistema Apache Hadoop
Benefícios da plataforma:
• Escalabilidade: Facilidade para aumentar ou reduzir os recursos do cluster.
• Desempenho: Foco em processar as informações com rapidez.
• Disponibilidade: Manter a informação disponível para acesso.
• Custo: Utilizar infraestrutura de baixo custo (hardware commodity).
• Flexibilidade: Atender a diferentes tipos de demandas de dados.
Impala
Apache Hadoop (2014)
15. Cientista de Dados (Data Scientist)
Tecnologia /
Hacking Skills
Matemática /
Estatística
Negócio / Estratégia
Cientista de
Dados
Drew Conway - Diagrama de Venn, 2010
Zona de
Perigo!
Machine
Learning
Pesquisa
Tradicional
16. Referências
Apache Hadoop. 2014. http://hadoop.apache.org/
Banerjee, U. Who coined the term Big Data?. 2013. http://setandbma.wordpress.com/2013/02/04/who-coined-the-term-big-data/
Connolly, S. 7 Key Drivers for the Big Data Market. Hortonworks. 2012. br.hortonworks.com/blog/7-key-drivers-for-the-big-data-market/
Conway, D. The Data Science Venn Diagram, 2010. http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Credit Suisse. Does Size Matter Only?. 2011. https://research-and-
analytics.csfb.com/docView?sourceid=em&document_id=x416727&serialid=X37J8NpLBJF5ss/AnIC6JlBDnD8fiGY9T84oCg0hZmA%3D
DELONE, W H; MCLEAN, E R. Information Systems Success: The Quest for the Dependent Variable. Information Systems Research, v.3, n. 1, p.60-95,1992.
Diebold, F. et al. A Personal Perspective on the Origin (s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline. 2012.
Dutcher, J. What Is Big Data?. Berkeley Blog, 2014. http://datascience.berkeley.edu/what-is-big-data/
Gartner. Big Data, 2014. www.gartner.com/it-glossary/big-data/
Garner. Gartner Hyper Cycle, 2014. http://www.forbes.com/sites/gartnergroup/2014/09/17/digital-business-technologies-dominate-gartner-2014-emerging-
technologies-hype-cycle/
Gutierrez, D. What is Big Data? 40+ Definitions. Inside Big Data, 2014. http://inside-bigdata.com/2014/09/06/big-data-40-definitions/
Laney, D. 3-D Data Management: Controlling Data Volume, Velocity and Variety. Meta Group, 2001.
LEE, Y. W.; STRONG, D. M.; KAHN, B. K.; WANG, R. Y. AIMQ: a methodology for information quality assessment. Information and Management, v. 40, n. 2, p. 133-146,
2002.
Lohr, S. U. The origins of big data an etymological detective story. The New York Times Blog, 2013. http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-
etymological-detective-story/?_php=true&_type=blogs&_r=0
Marco, A. Driving Big Data. IBM. 2012. http://asmarterplanet.com/blog/2012/10/driving-big-data.html
Mashey, J. Big Data and the Next Wave of InfraStress, 1998. https://www.usenix.org/legacy/events/usenix99/invited_talks/mashey.pdf
Nasscom. Big Data The Next Big Thing. 2012. http://www.nasscom.in/sites/default/files/researchreports/softcopy/Big%20Data%20Report%202012.pdf
Newkirk, M. The Truth about High-Performance Analytics. SAS, 2012. http://www.industryweek.com/information-technology/truth-about-high-performance-analytics-part-
two?page=3
Patterson, D.; Hennessy, J. Organização e projeto de computadores: a interface hardware/software. Elsevier, 2005.