Conceitos e Evolução
Samuel Otero Schmidt
O que é Big Data?
Por que Big Data?
Processamento
Massivo Paralelo
Hadoop
Cientista de
Dados
O que é Big Data
• Quem inventou?
• John Mashey – Silicon
Graphics (1998) – InfraStress.
NYTIMES (2013)
•Definição?
• Mais de 40 definições
Berkeley (2014)
• Os 3 Vs.
Meta Group (2001)
• Mais 2 Vs:
Veracidade e Valor.
Volume
Nasscom (2012)
Crescimento global de dados
Custo total de armazenamento
Variedade
IBM (2012)
Variedade de fontes de dados nas
empresas que utilizam Big Data:
Dados
Estruturados
Dados com comprimento e
tipo pré-definidos
agrupados em linhas e
colunas. Ex: Números,
strings, Banco de Dados,
etc.
Dados
Semiestruturados
Dados que não
possuem um
comprimento ou tipo
definido, mas tem
formato padronizado.
Ex: Arquivos XML,
JSON.
Dados Não
Estruturados
Dados que não
possuem uma estrutura
ou formato padrão. Ex:
Vídeos, imagens, redes
sociais, texto, etc.
Variedade de tipos de dados:
Credit Suisse (2011)
Velocidade
Veracidade e Valor
Veracidade = Qualidade da Informação
• Conceito multidimensional.
• É um dos conceitos mais utilizados
nas pesquisas sobre sistemas de
informação.
(LEE et al., 2002; DELONE; McLEAN, 1992)
• Motiva o uso e possibilita o usuário
extrair valor da informação.
Valor = Uso + Qualidade + Resultado
SAS (2012)
Big Data = 3 V’s (Volume + Variedade + Velocidade) + 2 V’s (Veracidade + Valor)
Volume
Variedade
Velocidade
KB MB GB TB PB EB ZB YB
Vídeo
Imagem
Texto
SMS
XML
Banco
de
dados
Por que Big Data?
Hortonworks (2012)
Gartner (2014)
Processamento Massivo Paralelo
Samuel Otero Schmidt
Escalabilidade Vertical (Scale-up) Escalabilidade Horizontal (Scale-out)
ClusterSMP (Symmetric Multi-Processing)
Patterson e Hennessy (2014)
Mudança de Paradigma
Samuel Otero Schmidt
De: Levar o dado para o processamento (servidor)
Para: Levar processamento para o dado (distribuído)
Evolução da Plataforma e Mercado Hadoop
Linha do Tempo
Samuel Otero Schmidt
Ecossistema Apache Hadoop
Benefícios da plataforma:
• Escalabilidade: Facilidade para aumentar ou reduzir os recursos do cluster.
• Desempenho: Foco em processar as informações com rapidez.
• Disponibilidade: Manter a informação disponível para acesso.
• Custo: Utilizar infraestrutura de baixo custo (hardware commodity).
• Flexibilidade: Atender a diferentes tipos de demandas de dados.
Impala
Apache Hadoop (2014)
Arquitetura da infraestrutura
Hadoop
Cientista de Dados (Data Scientist)
Tecnologia /
Hacking Skills
Matemática /
Estatística
Negócio / Estratégia
Cientista de
Dados
Drew Conway - Diagrama de Venn, 2010
Zona de
Perigo!
Machine
Learning
Pesquisa
Tradicional
Referências
Apache Hadoop. 2014. http://hadoop.apache.org/
Banerjee, U. Who coined the term Big Data?. 2013. http://setandbma.wordpress.com/2013/02/04/who-coined-the-term-big-data/
Connolly, S. 7 Key Drivers for the Big Data Market. Hortonworks. 2012. br.hortonworks.com/blog/7-key-drivers-for-the-big-data-market/
Conway, D. The Data Science Venn Diagram, 2010. http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Credit Suisse. Does Size Matter Only?. 2011. https://research-and-
analytics.csfb.com/docView?sourceid=em&document_id=x416727&serialid=X37J8NpLBJF5ss/AnIC6JlBDnD8fiGY9T84oCg0hZmA%3D
DELONE, W H; MCLEAN, E R. Information Systems Success: The Quest for the Dependent Variable. Information Systems Research, v.3, n. 1, p.60-95,1992.
Diebold, F. et al. A Personal Perspective on the Origin (s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline. 2012.
Dutcher, J. What Is Big Data?. Berkeley Blog, 2014. http://datascience.berkeley.edu/what-is-big-data/
Gartner. Big Data, 2014. www.gartner.com/it-glossary/big-data/
Garner. Gartner Hyper Cycle, 2014. http://www.forbes.com/sites/gartnergroup/2014/09/17/digital-business-technologies-dominate-gartner-2014-emerging-
technologies-hype-cycle/
Gutierrez, D. What is Big Data? 40+ Definitions. Inside Big Data, 2014. http://inside-bigdata.com/2014/09/06/big-data-40-definitions/
Laney, D. 3-D Data Management: Controlling Data Volume, Velocity and Variety. Meta Group, 2001.
LEE, Y. W.; STRONG, D. M.; KAHN, B. K.; WANG, R. Y. AIMQ: a methodology for information quality assessment. Information and Management, v. 40, n. 2, p. 133-146,
2002.
Lohr, S. U. The origins of big data an etymological detective story. The New York Times Blog, 2013. http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-
etymological-detective-story/?_php=true&_type=blogs&_r=0
Marco, A. Driving Big Data. IBM. 2012. http://asmarterplanet.com/blog/2012/10/driving-big-data.html
Mashey, J. Big Data and the Next Wave of InfraStress, 1998. https://www.usenix.org/legacy/events/usenix99/invited_talks/mashey.pdf
Nasscom. Big Data The Next Big Thing. 2012. http://www.nasscom.in/sites/default/files/researchreports/softcopy/Big%20Data%20Report%202012.pdf
Newkirk, M. The Truth about High-Performance Analytics. SAS, 2012. http://www.industryweek.com/information-technology/truth-about-high-performance-analytics-part-
two?page=3
Patterson, D.; Hennessy, J. Organização e projeto de computadores: a interface hardware/software. Elsevier, 2005.
Obrigado!
Samuel Otero Schmidt
schmidt-samuel@usp.br
www.linkedin.com/pub/samuel-otero-schmidt/16/358/a98

Palestra SCIP - Big Data: Conceitos e Evolução

  • 1.
  • 2.
    O que éBig Data? Por que Big Data? Processamento Massivo Paralelo Hadoop Cientista de Dados
  • 3.
    O que éBig Data • Quem inventou? • John Mashey – Silicon Graphics (1998) – InfraStress. NYTIMES (2013) •Definição? • Mais de 40 definições Berkeley (2014) • Os 3 Vs. Meta Group (2001) • Mais 2 Vs: Veracidade e Valor.
  • 4.
    Volume Nasscom (2012) Crescimento globalde dados Custo total de armazenamento
  • 5.
    Variedade IBM (2012) Variedade defontes de dados nas empresas que utilizam Big Data: Dados Estruturados Dados com comprimento e tipo pré-definidos agrupados em linhas e colunas. Ex: Números, strings, Banco de Dados, etc. Dados Semiestruturados Dados que não possuem um comprimento ou tipo definido, mas tem formato padronizado. Ex: Arquivos XML, JSON. Dados Não Estruturados Dados que não possuem uma estrutura ou formato padrão. Ex: Vídeos, imagens, redes sociais, texto, etc. Variedade de tipos de dados: Credit Suisse (2011)
  • 6.
  • 7.
    Veracidade e Valor Veracidade= Qualidade da Informação • Conceito multidimensional. • É um dos conceitos mais utilizados nas pesquisas sobre sistemas de informação. (LEE et al., 2002; DELONE; McLEAN, 1992) • Motiva o uso e possibilita o usuário extrair valor da informação. Valor = Uso + Qualidade + Resultado SAS (2012)
  • 8.
    Big Data =3 V’s (Volume + Variedade + Velocidade) + 2 V’s (Veracidade + Valor) Volume Variedade Velocidade KB MB GB TB PB EB ZB YB Vídeo Imagem Texto SMS XML Banco de dados
  • 9.
    Por que BigData? Hortonworks (2012) Gartner (2014)
  • 10.
    Processamento Massivo Paralelo SamuelOtero Schmidt Escalabilidade Vertical (Scale-up) Escalabilidade Horizontal (Scale-out) ClusterSMP (Symmetric Multi-Processing) Patterson e Hennessy (2014)
  • 11.
    Mudança de Paradigma SamuelOtero Schmidt De: Levar o dado para o processamento (servidor) Para: Levar processamento para o dado (distribuído)
  • 12.
    Evolução da Plataformae Mercado Hadoop Linha do Tempo Samuel Otero Schmidt
  • 13.
    Ecossistema Apache Hadoop Benefíciosda plataforma: • Escalabilidade: Facilidade para aumentar ou reduzir os recursos do cluster. • Desempenho: Foco em processar as informações com rapidez. • Disponibilidade: Manter a informação disponível para acesso. • Custo: Utilizar infraestrutura de baixo custo (hardware commodity). • Flexibilidade: Atender a diferentes tipos de demandas de dados. Impala Apache Hadoop (2014)
  • 14.
  • 15.
    Cientista de Dados(Data Scientist) Tecnologia / Hacking Skills Matemática / Estatística Negócio / Estratégia Cientista de Dados Drew Conway - Diagrama de Venn, 2010 Zona de Perigo! Machine Learning Pesquisa Tradicional
  • 16.
    Referências Apache Hadoop. 2014.http://hadoop.apache.org/ Banerjee, U. Who coined the term Big Data?. 2013. http://setandbma.wordpress.com/2013/02/04/who-coined-the-term-big-data/ Connolly, S. 7 Key Drivers for the Big Data Market. Hortonworks. 2012. br.hortonworks.com/blog/7-key-drivers-for-the-big-data-market/ Conway, D. The Data Science Venn Diagram, 2010. http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram Credit Suisse. Does Size Matter Only?. 2011. https://research-and- analytics.csfb.com/docView?sourceid=em&document_id=x416727&serialid=X37J8NpLBJF5ss/AnIC6JlBDnD8fiGY9T84oCg0hZmA%3D DELONE, W H; MCLEAN, E R. Information Systems Success: The Quest for the Dependent Variable. Information Systems Research, v.3, n. 1, p.60-95,1992. Diebold, F. et al. A Personal Perspective on the Origin (s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline. 2012. Dutcher, J. What Is Big Data?. Berkeley Blog, 2014. http://datascience.berkeley.edu/what-is-big-data/ Gartner. Big Data, 2014. www.gartner.com/it-glossary/big-data/ Garner. Gartner Hyper Cycle, 2014. http://www.forbes.com/sites/gartnergroup/2014/09/17/digital-business-technologies-dominate-gartner-2014-emerging- technologies-hype-cycle/ Gutierrez, D. What is Big Data? 40+ Definitions. Inside Big Data, 2014. http://inside-bigdata.com/2014/09/06/big-data-40-definitions/ Laney, D. 3-D Data Management: Controlling Data Volume, Velocity and Variety. Meta Group, 2001. LEE, Y. W.; STRONG, D. M.; KAHN, B. K.; WANG, R. Y. AIMQ: a methodology for information quality assessment. Information and Management, v. 40, n. 2, p. 133-146, 2002. Lohr, S. U. The origins of big data an etymological detective story. The New York Times Blog, 2013. http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an- etymological-detective-story/?_php=true&_type=blogs&_r=0 Marco, A. Driving Big Data. IBM. 2012. http://asmarterplanet.com/blog/2012/10/driving-big-data.html Mashey, J. Big Data and the Next Wave of InfraStress, 1998. https://www.usenix.org/legacy/events/usenix99/invited_talks/mashey.pdf Nasscom. Big Data The Next Big Thing. 2012. http://www.nasscom.in/sites/default/files/researchreports/softcopy/Big%20Data%20Report%202012.pdf Newkirk, M. The Truth about High-Performance Analytics. SAS, 2012. http://www.industryweek.com/information-technology/truth-about-high-performance-analytics-part- two?page=3 Patterson, D.; Hennessy, J. Organização e projeto de computadores: a interface hardware/software. Elsevier, 2005.
  • 17.