BIG DATA
Seus problemas estão apenas começando
Thiago Gonzaga
Engenheiro de Software - Aurea Software
Agenda
• No principio era o verbo
• O que é Big Data?
• Estatísticas sobre Big Data
• Soluções para Big Data
• Oportunidades na Area de Big Data
Quién soy jo?
• Bacharel em ciência da computação pela UNESP
• Desenvolvedor desde 2004, em Java desde 2007
• Evangelista Java, palestrante e entusiasta de tecnologias
livres e Open Source.
• Coordenador de Eventos do Grupo de Usuários Java.
• Engenheiro de Software na Aurea
No princípio era o verbo…
Dados
• “Informação” não processada
• Fatos
• Números
• Afirmações
• Sem significado
• Pode ser texto, video, imagem
Informação
• Conteúdo útil
• Relevante
• Possui significado
• Processo, estudo, ensaio a partir de dados
Falemos sobre
Big Data
Você já deve ter ouvido falar:
“Big Data é a solução do
seu problema…”
O MAIOR PROBLEMA
DE TI DA ATUALIDADE
Vamos a lógica
Dados, dados, muitos
dados
• Com o aumento de quantidade de dados
• aumenta custos de processamento, logo mais gastos em
infraestrutura
• armazenamento de dados não é infinito, logo mais gastos com
armazenamento e backup
• Grande volume de dados aumenta consumo de banda de
entrada e saída, ou seja, mais gastos…
• tornar a informação disponível requer mais gastos
• Orçamento não é infinito e geralmente é bem curto
Gastos,
gastos…
… e mais gastos
Resumindo…
O que é big data?
• Do inglês dado grande (literalmente)
• Quando você muitos dados
• uma porrada de dados
• uma caralhada de dados
• ou seja…
• DADOS PRA CA!@#$%ˆ&*
Thiago não pode
escrever isso no slide…
Então escreve ai:
“Big Data é um termo para
descrever um problema onde
o fluxo de entrada de dados
é maior que a capacidade de
processa-los”
Vamos ver algumas
estatísticas
Boeing 787 produz meio
terabyte de dados por vôo
Fonte: http://www.computerworlduk.com/news/data/boeing-787s-
create-half-terabyte-of-data-per-flight-says-virgin-atlantic-3433595/
Se há problema e
demanda precisa de
uma solução
Solução para BigData
• Armazenamento
• Processamento
• Análise
Solução para BigData
• Armazenamento:
• HDFS (Hadoop Distributed File System)
• Banco de dados não estruturado (não relacional)
• MongoDB
• Cassandra
• Neo4j
Solução para BigData
• Processamento:
• Hadoop MapReduce
• Apache Lucene
• Solr
• Elasticsearch (especialmente pra texto)
Solução para BigData
• Análise de dados:
• Pentaho
• Kibana
• Graylog
Curiosidade:
Hadoop, Lucene, Solr,
elasticsearch entre
outras soluções Big Data
Pra onde eu vou
• Engenheiro/Arquiteto de Informação
• Cientista de dados
• Analista de dados
• Designer de BI
• Analista de BI
• Arquiteto de Cloud
• Segurança da Informação
Leituras interessantes
• Uma visão universal sobre dados: 

http://www.emc.com/leadership/digital-universe
• Apache Hadoop: http://hadoop.apache.org/
• Apache Lucene: http://lucene.apache.org
• Apache Solr: http://lucene.apache.org/solr/
• elasticsearch: https://www.elastic.co/products/elasticsearch
• Kibana: https://www.elastic.co/products/kibana
• Graylog: https://www.graylog.org/
• Pentaho: http://www.pentaho.com/
• Panorama de Big Data no Brasil: https://www.ibm.com/developerworks/community/blogs/bigdata/
entry/entrevista_com_cezar_taurion_o_estagio_atual_do_big_data_no_brasil
• Você realmente sabe o que é Big Data: https://www.ibm.com/developerworks/community/blogs/
ctaurion/entry/voce_realmente_sabe_o_que_e_big_data
Projetos do Java Noroeste
• Encontros regulares
• Incentivo a contribuição da comunidade (Programa de treinamento para
futuros palestrantes) (call 4 papers: http://bit.ly/javanoroeste-call-for-papers)
• Slack (convite: javanoroeste-slack.herokuapp.com.br)
• Novo Logo (votação: bit.ly/pesquisa-logo-javanoroeste)
• Novo Site
• Banco de currículos
• Sistema de gerador de certificado
• Entre outros
Obrigado!!!
Thiago Gonzaga
Engenheiro de Software - Aurea Software
@thiguetta

Big Data: Seus problemas estão apenas começando

  • 1.
    BIG DATA Seus problemasestão apenas começando Thiago Gonzaga Engenheiro de Software - Aurea Software
  • 2.
    Agenda • No principioera o verbo • O que é Big Data? • Estatísticas sobre Big Data • Soluções para Big Data • Oportunidades na Area de Big Data
  • 3.
    Quién soy jo? •Bacharel em ciência da computação pela UNESP • Desenvolvedor desde 2004, em Java desde 2007 • Evangelista Java, palestrante e entusiasta de tecnologias livres e Open Source. • Coordenador de Eventos do Grupo de Usuários Java. • Engenheiro de Software na Aurea
  • 4.
  • 6.
    Dados • “Informação” nãoprocessada • Fatos • Números • Afirmações • Sem significado • Pode ser texto, video, imagem
  • 7.
    Informação • Conteúdo útil •Relevante • Possui significado • Processo, estudo, ensaio a partir de dados
  • 9.
  • 10.
    Você já deveter ouvido falar: “Big Data é a solução do seu problema…”
  • 12.
    O MAIOR PROBLEMA DETI DA ATUALIDADE
  • 14.
  • 15.
    Dados, dados, muitos dados •Com o aumento de quantidade de dados • aumenta custos de processamento, logo mais gastos em infraestrutura • armazenamento de dados não é infinito, logo mais gastos com armazenamento e backup • Grande volume de dados aumenta consumo de banda de entrada e saída, ou seja, mais gastos… • tornar a informação disponível requer mais gastos • Orçamento não é infinito e geralmente é bem curto
  • 16.
  • 17.
  • 18.
    … e maisgastos
  • 19.
  • 20.
    O que ébig data? • Do inglês dado grande (literalmente) • Quando você muitos dados • uma porrada de dados • uma caralhada de dados • ou seja… • DADOS PRA CA!@#$%ˆ&*
  • 22.
    Thiago não pode escreverisso no slide… Então escreve ai:
  • 23.
    “Big Data éum termo para descrever um problema onde o fluxo de entrada de dados é maior que a capacidade de processa-los”
  • 25.
  • 26.
    Boeing 787 produzmeio terabyte de dados por vôo Fonte: http://www.computerworlduk.com/news/data/boeing-787s- create-half-terabyte-of-data-per-flight-says-virgin-atlantic-3433595/
  • 28.
    Se há problemae demanda precisa de uma solução
  • 29.
    Solução para BigData •Armazenamento • Processamento • Análise
  • 30.
    Solução para BigData •Armazenamento: • HDFS (Hadoop Distributed File System) • Banco de dados não estruturado (não relacional) • MongoDB • Cassandra • Neo4j
  • 31.
    Solução para BigData •Processamento: • Hadoop MapReduce • Apache Lucene • Solr • Elasticsearch (especialmente pra texto)
  • 32.
    Solução para BigData •Análise de dados: • Pentaho • Kibana • Graylog
  • 33.
    Curiosidade: Hadoop, Lucene, Solr, elasticsearchentre outras soluções Big Data
  • 36.
    Pra onde euvou • Engenheiro/Arquiteto de Informação • Cientista de dados • Analista de dados • Designer de BI • Analista de BI • Arquiteto de Cloud • Segurança da Informação
  • 39.
    Leituras interessantes • Umavisão universal sobre dados: 
 http://www.emc.com/leadership/digital-universe • Apache Hadoop: http://hadoop.apache.org/ • Apache Lucene: http://lucene.apache.org • Apache Solr: http://lucene.apache.org/solr/ • elasticsearch: https://www.elastic.co/products/elasticsearch • Kibana: https://www.elastic.co/products/kibana • Graylog: https://www.graylog.org/ • Pentaho: http://www.pentaho.com/ • Panorama de Big Data no Brasil: https://www.ibm.com/developerworks/community/blogs/bigdata/ entry/entrevista_com_cezar_taurion_o_estagio_atual_do_big_data_no_brasil • Você realmente sabe o que é Big Data: https://www.ibm.com/developerworks/community/blogs/ ctaurion/entry/voce_realmente_sabe_o_que_e_big_data
  • 40.
    Projetos do JavaNoroeste • Encontros regulares • Incentivo a contribuição da comunidade (Programa de treinamento para futuros palestrantes) (call 4 papers: http://bit.ly/javanoroeste-call-for-papers) • Slack (convite: javanoroeste-slack.herokuapp.com.br) • Novo Logo (votação: bit.ly/pesquisa-logo-javanoroeste) • Novo Site • Banco de currículos • Sistema de gerador de certificado • Entre outros
  • 42.
    Obrigado!!! Thiago Gonzaga Engenheiro deSoftware - Aurea Software @thiguetta