O documento descreve a evolução dos paradigmas da ciência, desde a ciência empírica há milhares de anos até as simulações complexas e a exploração de dados em grande volume nas últimas décadas. Também discute os desafios do "Big Data" ou grande volume de dados produzidos e a necessidade de iniciar análises a partir de problemas reais.
2. Paradígmas da Ciência
Milhares de Anos atrás:
- ciência empírica (descobrindo fenômenos naturais).
Centenas de anos atrás:
- teorias, generalizações, modelos (Galileo).
Últimas décadas:
- modelo computacional, simulações complexas.
Exploração de Dados (eScience):
- O Quarto Paradígma, um volume gigantesco de dados.
- Possibilidade de descobrir coisas sem ir ao laboratório.
3. Big Data ou Dilúvio de Dados
Produzimos massa de dados o tempo todo
(empresas, áreas de pesquisa).
Em todos os lugares em que estivermos,
estamos produzindo dados.
Produzimos muito, mas não conseguimos
processar no mesmo rítimo em que
produzimos.
Área científica apresenta problemas, NASA,
petabyte por minuto...
4. Google Trends
Curva de crescimento de uma determinada palavra.
Usado para descobrir tendências.
Fez muito sucesso quando do surgimento do H1N1,
quando a OMS saiu procurando no mundo todo
como a doença progredia.
O Google pegou a sua base de dados e fez uma
curva da busca por palavras, que deveriam ser
relacionadas aos sintomas da H1N1, e a curva de
crescimento era igual a que a OMS havia publicado.
A diferença mais impactante foi que o Google
conseguia coletar as informação OnLine em tempo
real.
5. Big Data DEVE Iniciar a Partir de Um Problema
Sequenciamento do Genoma Humano - 3.3
bilhões de pares bases.
Facebook em Maio 2013 com 1.11 bilhões de
pessoas conectadas (como tratar????).
6. Voce Sabia?
Uma viagem de trem pela Europa, gera mais dados do
que uma rede social com milhões de pessoas
conectadas.
Sensores, análise de sentimentos e IoT são os ítens
que mais geram dados do que a própria Web.
A GE através de BigData, descobriu que o medalhista
olímpico Izaquias, da canoagem, foi mais eficiente no
segundo trecho da disputa do que no primeiro. Com as
descobertas dos dados coletados tais como, batimentos
cardíacos, quantidade de remadas por segundo/minuto
em determinadas distâncias do percurso, tensão
muscular e energia gerada nos músculos, sua eficiência
deverá melhorar nas próximas disputas.
7. O Caso WalMart – Artigo de Linda Dillman
Em 2004 Wal-Mart começou a prever o que
aconteceria antes de acontecer.
Prever é importante (qual sanduíche sai mais,
que horas, que dia da semana).
Análise de Dados.
“... Nós não sabíamos, no passado, que cervejas
vendia-se muito mais antes da chegada de um
furacão, e que tortas de morango aumentavam as
vendas em 7 vezes após o fim da tormenta ...”
8. É Preciso Compartilhar o Conhecimento
A idéia de trocar conhecimento e tecnologia
com outras áreas para vencer diferentes
desafios, é a mais saúdável das maneiras
para chegar-se a grandes resultados.
9. Onde Usamos Big Data
Sistemas de Recomendação (comprei um produto, obtive
êxito e recomendei, avaliação do perfil da pessoa,
e-commerce).
Redes Sociais (Facebook, Instagram, LinkedIn, twitter,
Waze...).
Análise de Risco (Crédito, Seguros, Mercado Financeiro).
Dados Espaciais (Clima, Imagens, Tráfego,
Monitoramento).
Energia Fotovoltaica (é a energia elétrica produzida a partir
de luz solar, e pode ser produzida mesmo em dias nublados
ou chuvosos. Quanto maior for a radiação solar maior será a
quantidade de eletricidade produzida. Análise de Medições,
Estudos, Resultados).
10.
11.
12.
13. HC – Unicamp
A instituição realiza cerca de 2,6 milhões de
consultas e procedimentos ambulatoriais por
ano, mais de 3,3 milhões de exames, 15 mil
internações eletivas e de urgência e quase 15
mil cirurgias, o que equivale, em média, a 40
cirurgias diárias.
Fonte:
http://brasileiros.com.br/2016/08/hospital-da-
unicamp-cria-aplicativo-que-agiliza-o-
transporte-de-pacientes/
14. Como evoluiu o Big Data?
ERP -> CRM – Web -> Big Data
A solução de big data aparece dos 4 V's
quando você precisa de uma solução para:
- velocidade -> retorno rápido e com
conteúdo esperado.
- volume -> em que quantidade?
- variedade -> imagens, mapas, fotos,
filmes etc...
- valor -> algo a ganhar com a solução.
15. A Respeito dos 4 V's Temos:
Precisa de velocidade no processamento para o
grande volume armazenado... velocidade para
armazenar e velocidade para analisar os dados.
Quanto a variedade do que se armazena,
encontramos dados estrututados, semi-
estruturados (imagens, vídeos, logs, arquivos texto,
csv's, xml's), diversas fontes de dados. Lembra um
DW, no entanto, o DW é mais estruturado pois
passa por certos processos tais como: Cleaning,
Reformat, Data mining, ETL's, Cubos (modelo
multidimensional).
16. A Respeito dos 4 V's Temos:
Quanto ao volume, o montante chega a
pettabytes (PB), zettabytes (ZB), yottabytes (YB).
A idéia para se começar com Big Data começa na
casa dos pettabytes. Dá para trabalhar abaixo da
linha dos pettabytes, mas tem que ver se o 4 V's
são o problema que se apresenta.
Tem que ter valor e isso é mais importante:
tomada de decisão, objetivo do negócio,
benefícios. Visão ampla, por Exemplo: prontuários
hospitalares, diminuir criminalidades, aumentar
grau de educação do país etc... Qual a sua meta?
17. O 5º 'V'
Nem todos os dados gerados na internet
possuem valor para um negócio.
É preciso destacar o que é rico em conteúdo
em meio a tanta informação.
As vezes é necessário obter mais
informações que confirmem a veracidade do
que é apresentado.
18. Big Data x BI
Big Data é uma evolução do BI e devem caminhar
juntos.
DW's são necessários para armazenar dados
estruturados (Hoje em dia são mais específicos
nesse armazenamento).
Quanto a previsão:
– Big Data refere-se a uma Análise Geral.
– BI refere-se a casos específicos.
19. Data Lake
A expressão “Data Lake” tem um pai. James Dixon criou
o termo para falar de algo diferente dos dados que nos
chegam embalados, limpos e de consumo fácil: são os
dados em grandes volumes e em seu estado natural,
vindos de todos os tipos de fontes, onde os usuários
poderiam mergulhar e tirar amostras. Um lago cheio de
dados.
Ainda de acordo com Dixon, para que se tenha acesso a
um volume de dados tão grande e oriundo de fontes
diversas, é preciso construir uma nova forma de capturá-
los, processá-los e guardá-los. Mas, apesar de ser mais
difícil armazená-los, eles ampliam as possibilidades de
utilização.
Fonte: http://www.bigdatabusiness.com.br/o-que-e-data-lake/
21. Quem cuida de tudo isso?
Cientista de Dados: é o profissional que trabalha com
esse universo, com essa quantidade de informações e lhe
deve ser oferecido ferramental adequado para solucionar
os problemas.
Segundo o Gartner: (Dados de Jul/2015):
– Necessitaremos de 4.4 milhões de especialistas até 2015 (1.9M
América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacífico e América Latina).
– Estima-se que apenas 1/3 disso será preenchido (Gartner).
– No Brasil deverão surgir por volta de 500 mil vagas para
ambientes de Big Data.
– As universidade do Brasil ainda não oferecem graduação para
formação de Cientistas de Dados.
22. Quais as Competências de um Cientista de Dados?
sql, nosql, linguagens de programação, modelo
relacional, algebra, estatística, matemática, bi, etl,
mineração , map reduce.
Existe alguém com essa capaciade toda?
– Em nosso país apenas alguns; criou-se
equipes para atender big data, com
conhecimentos avançados e específicos.
23. Tendências
Área de big data
Área data science
Área de data discovery
De onde vem estes profissionais?
– Bancos de Dados, BI e segue para Big Data,
no entanto, a grande maioria desses
profissionais vem da área acadêmica ( 34%
são estudantes de computação e 27% de
áreas correlacionadas ).
24.
25. Ferramentas Open Source para Big Data
Apache Hadoop, SW que está gerando toda uma
indústria de serviços.
Projeto de Software Open Source escrito em Java;
Escalável, Confiável e com Processamento Distribuído.
File System Distribuído – HDFS.
Inspirado originalmente pelo GFS-> GoogleFS e
MapReduce da Google (Modelo de Programação).
Framework para computação distribuída.Infraestrutura
confiável.
Utiliza-se de HW comun (Commodity Cluster
Conmputing).
27. Motivações Atuais para Usar Hadoop
Grande quantidade ( MASSIVA ) de dados.
Dados não cabem em uma máquina.
Demora do processamento serial (aumento escalável dos clusters).
Máquinas individuais falham (hadoop está preparado
para atuar quando máquinas falham).
Computação nas nuvens (pronto para computação na nuvem).
Escalabilidade de aplicações.
Computação sob demanda.
28. Motivações Atuais para Usar Hadoop
Fundação Apache canal principal para ferramentas de
BigData (a frente de Oracle, HP, MicroSoft).
Apache é líder no mundo em Big Data.
Possui ~31 projetos de alta qualidade voltados para área
de big data incluindo Hadoop e Spark.
29. Ecossistema Hadoop
HDFS - Sistema de arquivos distribuídos que funcionam
em grandes aglomerados de máquinas de commodities.
Características:
– projetado para trabalhar com arquivos muito grandes e
grandes volumes.
– executado em hardware comum.
– streaming de acesso aos dados.
– replicação e localidade.
– projetado para escalar a petabytes de armazenamento.
executa em cima de arquivos do S.O.
– Tudo que se processa é distribuído. Não precisa saber como
isso está funcionando internamente. Além de ter o dado
distribuído, o processamento também é distribuído em todas
as máquinas paralelamente, agrupando o resultado e
devolvendo o resultado para o solicitante.
30. Ferramental
Map Reduce: é o conceito mais utilizado dentro do
Hadoop ... basicamente é quebrar os dados para
processar mais rapidamente. Necessita aprendizado para
se utilizar da programação necessária.
HBASE (NoSQL): banco de dados orientado por colunas
distribuídas. Utiliza o HDFS por sua subjacente de
armazenamento e suporta cálculos de estilo "lote",
MapReduce e vários pontos consultas (leituras aleatórias).
Além de ser distribuído, tem replicação e tem tolerância a
falhas.
31. Ferramental
Hive: armazém de dados (DW) distribuídos. Gerencia os
dados armazenados no HDFS e fornce uma linguagem de
consulta baseada em SQL para consultar estes dados.
Permite selects em arquivos e em bd's NoSQL (é uma
opção)...permite simplificar para o desenvolvedor acessos
aos arquivos que estão no Hadoop.
PIG: linguagem de fluxo de dados e ambiente de
execução para explorar grandes conjuntos de dados.
Executado no HDFS e grupos MapReduce. Permite fazer
scipts rápidos de consulta dentro do HDFS, e fazer
MapReduce de forma bastante simples. Da mesma forma
que você programa um shell script no Linux, pode ser feito
com o PIG.
32. Ferramental
MAHOUT: mineração de dados, algorítimos de
recomendação ou coisas similares, machine learning e
tem uma diversidade muito grande de algorítimos para
estas finalidades. Possui implementação para
armazenamento em cluster, categorização, CF e
programação evolucionária.
ZOOKEEPER: ferramenta que coordena toda esse
ecosistema hadoop. Desbloqueio de sistemas distribuídos
para fazer o controle da aplicação.
Sqoop: similar ao ETL, é um SQL para hadoop que tira
dados de sql e joga prá dentro do HDFS.
33. Ferramental
Apache Cassandra: NoSQL database, originalmente
criado pelo Facebook, mantido por Apache e outras
empresas. Banco de dados distribuído baseado no modelo
BigTable do Google e no sistema de armazenamento
Dynamo da Amazon.com. Para um ambiente Big Data,
nesse caso, ou usa-se Cassandra ou HBASE.
Projeto APACHE SPARK:
- Projeto da Apache que pretende ser mais rápido que o
Hadoop.
- 100x mais rápido em memória que hadoop e 10x mais
rápido em disco. Pretende fazer muitas coisas em real
time
- Programação com Scala, Java, Python, R.
34. Exibições dos Resultados
Para mostrar as soluções finais aos usuários, tem-se
utilizado @pentahoo:
– Solução de BI Open Source.
– Community Edition.
– Solução completa de BI e BA:
(ETL, Reporting, Mineração, OLAP, Dashboards)
35. Recomendações
Sempre comece com o problema, NÃO com os dados.
Compartilhe dados para receber dados.
Suporte gerencial e executivo.
Orçamento suficiente.
Melhores parceiros e fornecedores podem lhe ajudar.
36. BIG DATA "... é hoje o que era o Linux em
1991. Sabemos que é algo revolucionário,
mas não sabemos o quanto..."
37. Muito Obrigado !!!!
Ronie Ramos de Oliveira
Especialista em Bancos de Dados – Brasília-DF
DB2 9.7 DBA for LUW
DB2 9 Advanced Database Administrator for LUW
DB2 9 DBA for Linux, UNIX and Windows
Certified for IBM Academic Associate - DB2 9 Database and
Application Fundamentals