SlideShare uma empresa Scribd logo
1 de 37
Paradígmas da Ciência

Milhares de Anos atrás:
- ciência empírica (descobrindo fenômenos naturais).

Centenas de anos atrás:
- teorias, generalizações, modelos (Galileo).

Últimas décadas:
- modelo computacional, simulações complexas.

Exploração de Dados (eScience):
- O Quarto Paradígma, um volume gigantesco de dados.
- Possibilidade de descobrir coisas sem ir ao laboratório.
Big Data ou Dilúvio de Dados

Produzimos massa de dados o tempo todo
(empresas, áreas de pesquisa).

Em todos os lugares em que estivermos,
estamos produzindo dados.

Produzimos muito, mas não conseguimos
processar no mesmo rítimo em que
produzimos.

Área científica apresenta problemas, NASA,
petabyte por minuto...
Google Trends

Curva de crescimento de uma determinada palavra.
Usado para descobrir tendências.

Fez muito sucesso quando do surgimento do H1N1,
quando a OMS saiu procurando no mundo todo
como a doença progredia.

O Google pegou a sua base de dados e fez uma
curva da busca por palavras, que deveriam ser
relacionadas aos sintomas da H1N1, e a curva de
crescimento era igual a que a OMS havia publicado.

A diferença mais impactante foi que o Google
conseguia coletar as informação OnLine em tempo
real.
Big Data DEVE Iniciar a Partir de Um Problema

Sequenciamento do Genoma Humano - 3.3
bilhões de pares bases.

Facebook em Maio 2013 com 1.11 bilhões de
pessoas conectadas (como tratar????).
Voce Sabia?

Uma viagem de trem pela Europa, gera mais dados do
que uma rede social com milhões de pessoas
conectadas.

Sensores, análise de sentimentos e IoT são os ítens
que mais geram dados do que a própria Web.

A GE através de BigData, descobriu que o medalhista
olímpico Izaquias, da canoagem, foi mais eficiente no
segundo trecho da disputa do que no primeiro. Com as
descobertas dos dados coletados tais como, batimentos
cardíacos, quantidade de remadas por segundo/minuto
em determinadas distâncias do percurso, tensão
muscular e energia gerada nos músculos, sua eficiência
deverá melhorar nas próximas disputas.
O Caso WalMart – Artigo de Linda Dillman

Em 2004 Wal-Mart começou a prever o que
aconteceria antes de acontecer.

Prever é importante (qual sanduíche sai mais,
que horas, que dia da semana).

Análise de Dados.

“... Nós não sabíamos, no passado, que cervejas
vendia-se muito mais antes da chegada de um
furacão, e que tortas de morango aumentavam as
vendas em 7 vezes após o fim da tormenta ...”
É Preciso Compartilhar o Conhecimento

A idéia de trocar conhecimento e tecnologia
com outras áreas para vencer diferentes
desafios, é a mais saúdável das maneiras
para chegar-se a grandes resultados.
Onde Usamos Big Data

Sistemas de Recomendação (comprei um produto, obtive
êxito e recomendei, avaliação do perfil da pessoa,
e-commerce).

Redes Sociais (Facebook, Instagram, LinkedIn, twitter,
Waze...).

Análise de Risco (Crédito, Seguros, Mercado Financeiro).

Dados Espaciais (Clima, Imagens, Tráfego,
Monitoramento).

Energia Fotovoltaica (é a energia elétrica produzida a partir
de luz solar, e pode ser produzida mesmo em dias nublados
ou chuvosos. Quanto maior for a radiação solar maior será a
quantidade de eletricidade produzida. Análise de Medições,
Estudos, Resultados).
HC – Unicamp

A instituição realiza cerca de 2,6 milhões de
consultas e procedimentos ambulatoriais por
ano, mais de 3,3 milhões de exames, 15 mil
internações eletivas e de urgência e quase 15
mil cirurgias, o que equivale, em média, a 40
cirurgias diárias.

Fonte:
http://brasileiros.com.br/2016/08/hospital-da-
unicamp-cria-aplicativo-que-agiliza-o-
transporte-de-pacientes/
Como evoluiu o Big Data?

ERP -> CRM – Web -> Big Data

A solução de big data aparece dos 4 V's
quando você precisa de uma solução para:
- velocidade -> retorno rápido e com
conteúdo esperado.
- volume -> em que quantidade?
- variedade -> imagens, mapas, fotos,
filmes etc...
- valor -> algo a ganhar com a solução.
A Respeito dos 4 V's Temos:

Precisa de velocidade no processamento para o
grande volume armazenado... velocidade para
armazenar e velocidade para analisar os dados.

Quanto a variedade do que se armazena,
encontramos dados estrututados, semi-
estruturados (imagens, vídeos, logs, arquivos texto,
csv's, xml's), diversas fontes de dados. Lembra um
DW, no entanto, o DW é mais estruturado pois
passa por certos processos tais como: Cleaning,
Reformat, Data mining, ETL's, Cubos (modelo
multidimensional).
A Respeito dos 4 V's Temos:

Quanto ao volume, o montante chega a
pettabytes (PB), zettabytes (ZB), yottabytes (YB).

A idéia para se começar com Big Data começa na
casa dos pettabytes. Dá para trabalhar abaixo da
linha dos pettabytes, mas tem que ver se o 4 V's
são o problema que se apresenta.

Tem que ter valor e isso é mais importante:
tomada de decisão, objetivo do negócio,
benefícios. Visão ampla, por Exemplo: prontuários
hospitalares, diminuir criminalidades, aumentar
grau de educação do país etc... Qual a sua meta?
O 5º 'V'

Nem todos os dados gerados na internet
possuem valor para um negócio.

É preciso destacar o que é rico em conteúdo
em meio a tanta informação.

As vezes é necessário obter mais
informações que confirmem a veracidade do
que é apresentado.
Big Data x BI

Big Data é uma evolução do BI e devem caminhar
juntos.

DW's são necessários para armazenar dados
estruturados (Hoje em dia são mais específicos
nesse armazenamento).

Quanto a previsão:
– Big Data refere-se a uma Análise Geral.
– BI refere-se a casos específicos.
Data Lake

A expressão “Data Lake” tem um pai. James Dixon criou
o termo para falar de algo diferente dos dados que nos
chegam embalados, limpos e de consumo fácil: são os
dados em grandes volumes e em seu estado natural,
vindos de todos os tipos de fontes, onde os usuários
poderiam mergulhar e tirar amostras. Um lago cheio de
dados.

Ainda de acordo com Dixon, para que se tenha acesso a
um volume de dados tão grande e oriundo de fontes
diversas, é preciso construir uma nova forma de capturá-
los, processá-los e guardá-los. Mas, apesar de ser mais
difícil armazená-los, eles ampliam as possibilidades de
utilização.
Fonte: http://www.bigdatabusiness.com.br/o-que-e-data-lake/
DATA LAKE
Quem cuida de tudo isso?

Cientista de Dados: é o profissional que trabalha com
esse universo, com essa quantidade de informações e lhe
deve ser oferecido ferramental adequado para solucionar
os problemas.

Segundo o Gartner: (Dados de Jul/2015):
– Necessitaremos de 4.4 milhões de especialistas até 2015 (1.9M
América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacífico e América Latina).
– Estima-se que apenas 1/3 disso será preenchido (Gartner).
– No Brasil deverão surgir por volta de 500 mil vagas para
ambientes de Big Data.
– As universidade do Brasil ainda não oferecem graduação para
formação de Cientistas de Dados.
Quais as Competências de um Cientista de Dados?

sql, nosql, linguagens de programação, modelo
relacional, algebra, estatística, matemática, bi, etl,
mineração , map reduce.

Existe alguém com essa capaciade toda?
– Em nosso país apenas alguns; criou-se
equipes para atender big data, com
conhecimentos avançados e específicos.
Tendências

Área de big data

Área data science

Área de data discovery

De onde vem estes profissionais?
– Bancos de Dados, BI e segue para Big Data,
no entanto, a grande maioria desses
profissionais vem da área acadêmica ( 34%
são estudantes de computação e 27% de
áreas correlacionadas ).
Ferramentas Open Source para Big Data

Apache Hadoop, SW que está gerando toda uma
indústria de serviços.

Projeto de Software Open Source escrito em Java;
Escalável, Confiável e com Processamento Distribuído.

File System Distribuído – HDFS.

Inspirado originalmente pelo GFS-> GoogleFS e
MapReduce da Google (Modelo de Programação).

Framework para computação distribuída.Infraestrutura
confiável.

Utiliza-se de HW comun (Commodity Cluster
Conmputing).
Distribuições Hadoop

Open Source
– Apache

Commercial Open Source
– Cloudera
– HortoWorks
– MapR
– AWR MapReduce
Motivações Atuais para Usar Hadoop

Grande quantidade ( MASSIVA ) de dados.

Dados não cabem em uma máquina.

Demora do processamento serial (aumento escalável dos clusters).

Máquinas individuais falham (hadoop está preparado
para atuar quando máquinas falham).

Computação nas nuvens (pronto para computação na nuvem).

Escalabilidade de aplicações.

Computação sob demanda.
Motivações Atuais para Usar Hadoop

Fundação Apache canal principal para ferramentas de
BigData (a frente de Oracle, HP, MicroSoft).

Apache é líder no mundo em Big Data.

Possui ~31 projetos de alta qualidade voltados para área
de big data incluindo Hadoop e Spark.
Ecossistema Hadoop

HDFS - Sistema de arquivos distribuídos que funcionam
em grandes aglomerados de máquinas de commodities.

Características:
– projetado para trabalhar com arquivos muito grandes e
grandes volumes.
– executado em hardware comum.
– streaming de acesso aos dados.
– replicação e localidade.
– projetado para escalar a petabytes de armazenamento.
executa em cima de arquivos do S.O.
– Tudo que se processa é distribuído. Não precisa saber como
isso está funcionando internamente. Além de ter o dado
distribuído, o processamento também é distribuído em todas
as máquinas paralelamente, agrupando o resultado e
devolvendo o resultado para o solicitante.
Ferramental

Map Reduce: é o conceito mais utilizado dentro do
Hadoop ... basicamente é quebrar os dados para
processar mais rapidamente. Necessita aprendizado para
se utilizar da programação necessária.

HBASE (NoSQL): banco de dados orientado por colunas
distribuídas. Utiliza o HDFS por sua subjacente de
armazenamento e suporta cálculos de estilo "lote",
MapReduce e vários pontos consultas (leituras aleatórias).
Além de ser distribuído, tem replicação e tem tolerância a
falhas.
Ferramental

Hive: armazém de dados (DW) distribuídos. Gerencia os
dados armazenados no HDFS e fornce uma linguagem de
consulta baseada em SQL para consultar estes dados.
Permite selects em arquivos e em bd's NoSQL (é uma
opção)...permite simplificar para o desenvolvedor acessos
aos arquivos que estão no Hadoop.

PIG: linguagem de fluxo de dados e ambiente de
execução para explorar grandes conjuntos de dados.
Executado no HDFS e grupos MapReduce. Permite fazer
scipts rápidos de consulta dentro do HDFS, e fazer
MapReduce de forma bastante simples. Da mesma forma
que você programa um shell script no Linux, pode ser feito
com o PIG.
Ferramental

MAHOUT: mineração de dados, algorítimos de
recomendação ou coisas similares, machine learning e
tem uma diversidade muito grande de algorítimos para
estas finalidades. Possui implementação para
armazenamento em cluster, categorização, CF e
programação evolucionária.

ZOOKEEPER: ferramenta que coordena toda esse
ecosistema hadoop. Desbloqueio de sistemas distribuídos
para fazer o controle da aplicação.

Sqoop: similar ao ETL, é um SQL para hadoop que tira
dados de sql e joga prá dentro do HDFS.
Ferramental

Apache Cassandra: NoSQL database, originalmente
criado pelo Facebook, mantido por Apache e outras
empresas. Banco de dados distribuído baseado no modelo
BigTable do Google e no sistema de armazenamento
Dynamo da Amazon.com. Para um ambiente Big Data,
nesse caso, ou usa-se Cassandra ou HBASE.

Projeto APACHE SPARK:
- Projeto da Apache que pretende ser mais rápido que o
Hadoop.
- 100x mais rápido em memória que hadoop e 10x mais
rápido em disco. Pretende fazer muitas coisas em real
time
- Programação com Scala, Java, Python, R.
Exibições dos Resultados

Para mostrar as soluções finais aos usuários, tem-se
utilizado @pentahoo:
– Solução de BI Open Source.
– Community Edition.
– Solução completa de BI e BA:
(ETL, Reporting, Mineração, OLAP, Dashboards)
Recomendações

Sempre comece com o problema, NÃO com os dados.

Compartilhe dados para receber dados.

Suporte gerencial e executivo.

Orçamento suficiente.

Melhores parceiros e fornecedores podem lhe ajudar.
BIG DATA "... é hoje o que era o Linux em
1991. Sabemos que é algo revolucionário,
mas não sabemos o quanto..."
Muito Obrigado !!!!
Ronie Ramos de Oliveira
Especialista em Bancos de Dados – Brasília-DF
DB2 9.7 DBA for LUW
DB2 9 Advanced Database Administrator for LUW
DB2 9 DBA for Linux, UNIX and Windows
Certified for IBM Academic Associate - DB2 9 Database and
Application Fundamentals

Mais conteúdo relacionado

Mais procurados

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus ImpactosAlex Silva
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisSérgio Dias
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Big Data Analytics em Governo
Big Data Analytics em GovernoBig Data Analytics em Governo
Big Data Analytics em GovernoSérgio Dias
 

Mais procurados (20)

Big Data
Big DataBig Data
Big Data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Big data
Big dataBig data
Big data
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus Impactos
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Big Data e NoSQL
Big Data e NoSQLBig Data e NoSQL
Big Data e NoSQL
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionais
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
O que é Data Science?
O que é Data Science?O que é Data Science?
O que é Data Science?
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Big Data Analytics em Governo
Big Data Analytics em GovernoBig Data Analytics em Governo
Big Data Analytics em Governo
 

Semelhante a Paradigmas da Ciência e Big Data

aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 
Palestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoPalestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoSCIP Brasil
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Ciro Cavani
 

Semelhante a Paradigmas da Ciência e Big Data (20)

aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Big Data
Big DataBig Data
Big Data
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big data
Big dataBig data
Big data
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
Palestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e EvoluçãoPalestra SCIP - Big Data: Conceitos e Evolução
Palestra SCIP - Big Data: Conceitos e Evolução
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
BigData
BigDataBigData
BigData
 
Clusters
ClustersClusters
Clusters
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
 
Pesquisa sobre no sql
Pesquisa sobre no sqlPesquisa sobre no sql
Pesquisa sobre no sql
 
Data is the new oil
Data is the new oilData is the new oil
Data is the new oil
 

Paradigmas da Ciência e Big Data

  • 1.
  • 2. Paradígmas da Ciência  Milhares de Anos atrás: - ciência empírica (descobrindo fenômenos naturais).  Centenas de anos atrás: - teorias, generalizações, modelos (Galileo).  Últimas décadas: - modelo computacional, simulações complexas.  Exploração de Dados (eScience): - O Quarto Paradígma, um volume gigantesco de dados. - Possibilidade de descobrir coisas sem ir ao laboratório.
  • 3. Big Data ou Dilúvio de Dados  Produzimos massa de dados o tempo todo (empresas, áreas de pesquisa).  Em todos os lugares em que estivermos, estamos produzindo dados.  Produzimos muito, mas não conseguimos processar no mesmo rítimo em que produzimos.  Área científica apresenta problemas, NASA, petabyte por minuto...
  • 4. Google Trends  Curva de crescimento de uma determinada palavra. Usado para descobrir tendências.  Fez muito sucesso quando do surgimento do H1N1, quando a OMS saiu procurando no mundo todo como a doença progredia.  O Google pegou a sua base de dados e fez uma curva da busca por palavras, que deveriam ser relacionadas aos sintomas da H1N1, e a curva de crescimento era igual a que a OMS havia publicado.  A diferença mais impactante foi que o Google conseguia coletar as informação OnLine em tempo real.
  • 5. Big Data DEVE Iniciar a Partir de Um Problema  Sequenciamento do Genoma Humano - 3.3 bilhões de pares bases.  Facebook em Maio 2013 com 1.11 bilhões de pessoas conectadas (como tratar????).
  • 6. Voce Sabia?  Uma viagem de trem pela Europa, gera mais dados do que uma rede social com milhões de pessoas conectadas.  Sensores, análise de sentimentos e IoT são os ítens que mais geram dados do que a própria Web.  A GE através de BigData, descobriu que o medalhista olímpico Izaquias, da canoagem, foi mais eficiente no segundo trecho da disputa do que no primeiro. Com as descobertas dos dados coletados tais como, batimentos cardíacos, quantidade de remadas por segundo/minuto em determinadas distâncias do percurso, tensão muscular e energia gerada nos músculos, sua eficiência deverá melhorar nas próximas disputas.
  • 7. O Caso WalMart – Artigo de Linda Dillman  Em 2004 Wal-Mart começou a prever o que aconteceria antes de acontecer.  Prever é importante (qual sanduíche sai mais, que horas, que dia da semana).  Análise de Dados.  “... Nós não sabíamos, no passado, que cervejas vendia-se muito mais antes da chegada de um furacão, e que tortas de morango aumentavam as vendas em 7 vezes após o fim da tormenta ...”
  • 8. É Preciso Compartilhar o Conhecimento  A idéia de trocar conhecimento e tecnologia com outras áreas para vencer diferentes desafios, é a mais saúdável das maneiras para chegar-se a grandes resultados.
  • 9. Onde Usamos Big Data  Sistemas de Recomendação (comprei um produto, obtive êxito e recomendei, avaliação do perfil da pessoa, e-commerce).  Redes Sociais (Facebook, Instagram, LinkedIn, twitter, Waze...).  Análise de Risco (Crédito, Seguros, Mercado Financeiro).  Dados Espaciais (Clima, Imagens, Tráfego, Monitoramento).  Energia Fotovoltaica (é a energia elétrica produzida a partir de luz solar, e pode ser produzida mesmo em dias nublados ou chuvosos. Quanto maior for a radiação solar maior será a quantidade de eletricidade produzida. Análise de Medições, Estudos, Resultados).
  • 10.
  • 11.
  • 12.
  • 13. HC – Unicamp  A instituição realiza cerca de 2,6 milhões de consultas e procedimentos ambulatoriais por ano, mais de 3,3 milhões de exames, 15 mil internações eletivas e de urgência e quase 15 mil cirurgias, o que equivale, em média, a 40 cirurgias diárias.  Fonte: http://brasileiros.com.br/2016/08/hospital-da- unicamp-cria-aplicativo-que-agiliza-o- transporte-de-pacientes/
  • 14. Como evoluiu o Big Data?  ERP -> CRM – Web -> Big Data  A solução de big data aparece dos 4 V's quando você precisa de uma solução para: - velocidade -> retorno rápido e com conteúdo esperado. - volume -> em que quantidade? - variedade -> imagens, mapas, fotos, filmes etc... - valor -> algo a ganhar com a solução.
  • 15. A Respeito dos 4 V's Temos:  Precisa de velocidade no processamento para o grande volume armazenado... velocidade para armazenar e velocidade para analisar os dados.  Quanto a variedade do que se armazena, encontramos dados estrututados, semi- estruturados (imagens, vídeos, logs, arquivos texto, csv's, xml's), diversas fontes de dados. Lembra um DW, no entanto, o DW é mais estruturado pois passa por certos processos tais como: Cleaning, Reformat, Data mining, ETL's, Cubos (modelo multidimensional).
  • 16. A Respeito dos 4 V's Temos:  Quanto ao volume, o montante chega a pettabytes (PB), zettabytes (ZB), yottabytes (YB).  A idéia para se começar com Big Data começa na casa dos pettabytes. Dá para trabalhar abaixo da linha dos pettabytes, mas tem que ver se o 4 V's são o problema que se apresenta.  Tem que ter valor e isso é mais importante: tomada de decisão, objetivo do negócio, benefícios. Visão ampla, por Exemplo: prontuários hospitalares, diminuir criminalidades, aumentar grau de educação do país etc... Qual a sua meta?
  • 17. O 5º 'V'  Nem todos os dados gerados na internet possuem valor para um negócio.  É preciso destacar o que é rico em conteúdo em meio a tanta informação.  As vezes é necessário obter mais informações que confirmem a veracidade do que é apresentado.
  • 18. Big Data x BI  Big Data é uma evolução do BI e devem caminhar juntos.  DW's são necessários para armazenar dados estruturados (Hoje em dia são mais específicos nesse armazenamento).  Quanto a previsão: – Big Data refere-se a uma Análise Geral. – BI refere-se a casos específicos.
  • 19. Data Lake  A expressão “Data Lake” tem um pai. James Dixon criou o termo para falar de algo diferente dos dados que nos chegam embalados, limpos e de consumo fácil: são os dados em grandes volumes e em seu estado natural, vindos de todos os tipos de fontes, onde os usuários poderiam mergulhar e tirar amostras. Um lago cheio de dados.  Ainda de acordo com Dixon, para que se tenha acesso a um volume de dados tão grande e oriundo de fontes diversas, é preciso construir uma nova forma de capturá- los, processá-los e guardá-los. Mas, apesar de ser mais difícil armazená-los, eles ampliam as possibilidades de utilização. Fonte: http://www.bigdatabusiness.com.br/o-que-e-data-lake/
  • 21. Quem cuida de tudo isso?  Cientista de Dados: é o profissional que trabalha com esse universo, com essa quantidade de informações e lhe deve ser oferecido ferramental adequado para solucionar os problemas.  Segundo o Gartner: (Dados de Jul/2015): – Necessitaremos de 4.4 milhões de especialistas até 2015 (1.9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacífico e América Latina). – Estima-se que apenas 1/3 disso será preenchido (Gartner). – No Brasil deverão surgir por volta de 500 mil vagas para ambientes de Big Data. – As universidade do Brasil ainda não oferecem graduação para formação de Cientistas de Dados.
  • 22. Quais as Competências de um Cientista de Dados?  sql, nosql, linguagens de programação, modelo relacional, algebra, estatística, matemática, bi, etl, mineração , map reduce.  Existe alguém com essa capaciade toda? – Em nosso país apenas alguns; criou-se equipes para atender big data, com conhecimentos avançados e específicos.
  • 23. Tendências  Área de big data  Área data science  Área de data discovery  De onde vem estes profissionais? – Bancos de Dados, BI e segue para Big Data, no entanto, a grande maioria desses profissionais vem da área acadêmica ( 34% são estudantes de computação e 27% de áreas correlacionadas ).
  • 24.
  • 25. Ferramentas Open Source para Big Data  Apache Hadoop, SW que está gerando toda uma indústria de serviços.  Projeto de Software Open Source escrito em Java; Escalável, Confiável e com Processamento Distribuído.  File System Distribuído – HDFS.  Inspirado originalmente pelo GFS-> GoogleFS e MapReduce da Google (Modelo de Programação).  Framework para computação distribuída.Infraestrutura confiável.  Utiliza-se de HW comun (Commodity Cluster Conmputing).
  • 26. Distribuições Hadoop  Open Source – Apache  Commercial Open Source – Cloudera – HortoWorks – MapR – AWR MapReduce
  • 27. Motivações Atuais para Usar Hadoop  Grande quantidade ( MASSIVA ) de dados.  Dados não cabem em uma máquina.  Demora do processamento serial (aumento escalável dos clusters).  Máquinas individuais falham (hadoop está preparado para atuar quando máquinas falham).  Computação nas nuvens (pronto para computação na nuvem).  Escalabilidade de aplicações.  Computação sob demanda.
  • 28. Motivações Atuais para Usar Hadoop  Fundação Apache canal principal para ferramentas de BigData (a frente de Oracle, HP, MicroSoft).  Apache é líder no mundo em Big Data.  Possui ~31 projetos de alta qualidade voltados para área de big data incluindo Hadoop e Spark.
  • 29. Ecossistema Hadoop  HDFS - Sistema de arquivos distribuídos que funcionam em grandes aglomerados de máquinas de commodities.  Características: – projetado para trabalhar com arquivos muito grandes e grandes volumes. – executado em hardware comum. – streaming de acesso aos dados. – replicação e localidade. – projetado para escalar a petabytes de armazenamento. executa em cima de arquivos do S.O. – Tudo que se processa é distribuído. Não precisa saber como isso está funcionando internamente. Além de ter o dado distribuído, o processamento também é distribuído em todas as máquinas paralelamente, agrupando o resultado e devolvendo o resultado para o solicitante.
  • 30. Ferramental  Map Reduce: é o conceito mais utilizado dentro do Hadoop ... basicamente é quebrar os dados para processar mais rapidamente. Necessita aprendizado para se utilizar da programação necessária.  HBASE (NoSQL): banco de dados orientado por colunas distribuídas. Utiliza o HDFS por sua subjacente de armazenamento e suporta cálculos de estilo "lote", MapReduce e vários pontos consultas (leituras aleatórias). Além de ser distribuído, tem replicação e tem tolerância a falhas.
  • 31. Ferramental  Hive: armazém de dados (DW) distribuídos. Gerencia os dados armazenados no HDFS e fornce uma linguagem de consulta baseada em SQL para consultar estes dados. Permite selects em arquivos e em bd's NoSQL (é uma opção)...permite simplificar para o desenvolvedor acessos aos arquivos que estão no Hadoop.  PIG: linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados. Executado no HDFS e grupos MapReduce. Permite fazer scipts rápidos de consulta dentro do HDFS, e fazer MapReduce de forma bastante simples. Da mesma forma que você programa um shell script no Linux, pode ser feito com o PIG.
  • 32. Ferramental  MAHOUT: mineração de dados, algorítimos de recomendação ou coisas similares, machine learning e tem uma diversidade muito grande de algorítimos para estas finalidades. Possui implementação para armazenamento em cluster, categorização, CF e programação evolucionária.  ZOOKEEPER: ferramenta que coordena toda esse ecosistema hadoop. Desbloqueio de sistemas distribuídos para fazer o controle da aplicação.  Sqoop: similar ao ETL, é um SQL para hadoop que tira dados de sql e joga prá dentro do HDFS.
  • 33. Ferramental  Apache Cassandra: NoSQL database, originalmente criado pelo Facebook, mantido por Apache e outras empresas. Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com. Para um ambiente Big Data, nesse caso, ou usa-se Cassandra ou HBASE.  Projeto APACHE SPARK: - Projeto da Apache que pretende ser mais rápido que o Hadoop. - 100x mais rápido em memória que hadoop e 10x mais rápido em disco. Pretende fazer muitas coisas em real time - Programação com Scala, Java, Python, R.
  • 34. Exibições dos Resultados  Para mostrar as soluções finais aos usuários, tem-se utilizado @pentahoo: – Solução de BI Open Source. – Community Edition. – Solução completa de BI e BA: (ETL, Reporting, Mineração, OLAP, Dashboards)
  • 35. Recomendações  Sempre comece com o problema, NÃO com os dados.  Compartilhe dados para receber dados.  Suporte gerencial e executivo.  Orçamento suficiente.  Melhores parceiros e fornecedores podem lhe ajudar.
  • 36. BIG DATA "... é hoje o que era o Linux em 1991. Sabemos que é algo revolucionário, mas não sabemos o quanto..."
  • 37. Muito Obrigado !!!! Ronie Ramos de Oliveira Especialista em Bancos de Dados – Brasília-DF DB2 9.7 DBA for LUW DB2 9 Advanced Database Administrator for LUW DB2 9 DBA for Linux, UNIX and Windows Certified for IBM Academic Associate - DB2 9 Database and Application Fundamentals