B ig Data, o que é iss o? O que é isso?
Rafaela Raganham 
● Formada em Sistemas de Informação, pela 
Faculdades Integradas do Brasil (Unibrasil). 
●MBA Business Intelligence (Positivo) 
● Palestrante FISL, FTSL, SFD e Solisc 
Desempenha funções de análise e 
desenvolvimento de sistemas desde 2008, 
atualmente trabalha na Ambiente Livre 
Tecnologia onde presta serviços de 
desenvolvimento, customizações e consultoria 
em sistemas open source.
Ecosistema
Todo mundo está falando sobre Big Data
Nossa sociedade está deixando para trás uma 
pegada digital. 
As pessoas estão vivendo em linha e todos estamos 
expressando nossas atitudes, gostos, desgostos, opiniões 
e perspectivas.
Indivíduos com smartphones e sites de redes sociais 
continuarão a impulsionar o crescimento de dados 
exponencialmente
• 90% dos dados no mundo de hoje foram criados nos 
últimos dois anos 
• Previsão IDC: O universo global de dados irá dobrar a 
cada dois anos, chegando a 40 mil exabytes ou de 40 
trilhões de GB até 2020 
• Internet Archive tem em torno de 2 petabytes de dados, 
e está crescendo a uma taxa de 20 terabytes por mês. 
• 30 bilhões de conteúdos foram adicionados ao 
Facebook 
• 2 bilhões de vídeos são vistos no Youtube 
• 2,5 quintilhões de bytes de dados é criado
● Então o que é BIG DATA ?!
"Big Data é a capacidade de uma empresa para armazenar, processar 
e acessar todos os dados de que necessita para funcionar, tomar 
decisões, reduzir riscos, e servir os clientes." - Forrester 
"Big Data, em geral, é definido como alto volume, velocidade e 
variedade ativos de informação que exigem formas eficazes e 
inovadoras de custos de processamento de informações para uma 
melhor percepção e tomada de decisão." - Gartner 
"Big data são os dados caracterizados por três atributos: volume, 
variedade e velocidade." - IBM 
"Big data são os dados caracterizados por quatro atributos principais: 
volume, variedade, velocidade e valor." - Oracle
Byte: um grão de arroz
Byte: um grão de arroz 
Kilobyte: xícara de arroz
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios com containers
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios com containers 
Petabyte: Estado de Manhattan
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios de containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios de containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios de containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico 
Yottabyte: A TERRA
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios de containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico 
Yottabyte: A TERRA 
 
Hobbyist
Byte: um grão de arroz 
 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios com containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico 
Yottabyte: A TERRA 
Hobbyist 
Desktop
Byte: um grão de arroz 
 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios com containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico 
Yottabyte: A TERRA 
Hobbyist 
Desktop 
Internet
Byte: um grão de arroz 
 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios com containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico 
Yottabyte: A TERRA 
Hobbyist 
Desktop 
Internet 
Big Data
Byte: um grão de arroz 
Kilobyte: xícara de arroz 
Megabyte: 8 sacos de arroz 
Gigabyte: 3 caminhões de arroz 
Terabyte: 2 navios de containers 
Petabyte: Estado de Manhattan 
Exabyte: Costa oeste 
Zettabyte: Oceano Pacífico 
Yottabyte: A TERRA
Volume refere-se a grande 
quantidade de dados gerados a 
cada segundo. 
Isso faz com que a maioria dos 
conjuntos de dados sejam muito 
grandes para armazenar e 
analisar usando a tecnologia de 
banco de dados tradicional. 
Novas ferramentas de Big Data 
utilizam sistemas distribuídos de 
modo que podemos armazenar e 
analisar os dados entre bancos de 
dados que estão espalhados em 
qualquer lugar do mundo
Velocidade refere-se à velocidade 
com que os novos dados são 
gerados e a velocidade com que 
se move em torno de dados. 
Basta pensar em mensagens de 
mídia social que se tornam viral 
em segundos. A tecnologia nos 
permite agora a analisar os dados 
enquanto ele está sendo gerado 
(por vezes referido como 
inMemory analytics), sem nunca 
colocá-lo em bases de dados
Variedade refere-se aos diferentes 
tipos de dados que podemos agora 
utilizar. No passado, apenas eram 
usados dados estruturados 
cuidadosamente armazenados em 
bancos de dados relacionais. 
80% dos dados do mundo são 
não-estruturados (texto, imagens, 
vídeo, voz, etc) com grande 
tecnologia de dados, podemos 
agora analisar e reunir dados de 
diferentes tipos, tais como 
mensagens, conversas de mídia 
social, fotos, dados do sensor , 
vídeo ou gravações de voz.
Veracidade refere-se a 
confiabilidade dos dados. Com 
muitas formas de grandes 
qualidades e precisão dos dados 
são menos controláveis ( basta 
pensar em posts no Twitter com 
hash tags, abreviações, erros de 
digitação e linguagem coloquial, 
bem como a confiabilidade e a 
precisão do conteúdo), mas agora 
a tecnologia permite-nos trabalhar 
com este tipo de dados . 
Veracidade
Valor! Ter acesso a big data 
não é bom a menos que 
possamos transformá-lo em 
valor. As empresas estão 
começando a gerar valores 
incríveis com Big Data 
Valor
Compreensão e segmentação de clientes 
Entendimento e otimização de processos de negócios 
● Quantificação pessoal e otimização de desempenho 
● Melhorar a Saúde e Saúde Pública 
● Melhorando o desempenho Sports 
● Melhorar a Ciência e Investigação 
● Otimização de máquinas e dispositivos de desempenho 
● Melhorar a segurança e aplicação da lei. 
● 
● Melhorar e optimizar Cidades e Países 
● 
● Negociação financeira
• Compreensão e segmentação de clientes 
• 
• O grande objetivo, em muitos casos, é a criação de modelos 
preditivos 
• 
• → Empresas de seguros de automóveis entender o quão bem os 
seus clientes realmente podem conduzir 
• → Campanhas eleitorais do governo podem ser otimizada 
utilizando grandes análise de dados 
• 
• Entendimento e otimização de processos de negócios 
• Big data também é cada vez mais utilizada para otimizar 
processos de negócios. Os varejistas são capazes de otimizar 
suas ações com base em previsões geradas a partir de dados de 
mídia social, as tendências de pesquisa na web e previsões 
meteorológicas. 
•
● Quantificação pessoal e otimização de desempenho 
• 
• Podemos nos beneficiar dos dados gerados a partir de 
dispositivos portáteis, tais como relógios inteligentes ou pulseiras 
inteligentes 
• 
• A outra área em que nos beneficiamos com grandes análises de 
dados é encontrar o amor. A maioria dos sites de namoro online 
aplicam ferramentas de big data e algoritmos para nos encontrar 
os pefis mais adequados. 
• 
• Melhorar a Saúde e Saúde Pública 
• Técnicas de Big Data já estão sendo usados p ara monitorar bebês 
em uma unidade de bebê prematuro e doente especialista. Ao 
registrar e analisar cada batida do coração e padrão de cada bebê 
respirando, o aparelho foi capaz de desenvolver algoritmos que 
agora podem prever infecções 24 horas antes de qualquer 
sintoma físico aparecer
● Melhorando o desempenho Sports 
• 
• Usando a análise em vídeo que monitoram o desempenho de cada 
jogador em um jogo de futebol ou de beisebol nos permitem obter 
feedback (via smartphones e servidores em nuvem) nos jogos e 
como melhorá-los. Muitas equipes desportivas de elite também 
acompanham os atletas fora do ambiente esportivo - usando a 
tecnologia inteligente para monitorar a nutrição e sono, assim 
como as conversas de mídia social para monitorar o bem-estar 
emocional. 
• 
• 
• 
• 
• 
•
• Copa do Mundo 2014 - Seleção Alemanha 
Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 
milhões de dados que são processados em tempo real 
Jogo – Com o histórico de dados coletados nos treinos o técnico 
pode saber quando um jogador chegou ao seu limite físico 
Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de 
sua participação nos jogos além do seu desempenho físico e média 
da equipe
→ Magazine Luiza investe em projeto de Big Data, a 
niciativa busca direcionar recomendações de produtos 
em tempo real para seus clientes. 
→ Netshoes - Mercado de e-commerce, que permitia e 
facilitava trabalhar com muita inteligência as 
informações 
→Petrobras - Otimização e Monitoramento da 
Produção 
Análise preditiva para a Logistica de Armazenamento 
→ Inpe
Um cientista de dados representa uma evolução do papel de negócios 
ou analista de dados 
O que define o cientista de dados e o que o diferencia é forte visão de 
negócios, juntamente com a capacidade de comunicar os resultados, 
tanto para negócios e líderes de TI de uma forma que pode influenciar 
a forma como uma organização se aproxima de um desafio 
empresarial. Bons cientistas de dados não vão apenas resolver 
problemas de negócios, eles vão escolher os problemas certos que 
têm o maior valor para a organização. 
Habilidades para um bom cientista de dados 
Curiosidade 
Criatividade 
Foco 
Atenção aos detalhes
O cientista de dados, vive em três mundos: 
● Negócios 
● TI 
● Matemática 
É possível visualizar no LinkedIn que muitas das vagas para 
“data scientist” requerem um “full stack engineer”, alguém que 
domina todo o processo de ciência de dados.
Muitos das melhores e mais 
conhecidas ferramentas de 
dados disponíveis são 
grandes projetos de código 
aberto. O mais conhecido 
deles é o Hadoop, o que 
está gerando toda uma 
indústria de serviços e 
produtos relacionados.
Hadoop 
MapReduce 
Cassandra 
Hbase 
MongoDB 
Mahout 
Pig 
Zookeeper
Como começar um projeto Big Data?
● Problema. Determine quais são os problemas que você pretende 
resolver. 
● Impacto. Entenda como esses problemas vão impactar no seu 
negócio. É a sua equipe que vai estar fazendo a entrada de dados e 
análise ? Como é que este problema afeta a sua organização? 
● Os critérios de sucesso. Como você mede o sucesso? Quais 
são as principais métricas que você precisa para acompanhar todo 
este processo? 
● Impacto. O que você precisa entender claramente é que se este 
problema fosse resolvido, o que significaria para sua empresa? Este é 
tipicamente um dos passos mais importantes, uma vez que ajuda a 
determinar o que, como e quando você deve avançar com este projeto
● Cloud. Decida onde a solução deve estar, se deve ser uma 
nuvem, solução híbrida, etc. 
● Requisitos de dados. Avalie sua exigência de dados e entenda 
quais dados são necessários para resolver este problema. É dados 
que você já tem? É de dados que você deve buscar? 
● Identificar lacunas. Você tem pessoal suficiente para resolver 
este problema? Eles são capazes de resolver este problema? Você 
vai precisar de hardware ou software? 
● Abordagem ágil. Comece com uma pré-produção ou uma 
implementação piloto. Defina os objetivos e metas e divida em 
partes gerenciáveis.
● http://www1.folha.uol.com.br/infograficos/2014/07/84881- 
futebol-bigdata.shtml 
● http://oss-institute.org/latest-news/781-4-hot-open-sourc 
e-big-data-projects 
● http://www.bigdata-startups.com/open-source-tools/ 
● http://www.itforum365.com.br/noticias/detalhe/19927/ha 
bilidades-para-um-bom-cientista-de-dados 
● http://pt.slideshare.net/dwellman/what-is-big-data-24401 
517 
● http://pt.slideshare.net/conniedinnella/what-is-big-data 
-28714627?related=1 
● http://www.ikanow.com/8-proven-steps-to-starting-a-big-d 
ata-analytics-project/
Contatos 
rafaela@ambientelivre.com.br 
Www.ambientelivre.com.br/blogs/rafaela 
Www.ambientelivre.com.br

Big Data, o que é isso?

  • 1.
    B ig Data,o que é iss o? O que é isso?
  • 2.
    Rafaela Raganham ●Formada em Sistemas de Informação, pela Faculdades Integradas do Brasil (Unibrasil). ●MBA Business Intelligence (Positivo) ● Palestrante FISL, FTSL, SFD e Solisc Desempenha funções de análise e desenvolvimento de sistemas desde 2008, atualmente trabalha na Ambiente Livre Tecnologia onde presta serviços de desenvolvimento, customizações e consultoria em sistemas open source.
  • 3.
  • 4.
    Todo mundo estáfalando sobre Big Data
  • 5.
    Nossa sociedade estádeixando para trás uma pegada digital. As pessoas estão vivendo em linha e todos estamos expressando nossas atitudes, gostos, desgostos, opiniões e perspectivas.
  • 7.
    Indivíduos com smartphonese sites de redes sociais continuarão a impulsionar o crescimento de dados exponencialmente
  • 8.
    • 90% dosdados no mundo de hoje foram criados nos últimos dois anos • Previsão IDC: O universo global de dados irá dobrar a cada dois anos, chegando a 40 mil exabytes ou de 40 trilhões de GB até 2020 • Internet Archive tem em torno de 2 petabytes de dados, e está crescendo a uma taxa de 20 terabytes por mês. • 30 bilhões de conteúdos foram adicionados ao Facebook • 2 bilhões de vídeos são vistos no Youtube • 2,5 quintilhões de bytes de dados é criado
  • 13.
    ● Então oque é BIG DATA ?!
  • 14.
    "Big Data éa capacidade de uma empresa para armazenar, processar e acessar todos os dados de que necessita para funcionar, tomar decisões, reduzir riscos, e servir os clientes." - Forrester "Big Data, em geral, é definido como alto volume, velocidade e variedade ativos de informação que exigem formas eficazes e inovadoras de custos de processamento de informações para uma melhor percepção e tomada de decisão." - Gartner "Big data são os dados caracterizados por três atributos: volume, variedade e velocidade." - IBM "Big data são os dados caracterizados por quatro atributos principais: volume, variedade, velocidade e valor." - Oracle
  • 16.
  • 17.
    Byte: um grãode arroz Kilobyte: xícara de arroz
  • 18.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz
  • 19.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz
  • 20.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios com containers
  • 21.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios com containers Petabyte: Estado de Manhattan
  • 22.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios de containers Petabyte: Estado de Manhattan Exabyte: Costa oeste
  • 23.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios de containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico
  • 24.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios de containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico Yottabyte: A TERRA
  • 25.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios de containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico Yottabyte: A TERRA Hobbyist
  • 26.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios com containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico Yottabyte: A TERRA Hobbyist Desktop
  • 27.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios com containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico Yottabyte: A TERRA Hobbyist Desktop Internet
  • 28.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios com containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico Yottabyte: A TERRA Hobbyist Desktop Internet Big Data
  • 29.
    Byte: um grãode arroz Kilobyte: xícara de arroz Megabyte: 8 sacos de arroz Gigabyte: 3 caminhões de arroz Terabyte: 2 navios de containers Petabyte: Estado de Manhattan Exabyte: Costa oeste Zettabyte: Oceano Pacífico Yottabyte: A TERRA
  • 31.
    Volume refere-se agrande quantidade de dados gerados a cada segundo. Isso faz com que a maioria dos conjuntos de dados sejam muito grandes para armazenar e analisar usando a tecnologia de banco de dados tradicional. Novas ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo
  • 32.
    Velocidade refere-se àvelocidade com que os novos dados são gerados e a velocidade com que se move em torno de dados. Basta pensar em mensagens de mídia social que se tornam viral em segundos. A tecnologia nos permite agora a analisar os dados enquanto ele está sendo gerado (por vezes referido como inMemory analytics), sem nunca colocá-lo em bases de dados
  • 33.
    Variedade refere-se aosdiferentes tipos de dados que podemos agora utilizar. No passado, apenas eram usados dados estruturados cuidadosamente armazenados em bancos de dados relacionais. 80% dos dados do mundo são não-estruturados (texto, imagens, vídeo, voz, etc) com grande tecnologia de dados, podemos agora analisar e reunir dados de diferentes tipos, tais como mensagens, conversas de mídia social, fotos, dados do sensor , vídeo ou gravações de voz.
  • 34.
    Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis ( basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados . Veracidade
  • 35.
    Valor! Ter acessoa big data não é bom a menos que possamos transformá-lo em valor. As empresas estão começando a gerar valores incríveis com Big Data Valor
  • 37.
    Compreensão e segmentaçãode clientes Entendimento e otimização de processos de negócios ● Quantificação pessoal e otimização de desempenho ● Melhorar a Saúde e Saúde Pública ● Melhorando o desempenho Sports ● Melhorar a Ciência e Investigação ● Otimização de máquinas e dispositivos de desempenho ● Melhorar a segurança e aplicação da lei. ● ● Melhorar e optimizar Cidades e Países ● ● Negociação financeira
  • 38.
    • Compreensão esegmentação de clientes • • O grande objetivo, em muitos casos, é a criação de modelos preditivos • • → Empresas de seguros de automóveis entender o quão bem os seus clientes realmente podem conduzir • → Campanhas eleitorais do governo podem ser otimizada utilizando grandes análise de dados • • Entendimento e otimização de processos de negócios • Big data também é cada vez mais utilizada para otimizar processos de negócios. Os varejistas são capazes de otimizar suas ações com base em previsões geradas a partir de dados de mídia social, as tendências de pesquisa na web e previsões meteorológicas. •
  • 39.
    ● Quantificação pessoale otimização de desempenho • • Podemos nos beneficiar dos dados gerados a partir de dispositivos portáteis, tais como relógios inteligentes ou pulseiras inteligentes • • A outra área em que nos beneficiamos com grandes análises de dados é encontrar o amor. A maioria dos sites de namoro online aplicam ferramentas de big data e algoritmos para nos encontrar os pefis mais adequados. • • Melhorar a Saúde e Saúde Pública • Técnicas de Big Data já estão sendo usados p ara monitorar bebês em uma unidade de bebê prematuro e doente especialista. Ao registrar e analisar cada batida do coração e padrão de cada bebê respirando, o aparelho foi capaz de desenvolver algoritmos que agora podem prever infecções 24 horas antes de qualquer sintoma físico aparecer
  • 40.
    ● Melhorando odesempenho Sports • • Usando a análise em vídeo que monitoram o desempenho de cada jogador em um jogo de futebol ou de beisebol nos permitem obter feedback (via smartphones e servidores em nuvem) nos jogos e como melhorá-los. Muitas equipes desportivas de elite também acompanham os atletas fora do ambiente esportivo - usando a tecnologia inteligente para monitorar a nutrição e sono, assim como as conversas de mídia social para monitorar o bem-estar emocional. • • • • • •
  • 41.
    • Copa doMundo 2014 - Seleção Alemanha Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados que são processados em tempo real Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber quando um jogador chegou ao seu limite físico Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua participação nos jogos além do seu desempenho físico e média da equipe
  • 42.
    → Magazine Luizainveste em projeto de Big Data, a niciativa busca direcionar recomendações de produtos em tempo real para seus clientes. → Netshoes - Mercado de e-commerce, que permitia e facilitava trabalhar com muita inteligência as informações →Petrobras - Otimização e Monitoramento da Produção Análise preditiva para a Logistica de Armazenamento → Inpe
  • 44.
    Um cientista dedados representa uma evolução do papel de negócios ou analista de dados O que define o cientista de dados e o que o diferencia é forte visão de negócios, juntamente com a capacidade de comunicar os resultados, tanto para negócios e líderes de TI de uma forma que pode influenciar a forma como uma organização se aproxima de um desafio empresarial. Bons cientistas de dados não vão apenas resolver problemas de negócios, eles vão escolher os problemas certos que têm o maior valor para a organização. Habilidades para um bom cientista de dados Curiosidade Criatividade Foco Atenção aos detalhes
  • 45.
    O cientista dedados, vive em três mundos: ● Negócios ● TI ● Matemática É possível visualizar no LinkedIn que muitas das vagas para “data scientist” requerem um “full stack engineer”, alguém que domina todo o processo de ciência de dados.
  • 47.
    Muitos das melhorese mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados.
  • 48.
    Hadoop MapReduce Cassandra Hbase MongoDB Mahout Pig Zookeeper
  • 50.
    Como começar umprojeto Big Data?
  • 51.
    ● Problema. Determinequais são os problemas que você pretende resolver. ● Impacto. Entenda como esses problemas vão impactar no seu negócio. É a sua equipe que vai estar fazendo a entrada de dados e análise ? Como é que este problema afeta a sua organização? ● Os critérios de sucesso. Como você mede o sucesso? Quais são as principais métricas que você precisa para acompanhar todo este processo? ● Impacto. O que você precisa entender claramente é que se este problema fosse resolvido, o que significaria para sua empresa? Este é tipicamente um dos passos mais importantes, uma vez que ajuda a determinar o que, como e quando você deve avançar com este projeto
  • 52.
    ● Cloud. Decidaonde a solução deve estar, se deve ser uma nuvem, solução híbrida, etc. ● Requisitos de dados. Avalie sua exigência de dados e entenda quais dados são necessários para resolver este problema. É dados que você já tem? É de dados que você deve buscar? ● Identificar lacunas. Você tem pessoal suficiente para resolver este problema? Eles são capazes de resolver este problema? Você vai precisar de hardware ou software? ● Abordagem ágil. Comece com uma pré-produção ou uma implementação piloto. Defina os objetivos e metas e divida em partes gerenciáveis.
  • 53.
    ● http://www1.folha.uol.com.br/infograficos/2014/07/84881- futebol-bigdata.shtml ● http://oss-institute.org/latest-news/781-4-hot-open-sourc e-big-data-projects ● http://www.bigdata-startups.com/open-source-tools/ ● http://www.itforum365.com.br/noticias/detalhe/19927/ha bilidades-para-um-bom-cientista-de-dados ● http://pt.slideshare.net/dwellman/what-is-big-data-24401 517 ● http://pt.slideshare.net/conniedinnella/what-is-big-data -28714627?related=1 ● http://www.ikanow.com/8-proven-steps-to-starting-a-big-d ata-analytics-project/
  • 55.