CETAX - All Rights Reserved
Data Science -
Módulo :
Big Data e Hadoop
CETAX - All Rights Reserved
• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX
CETAX - All Rights Reserved
MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR
CETAX - All Rights Reserved
A PALAVRA DO MOMENTO
CETAX - All Rights Reserved
• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?
CETAX - All Rights Reserved
• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES
CETAX - All Rights Reserved
• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO
CETAX - All Rights Reserved
3 Vs – DETALHES
CETAX - All Rights Reserved
• VOLUME
• VELOCIDADE
• VARIEDADE
• VIRTUDE
• VALOR
5 Vs – UMA DEFINIÇÃO
CETAX - All Rights Reserved
• VAST - VASTO, AMPLO
• VOLUME - ALTO VOLUME
• VIGOROSITY - VIGOR
• VERIFIED - VERIFICADOS
• VEXINGLY - “ATORMENTADOR”
• VARIABLE - VARIAVEIS
• VERBOSE - “ELOQUENTE”
• VALUABLE - VALIOSOS
• VISUALIZED - VISUALIZADOS
• VELOCITY - VELOCIDADE
10 Vs – É NECESSÁRIO?
CETAX - All Rights Reserved
• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES
CETAX - All Rights Reserved
• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?
CETAX - All Rights Reserved
CETAX - All Rights Reserved
CETAX - All Rights Reserved
• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA
CETAX - All Rights Reserved
UMA APOSTA? HADOOP!
CETAX - All Rights Reserved
Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node
CETAX - All Rights Reserved
• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS
CETAX - All Rights Reserved
CIÊNCIA DE DADOS
CETAX - All Rights Reserved
REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
CETAX - All Rights Reserved
• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS
CETAX - All Rights Reserved
• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
CETAX - All Rights Reserved
• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES
CETAX - All Rights Reserved
• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS
CETAX - All Rights Reserved
• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR
CETAX - All Rights Reserved
• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR
CETAX - All Rights Reserved
• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
CETAX - All Rights Reserved
• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO

Live - BigData

  • 1.
    CETAX - AllRights Reserved Data Science - Módulo : Big Data e Hadoop
  • 2.
    CETAX - AllRights Reserved • A Cetax é uma empresa de consultoria e treinamento especializada em sistemas de Business Intelligence e Data Warehouse. • Existe desde 2000 trabalhando exclusivamente com BI e DW. • Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil • Outros cursos são ministrados em parcerias com outras empresas do mercado ou mesmo profissionais que possuem experiência diferenciada • Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics) APRESENTAÇÃO CETAX
  • 3.
    CETAX - AllRights Reserved MARCO ANTONIO GARCIA • 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business Intelligence e Data Warehouse. • MBA pela FGV, Formado pela FATEC em Processamento de Dados. • Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo. • Vivência profissional em diversos projetos, passando por Bancos e Financeiras, Construção, Serviços, Varejo, Marketing e outros. APRESENTAÇÃO - INSTRUTOR
  • 4.
    CETAX - AllRights Reserved A PALAVRA DO MOMENTO
  • 5.
    CETAX - AllRights Reserved • Muitas definições podem cercar o assunto : – Alto Volume. – Alta Velocidade. – Diversas Fontes. • Uma combinação de tudo isso e muito mais. • Assim como BI, é um termo “guarda-chuva”. BIG DATA = GRANDES DADOS?
  • 6.
    CETAX - AllRights Reserved • Além dos sistemas utilizados em empresas de todos os portes, temos milhares de outros dispositivos que geram dados diariamente : – Em 2010 existiam 5 bilhões de celulares no mundo. – Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros examinar em tempo real. – Em pouco tempo teremos muito mais equipamentos ligados a internet gerando informações para análise “internet das coisas” MUITOS DADOS GRANDES
  • 7.
    CETAX - AllRights Reserved • Volume – o volume crescente de dados em todas as áreas e empresas, Mb -> Gb -> Tb -> Pb • Velocidade – o tempo necessário para disponibilizar os dados para análise é cada vez menor • Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados não estruturados ou semi estruturados. 3 Vs – UMA DEFINIÇÃO
  • 8.
    CETAX - AllRights Reserved 3 Vs – DETALHES
  • 9.
    CETAX - AllRights Reserved • VOLUME • VELOCIDADE • VARIEDADE • VIRTUDE • VALOR 5 Vs – UMA DEFINIÇÃO
  • 10.
    CETAX - AllRights Reserved • VAST - VASTO, AMPLO • VOLUME - ALTO VOLUME • VIGOROSITY - VIGOR • VERIFIED - VERIFICADOS • VEXINGLY - “ATORMENTADOR” • VARIABLE - VARIAVEIS • VERBOSE - “ELOQUENTE” • VALUABLE - VALIOSOS • VISUALIZED - VISUALIZADOS • VELOCITY - VELOCIDADE 10 Vs – É NECESSÁRIO?
  • 11.
    CETAX - AllRights Reserved • Big Data representa um conjunto de dados que não pode mais ser zacilmente gerenciado ou analisado com as ferramentas atuais de dados, métodos ou arquitetura disponível até então. BIG DATA – DEFINIÇÃO SIMPLES
  • 12.
    CETAX - AllRights Reserved • E então ? • Quais softwares serão utilizados ? • Quais devo aprender ? E ENTÃO?
  • 13.
    CETAX - AllRights Reserved
  • 14.
    CETAX - AllRights Reserved
  • 15.
    CETAX - AllRights Reserved • Web log • Click stream • Sensor data • Email • Call center voice logs • Images/video • Dados RFID • Dados de Localização e Geográficos • Dados adquiridos no mercado FONTES PARA O BIG DATA
  • 16.
    CETAX - AllRights Reserved UMA APOSTA? HADOOP!
  • 17.
    CETAX - AllRights Reserved Cluster Hadoop core switch top-of-rack switches Master Nodes – Mantém os Serviços e a Coordenação dos Jobs de dados Worker Nodes – rodam o processamento e armazenamento dos Dados Clientes de Acesso, também chamados de Gateway Node ou Edge Node
  • 18.
    CETAX - AllRights Reserved • Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto. • Ciência que estuda as informações, seu processo de captura, transformação, geração e análise de dados. • A Ciência de dados envolve diversas disciplinas como : • Computação • Estatística • Matemática • Conhecimento do Negócio CIÊNCIA DE DADOS
  • 19.
    CETAX - AllRights Reserved CIÊNCIA DE DADOS
  • 20.
    CETAX - AllRights Reserved REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
  • 21.
    CETAX - AllRights Reserved • Profissional Multidisciplinar responsável por transformar dados em informações ou produtos de informações dentro de uma corporação. • Deve ser responsável pela formulação dos problemas, escolha de modelos de simulação e estatística e entrega dos produtos de dados. DEFINIÇÃO – CIENTISTA DE DADOS
  • 22.
    CETAX - AllRights Reserved • Data Scientist – Participa da formulação do problema, hipóteses de resolução e análise de resultados. • Business Analyst – Analisa os dados gerados em relação ao negócio ou empresa avaliada • Data Analyst – responsável por analisar os dados disponibilizados em busca de solução para o problemas enfrentados DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
  • 23.
    CETAX - AllRights Reserved • Para trabalhar com Big Data acreditamos que o melhor caminho seria conhecer as ferramentas utilizadas • Ter perfil misto : técnico e negócios • Conhecer de Business Inteligence e Data Warehouse • Entender os processos da empresa • Conhecer estatística e matemática QUERO TRABALHAR COM BIG DATA
  • 24.
    CETAX - AllRights Reserved • Vemos 3 papéis claros: • Cientista ou Analista de Dados • Desenvolvedor • Administrador PAPEIS E FUNÇÕES
  • 25.
    CETAX - AllRights Reserved • Responsável por atender as demandas das áreas de negócio ou planejamento da empresa. • Participa da formulação dos problemas e respostas. • Nível mais próximo ao negócio • Deve conhecer as ferramentas de consulta e acesso aos dados. • Deveria conhecer estatística ANALISTA DE DADOS
  • 26.
    CETAX - AllRights Reserved • Responsável por Desenvolver os processos necessários para geração dos dados. • Processos de Captura, Transformação e Carga de Dados. • Deve conhecer tecnicamente as ferramentas envolvidadas • Deve conhecer sobre programação • Será responsável pelo desenvolvimento de novas rotinas e processos. DESENVOLVEDOR
  • 27.
    CETAX - AllRights Reserved • Responsável por manter os ambientes e ferramentas funcionando da melhor maneira. • Deve conhecer sobre os sistemas operacionais utilizados, principalmente Linux. • Deve conhecer sobre arquitetura de hardware e redes para garantir a melhor performance. • Deve conhecer sobre os processos de Tunning das ferramentas. ADMINISTRADOR
  • 28.
    CETAX - AllRights Reserved • Programação – as ferramentas ainda são pouco automatizadas na geração de código. • Linux – a maioria dos softwares rodam em Linux, é necessário conhecer comandos básicos para execução de processos. • Modelagem de Dados CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
  • 29.
    CETAX - AllRights Reserved • Conhecer sobre o negócio ou sobre os processos da empresa. • Conhecer ou ter noções mínimas de estatística e matemática aplicada a dados. CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
  • 30.
    CETAX - AllRights Reserved • Perguntas ? • Não deixem de acessar nosso site e se cadastrem para as promoções, vagas: www.cetax.com.br MUITO OBRIGADO! FINALIZANDO

Notas do Editor

  • #3 2
  • #4 3
  • #5 A tempos não temos uma palavra tão forte no cenário de informática como Big Data ! O termo está sendo falado em todos os tipos de negócios, cursos, etc.
  • #6 O termo é recente, muitas possibilidades, muitas definições ( algumas ainda vagas ) O mercado está em formação muitas coisas estão ainda acontecendo e muitas ainda estão por vir. O que é certo : Big Data é uma tendência que vai mudar a maneira em que analisamos os dados em qualquer tipo de negócio !
  • #7 O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês. A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube. Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS. O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
  • #8 Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações. Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio. Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
  • #9 http://beyondplm.com/2013/10/14/will-plm-data-size-reach-yottabytes/ Detalhamento sobre os 3 V’s.
  • #10 Alguns estudiosos acrescentaram mais V’s a definição de big data
  • #11 Existe até essa definição de 10 V’s do Big Data. Mas seria ela necessária ?
  • #12 Definição simples e direta, algo que não pode mais ser feito com as ferramentas atuais !
  • #13 O que temos que fazer ? Quais softwares serão usados ?
  • #14 Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  • #15 Muitos softwares ? Por favor, se acalme, vamos falar disso um pouco mais para frente.
  • #16 Essa lista é um exemplo de possíveis fontes, mas deveremos ter muito mais fontes. As novas ferramentas permitem conexão e captura de dados em diversas categorias de softwares ou mesmo equipamentos eletrônicos que permita captura de dados. Claro que além dos dados tradicionais que hoje buscamos em outros sistemas, bancos de dados e arquivos de texto.
  • #17 16
  • #18 This is an illustration of a Hadoop cluster. A Hadoop cluster comprises several components; the primary ones being the master and slave nodes. Master nodes manage and coordinate cluster services and tasks. They are master nodes because they have various Hadoop master processes running on them. For example, a master node runs the NameNode process that coordinates Hadoop storage operations. A single master machine can run all of the Hadoop master processes. However for better scalability, and higher availability, is is common to have the various Hadoop master processes spread across multiple master nodes. Slave nodes provide the CPU, memory, and local disk resources to store and process data. They are slave nodes because they have various Hadoop slave processes running on them. For example, a slave node runs a DataNode process that works under the management of the NameNode. The DataNode does the actual work of reading and writing data blocks to storage. A Hadoop cluster is easily scaled up by adding additional slave machines. The Hadoop client machine has only the Hadoop client-side software installed on it. The software is used to access Hadoop tools and applications used to manage the cluster or process data. It is common for Hadoop to be deployed on rack-based servers. Many server rack and blade chassis configurations are possible. In the illustration, each rack of machines has a top-of-the-rack network switch for intra-rack communication. Each top-of-the-rack switch is also connected to a core switch used for inter-rack and cluster-to-client communications.
  • #19 Data Science ou Ciência de Dados Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto.