O que é Big Data ?
Palestra Apresentada no PythonRio Junho/2016
Palestra Apresentada no PythonRio Junho/2016
O que é Big Data ?
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
Hacker & Data Enthusiast
Coursera Beta Tester in Big Data
Data Engineer at Holis/Personare
+20 years in Software Development
BASIC, PASCAL, C, JAVA, PHP, PYTHON, R
Contatos:
https://br.linkedin.com/in/edulemasson
https://github.com/edulemasson/
eduardolemasson@midiahome.com.br
Eduardo Le Masson
É O CAOS
O que é Big Data ?
Fontes de dados de diversas origens, formas, estruturas diferentes
e até mesmo sem nenhuma estrutura definida.
O que é Big Data ?
Mindset : “Work will be always 3% done”
● Tecnologias Mudam a todo instante
● Busca contínua da melhor performance
● Novos Desafios com o aumento dos dados
● Necessidade de ajustar algoritmos
Dirigido à Escalabilidade horizontal
Já não é mais possível elevar o hardware
de uma única máquina para suportar a alta
demanda por desempenho/volume/tráfego
O que é Big Data ?
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Capacidade de lidar com grande
volume de dados. Tanto em
armazenamento como
processamento além de ser
escalável
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Tempo de Resposta dentro do
necessário de acordo com a
regra de negócio. Suportar alta
demanda.
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Habilidade de se adaptar. Seja em
termos de infraestrutura elástica,
A tipos de dados e sua
multiplicidade de origens.
Diversas formas de Codificação
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Mecanismos de pré-
processamento e padronização.
Utilização de metodologias
científicas e mecanismos de
reprodutibilidade do processo.
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Os 5 VÊS do Big Data
A União de todas estas
características têm foco na
entrega de valor: às organizações,
clientes, sociedade, pesquisas
acadêmicas
O profissional Big Data
O profissional de Big Data pode atuar em diversas área de especialidade, no entanto,
cada vez fala-se que unir uma pessoa com tantas skills é um mito.
Como “big data” têm suas bases em processos científcos temos visto cada vez mais
a aproximação de acadêmicos e as organizações.
Mas é possível criar dentro da empresa
uma cultura de pesquisa e
Desenvolvimento.
Não é preciso ser um cientista ou
contratar uma consultoria para trazer
ótimos resultados com aplicações
que se utilizam do estado da arte.
O termo estado da arte, na ciência,
Trata de metodologias que já estão
consolidadas e amplamente
experimentadas pelo meio
acadêmio/científico.
CONCEITO DE DADOS:
- Um DATA MODEL: Coleção de conceitos descritivos do dado
- Um Schema: É uma descrição de um grupo específico de
dados dado um modelo
ESPECTRO ESTRUTURAL
- Estruturado (shema-first)
- Semi-estruturado (schema-later)
- Não-estruturado (schema-never)
Afinal, o que são dados?
SYSTEM GENERATED DATA (Temporais, Estatísticos)
Cliques
Impressão de Banners
Evento de Pagamento
Avançar, Play, Stop
Requests
Trasações
Mensagens de Rede
Webserver Logs
A origem dos dados
Dados gerados ações e publicações de pessoas:
Facebook,
Instagram,
Twitter,
Youtube,
Linkedin
Pesquisas no Google
A origem dos dados
RESEARCH DATA
Dados de Saúde
Computação Científica
Colisão de Hádrons
Desenvolvimento de Drogas
Estatísticas populacionais
Metereologia
A origem dos dados
GRAPH DATA (Abstracted Data Type)
- Relacionamento de Pessoas, coisas etc
- Redes de Telecomunicação
- Redes de Estradas
- Plataformas de Colaboração
A origem dos dados
INTERNET OF THINGS
- Sensores
- TAGS de Estacionamento/Pedágio
- Estações Metereológicas
- Unidades de Autoatendimento
A origem dos dados
Era da Informação
Era das Features
x
Paradoxo
Era da Informação
Paradoxo
Prefiro chamar de Era da Informatização.
Pensava-se nos dados como informações completas.
Os sistemas basicamente se resumiam ao aspecto CRUD (Ler, Escrever, Editar e Apagar)
O volume de dados era na verdade um problema e uma das complexidades era modelar
a estrutura que esses dados deveriam ter. Pois o estado da arte era o uso de banco de dados
Relacionais.
Quem mais tinha acesso aos dados não era quem deveria analisar os dados e sim a pessoa
Responsável por armazená-los e realizar o tunning do banco, o DBA. Se você fizesse uma query
Pesada demais, ainda tomava uma bronca.
Era das Features
Paradoxo
A verdadeira Era da Informação.
O valor dos dados está associado ao que se extrai desses dados e na habilidade
em transformá-los em informações que ofereçam vantagens estratégicas,
ferramentas inovadoras, compreenção de como se relacionam e comportam
O volume de dados era não é mais o problema.
O barateamento e elasticidadede da infraestrutura tornou possível processá-los de forma nunca
antes vista na história.
O crescimento da indústria OpenSource trouxe liberdade para as organizações e a redução
dos custos.
●Extração de Informação
●Medir Distância/Aproximação de fatos/eventos
●Relacionar uma coisa à outra
●Correlacionar Causalidade
●Inferir
●Estudar comportamentos
O que são Features
As features são as características de um dado, uma coisa, um evento ou pessoa e
Analisar os dados nesta nova dimensão possibilita entre outras coisas:
informação
As Features de um BigMac
Vamos por exemplo observar o que compõe o sanduíche:
Podemos dizer que estes ingredientes são suas features intrínsecas.
Mas será que existem outras features um pouco mais abstratas para esta mesma coisa?
R: Qualidade, Sabor, Saúde, Preço, Unidades vendidas, Unidades Produzidas, Países
Um bom cientista de dados consegue fazer as perguntas certas sendo criativo.
Esta criatividade provém da análise exploratória e seus insights.
O Google Images, indexa as imagens da web através
dos termos mais relevantes de um documento.
A extração de features em texto se utiliza de algoritimos de:
Scrap, Text Mining, Tokenização, TF e TF-IDF
Estudo de Caso
O texto presente em um documento, torna-se os atributos da imagem que está lá.
Porém é necessário saber quais são as palavras ou termos que são mais importantes
e podem diferenciá-la das demais. Isto é, quais são os termos relevantes.
Matriz de Preferências (features) de compras de alguns usuários
Estudo de Caso
Um sistema de recomendação colaborativo funciona descobrindo a similaridade
entre a pessoas a partir da uma amostra de suas preferências.
É possível construir sistemas que recomendem em realTime produtos que
possuem características interessantes à você baseando-se nas pessoas
com gostos similares.
Inferência Estatística
Podemos relacionar um vetor de pessoas e suas features e descobrir
quem possui maior grau de similaridade com determinada pessoa.
Correlação de Pearson:
Distância Euclidiana:
Grau de Similaridade
Carol x Carol -> 1.0
Carol x Rodrigo -> 0.924473451642
Carol x Fernanda -> 0.991240707162
Carol x Pedro -> 0.893405147442
Carol x Bruno -> 0.66284898036
Carol x Eduardo -> 0.381246425832
Carol x Caue -> -1.0
Ranking de Pessoas com Similariade:
(3.34, 'Cebola')
(2.83, 'Beterraba')
(2.53, 'Couve')
Ranking dos Produtos Recomendados:
Estamos Inferindo o quanto a Carol
gostaria dos produtos que ela não consumiu
- Recomendação de produtos em tempo real
- Recomendação de amigos
- E-mail Marketing personalizado um a um
- Conhecer melhor o perfil de cada cliente
- Melhorar o relacionamento com cliente
- Criar promoções específicas para um usuário
- Aumentar tempo médio de permanência no site
Possibilidades
Utilizando os recursos estatísticos apresentados é possível criar:
Mostre-me o Código!
Repositório GIT com código-fonte em Python
Utilizado apenas a biblioteca nativa MATH para permitir
claro entendimento dos algorítimos utilizados.
A sintaxe está bem didática
https://github.com/edulemasson/colaborative_recommender
- Coursera (Maiores Universidades do Mundo)
https://www.coursera.org/browse/data-science
- EDX – Data Science Engineering with Apache SPARK
https://www.edx.org/xseries/data-science-engineering-apache-spark
- Kaagle – Dados, Desafios e Códigos
https://www.kaggle.com/
- Machine Learning IBM NLTK
http://www.ibm.com/developerworks/br/library/os-pythonnltk/
- Udacity Intro (Data Analisys, Science, Statistics, ML)
https://br.udacity.com/course/data-analyst-nanodegree--nd002
Para saber mais
Cursos Gratuitos:
https://br.linkedin.com/in/edulemasson
https://github.com/edulemasson/
eduardolemasson@midiahome.com.br
Obrigado
Contatos:

Introdução ao Big Data para Desenvolvedores Python

  • 1.
    O que éBig Data ? Palestra Apresentada no PythonRio Junho/2016
  • 2.
    Palestra Apresentada noPythonRio Junho/2016 O que é Big Data ? O objetivo desta palestra é apresentar o que é o Big Data, suas principais características além do perfil do profissional desta área. Ao longo da apresentação busco mostrar como é possível criar projetos de grande valor organizacional. Além de compartilhar um código-fonte de fácil entendimento que ja tornaria possível gerar ótimos resultados com poucos conhecimentos Também deixa minha explícita minha convicção que o valor não está no Big Data em si mas sim na cultura de abordagem sistêmica através de matemática e estatística que oferece o poder de extração de dados a partir de dados e geração de informação
  • 3.
    Hacker & DataEnthusiast Coursera Beta Tester in Big Data Data Engineer at Holis/Personare +20 years in Software Development BASIC, PASCAL, C, JAVA, PHP, PYTHON, R Contatos: https://br.linkedin.com/in/edulemasson https://github.com/edulemasson/ eduardolemasson@midiahome.com.br Eduardo Le Masson
  • 4.
    É O CAOS Oque é Big Data ? Fontes de dados de diversas origens, formas, estruturas diferentes e até mesmo sem nenhuma estrutura definida.
  • 5.
    O que éBig Data ? Mindset : “Work will be always 3% done” ● Tecnologias Mudam a todo instante ● Busca contínua da melhor performance ● Novos Desafios com o aumento dos dados ● Necessidade de ajustar algoritmos
  • 6.
    Dirigido à Escalabilidadehorizontal Já não é mais possível elevar o hardware de uma única máquina para suportar a alta demanda por desempenho/volume/tráfego O que é Big Data ?
  • 7.
  • 8.
    -Volume -Velocidade -Variedade -Veracidade -Valor O que éBig Data ? Capacidade de lidar com grande volume de dados. Tanto em armazenamento como processamento além de ser escalável Os 5 VÊS do Big Data
  • 9.
    -Volume -Velocidade -Variedade -Veracidade -Valor O que éBig Data ? Tempo de Resposta dentro do necessário de acordo com a regra de negócio. Suportar alta demanda. Os 5 VÊS do Big Data
  • 10.
    -Volume -Velocidade -Variedade -Veracidade -Valor O que éBig Data ? Habilidade de se adaptar. Seja em termos de infraestrutura elástica, A tipos de dados e sua multiplicidade de origens. Diversas formas de Codificação Os 5 VÊS do Big Data
  • 11.
    -Volume -Velocidade -Variedade -Veracidade -Valor O que éBig Data ? Mecanismos de pré- processamento e padronização. Utilização de metodologias científicas e mecanismos de reprodutibilidade do processo. Os 5 VÊS do Big Data
  • 12.
    -Volume -Velocidade -Variedade -Veracidade -Valor O que éBig Data ? Os 5 VÊS do Big Data A União de todas estas características têm foco na entrega de valor: às organizações, clientes, sociedade, pesquisas acadêmicas
  • 13.
    O profissional BigData O profissional de Big Data pode atuar em diversas área de especialidade, no entanto, cada vez fala-se que unir uma pessoa com tantas skills é um mito. Como “big data” têm suas bases em processos científcos temos visto cada vez mais a aproximação de acadêmicos e as organizações. Mas é possível criar dentro da empresa uma cultura de pesquisa e Desenvolvimento. Não é preciso ser um cientista ou contratar uma consultoria para trazer ótimos resultados com aplicações que se utilizam do estado da arte. O termo estado da arte, na ciência, Trata de metodologias que já estão consolidadas e amplamente experimentadas pelo meio acadêmio/científico.
  • 14.
    CONCEITO DE DADOS: -Um DATA MODEL: Coleção de conceitos descritivos do dado - Um Schema: É uma descrição de um grupo específico de dados dado um modelo ESPECTRO ESTRUTURAL - Estruturado (shema-first) - Semi-estruturado (schema-later) - Não-estruturado (schema-never) Afinal, o que são dados?
  • 15.
    SYSTEM GENERATED DATA(Temporais, Estatísticos) Cliques Impressão de Banners Evento de Pagamento Avançar, Play, Stop Requests Trasações Mensagens de Rede Webserver Logs A origem dos dados
  • 16.
    Dados gerados açõese publicações de pessoas: Facebook, Instagram, Twitter, Youtube, Linkedin Pesquisas no Google A origem dos dados
  • 17.
    RESEARCH DATA Dados deSaúde Computação Científica Colisão de Hádrons Desenvolvimento de Drogas Estatísticas populacionais Metereologia A origem dos dados
  • 18.
    GRAPH DATA (AbstractedData Type) - Relacionamento de Pessoas, coisas etc - Redes de Telecomunicação - Redes de Estradas - Plataformas de Colaboração A origem dos dados
  • 19.
    INTERNET OF THINGS -Sensores - TAGS de Estacionamento/Pedágio - Estações Metereológicas - Unidades de Autoatendimento A origem dos dados
  • 20.
    Era da Informação Eradas Features x Paradoxo
  • 21.
    Era da Informação Paradoxo Prefirochamar de Era da Informatização. Pensava-se nos dados como informações completas. Os sistemas basicamente se resumiam ao aspecto CRUD (Ler, Escrever, Editar e Apagar) O volume de dados era na verdade um problema e uma das complexidades era modelar a estrutura que esses dados deveriam ter. Pois o estado da arte era o uso de banco de dados Relacionais. Quem mais tinha acesso aos dados não era quem deveria analisar os dados e sim a pessoa Responsável por armazená-los e realizar o tunning do banco, o DBA. Se você fizesse uma query Pesada demais, ainda tomava uma bronca.
  • 22.
    Era das Features Paradoxo Averdadeira Era da Informação. O valor dos dados está associado ao que se extrai desses dados e na habilidade em transformá-los em informações que ofereçam vantagens estratégicas, ferramentas inovadoras, compreenção de como se relacionam e comportam O volume de dados era não é mais o problema. O barateamento e elasticidadede da infraestrutura tornou possível processá-los de forma nunca antes vista na história. O crescimento da indústria OpenSource trouxe liberdade para as organizações e a redução dos custos.
  • 23.
    ●Extração de Informação ●MedirDistância/Aproximação de fatos/eventos ●Relacionar uma coisa à outra ●Correlacionar Causalidade ●Inferir ●Estudar comportamentos O que são Features As features são as características de um dado, uma coisa, um evento ou pessoa e Analisar os dados nesta nova dimensão possibilita entre outras coisas:
  • 24.
    informação As Features deum BigMac Vamos por exemplo observar o que compõe o sanduíche: Podemos dizer que estes ingredientes são suas features intrínsecas. Mas será que existem outras features um pouco mais abstratas para esta mesma coisa? R: Qualidade, Sabor, Saúde, Preço, Unidades vendidas, Unidades Produzidas, Países Um bom cientista de dados consegue fazer as perguntas certas sendo criativo. Esta criatividade provém da análise exploratória e seus insights.
  • 25.
    O Google Images,indexa as imagens da web através dos termos mais relevantes de um documento. A extração de features em texto se utiliza de algoritimos de: Scrap, Text Mining, Tokenização, TF e TF-IDF Estudo de Caso O texto presente em um documento, torna-se os atributos da imagem que está lá. Porém é necessário saber quais são as palavras ou termos que são mais importantes e podem diferenciá-la das demais. Isto é, quais são os termos relevantes.
  • 26.
    Matriz de Preferências(features) de compras de alguns usuários Estudo de Caso Um sistema de recomendação colaborativo funciona descobrindo a similaridade entre a pessoas a partir da uma amostra de suas preferências. É possível construir sistemas que recomendem em realTime produtos que possuem características interessantes à você baseando-se nas pessoas com gostos similares.
  • 27.
    Inferência Estatística Podemos relacionarum vetor de pessoas e suas features e descobrir quem possui maior grau de similaridade com determinada pessoa. Correlação de Pearson: Distância Euclidiana:
  • 28.
    Grau de Similaridade Carolx Carol -> 1.0 Carol x Rodrigo -> 0.924473451642 Carol x Fernanda -> 0.991240707162 Carol x Pedro -> 0.893405147442 Carol x Bruno -> 0.66284898036 Carol x Eduardo -> 0.381246425832 Carol x Caue -> -1.0 Ranking de Pessoas com Similariade: (3.34, 'Cebola') (2.83, 'Beterraba') (2.53, 'Couve') Ranking dos Produtos Recomendados: Estamos Inferindo o quanto a Carol gostaria dos produtos que ela não consumiu
  • 29.
    - Recomendação deprodutos em tempo real - Recomendação de amigos - E-mail Marketing personalizado um a um - Conhecer melhor o perfil de cada cliente - Melhorar o relacionamento com cliente - Criar promoções específicas para um usuário - Aumentar tempo médio de permanência no site Possibilidades Utilizando os recursos estatísticos apresentados é possível criar:
  • 30.
    Mostre-me o Código! RepositórioGIT com código-fonte em Python Utilizado apenas a biblioteca nativa MATH para permitir claro entendimento dos algorítimos utilizados. A sintaxe está bem didática https://github.com/edulemasson/colaborative_recommender
  • 31.
    - Coursera (MaioresUniversidades do Mundo) https://www.coursera.org/browse/data-science - EDX – Data Science Engineering with Apache SPARK https://www.edx.org/xseries/data-science-engineering-apache-spark - Kaagle – Dados, Desafios e Códigos https://www.kaggle.com/ - Machine Learning IBM NLTK http://www.ibm.com/developerworks/br/library/os-pythonnltk/ - Udacity Intro (Data Analisys, Science, Statistics, ML) https://br.udacity.com/course/data-analyst-nanodegree--nd002 Para saber mais Cursos Gratuitos:
  • 32.