SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
por Ernani Britto
BIG DATA
MACHINE LEARNING
DEEP LEARNING
THE 7 V’S
OF BIG
DATA
VOLUME: Quantidade de dados
VELOCIDADE:Velocidadenaqualosdadossãoacessados
VARIEDADE: Se seus dados são estruturados, semi
estruturados ou não estruturados
VARIABILIDADE: Quanto os seus dados mudam,
aumentam ou diminuem, por exemplo.
VERACIDADE: Quão preciso e verdadeiro é esse dado,
gerando assim uma maior relevância ou não.
VISUALIZAÇÃO: É o modo como aqueles dados
complexosserãoapresentados.Gráficos,gráficosdebarras,
histogramas e etc.
VALOR: Após todas as etapas, é dizer se esse dado possui
ou não valor para o negócio, se será rentável e valerá o
esforço do projeto.
PREMISSAS DO
BIG DATA
BIG DATA não é BI.
BIG DATA faz predições, olha para o futuro;
BI, olha o passado em suas projeções;
A idéia do Big Data, é de começar a olhar para dados
não utilizados e passar a agregar valor à eles.
INTRO TO MACHINE LEARNING
O APRENDIZADO DE MÁQUINA, identifica padrões por meio de aprendizado estatístico em meios
computacionais, com o objetivo de realizar previsões;
Um dos métodos utilizados para previsões é o de ÁRVORES DE DECISÃO, que faz o uso de cláusulas if-
then para identificar limites e definir padrões;
O SOBRE-AJUSTE(OVERFITTING) ocorre quando os dados tem alguma variação não linear, que acaba
SUPERVISED LEARNING
INTRO TO MACHINE LEARNING
REGRESSÃO: Dada a figura de uma pessoa, nós temos que predizer a sua idade com base na figura dada.
CLASSIFICAÇÃO:Dadoumpacientecomtumor,nóstemosquepredizerseotumorémalignooubenigno.
Regressão linear - Para regressão;
Random forest - Classificação e regressão;
SVM(Support Vector Machines) - Para classificação.
CLUSTERIZAÇÃO: Um problema de clusterização é onde você quer descobrir os grupos inerentes no
dado, como um agrupamento de clientes pelo seu comportamento de compras.
ASSOCIAÇÃO:Umproblemadeassociaçãoemregradeaprendizado,éondesequerdescobrirregrasque
descrevem grandes porções dos seus dados, como pessoas que compram x e também tendem a comprar y.
K-MEANS PARA CLUSTERIZAÇÃO: Algoritmo para regra de associação.
DADOS NÃO ROTULADOS: Um exemplo é um plot de arquivo onde apenas algumas imagens são
rotuladas(e.g. cachorro, gato, pessoa) e a maioria não rotulada.
UNSUPERVISED LEARNING
SEMI-SUPERVISED LEARNING
INTRO TO MACHINE LEARNING
MACHINE LEARNING
DEEP LEARNING
x
DEEPLEARNINGéumsubconjuntodeMachineLearning,
que por sua vez é um subconjunto do campo de AI.
OtermotécnicoDEEP,serefereaonúmerodecamadasem
uma rede neural. Uma shallow network tem uma camada
chamada camada oculta, e uma deep network tem mais de
uma.
APLICAÇÃO DE
IMAGEM COM OCR
E MACHINE LEARNING
SLIDING WINDOW DETECTION
Divisão do tamanho das formas geométricas(quadrados
ou retângulos) a serem utilizadas, um dos tamanhos
poderia ser 82x36;
Enquadramento das imagens;
Uso com leitura de textos, identificação de objetos
ou pessoas, leitura de números, reconhecimento de
sons(falas e etc.).
ARTIFICIAL DATA SYNTHESIS FOR PHOTO OCR
SINTHESIZING DATA BY INTRODUCING
DISTORTIONS
Garanta que você possua um classificador de baixo bias
antes de despender esforço;
Plot Learning Curves;
Permaneça aumentando o número de características/
númerodeunidadesocultasnaredeneural,atéquevocê
tenha um classificador de baixo bias;
Qual o trabalho para coletar/gerar mais dados?
BACKPROPAGATION
O backpropagation é um método comum de treino de redes neurais artificiais
usado em conjunto com algum método de otimização, como o gradient descent.
**Face Recognition: Outra Ceiling Analysis (AI)
ESTUDO DE CASO:
TRÁFEGO DE LONDRES
TENSORFLOW - LSTMS RNN
ARQUITETURA E
DEMOS:
Explorando imagens:
http://vision-explorer.reactive.ai/#/galaxy?_k=2atwu1
Explorando Vídeos:
https://cloud.google.com/video-intelligence/#demo
TensorFlow - Traffic in London(datatonic):
https://youtu.be/4X_p_zXnpMA
Lendo os dados coletados pelo Tfl:
https://bigquery.cloud.google.com/results/responsive-
gist-130711:bquijob_1cf534ee_15c85dae7a7
https://bigquery.cloud.google.com/results/responsive-
gist-130711:bquijob_6ba51007_15c85dbc222
Dataset Source: SF OpenData
Predict Crimes in Boston:
http://www.fabioveronesi.net/Blog/Crimes_Boroughs.
html
http://www.fabioveronesi.net/Blog/Contour.html
REFERÊNCIAS
https://www.coursera.org/learn/machine-learning - Andrew NG
http://www.r2d3.us/uma-introducao-visual-ao-aprendizado-de-maquina-1/
https://www.youtube.com/watch?v=UIJVwPPhk84 - Google Cloud Onboard
http://blog.datatonic.com/2016/10/traffic-in-london-episode-i-live.html
http://blog.datatonic.com/2016/11/traffic-in-london-episode-ii-predicting.html
http://r-video-tutorial.blogspot.com.br/2015/05/interactive-maps-of-crime-data-in.html
https://www.datacamp.com/courses/introduction-to-machine-learning-with-r
https://www.datacamp.com/courses/deep-learning-in-python
https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
https://deeplearning4j.org/ai-machinelearning-deeplearning
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
OBRIGADO!
ERNANI DE BRITTO MURTINHO
DATA ANALYST
email: ernanibmurtinho@gmail.com
linkedin: https://br.linkedin.com/in/ernanibritto

Mais conteúdo relacionado

Semelhante a Apresentação na maplink de machine learning

Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência ArtificialJoão Gabriel Lima
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 
First Big Data Week
First Big Data Week First Big Data Week
First Big Data Week Hélio Silva
 
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial -  Uma Abordagem Visual[Jose Ahirton Lopes] Inteligencia Artificial -  Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem VisualAhirton Lopes
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better Data[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better DataAhirton Lopes
 
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem VisualAhirton Lopes
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Diego Nogare
 
Visualizando Dados - 2º Meetup R Ladies Rio
Visualizando Dados - 2º Meetup R Ladies RioVisualizando Dados - 2º Meetup R Ladies Rio
Visualizando Dados - 2º Meetup R Ladies RioNatalia Medina
 

Semelhante a Apresentação na maplink de machine learning (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência Artificial
 
Data mining
Data miningData mining
Data mining
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
First Big Data Week
First Big Data Week First Big Data Week
First Big Data Week
 
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial -  Uma Abordagem Visual[Jose Ahirton Lopes] Inteligencia Artificial -  Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better Data[Jose Ahirton lopes] Do Big ao Better Data
[Jose Ahirton lopes] Do Big ao Better Data
 
BIG data
BIG dataBIG data
BIG data
 
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
[Jose Ahirton Lopes] Inteligencia Artificial - Uma Abordagem Visual
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
 
Visualizando Dados - 2º Meetup R Ladies Rio
Visualizando Dados - 2º Meetup R Ladies RioVisualizando Dados - 2º Meetup R Ladies Rio
Visualizando Dados - 2º Meetup R Ladies Rio
 

Apresentação na maplink de machine learning

  • 1. por Ernani Britto BIG DATA MACHINE LEARNING DEEP LEARNING
  • 2. THE 7 V’S OF BIG DATA VOLUME: Quantidade de dados VELOCIDADE:Velocidadenaqualosdadossãoacessados VARIEDADE: Se seus dados são estruturados, semi estruturados ou não estruturados VARIABILIDADE: Quanto os seus dados mudam, aumentam ou diminuem, por exemplo. VERACIDADE: Quão preciso e verdadeiro é esse dado, gerando assim uma maior relevância ou não. VISUALIZAÇÃO: É o modo como aqueles dados complexosserãoapresentados.Gráficos,gráficosdebarras, histogramas e etc. VALOR: Após todas as etapas, é dizer se esse dado possui ou não valor para o negócio, se será rentável e valerá o esforço do projeto.
  • 3. PREMISSAS DO BIG DATA BIG DATA não é BI. BIG DATA faz predições, olha para o futuro; BI, olha o passado em suas projeções; A idéia do Big Data, é de começar a olhar para dados não utilizados e passar a agregar valor à eles.
  • 4. INTRO TO MACHINE LEARNING O APRENDIZADO DE MÁQUINA, identifica padrões por meio de aprendizado estatístico em meios computacionais, com o objetivo de realizar previsões; Um dos métodos utilizados para previsões é o de ÁRVORES DE DECISÃO, que faz o uso de cláusulas if- then para identificar limites e definir padrões; O SOBRE-AJUSTE(OVERFITTING) ocorre quando os dados tem alguma variação não linear, que acaba
  • 5. SUPERVISED LEARNING INTRO TO MACHINE LEARNING REGRESSÃO: Dada a figura de uma pessoa, nós temos que predizer a sua idade com base na figura dada. CLASSIFICAÇÃO:Dadoumpacientecomtumor,nóstemosquepredizerseotumorémalignooubenigno. Regressão linear - Para regressão; Random forest - Classificação e regressão; SVM(Support Vector Machines) - Para classificação.
  • 6. CLUSTERIZAÇÃO: Um problema de clusterização é onde você quer descobrir os grupos inerentes no dado, como um agrupamento de clientes pelo seu comportamento de compras. ASSOCIAÇÃO:Umproblemadeassociaçãoemregradeaprendizado,éondesequerdescobrirregrasque descrevem grandes porções dos seus dados, como pessoas que compram x e também tendem a comprar y. K-MEANS PARA CLUSTERIZAÇÃO: Algoritmo para regra de associação. DADOS NÃO ROTULADOS: Um exemplo é um plot de arquivo onde apenas algumas imagens são rotuladas(e.g. cachorro, gato, pessoa) e a maioria não rotulada. UNSUPERVISED LEARNING SEMI-SUPERVISED LEARNING INTRO TO MACHINE LEARNING
  • 7. MACHINE LEARNING DEEP LEARNING x DEEPLEARNINGéumsubconjuntodeMachineLearning, que por sua vez é um subconjunto do campo de AI. OtermotécnicoDEEP,serefereaonúmerodecamadasem uma rede neural. Uma shallow network tem uma camada chamada camada oculta, e uma deep network tem mais de uma.
  • 8.
  • 9. APLICAÇÃO DE IMAGEM COM OCR E MACHINE LEARNING SLIDING WINDOW DETECTION Divisão do tamanho das formas geométricas(quadrados ou retângulos) a serem utilizadas, um dos tamanhos poderia ser 82x36; Enquadramento das imagens; Uso com leitura de textos, identificação de objetos ou pessoas, leitura de números, reconhecimento de sons(falas e etc.).
  • 10. ARTIFICIAL DATA SYNTHESIS FOR PHOTO OCR SINTHESIZING DATA BY INTRODUCING DISTORTIONS Garanta que você possua um classificador de baixo bias antes de despender esforço; Plot Learning Curves; Permaneça aumentando o número de características/ númerodeunidadesocultasnaredeneural,atéquevocê tenha um classificador de baixo bias; Qual o trabalho para coletar/gerar mais dados?
  • 11. BACKPROPAGATION O backpropagation é um método comum de treino de redes neurais artificiais usado em conjunto com algum método de otimização, como o gradient descent. **Face Recognition: Outra Ceiling Analysis (AI)
  • 12. ESTUDO DE CASO: TRÁFEGO DE LONDRES TENSORFLOW - LSTMS RNN
  • 13. ARQUITETURA E DEMOS: Explorando imagens: http://vision-explorer.reactive.ai/#/galaxy?_k=2atwu1 Explorando Vídeos: https://cloud.google.com/video-intelligence/#demo TensorFlow - Traffic in London(datatonic): https://youtu.be/4X_p_zXnpMA Lendo os dados coletados pelo Tfl: https://bigquery.cloud.google.com/results/responsive- gist-130711:bquijob_1cf534ee_15c85dae7a7 https://bigquery.cloud.google.com/results/responsive- gist-130711:bquijob_6ba51007_15c85dbc222 Dataset Source: SF OpenData Predict Crimes in Boston: http://www.fabioveronesi.net/Blog/Crimes_Boroughs. html http://www.fabioveronesi.net/Blog/Contour.html
  • 14. REFERÊNCIAS https://www.coursera.org/learn/machine-learning - Andrew NG http://www.r2d3.us/uma-introducao-visual-ao-aprendizado-de-maquina-1/ https://www.youtube.com/watch?v=UIJVwPPhk84 - Google Cloud Onboard http://blog.datatonic.com/2016/10/traffic-in-london-episode-i-live.html http://blog.datatonic.com/2016/11/traffic-in-london-episode-ii-predicting.html http://r-video-tutorial.blogspot.com.br/2015/05/interactive-maps-of-crime-data-in.html https://www.datacamp.com/courses/introduction-to-machine-learning-with-r https://www.datacamp.com/courses/deep-learning-in-python https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/ https://deeplearning4j.org/ai-machinelearning-deeplearning http://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 15. OBRIGADO! ERNANI DE BRITTO MURTINHO DATA ANALYST email: ernanibmurtinho@gmail.com linkedin: https://br.linkedin.com/in/ernanibritto