2. THE 7 V’S
OF BIG
DATA
VOLUME: Quantidade de dados
VELOCIDADE:Velocidadenaqualosdadossãoacessados
VARIEDADE: Se seus dados são estruturados, semi
estruturados ou não estruturados
VARIABILIDADE: Quanto os seus dados mudam,
aumentam ou diminuem, por exemplo.
VERACIDADE: Quão preciso e verdadeiro é esse dado,
gerando assim uma maior relevância ou não.
VISUALIZAÇÃO: É o modo como aqueles dados
complexosserãoapresentados.Gráficos,gráficosdebarras,
histogramas e etc.
VALOR: Após todas as etapas, é dizer se esse dado possui
ou não valor para o negócio, se será rentável e valerá o
esforço do projeto.
3. PREMISSAS DO
BIG DATA
BIG DATA não é BI.
BIG DATA faz predições, olha para o futuro;
BI, olha o passado em suas projeções;
A idéia do Big Data, é de começar a olhar para dados
não utilizados e passar a agregar valor à eles.
4. INTRO TO MACHINE LEARNING
O APRENDIZADO DE MÁQUINA, identifica padrões por meio de aprendizado estatístico em meios
computacionais, com o objetivo de realizar previsões;
Um dos métodos utilizados para previsões é o de ÁRVORES DE DECISÃO, que faz o uso de cláusulas if-
then para identificar limites e definir padrões;
O SOBRE-AJUSTE(OVERFITTING) ocorre quando os dados tem alguma variação não linear, que acaba
5. SUPERVISED LEARNING
INTRO TO MACHINE LEARNING
REGRESSÃO: Dada a figura de uma pessoa, nós temos que predizer a sua idade com base na figura dada.
CLASSIFICAÇÃO:Dadoumpacientecomtumor,nóstemosquepredizerseotumorémalignooubenigno.
Regressão linear - Para regressão;
Random forest - Classificação e regressão;
SVM(Support Vector Machines) - Para classificação.
6. CLUSTERIZAÇÃO: Um problema de clusterização é onde você quer descobrir os grupos inerentes no
dado, como um agrupamento de clientes pelo seu comportamento de compras.
ASSOCIAÇÃO:Umproblemadeassociaçãoemregradeaprendizado,éondesequerdescobrirregrasque
descrevem grandes porções dos seus dados, como pessoas que compram x e também tendem a comprar y.
K-MEANS PARA CLUSTERIZAÇÃO: Algoritmo para regra de associação.
DADOS NÃO ROTULADOS: Um exemplo é um plot de arquivo onde apenas algumas imagens são
rotuladas(e.g. cachorro, gato, pessoa) e a maioria não rotulada.
UNSUPERVISED LEARNING
SEMI-SUPERVISED LEARNING
INTRO TO MACHINE LEARNING
9. APLICAÇÃO DE
IMAGEM COM OCR
E MACHINE LEARNING
SLIDING WINDOW DETECTION
Divisão do tamanho das formas geométricas(quadrados
ou retângulos) a serem utilizadas, um dos tamanhos
poderia ser 82x36;
Enquadramento das imagens;
Uso com leitura de textos, identificação de objetos
ou pessoas, leitura de números, reconhecimento de
sons(falas e etc.).
10. ARTIFICIAL DATA SYNTHESIS FOR PHOTO OCR
SINTHESIZING DATA BY INTRODUCING
DISTORTIONS
Garanta que você possua um classificador de baixo bias
antes de despender esforço;
Plot Learning Curves;
Permaneça aumentando o número de características/
númerodeunidadesocultasnaredeneural,atéquevocê
tenha um classificador de baixo bias;
Qual o trabalho para coletar/gerar mais dados?
11. BACKPROPAGATION
O backpropagation é um método comum de treino de redes neurais artificiais
usado em conjunto com algum método de otimização, como o gradient descent.
**Face Recognition: Outra Ceiling Analysis (AI)
13. ARQUITETURA E
DEMOS:
Explorando imagens:
http://vision-explorer.reactive.ai/#/galaxy?_k=2atwu1
Explorando Vídeos:
https://cloud.google.com/video-intelligence/#demo
TensorFlow - Traffic in London(datatonic):
https://youtu.be/4X_p_zXnpMA
Lendo os dados coletados pelo Tfl:
https://bigquery.cloud.google.com/results/responsive-
gist-130711:bquijob_1cf534ee_15c85dae7a7
https://bigquery.cloud.google.com/results/responsive-
gist-130711:bquijob_6ba51007_15c85dbc222
Dataset Source: SF OpenData
Predict Crimes in Boston:
http://www.fabioveronesi.net/Blog/Crimes_Boroughs.
html
http://www.fabioveronesi.net/Blog/Contour.html
14. REFERÊNCIAS
https://www.coursera.org/learn/machine-learning - Andrew NG
http://www.r2d3.us/uma-introducao-visual-ao-aprendizado-de-maquina-1/
https://www.youtube.com/watch?v=UIJVwPPhk84 - Google Cloud Onboard
http://blog.datatonic.com/2016/10/traffic-in-london-episode-i-live.html
http://blog.datatonic.com/2016/11/traffic-in-london-episode-ii-predicting.html
http://r-video-tutorial.blogspot.com.br/2015/05/interactive-maps-of-crime-data-in.html
https://www.datacamp.com/courses/introduction-to-machine-learning-with-r
https://www.datacamp.com/courses/deep-learning-in-python
https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
https://deeplearning4j.org/ai-machinelearning-deeplearning
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
15. OBRIGADO!
ERNANI DE BRITTO MURTINHO
DATA ANALYST
email: ernanibmurtinho@gmail.com
linkedin: https://br.linkedin.com/in/ernanibritto