3. Agenda
• O que é Internet das Coisas.
• O que é Machine Learning (ML).
• Tipos de algoritmos de ML.
• Casos de Estudo ML para IoT
– Saúde.
– Meio-ambiente.
– Segurança do trabalhador.
5. Definição
• A Internet das Coisas (IoT) é a rede de
dispositivos físicos, veículos, eletrodomésticos
e outros itens incorporados à eletrônica,
software, sensores, atuadores e
conectividade, que permite que esses objetos
se conectem e troquem dados. (wikipedia)
21. O que é Data Science
• É um campo interdisciplinar de métodos,
processos, algoritmos e sistemas científicos
para extrair conhecimento ou insights de
dados em várias formas, estruturadas ou não,
semelhantes à mineração de dados. (wikipedia)
25. D I K U W
Data Information Knowledge Understanding Wisdom
PAST FUTURE
Raw What How to Why When
Numbers Description Experience Cause & Effect Prediction
Letters Context Tested Proven What’s best
Symbols Relationship Instruction Known Unkowns Unkown Unkowns
Known Knows
Models
Signals Reports Programs
Adaptado do Piramide DIKW
32. Origem do Machine Learning
• 1950 - Alan Turing criou o
“Teste de Turing” para
determinar se um computador
possui inteligência real. Para
passar no teste, um
computador deve ser capaz de
enganar um humano,
acreditando que também é
humano.
Bernard Marr (2016)
33. Origem do Machine Learning
• 1952 - Arthur Samuel escreveu
o primeiro programa de
aprendizado de computador. O
programa foi o jogo de damas.
Bernard Marr (2016)
34. Origem do Machine Learning
• 1957 - Frank Rosenblatt
designed the first neural
network for computers (the
perceptron), which simulate
the thought processes of the
human brain.
Bernard Marr (2016)
35. Origem do Machine Learning
• 1967 - O algoritmo de
“nearest neighbor” foi
escrito, permitindo que os
computadores comecem a
usar um reconhecimento de
padrões muito básico.
Bernard Marr (2016)
36. Origem do Machine Learning
• 1979 - Os estudantes da
Universidade de Stanford
inventam o “Stanford Cart”,
que pode navegar por
obstáculos em uma sala por
conta própria.
Bernard Marr (2016)
37. Origem do Machine Learning
• 1981 — Gerald Dejong introduz o
conceito de Explanation-Based
Learning (EBL), em que um
computador analisa dados de
treinamento e cria uma regra
geral que pode ser seguida
descartando dados sem
importância.
Bernard Marr (2016)
38. Origem do Machine Learning
• 1985 - Terry Sejnowski
inventa o NetTalk, que
aprende a pronunciar as
palavras da mesma forma que
um bebê.
Bernard Marr (2016)
39. Origem do Machine Learning
• Anos 90 - O trabalho sobre ML de
uma abordagem orientada pelo
conhecimento para uma abordagem
baseada em dados.
• Os cientistas começam a criar
programas para computadores para
analisar grandes quantidades de
dados e tirar conclusões - ou
"aprender" - a partir dos resultados.
Bernard Marr (2016)
40. Origem do Machine Learning
• 1997 - O Deep Blue da IBM
bate o campeão mundial no
xadrez.
Bernard Marr (2016)
41. Origem do Machine Learning
• 2006 - Geoffrey Hinton utiliza
o termo ”Deep Learning" para
explicar novos algoritmos que
permitem aos computadores
"ver" e distinguir objetos e
textos em imagens e vídeos.
Bernard Marr (2016)
42. Origem do Machine Learning
• 2010 — O Microsoft Kinect pode
rastrear 20 características
humanas 30 x/s, permitindo que
as pessoas interajam com o
computador por meio de
movimentos e gestos.
Bernard Marr (2016)
43. Origem do Machine Learning
• 2011 - O Watson da IBM supera
seus concorrentes humanos no
‘Jeopardy’.
• O Google Brain é desenvolvido e
sua Deep Neural Network pode
aprender a descobrir e categorizar
objetos da mesma forma que um
gato.
Bernard Marr (2016)
44. Origem do Machine Learning
• 2012 - O ‘X Lab’ da Google
desenvolve um algoritmo de
Machine Learning capaz de
navegar de forma autônoma em
vídeos do YouTube para
identificar os vídeos que
contêm gatos.
Bernard Marr (2016)
45. Origem do Machine Learning
• 2014 - O Facebook desenvolve
o DeepFace, um algoritmo de
software que é capaz de
reconhecer ou verificar
indivíduos em fotos no
mesmo nível que os humanos.
Bernard Marr (2016)
46. Origem do Machine Learning
• 2015 - A Amazon lança sua própria
plataforma de aprendizado de
máquina.
• A Microsoft cria o Distributed
Machine Learning Toolkit, que
permite a distribuição eficiente de
problemas de aprendizado de
máquina em vários computadores.
Bernard Marr (2016)
47. Origem do Machine Learning
• 2015 - Mais de 3 mil
pesquisadores de IA e Robótica,
apoiados por Stephen Hawking,
Elon Musk e Steve Wozniak
(entre outros), assinam uma
carta aberta alertando sobre o
perigo de armas autônomas que
selecionam e engajam alvos sem
intervenção humana.
Bernard Marr (2016)
48. Origem do Machine Learning
• 2016 - O algoritmo de AI da Google
bate um jogador profissional no
jogo de tabuleiro chinês Go,
considerado o jogo de tabuleiro
mais complexo do mundo e muitas
vezes mais difícil que o xadrez. O
algoritmo AlphaGo, desenvolvido
pelo Google DeepMind, conseguiu
vencer cinco dos cinco jogos da
competição Go.
Bernard Marr (2016)
49. Origem do Machine Learning
• 2017 - O algoritimo de ML da
Google é preciso em 89% do
tempo na detecção do câncer
de mama. Isso é 15% mais
eficaz que os patologistas,
com 74%.
Statwolf.com
50. O que é Inteligência Artificial (IA)
IA
“Simulação de qualquer
tarefa intelectual.” IA
51. IA Sub-set
IA Sub-set
• Search and Planning (Chess)
• Reasoning and Knowledge representation
(Watson)
• Perception (Sensing)
• Ability to move and manipulate objects
(robotics)
• Natural language processing (Google)
• Machine Learning
NLP
IA
ML
S&P
M&M
R&K
P
52. O que é Machine Learning
Machine Learning
O aprendizado de máquina é um campo da ciência da
computação que usa técnicas estatísticas para dar aos
sistemas de computador a capacidade de "aprender"
(ou seja, melhorar progressivamente o desempenho
em uma tarefa específica) com dados, sem ser
explicitamente programado. (Wikipedia)
53. O que é Machine Learning
Machine Learning
É o aprendizado computacional pela experiência
passada. (Udacity)
54. O que será ML
• “A breakthrough in machine learning would be worth
ten Microsofts” (Bill Gates, Chairman, Microsoft)
• “Machine learning is the next Internet”
(Tony Tether, Director, DARPA)
• Machine learning is the hot new thing”
(John Hennessy, President, Stanford)
55. O que será ML
• “Web rankings today are mostly a matter of machine
learning” (Prabhakar Raghavan, Dir. Research, Yahoo)
• “Machine learning is going to result in a real
revolution” (Greg Papadopoulos, CTO, Sun)
• “Machine learning is today’s discontinuity”
(Jerry Yang, Founder, Yahoo)
67. Problema
• Identificação de áreas perigosas para
trabalhadores.
– Potencial queda
• Trabalhadores evitam relatar acidentes e incidentes.
• Áreas de instabilidade precisam ser identificadas.
– Risco de atropelamento
• Trabalhadores trafegam em área de risco.
76. Conceito de uso do ML
• Dados de indicação de
queda
– Alerta de queda.
• Dados de indicação de
instabilidade.
– Dados de
aceleração.
• Dados de localização.
– Latitude.
– Longitude.
DADOS
K-Means
Clustering ML
• Identificação de áreas
de instabilidade.
– Insights IMU
• Identificação de
trabalhadores mais
propensos a risco.
– Permacem mais
tempo e de forma
recorrente.
RESULTADOS
79. Problema
• O protocolo de tratamento oncológico infantil
muda a cada 3 anos.
• Este curto período dificulta entendimento dos
efeitos colaterais medicamentosos e outras
reações.
• Pode diminuir a expectativa de vida do
paciente.
83. Conceito de uso do ML
• Dados de Sinais
vitais
• Dados de Arquivos
Médicos
DADOS
K-Means
Clustering ML
• Identificação de
grupos de crianças
através de insights
escondidos nos dados.
RESULTADOS
85. Conceito de uso do ML
• Grupos definidos.
• Dados de Sinais
vitais.
• Dados de Arquivos
Médicos.
DADOS
SVM
Linear Regression ML
• Predição de alteração
térmica.
• Alerta para retorno do
paciente ao hospital.
RESULTADOS
91. Conceito de uso do ML
• Medidas de diversos
parâmetros
– Temperatura,
Condutividade,
Turbides, pH,
Oxigênio
Dissolvido e ORP.
DADOS
Normalization
Scaling
• Ajustando range de
dados.
• Normalizando dados
(Linear, Algoritmo,
etc).
• Remoção de ouliers.
RESULTADOS
92. Conceito de uso do ML
• Medidas de diversos
parâmetros
– Temperatura,
Condutividade,
Turbides, pH,
Oxigênio
Dissolvido e ORP.
•
DADOS
PCA
Dimensionality reduction
• Entendimento de
quais features estão
inter-relacionados.
• Feature reduction.
RESULTADOS
K-Means
O termo "k-means" foi empregado primeiramente por James MacQueen em 1967,[1] embora a ideia remonta a Hugo Steinhaus em 1957.[2] O "Standard algorithm" foi proposto primeiramente por Stuart Lloyd em 1957 como uma técnica para modulação por código de pulso, embora não tenha sido publicada fora dos laboratórios Bell até 1982.[3] Em 1965, E.W.Forgy publicou essencialmente o mesmo método, é por isso que é por vezes referido também como Lloyd-Forgy.[4] Uma v
O problema é computacionalmente difícil (NP-difícil), no entanto, existem algoritmos heurísticos eficientes que são comumente empregados e convergem rapidamente para um local optimum. Estes são geralmente semelhantes ao algoritmo de maximização da expectativa para misturas de distribuições gaussianas através de uma abordagem de refinamento iterativo utilizado por ambos os algoritmos. Além disso, ambos usam os centros de clusters para modelar dados, no entanto, a clusterização k-means tende a encontrar clusters de extensão espacial comparáveis enquanto o mecanismo de maximização da expectativa permite ter diferentes formas.ersão mais eficiente foi proposta e publicada em Fortran por Hartigan e Wong, no período entre 1975 e 1979.[5]
K-Means
O termo "k-means" foi empregado primeiramente por James MacQueen em 1967,[1] embora a ideia remonta a Hugo Steinhaus em 1957.[2] O "Standard algorithm" foi proposto primeiramente por Stuart Lloyd em 1957 como uma técnica para modulação por código de pulso, embora não tenha sido publicada fora dos laboratórios Bell até 1982.[3] Em 1965, E.W.Forgy publicou essencialmente o mesmo método, é por isso que é por vezes referido também como Lloyd-Forgy.[4] Uma v
O problema é computacionalmente difícil (NP-difícil), no entanto, existem algoritmos heurísticos eficientes que são comumente empregados e convergem rapidamente para um local optimum. Estes são geralmente semelhantes ao algoritmo de maximização da expectativa para misturas de distribuições gaussianas através de uma abordagem de refinamento iterativo utilizado por ambos os algoritmos. Além disso, ambos usam os centros de clusters para modelar dados, no entanto, a clusterização k-means tende a encontrar clusters de extensão espacial comparáveis enquanto o mecanismo de maximização da expectativa permite ter diferentes formas.ersão mais eficiente foi proposta e publicada em Fortran por Hartigan e Wong, no período entre 1975 e 1979.[5]
K-Means
O termo "k-means" foi empregado primeiramente por James MacQueen em 1967,[1] embora a ideia remonta a Hugo Steinhaus em 1957.[2] O "Standard algorithm" foi proposto primeiramente por Stuart Lloyd em 1957 como uma técnica para modulação por código de pulso, embora não tenha sido publicada fora dos laboratórios Bell até 1982.[3] Em 1965, E.W.Forgy publicou essencialmente o mesmo método, é por isso que é por vezes referido também como Lloyd-Forgy.[4] Uma v
O problema é computacionalmente difícil (NP-difícil), no entanto, existem algoritmos heurísticos eficientes que são comumente empregados e convergem rapidamente para um local optimum. Estes são geralmente semelhantes ao algoritmo de maximização da expectativa para misturas de distribuições gaussianas através de uma abordagem de refinamento iterativo utilizado por ambos os algoritmos. Além disso, ambos usam os centros de clusters para modelar dados, no entanto, a clusterização k-means tende a encontrar clusters de extensão espacial comparáveis enquanto o mecanismo de maximização da expectativa permite ter diferentes formas.ersão mais eficiente foi proposta e publicada em Fortran por Hartigan e Wong, no período entre 1975 e 1979.[5]
4.3. Preprocessing data¶
The sklearn.preprocessing package provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.
In general, learning algorithms benefit from standardization of the data set. If some outliers are present in the set, robust scalers or transformers are more appropriate. The behaviors of the different scalers, transformers, and normalizers on a dataset containing marginal outliers is highlighted in Compare the effect of different scalers on data with outliers.
2.5.1. Principal component analysis (PCA)¶
2.5.1.1. Exact PCA and probabilistic interpretation
PCA is used to decompose a multivariate dataset in a set of successive orthogonal components that explain a maximum amount of the variance. In scikit-learn, PCA is implemented as a transformer object that learns components in its fitmethod, and can be used on new data to project it on these components.