O documento apresenta o plano de um curso de Big Data e Data Mining para Indústria 4.0, com módulos sobre mapa de fluxo de valor, simulação de processos industriais, análise de big data, internet das coisas, robótica, drones, manutenção aditiva e segurança cibernética. Inclui também conceitos sobre estruturação e modelagem de dados, ferramentas de business intelligence, inteligência artificial, armazenamento em nuvem e conceitos estatísticos e de probabilidade.
1. DISCIPLINA: BIG DATA E DATA MINING
CONCEITOS
PROF. MARCELO LUIZ LOPES ROCHA, M.SC
MLLR3M@GMAIL.COM – 92 984323066.
AULA 3
2. 2
INDUSTRIA 4.0 – ID85A
Módulos C/H Datas
Mapa de Fluxo de Valor e
Virtualização
45
horas
05, 06, 07, 12, 13, 14, 19, 20, 21 de
dezembro de 2018.
Simulação de Processos
Industriais
45
horas
30, 31 de janeiro. 01, 13, 14, 15, 27, 28
de fevereiro. 01 de março de 2019.
Big Data Analysis e Data Mining
para Indústria
45
horas
13, 14, 15, 27, 28, 29 de março. 10, 11,
12 de abril de 2019.
IoT Aplicado aos Negócios e
Realidade Aumentada
45
horas
24, 25, 26 de abril. 08, 09, 10, 22, 23, 24
de maio de 2019.
Robótica Colaborativa e
Exoesqueleto
45
horas
05, 06, 07, 12, 13, 14 de junho. 03, 04,
05 de julho de 2019.
Veículos Aéreos Não Tripulados
(DRONES)
45
horas
31 de julho. 01, 02, 14, 15, 16, 28, 29, 30
de agosto de 2019.
Manutenção Aditiva e Preditiva
com Prototipagem 3D
45
horas
11, 12, 13, 25, 26, 27 de setembro. 09,
10, 11 de outubro de 2019.
Cyber Security
45
horas
30, 31 de outubro. 01, 13, 14, 15, 27, 28,
29 de novembro de 2019.
4. 4
DADOS! DADOS! DADOS!
Vivemos em um mundo que está soterrado por dados. Os websites
rastreiam todos os seus clientes, os smartphones fazem registros da
localização de seus usuários, carros inteligentes coletam hábitos de
direção, casas inteligentes coletam hábitos de moradia e
marqueteiros inteligentes coletam hábitos de compra.
Redação ENEM 2018/2019: “Manipulação do comportamento do
usuário pelo controle de dados na internet”. Os textos apresentados
pela banca fizeram referência ao algoritmo e como o próprio usuário
alimenta o sistema com aplicativos de música ou redes sociais, por
exemplo, de forma que insere nesse sistema de informações seus
gostos e o mesmo influencia nas suas preferências e opiniões.
Muitos se manifestaram sobre a possibilidade de abordar um tema
específico: as fake news.
5. 5
O QUE FAZ UM CIENTISTA DE DADOS?
O mundo de hoje está cheio de pessoas tentando transformar dados
em conhecimento. Um cientista de dados é alguém que extrai
conhecimento de dados desorganizados.
Em 2012, a campanha de Obama empregou muitos cientistas de
dados que mineraram os dados e experimentarem uma forma de
identificar os eleitores que precisavam de uma atenção extra,
otimizar programas e recursos para a captação de fundos de
doadores específicos e focando esforços para votos onde
provavelmente eles teriam sido úteis. É seguro apostar que as
campanhas políticas do futuro se tornem cada vez mais dependente
de dados.
7. VISUALIZAÇÃO DE DADOS
7
Uma parte fundamental do kit de ferramentas do cientista
de dados é a visualização de dados. Existem dois usos
primários para a visualização de dados:
Para explorar dados
Para comunicar dados
8. VISUALIZAÇÃO DE DADOS
8
Gráficos de Barra
Um gráfico de barra é uma boa escolha quando você quer
mostrar como algumas quantidades variam entre um
conjunto particular de itens
Gráficos de Linhas
Gráficos de linha são uma boa escolha ao mostrar
tendências
Gráficos de Dispersão
Um gráfico de dispersão é a escolha certa para visualizar o
relacionamento entre dois pares de conjuntos de dados.
10. ESTATÍSTICA
10
Para entender a linguagem que descreve os datasets,
precisamos das noções básicas de ESTATÍSTICA!!!
“Statistics refers to the mathematics and techniques whit
which we understand data” – Joel Grus
11. ESTATÍSTICA
11
TENDÊNCIAS CENTRAIS:
Geralmente, queremos ter alguma noção de onde nossos dados
estão centrados.
A média será mais utilizada pois ela é a soma dos dados divido pela
sua contagem. Se você tem dois pontos de dados, a média é o ponto
no meio do caminho entre eles, conforme você acrescenta mais
pontos, a média se move, mas sempre dependendo do valor de cada
ponto.
Algumas vezes nos interessamos pela mediana, que é o valor do meio
(se o número de pontos de dados for ímpar) ou a média dos dois
valores que estiverem bem no meio (se o número de pontos de dados
for par).
12. ESTATÍSTICA
12
DISPERSÃO:
A dispersão se refere à medida de como os nossos dados estão
espalhados. Tipicamente, eles são estatísticas em que valore perto
de zero significam não estão espalhados de forma alguma e para
maiores significa muito espalhados.
Uma simples medida de dispersão é a amplitude, que é a diferença
entre o maior e o menor elemento.
Uma medida de dispersão mais complexa é a variância, que em uma
amostra global corresponde ao desvio do quadrado médio da média.
Como a variância possui unidades que são os quadrados das unidades
originais, geralmente utilizamos a medida de dispersão desvio
padrão, que corresponde a raiz quadrada da variância.
14. PROBABILIDADE
14
Para os propósitos da data sciece, probabilidade será vista como
uma forma de quantificar a incerteza associada com eventos
escolhidos a partir de um universo deles. Pense no lançamento de
um dado, o universo consiste de todos os resultados possíveis,
cada subconjunto desses resultados é um evento. Escrevemos P(E)
como para “a probabilidade do evento E”. A probabilidade será
utilizada tanto para construir quanto para avaliar modelos.
15. PROBABILIDADE
15
Dados dois eventos E e F, eles serão ditos
dependentes se soubermos algo sobre se
E ocorre nos der informações sobre se F
ocorre. Do contrário, são independentes.
Matematicamente, dizemos esses eventos
são independentes se a probabilidade
deles acontecerem é o produto de que
cada um deles aconteça:
P (E, F) = P(E) × P(F).
Se não são necessariamente
independentes, logo definimos a
probabilidade de E “condicionada a F”
assim:
P(E|F) = P(E,F) ÷ P(F), por tanto
P (E, F) = P(E|F) × P(F).
16. PROBABILIDADE
16
TEOREMA DE BAYES:
O teorema de Bayes é uma maneira de “reverter” as probabilidades
condicionais. Quando for necessário saber a probabilidade de algum
evento E ser condicionado à ocorrência de outro evento F, se
houver apenas a informação sobre a probabilidade da ocorrência de
F sendo condicionado a E, usando a definição de probabilidade
condicional duas vezes, pode-se dizer que:
P(E|F) = P(E, F) / P(F) = P(F|E) × P(E) / P(F)
Como o evento F pode ser dividido em dois eventos mutuamente
exclusivos “F e E” e “F e não E”, logo: P(F) = P(F, E)+P(F,¬E).
Portanto:
P(E|F) = P(F|E) × P(E) / [P(F|E) × P(E) + P(F|¬E) × P(¬E)]
17. PROBABILIDADE
17
TEOREMA DE BAYES:
Imagine que uma determinada doença afete 1 a cada 10.000
pessoas. E imagine que haja um teste para essa doença que mostra
o resultado correto (“doente” se não tiver a doença e “não doente”
se não) 99% das vezes. O que significa um teste positivo? Vamos
usar T para o evento “seu teste é positivo” e D para o evento “você
tem a doença”. O teorema de Bayes diz que a probabilidade de
você ter a doença, condicional ao teste positivo é:
P(D|T) = P(T|D) × P(D) / [P(T|D) × P(D) + P(T|¬D) × P(¬D)]
18. PROBABILIDADE
18
VARIÁVEIS ALEATÓRIAS:
Uma variável aleatória é a variável cujos valores possíveis possuem
uma distribuição de probabilidade associada. A distribuição
associada dá as probabilidades que a variável possui em cada um
de seus valores possíveis. Às vezes fala-se sobre valor esperado da
variável aleatória, o qual é a média de seus valores ponderados por
suas probabilidades.
19. PROBABILIDADE
19
DISTRIBUIÇÃO NORMAL:
A distribuição normal é a rainha das distribuições. É uma das
clássica distribuição de curva em forma de sino e é determinada por
dois parâmetros: sua média μ e o desvio padrão σ. A média indica
onde o sino é centralizado e o desvio padrão indica a largura do
sino. Ela possui a função de distribuição:
𝑓 𝑥 𝜇, 𝜎 =
1
2 ∙ 𝜋 ∙ 𝜎
∙ 𝑒
−
𝑥 − 𝜇 2
2∙𝜎2
É chamada de distribuição normal padrão quando μ = 0 e σ = 1. Se
Z é uma variável aleatória normal padrão, então: X = σZ + μ
também é normal mas com a média μ e desvio padrão σ. Por outro
lado, se X é uma variável aleatória normal com média μ e desvio
padrão σ, Z = (X - μ)/σ é uma variável normal padrão.
20. APRENDIZADO DE MÁQUINA
20
Para alguns, data science é aprendizado de máquina, por
imaginarem que os cientistas de dados trabalham com modelos de
aprendizado o dia inteiro. Na verdade, data science é mais
transformar problemas empresarias em problemas de dados,
enquanto que o aprendizado de máquina é um consideração
subsequente.
Aprendizado de máquina refere-se à criação e ao uso de modelos
que são aprendidos a partir dos dados, em outros contextos
podendo ser chamado de modelo preditivo ou mineração de
dados. Normalmente o objetivo é usar dados existentes para
desenvolver modelos que possam ser usados para prever possíveis
saídas para dados novos.
21. APRENDIZADO DE MÁQUINA
21
MODELAGEM:
Modelos é a especificação de um relação matemática existente entre
variáveis diferentes. Existem vários tipos de modelos para aprendizado
de máquina:
Modelos supervisionados são aqueles nos quais existe um conjunto
de dados etiquetados com a resposta correta para aprendizagem
Modelos sem supervisão são aqueles nos quais não existe tais
etiquetas
Modelos semispervisionados são aqueles nos quais apenas alguns
dados são etiquetados
Modelos online são aqueles nos quais o modelo precisa ter um
ajuste contínuo em face de chegada de novos dados.
22. APRENDIZADO DE MÁQUINA
22
Quando seus dados não tiverem características suficientes, é possível
que seu modelo sub-ajuste. E quando seus dados possuem muitas
características, fica fácil de sobreajustar, sendo características
quaisquer entradas fornecida ao modelo.
Quase sempre as características dos dados serão do tipo booleana,
quantitativa ou qualitativa. Daí haverá respectivos modelos ideais:
O classificador Naive Bayes é destinado às características
booleanas;
Os modelos de regressão requerem características numéricas;
E as arvores de decisão podem lidar com dados numéricos ou
categóricos.
23. REDES NEURAIS
23
Uma rede neural artificial é um modelo preditivo motivado pela
forma como o cérebro funciona. Redes neurais artificias consistem
de neurônios artificiais, que desenvolvem cálculos similares sobre
entradas. Rede neurais podem resolver uma variedade de
problemas como reconhecimento de caligrafia e detecção facial, e
elas são muito usadas em deep learning, umas das subáreas mais
populares de data science.
25. ORANGE
25
Orange é um Software Open Source de programação visual baseado
em componentes utilizado para a análise de dados e aprendizado de
máquina. Ele possui um ambiente interativo, onde os componentes do
Orange (chamados widgets) podem realizar desde simples
visualização, seleção e pré-processamento de dados até avaliação de
algoritmos de aprendizado.
Na interface gráfica de programação visual são criados os workflows
dos widgets. Os widgets podem ser pré-definidos ou desenvolvidos
pelos próprios usuários. Usuários experientes podem utilizar o Orange
como um biblioteca Python de análise de dados.
28. 28
ORANGE
Modelos de Aprendizagem Supervisionada (Model): Widgets
utilizados para desenvolver classificadores ou regressores por
aprendizagem supervisionada.
37. REFERÊNCIAS
37
BRUCE, Peter; BRUCE, Andrew. Practical statistics for data scientists: 50
essential concepts. " O'Reilly Media, Inc.", 2017.
CURK, Tomaž et al. Data Mining w/o Programming. “A hands-on workshop
at the Functional Genomics Workshop”, 2014.
DEMŠAR, Janez et al. Orange: data mining toolbox in Python. The Journal of
Machine Learning Research, v. 14, n. 1, p. 2349-2353, 2013.
GRUS, Joel. Data science from scratch: first principles with python. "
O'Reilly Media, Inc.", 2015.
http://www.lac.inpe.br/ (repositório do “Laboratório Associado de Computação
e Matemática Aplicada”).