SlideShare uma empresa Scribd logo
1 de 37
DISCIPLINA: BIG DATA E DATA MINING
CONCEITOS
PROF. MARCELO LUIZ LOPES ROCHA, M.SC
MLLR3M@GMAIL.COM – 92 984323066.
AULA 3
2
INDUSTRIA 4.0 – ID85A
Módulos C/H Datas
Mapa de Fluxo de Valor e
Virtualização
45
horas
05, 06, 07, 12, 13, 14, 19, 20, 21 de
dezembro de 2018.
Simulação de Processos
Industriais
45
horas
30, 31 de janeiro. 01, 13, 14, 15, 27, 28
de fevereiro. 01 de março de 2019.
Big Data Analysis e Data Mining
para Indústria
45
horas
13, 14, 15, 27, 28, 29 de março. 10, 11,
12 de abril de 2019.
IoT Aplicado aos Negócios e
Realidade Aumentada
45
horas
24, 25, 26 de abril. 08, 09, 10, 22, 23, 24
de maio de 2019.
Robótica Colaborativa e
Exoesqueleto
45
horas
05, 06, 07, 12, 13, 14 de junho. 03, 04,
05 de julho de 2019.
Veículos Aéreos Não Tripulados
(DRONES)
45
horas
31 de julho. 01, 02, 14, 15, 16, 28, 29, 30
de agosto de 2019.
Manutenção Aditiva e Preditiva
com Prototipagem 3D
45
horas
11, 12, 13, 25, 26, 27 de setembro. 09,
10, 11 de outubro de 2019.
Cyber Security
45
horas
30, 31 de outubro. 01, 13, 14, 15, 27, 28,
29 de novembro de 2019.
3
ESTRUTURA DA DISCIPLINAEstruturaeModelagem
deDados,Dataware
House,BigData,
BusinessInteligence
FerramentasdeBI-
QLik
ConceitosdeIAe
MineraçãodeDados
FerramentaOrange
Conceitosde
Armazenamentodas
Nuvens
FerramentaBigQuery
Google
4
DADOS! DADOS! DADOS!
 Vivemos em um mundo que está soterrado por dados. Os websites
rastreiam todos os seus clientes, os smartphones fazem registros da
localização de seus usuários, carros inteligentes coletam hábitos de
direção, casas inteligentes coletam hábitos de moradia e
marqueteiros inteligentes coletam hábitos de compra.
 Redação ENEM 2018/2019: “Manipulação do comportamento do
usuário pelo controle de dados na internet”. Os textos apresentados
pela banca fizeram referência ao algoritmo e como o próprio usuário
alimenta o sistema com aplicativos de música ou redes sociais, por
exemplo, de forma que insere nesse sistema de informações seus
gostos e o mesmo influencia nas suas preferências e opiniões.
Muitos se manifestaram sobre a possibilidade de abordar um tema
específico: as fake news.
5
O QUE FAZ UM CIENTISTA DE DADOS?
 O mundo de hoje está cheio de pessoas tentando transformar dados
em conhecimento. Um cientista de dados é alguém que extrai
conhecimento de dados desorganizados.
 Em 2012, a campanha de Obama empregou muitos cientistas de
dados que mineraram os dados e experimentarem uma forma de
identificar os eleitores que precisavam de uma atenção extra,
otimizar programas e recursos para a captação de fundos de
doadores específicos e focando esforços para votos onde
provavelmente eles teriam sido úteis. É seguro apostar que as
campanhas políticas do futuro se tornem cada vez mais dependente
de dados.
6
DATA SCIENCE E A INDÚSTRIA 4.0
VISUALIZAÇÃO DE DADOS
7
Uma parte fundamental do kit de ferramentas do cientista
de dados é a visualização de dados. Existem dois usos
primários para a visualização de dados:
 Para explorar dados
 Para comunicar dados
VISUALIZAÇÃO DE DADOS
8
 Gráficos de Barra
Um gráfico de barra é uma boa escolha quando você quer
mostrar como algumas quantidades variam entre um
conjunto particular de itens
 Gráficos de Linhas
Gráficos de linha são uma boa escolha ao mostrar
tendências
 Gráficos de Dispersão
Um gráfico de dispersão é a escolha certa para visualizar o
relacionamento entre dois pares de conjuntos de dados.
VISUALIZAÇÃO DE DADOS
9
ESTATÍSTICA
10
 Para entender a linguagem que descreve os datasets,
precisamos das noções básicas de ESTATÍSTICA!!!
“Statistics refers to the mathematics and techniques whit
which we understand data” – Joel Grus
ESTATÍSTICA
11
TENDÊNCIAS CENTRAIS:
 Geralmente, queremos ter alguma noção de onde nossos dados
estão centrados.
A média será mais utilizada pois ela é a soma dos dados divido pela
sua contagem. Se você tem dois pontos de dados, a média é o ponto
no meio do caminho entre eles, conforme você acrescenta mais
pontos, a média se move, mas sempre dependendo do valor de cada
ponto.
Algumas vezes nos interessamos pela mediana, que é o valor do meio
(se o número de pontos de dados for ímpar) ou a média dos dois
valores que estiverem bem no meio (se o número de pontos de dados
for par).
ESTATÍSTICA
12
DISPERSÃO:
 A dispersão se refere à medida de como os nossos dados estão
espalhados. Tipicamente, eles são estatísticas em que valore perto
de zero significam não estão espalhados de forma alguma e para
maiores significa muito espalhados.
Uma simples medida de dispersão é a amplitude, que é a diferença
entre o maior e o menor elemento.
Uma medida de dispersão mais complexa é a variância, que em uma
amostra global corresponde ao desvio do quadrado médio da média.
Como a variância possui unidades que são os quadrados das unidades
originais, geralmente utilizamos a medida de dispersão desvio
padrão, que corresponde a raiz quadrada da variância.
ESTATÍSTICA
13
PROBABILIDADE
14
 Para os propósitos da data sciece, probabilidade será vista como
uma forma de quantificar a incerteza associada com eventos
escolhidos a partir de um universo deles. Pense no lançamento de
um dado, o universo consiste de todos os resultados possíveis,
cada subconjunto desses resultados é um evento. Escrevemos P(E)
como para “a probabilidade do evento E”. A probabilidade será
utilizada tanto para construir quanto para avaliar modelos.
PROBABILIDADE
15
 Dados dois eventos E e F, eles serão ditos
dependentes se soubermos algo sobre se
E ocorre nos der informações sobre se F
ocorre. Do contrário, são independentes.
Matematicamente, dizemos esses eventos
são independentes se a probabilidade
deles acontecerem é o produto de que
cada um deles aconteça:
P (E, F) = P(E) × P(F).
 Se não são necessariamente
independentes, logo definimos a
probabilidade de E “condicionada a F”
assim:
P(E|F) = P(E,F) ÷ P(F), por tanto
P (E, F) = P(E|F) × P(F).
PROBABILIDADE
16
TEOREMA DE BAYES:
 O teorema de Bayes é uma maneira de “reverter” as probabilidades
condicionais. Quando for necessário saber a probabilidade de algum
evento E ser condicionado à ocorrência de outro evento F, se
houver apenas a informação sobre a probabilidade da ocorrência de
F sendo condicionado a E, usando a definição de probabilidade
condicional duas vezes, pode-se dizer que:
P(E|F) = P(E, F) / P(F) = P(F|E) × P(E) / P(F)
 Como o evento F pode ser dividido em dois eventos mutuamente
exclusivos “F e E” e “F e não E”, logo: P(F) = P(F, E)+P(F,¬E).
Portanto:
P(E|F) = P(F|E) × P(E) / [P(F|E) × P(E) + P(F|¬E) × P(¬E)]
PROBABILIDADE
17
TEOREMA DE BAYES:
 Imagine que uma determinada doença afete 1 a cada 10.000
pessoas. E imagine que haja um teste para essa doença que mostra
o resultado correto (“doente” se não tiver a doença e “não doente”
se não) 99% das vezes. O que significa um teste positivo? Vamos
usar T para o evento “seu teste é positivo” e D para o evento “você
tem a doença”. O teorema de Bayes diz que a probabilidade de
você ter a doença, condicional ao teste positivo é:
P(D|T) = P(T|D) × P(D) / [P(T|D) × P(D) + P(T|¬D) × P(¬D)]
PROBABILIDADE
18
VARIÁVEIS ALEATÓRIAS:
 Uma variável aleatória é a variável cujos valores possíveis possuem
uma distribuição de probabilidade associada. A distribuição
associada dá as probabilidades que a variável possui em cada um
de seus valores possíveis. Às vezes fala-se sobre valor esperado da
variável aleatória, o qual é a média de seus valores ponderados por
suas probabilidades.
PROBABILIDADE
19
DISTRIBUIÇÃO NORMAL:
 A distribuição normal é a rainha das distribuições. É uma das
clássica distribuição de curva em forma de sino e é determinada por
dois parâmetros: sua média μ e o desvio padrão σ. A média indica
onde o sino é centralizado e o desvio padrão indica a largura do
sino. Ela possui a função de distribuição:
𝑓 𝑥 𝜇, 𝜎 =
1
2 ∙ 𝜋 ∙ 𝜎
∙ 𝑒
−
𝑥 − 𝜇 2
2∙𝜎2
 É chamada de distribuição normal padrão quando μ = 0 e σ = 1. Se
Z é uma variável aleatória normal padrão, então: X = σZ + μ
também é normal mas com a média μ e desvio padrão σ. Por outro
lado, se X é uma variável aleatória normal com média μ e desvio
padrão σ, Z = (X - μ)/σ é uma variável normal padrão.
APRENDIZADO DE MÁQUINA
20
 Para alguns, data science é aprendizado de máquina, por
imaginarem que os cientistas de dados trabalham com modelos de
aprendizado o dia inteiro. Na verdade, data science é mais
transformar problemas empresarias em problemas de dados,
enquanto que o aprendizado de máquina é um consideração
subsequente.
 Aprendizado de máquina refere-se à criação e ao uso de modelos
que são aprendidos a partir dos dados, em outros contextos
podendo ser chamado de modelo preditivo ou mineração de
dados. Normalmente o objetivo é usar dados existentes para
desenvolver modelos que possam ser usados para prever possíveis
saídas para dados novos.
APRENDIZADO DE MÁQUINA
21
MODELAGEM:
Modelos é a especificação de um relação matemática existente entre
variáveis diferentes. Existem vários tipos de modelos para aprendizado
de máquina:
 Modelos supervisionados são aqueles nos quais existe um conjunto
de dados etiquetados com a resposta correta para aprendizagem
 Modelos sem supervisão são aqueles nos quais não existe tais
etiquetas
 Modelos semispervisionados são aqueles nos quais apenas alguns
dados são etiquetados
 Modelos online são aqueles nos quais o modelo precisa ter um
ajuste contínuo em face de chegada de novos dados.
APRENDIZADO DE MÁQUINA
22
Quando seus dados não tiverem características suficientes, é possível
que seu modelo sub-ajuste. E quando seus dados possuem muitas
características, fica fácil de sobreajustar, sendo características
quaisquer entradas fornecida ao modelo.
Quase sempre as características dos dados serão do tipo booleana,
quantitativa ou qualitativa. Daí haverá respectivos modelos ideais:
 O classificador Naive Bayes é destinado às características
booleanas;
 Os modelos de regressão requerem características numéricas;
 E as arvores de decisão podem lidar com dados numéricos ou
categóricos.
REDES NEURAIS
23
 Uma rede neural artificial é um modelo preditivo motivado pela
forma como o cérebro funciona. Redes neurais artificias consistem
de neurônios artificiais, que desenvolvem cálculos similares sobre
entradas. Rede neurais podem resolver uma variedade de
problemas como reconhecimento de caligrafia e detecção facial, e
elas são muito usadas em deep learning, umas das subáreas mais
populares de data science.
ORANGE
24
https://orange.biolab.si
ORANGE
25
Orange é um Software Open Source de programação visual baseado
em componentes utilizado para a análise de dados e aprendizado de
máquina. Ele possui um ambiente interativo, onde os componentes do
Orange (chamados widgets) podem realizar desde simples
visualização, seleção e pré-processamento de dados até avaliação de
algoritmos de aprendizado.
Na interface gráfica de programação visual são criados os workflows
dos widgets. Os widgets podem ser pré-definidos ou desenvolvidos
pelos próprios usuários. Usuários experientes podem utilizar o Orange
como um biblioteca Python de análise de dados.
26
ORANGE
Dados (Data): Widgets para realizar operações básicas com os
dados.
27
ORANGE
Visualização (Visualize): Widgets utilizados para a visualização dos
dados.
28
ORANGE
Modelos de Aprendizagem Supervisionada (Model): Widgets
utilizados para desenvolver classificadores ou regressores por
aprendizagem supervisionada.
29
ORANGE
Avaliação (Evaluate): Widgets utilizados para avaliar a acurácia de
modelos.
30
ORANGE
Modelos de Aprendizagem Não Supervisionada (Unsupervised):
Widgets utilizados para desenvolver agrupamentos de dados
31
ORANGE
Lesson 1: Workflows in Orange
32
ORANGE
Lesson 2: Classification
33
ORANGE
Lesson 2: Classification
34
ORANGE
Lesson 2: Classification
35
ORANGE
Lesson 3: Classification Accuracy
36
ORANGE
Lesson 4: Cross-Validation
REFERÊNCIAS
37
BRUCE, Peter; BRUCE, Andrew. Practical statistics for data scientists: 50
essential concepts. " O'Reilly Media, Inc.", 2017.
CURK, Tomaž et al. Data Mining w/o Programming. “A hands-on workshop
at the Functional Genomics Workshop”, 2014.
DEMŠAR, Janez et al. Orange: data mining toolbox in Python. The Journal of
Machine Learning Research, v. 14, n. 1, p. 2349-2353, 2013.
GRUS, Joel. Data science from scratch: first principles with python. "
O'Reilly Media, Inc.", 2015.
http://www.lac.inpe.br/ (repositório do “Laboratório Associado de Computação
e Matemática Aplicada”).

Mais conteúdo relacionado

Semelhante a Big Data e Data Mining para Indústria

Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Análise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos FuncionáriosAnálise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos FuncionáriosGuttenberg Ferreira Passos
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Sociologia da Informação 7.pptx
Sociologia da Informação 7.pptxSociologia da Informação 7.pptx
Sociologia da Informação 7.pptxssuser3ca214
 
Medidas de centralidade
Medidas de centralidadeMedidas de centralidade
Medidas de centralidadeAndréa Thees
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSVivaldo Jose Breternitz
 
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃOBruno Henrique Nunes
 
Mineração_de_Dados.pptx
Mineração_de_Dados.pptxMineração_de_Dados.pptx
Mineração_de_Dados.pptxadrian990162
 
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOSBIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOSVivaldo Jose Breternitz
 

Semelhante a Big Data e Data Mining para Indústria (20)

Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Análise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos FuncionáriosAnálise da Dispersão dos Esforços dos Funcionários
Análise da Dispersão dos Esforços dos Funcionários
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Data Storytelling
Data StorytellingData Storytelling
Data Storytelling
 
aula 5 estatistica.pptx
aula 5 estatistica.pptxaula 5 estatistica.pptx
aula 5 estatistica.pptx
 
Sociologia da Informação 7.pptx
Sociologia da Informação 7.pptxSociologia da Informação 7.pptx
Sociologia da Informação 7.pptx
 
Medidas de centralidade
Medidas de centralidadeMedidas de centralidade
Medidas de centralidade
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
D/I/C/S
D/I/C/SD/I/C/S
D/I/C/S
 
Estatistica completo revisado
Estatistica completo revisadoEstatistica completo revisado
Estatistica completo revisado
 
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
 
Análise de dados.pdf
Análise de dados.pdfAnálise de dados.pdf
Análise de dados.pdf
 
Mineração_de_Dados.pptx
Mineração_de_Dados.pptxMineração_de_Dados.pptx
Mineração_de_Dados.pptx
 
2012 aula1 (1)
2012 aula1 (1)2012 aula1 (1)
2012 aula1 (1)
 
Introd computacao
Introd computacaoIntrod computacao
Introd computacao
 
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOSBIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
 
1880799 estatistica-descritiva
1880799 estatistica-descritiva1880799 estatistica-descritiva
1880799 estatistica-descritiva
 

Big Data e Data Mining para Indústria

  • 1. DISCIPLINA: BIG DATA E DATA MINING CONCEITOS PROF. MARCELO LUIZ LOPES ROCHA, M.SC MLLR3M@GMAIL.COM – 92 984323066. AULA 3
  • 2. 2 INDUSTRIA 4.0 – ID85A Módulos C/H Datas Mapa de Fluxo de Valor e Virtualização 45 horas 05, 06, 07, 12, 13, 14, 19, 20, 21 de dezembro de 2018. Simulação de Processos Industriais 45 horas 30, 31 de janeiro. 01, 13, 14, 15, 27, 28 de fevereiro. 01 de março de 2019. Big Data Analysis e Data Mining para Indústria 45 horas 13, 14, 15, 27, 28, 29 de março. 10, 11, 12 de abril de 2019. IoT Aplicado aos Negócios e Realidade Aumentada 45 horas 24, 25, 26 de abril. 08, 09, 10, 22, 23, 24 de maio de 2019. Robótica Colaborativa e Exoesqueleto 45 horas 05, 06, 07, 12, 13, 14 de junho. 03, 04, 05 de julho de 2019. Veículos Aéreos Não Tripulados (DRONES) 45 horas 31 de julho. 01, 02, 14, 15, 16, 28, 29, 30 de agosto de 2019. Manutenção Aditiva e Preditiva com Prototipagem 3D 45 horas 11, 12, 13, 25, 26, 27 de setembro. 09, 10, 11 de outubro de 2019. Cyber Security 45 horas 30, 31 de outubro. 01, 13, 14, 15, 27, 28, 29 de novembro de 2019.
  • 4. 4 DADOS! DADOS! DADOS!  Vivemos em um mundo que está soterrado por dados. Os websites rastreiam todos os seus clientes, os smartphones fazem registros da localização de seus usuários, carros inteligentes coletam hábitos de direção, casas inteligentes coletam hábitos de moradia e marqueteiros inteligentes coletam hábitos de compra.  Redação ENEM 2018/2019: “Manipulação do comportamento do usuário pelo controle de dados na internet”. Os textos apresentados pela banca fizeram referência ao algoritmo e como o próprio usuário alimenta o sistema com aplicativos de música ou redes sociais, por exemplo, de forma que insere nesse sistema de informações seus gostos e o mesmo influencia nas suas preferências e opiniões. Muitos se manifestaram sobre a possibilidade de abordar um tema específico: as fake news.
  • 5. 5 O QUE FAZ UM CIENTISTA DE DADOS?  O mundo de hoje está cheio de pessoas tentando transformar dados em conhecimento. Um cientista de dados é alguém que extrai conhecimento de dados desorganizados.  Em 2012, a campanha de Obama empregou muitos cientistas de dados que mineraram os dados e experimentarem uma forma de identificar os eleitores que precisavam de uma atenção extra, otimizar programas e recursos para a captação de fundos de doadores específicos e focando esforços para votos onde provavelmente eles teriam sido úteis. É seguro apostar que as campanhas políticas do futuro se tornem cada vez mais dependente de dados.
  • 6. 6 DATA SCIENCE E A INDÚSTRIA 4.0
  • 7. VISUALIZAÇÃO DE DADOS 7 Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Existem dois usos primários para a visualização de dados:  Para explorar dados  Para comunicar dados
  • 8. VISUALIZAÇÃO DE DADOS 8  Gráficos de Barra Um gráfico de barra é uma boa escolha quando você quer mostrar como algumas quantidades variam entre um conjunto particular de itens  Gráficos de Linhas Gráficos de linha são uma boa escolha ao mostrar tendências  Gráficos de Dispersão Um gráfico de dispersão é a escolha certa para visualizar o relacionamento entre dois pares de conjuntos de dados.
  • 10. ESTATÍSTICA 10  Para entender a linguagem que descreve os datasets, precisamos das noções básicas de ESTATÍSTICA!!! “Statistics refers to the mathematics and techniques whit which we understand data” – Joel Grus
  • 11. ESTATÍSTICA 11 TENDÊNCIAS CENTRAIS:  Geralmente, queremos ter alguma noção de onde nossos dados estão centrados. A média será mais utilizada pois ela é a soma dos dados divido pela sua contagem. Se você tem dois pontos de dados, a média é o ponto no meio do caminho entre eles, conforme você acrescenta mais pontos, a média se move, mas sempre dependendo do valor de cada ponto. Algumas vezes nos interessamos pela mediana, que é o valor do meio (se o número de pontos de dados for ímpar) ou a média dos dois valores que estiverem bem no meio (se o número de pontos de dados for par).
  • 12. ESTATÍSTICA 12 DISPERSÃO:  A dispersão se refere à medida de como os nossos dados estão espalhados. Tipicamente, eles são estatísticas em que valore perto de zero significam não estão espalhados de forma alguma e para maiores significa muito espalhados. Uma simples medida de dispersão é a amplitude, que é a diferença entre o maior e o menor elemento. Uma medida de dispersão mais complexa é a variância, que em uma amostra global corresponde ao desvio do quadrado médio da média. Como a variância possui unidades que são os quadrados das unidades originais, geralmente utilizamos a medida de dispersão desvio padrão, que corresponde a raiz quadrada da variância.
  • 14. PROBABILIDADE 14  Para os propósitos da data sciece, probabilidade será vista como uma forma de quantificar a incerteza associada com eventos escolhidos a partir de um universo deles. Pense no lançamento de um dado, o universo consiste de todos os resultados possíveis, cada subconjunto desses resultados é um evento. Escrevemos P(E) como para “a probabilidade do evento E”. A probabilidade será utilizada tanto para construir quanto para avaliar modelos.
  • 15. PROBABILIDADE 15  Dados dois eventos E e F, eles serão ditos dependentes se soubermos algo sobre se E ocorre nos der informações sobre se F ocorre. Do contrário, são independentes. Matematicamente, dizemos esses eventos são independentes se a probabilidade deles acontecerem é o produto de que cada um deles aconteça: P (E, F) = P(E) × P(F).  Se não são necessariamente independentes, logo definimos a probabilidade de E “condicionada a F” assim: P(E|F) = P(E,F) ÷ P(F), por tanto P (E, F) = P(E|F) × P(F).
  • 16. PROBABILIDADE 16 TEOREMA DE BAYES:  O teorema de Bayes é uma maneira de “reverter” as probabilidades condicionais. Quando for necessário saber a probabilidade de algum evento E ser condicionado à ocorrência de outro evento F, se houver apenas a informação sobre a probabilidade da ocorrência de F sendo condicionado a E, usando a definição de probabilidade condicional duas vezes, pode-se dizer que: P(E|F) = P(E, F) / P(F) = P(F|E) × P(E) / P(F)  Como o evento F pode ser dividido em dois eventos mutuamente exclusivos “F e E” e “F e não E”, logo: P(F) = P(F, E)+P(F,¬E). Portanto: P(E|F) = P(F|E) × P(E) / [P(F|E) × P(E) + P(F|¬E) × P(¬E)]
  • 17. PROBABILIDADE 17 TEOREMA DE BAYES:  Imagine que uma determinada doença afete 1 a cada 10.000 pessoas. E imagine que haja um teste para essa doença que mostra o resultado correto (“doente” se não tiver a doença e “não doente” se não) 99% das vezes. O que significa um teste positivo? Vamos usar T para o evento “seu teste é positivo” e D para o evento “você tem a doença”. O teorema de Bayes diz que a probabilidade de você ter a doença, condicional ao teste positivo é: P(D|T) = P(T|D) × P(D) / [P(T|D) × P(D) + P(T|¬D) × P(¬D)]
  • 18. PROBABILIDADE 18 VARIÁVEIS ALEATÓRIAS:  Uma variável aleatória é a variável cujos valores possíveis possuem uma distribuição de probabilidade associada. A distribuição associada dá as probabilidades que a variável possui em cada um de seus valores possíveis. Às vezes fala-se sobre valor esperado da variável aleatória, o qual é a média de seus valores ponderados por suas probabilidades.
  • 19. PROBABILIDADE 19 DISTRIBUIÇÃO NORMAL:  A distribuição normal é a rainha das distribuições. É uma das clássica distribuição de curva em forma de sino e é determinada por dois parâmetros: sua média μ e o desvio padrão σ. A média indica onde o sino é centralizado e o desvio padrão indica a largura do sino. Ela possui a função de distribuição: 𝑓 𝑥 𝜇, 𝜎 = 1 2 ∙ 𝜋 ∙ 𝜎 ∙ 𝑒 − 𝑥 − 𝜇 2 2∙𝜎2  É chamada de distribuição normal padrão quando μ = 0 e σ = 1. Se Z é uma variável aleatória normal padrão, então: X = σZ + μ também é normal mas com a média μ e desvio padrão σ. Por outro lado, se X é uma variável aleatória normal com média μ e desvio padrão σ, Z = (X - μ)/σ é uma variável normal padrão.
  • 20. APRENDIZADO DE MÁQUINA 20  Para alguns, data science é aprendizado de máquina, por imaginarem que os cientistas de dados trabalham com modelos de aprendizado o dia inteiro. Na verdade, data science é mais transformar problemas empresarias em problemas de dados, enquanto que o aprendizado de máquina é um consideração subsequente.  Aprendizado de máquina refere-se à criação e ao uso de modelos que são aprendidos a partir dos dados, em outros contextos podendo ser chamado de modelo preditivo ou mineração de dados. Normalmente o objetivo é usar dados existentes para desenvolver modelos que possam ser usados para prever possíveis saídas para dados novos.
  • 21. APRENDIZADO DE MÁQUINA 21 MODELAGEM: Modelos é a especificação de um relação matemática existente entre variáveis diferentes. Existem vários tipos de modelos para aprendizado de máquina:  Modelos supervisionados são aqueles nos quais existe um conjunto de dados etiquetados com a resposta correta para aprendizagem  Modelos sem supervisão são aqueles nos quais não existe tais etiquetas  Modelos semispervisionados são aqueles nos quais apenas alguns dados são etiquetados  Modelos online são aqueles nos quais o modelo precisa ter um ajuste contínuo em face de chegada de novos dados.
  • 22. APRENDIZADO DE MÁQUINA 22 Quando seus dados não tiverem características suficientes, é possível que seu modelo sub-ajuste. E quando seus dados possuem muitas características, fica fácil de sobreajustar, sendo características quaisquer entradas fornecida ao modelo. Quase sempre as características dos dados serão do tipo booleana, quantitativa ou qualitativa. Daí haverá respectivos modelos ideais:  O classificador Naive Bayes é destinado às características booleanas;  Os modelos de regressão requerem características numéricas;  E as arvores de decisão podem lidar com dados numéricos ou categóricos.
  • 23. REDES NEURAIS 23  Uma rede neural artificial é um modelo preditivo motivado pela forma como o cérebro funciona. Redes neurais artificias consistem de neurônios artificiais, que desenvolvem cálculos similares sobre entradas. Rede neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning, umas das subáreas mais populares de data science.
  • 25. ORANGE 25 Orange é um Software Open Source de programação visual baseado em componentes utilizado para a análise de dados e aprendizado de máquina. Ele possui um ambiente interativo, onde os componentes do Orange (chamados widgets) podem realizar desde simples visualização, seleção e pré-processamento de dados até avaliação de algoritmos de aprendizado. Na interface gráfica de programação visual são criados os workflows dos widgets. Os widgets podem ser pré-definidos ou desenvolvidos pelos próprios usuários. Usuários experientes podem utilizar o Orange como um biblioteca Python de análise de dados.
  • 26. 26 ORANGE Dados (Data): Widgets para realizar operações básicas com os dados.
  • 27. 27 ORANGE Visualização (Visualize): Widgets utilizados para a visualização dos dados.
  • 28. 28 ORANGE Modelos de Aprendizagem Supervisionada (Model): Widgets utilizados para desenvolver classificadores ou regressores por aprendizagem supervisionada.
  • 29. 29 ORANGE Avaliação (Evaluate): Widgets utilizados para avaliar a acurácia de modelos.
  • 30. 30 ORANGE Modelos de Aprendizagem Não Supervisionada (Unsupervised): Widgets utilizados para desenvolver agrupamentos de dados
  • 37. REFERÊNCIAS 37 BRUCE, Peter; BRUCE, Andrew. Practical statistics for data scientists: 50 essential concepts. " O'Reilly Media, Inc.", 2017. CURK, Tomaž et al. Data Mining w/o Programming. “A hands-on workshop at the Functional Genomics Workshop”, 2014. DEMŠAR, Janez et al. Orange: data mining toolbox in Python. The Journal of Machine Learning Research, v. 14, n. 1, p. 2349-2353, 2013. GRUS, Joel. Data science from scratch: first principles with python. " O'Reilly Media, Inc.", 2015. http://www.lac.inpe.br/ (repositório do “Laboratório Associado de Computação e Matemática Aplicada”).