Big Data
Big Data
“Big data is quite simply data that
cannot be managed or analyzed by
traditional technologies.”
IBM
Agenda

Porquê e Fatores Chave
Análise de Dados e Modelos Preditivos
Aplicações Empresariais
Desenvolvimento com RapidMiner
Porquê
●

●

●

“Em 2009, o storage dos dados de empresas com mais de
1000 colaboradores tinham um tamanho médio de 200 Terabytes”
“Ganhos de 100 mil milhões de dólares em custos
operacionais e fraude fiscal”
“Ganhos de 600 mil milhões de dólares para empresas
que segmentem os seus produtos”
McKinsey Global Institute
Porquê
●

●

●
●

●

“Em 2009, o storage dos dados de empresas com mais de
1000 colaboradores tinham um tamanho médio de 200 Terabytes”
“Ganhos de 100 mil milhões de dólares em custos
operacionais e fraude fiscal”
“Ganhos de 600 mil milhões de dólares para empresas
que segmentem os seus produtos”
McKinsey Global Institute

“Big Data Technology and Services Forecast Shows Market Expected to Grow to
$32.4 Billion in 2017 (27%)”
IDC
Fatores Chave
●

Infraestrutura
Fatores Chave
●

Infraestrutura
Fatores Chave
●

Organização e Gestão de Dados
Fatores Chave
●

Organização e Gestão de Dados
Fatores Chave
●

Descoberta de Conhecimento
Fatores Chave
●

Descoberta de Conhecimento
Fatores Chave
●

Sistemas de Suporte à Decisão
Fatores Chave
●

Sistemas de Suporte à Decisão
Vantagens/Desvantagens e Ética
Vantagens/Desvantagens e Ética
●

Vantagens
→ Predição de tendências e opções futuras
→ Aumento de lucros através do estudo de hábitos e padrões
→ Redução de custos operacionais
Vantagens/Desvantagens e Ética
●

●

Vantagens
→ Predição de tendências e opções futuras
→ Aumento de lucros através do estudo de hábitos e padrões
→ Redução de custos operacionais
Desvantagens
→ Custos elevados de implementação
→ Privacidade dos dados
→ Possíveis erros no tratamento de dados
Vantagens/Desvantagens e Ética
●

●

●

Vantagens
→ Predição de tendências e opções futuras
→ Aumento de lucros através do estudo de hábitos e padrões
→ Redução de custos operacionais
Desvantagens
→ Custos elevados de implementação
→ Privacidade dos dados
→ Possíveis erros no tratamento de dados
Ética
→ exemplo: Banco A decide crédito com base num código postal pode
estar a excluir por raça
Conceitos, Exemplos e Atributos
Conceitos, Exemplos e Atributos
●

Descrição do conceito como output do esquema de aprendizagem
→ exemplo: Jogar Futebol: SIM ou NÃO?
Conceitos, Exemplos e Atributos
●

●

Descrição do conceito como output do esquema de aprendizagem
→ exemplo: Jogar Futebol: SIM ou NÃO?
Exemplos ou Instâncias
→ exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim
Conceitos, Exemplos e Atributos
●

●

●

Descrição do conceito como output do esquema de aprendizagem
→ exemplo: Jogar Futebol: SIM ou NÃO?
Exemplos ou Instâncias
→ exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim
Atributos
→ Temperatura; …;
→ Podem ter várias medidas
Tratamento de Dados
●

Normalização: descrever todos os atributos num mesmo formato
Tratamento de Dados
●
●

Normalização: descrever todos os atributos num mesmo formato
Valores em falta: devem ser normalizados da mesma forma
Tratamento de Dados
●
●
●

Normalização: descrever todos os atributos num mesmo formato
Valores em falta: devem ser normalizados da mesma forma
Valores errados/duplicados podem conduzir a resultados adulterados
Dataset
Temperatura

Humidade Ventoso

Jogar/Classificação

15º

Alta

Não

Sim

10º

Alta

Sim

Não

2º

Média

Não

Sim

20º

Baixa

Sim

Sim
Árvores de Decisão
Árvores de Decisão
●

Formam uma árvore em que cada nó é um atributo e os ramos são os valores
Árvores de Decisão
●

Formam uma árvore em que cada nó é um atributo e os ramos são os valores
Temperatura

<= 10

> 10
SIM

Ventoso

Não
SIM

Sim
NÃO
Árvores de Decisão
●

Formam uma árvore em que cada nó é um atributo e os ramos são os valores
Temperatura

<= 10

> 10
SIM

Ventoso

Não
SIM
●

Sim
NÃO

Qual o melhor atributo para escolher como raiz?
Árvores de Decisão
●

Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever
(classificar) o conjunto de exemplos
Árvores de Decisão
●

●

Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever
(classificar) o conjunto de exemplos
A entropia mede o grau de impureza dos atributos:

entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n
Árvores de Decisão
●

●

Deve ser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever
(classificar) o conjunto de exemplos
A entropia mede o grau de impureza dos atributos:

entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n
●

O ganho de informação mede a redução esperada de entropia

Sv
ganho(S , A)=entropia(S )− ∑ ( )∗entropia( S)
v∈Valores ( A) S
Árvores de Decisão
●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
Árvores de Decisão
●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
Árvores de Decisão
●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
→ Problema 3: A complexidade da árvore pode retirar informação quando
existem poucos dados ou dados com muito ruído (overfitting)
Árvores de Decisão
●

●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
→ Problema 3: A complexidade da árvore pode retirar informação quando
existem poucos dados ou dados com muito ruído (overfitting)
C4.5 (Quinlan, 1993)
→ Pode ser necessário podar a árvore... para a generalizar!
Árvores de Decisão
●

●

ID3 (Quinlan, 1986)
→ Problema 1: Nem todas as hipóteses são cobertas
→ Problema 2: Após a escolha de um nó não existe reconsideração
→ Problema 3: A complexidade da árvore pode retirar informação quando
existem poucos dados ou dados com muito ruído (overfitting)
C4.5 (Quinlan, 1993)
→ Pode ser necessário podar a árvore... para a generalizar!
Árvores de Decisão
●

Deve-se usar com problemas em que:
→ os exemplos são descritos por valores discretos
→ o output é um valor discreto
→ há valores em falta
Redes Neuronais Artificiais
Redes Neuronais Artificiais
●

Simulam uma rede de sinapses com retro-propagação entre os neurónios
Redes Neuronais Artificiais
●

Simulam uma rede de sinapses com retro-propagação entre os neurónios
Redes Neuronais Artificiais
●

●

Simulam uma rede de sinapses com retro-propagação entre os neurónios

Os tempos de aprendizagem podem ser muito mais lentos e pode ser
difícil compreender o output, ao contrário das árvores
Redes Neuronais Artificiais
●

A rede é formada por um perceptrão multi-camada
Redes Neuronais Artificiais
●
●

A rede é formada por um perceptrão multi-camada
A primeira camada (input) corresponde ao número de atributos
Redes Neuronais Artificiais
●
●
●

A rede é formada por um perceptrão multi-camada
A primeira camada (input) corresponde ao número de atributos
A última camada (output) corresponde à classificação (ex: SIM / NÃO)
Redes Neuronais Artificiais
●
●
●
●

A rede é formada por um perceptrão multi-camada
A primeira camada (input) corresponde ao número de atributos
A última camada (output) corresponde à classificação (ex: SIM / NÃO)
A camada intermédia (escondida) deve ser testada para:
→ Não ter demasiados neurónios e levar a overfitting
→ Não ter excessivamente poucos e não ser possível uma decisão adequada
Redes Neuronais Artificiais
●

Cada neurónio tem uma função de activação dos pesos de cada sinapse para o
próximo neurónio à frente (feedforward)
Redes Neuronais Artificiais
●

●

Cada neurónio tem uma função de activação dos pesos de cada sinapse para o
próximo neurónio à frente (feedforward)
A retropropagação permite que sejam computados os erros de cada output
para se poder calibrar os melhores pesos para cada ligação
Redes Neuronais Artificiais
●

●

●

Cada neurónio tem uma função de activação dos pesos de cada sinapse para o
próximo neurónio à frente (feedforward)
A retropropagação permite que sejam computados os erros de cada output
para se poder calibrar os melhores pesos para cada ligação
Deve-se usar métodos de validação cruzada com um dataset de treino e outro
de validação para saber o número de iterações da retropropagação
Redes Neuronais Artificiais
●

Deve-se usar com problemas em que:
→ podem existir muitos pares atributo-valor com valores reais
→ o output pode conter vários pares atributo-valor ou valores discretos
→ é necessário uma avaliação rápida do output
→ os tempos de aprendizagem não são relevantes
→ não é importante a compreensão da rede gerada
Redes Bayesianas
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(

P(

A
B

)=

B

)∗P ( A)
A
P ( B)
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(
●

P(

A
B

)=

B

)∗P ( A)
A
P ( B)

Estimam a classificação mais provável

argmax v ∈V ∑h ∈H P (
j

i

vj
hi

)∗P (

hi
D

)
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(
●

P(

A
B

)=

B

)∗P ( A)
A
P ( B)

Estimam a classificação mais provável

argmax v ∈V ∑h ∈H P (
j

●

i

vj
hi

)∗P (

hi
D

)

Pode-se deduzir se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex.
Redes Bayesianas
●

Baseiam-se no Teorema de Bayes

P(
●

P(

A
B

)=

B

)∗P ( A)
A
P ( B)

Estimam a classificação mais provável

argmax v ∈V ∑h ∈H P (
j

●
●

i

vj
hi

)∗P (

hi
D

)

Pode-se deduzir se se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex.
São muitas vezes usados para validação de outros métodos
Algoritmos Genéticos
Algoritmos Genéticos
●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Algoritmos Genéticos
●

●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Algoritmos Genéticos
●

●
●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Os datasets representam populações com atributos genéticos
Algoritmos Genéticos
●

●
●
●

●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Os datasets representam populações com atributos genéticos
Mutação
→ O novo elemento contém modificações aleatória de um atributo
Cruzamento
→ O novo elemento recebe atributos cruzados dos ascendentes
Algoritmos Genéticos
●

●
●
●

●

●

Simulam a teoria da evolução biológica, segundo a qual o elemento mais
“inteligente” é o que se adapta melhor
Utiliza conceitos das ciências naturais como cruzamento e mutação
Os datasets representam populações com atributos genéticos
Mutação
→ O novo elemento contém modificações aleatória de um atributo
Cruzamento
→ O novo elemento recebe atributos cruzados dos ascendentes
Problema: Como saber qual o melhor elemento para continuar a reprodução?
Algoritmos Genéticos
●

A escolha dos melhores elementos para predição deve ser feita com base
num dataset de treino
Algoritmos Genéticos
●

●

A escolha dos melhores elementos para predição deve ser feita com base
num dataset de treino
Os elementos que melhor representem a classificação de treino devem ser
escolhidos para nova iteração/reprodução
Algoritmos Genéticos
●

Deve-se usar com problemas em que:
→ computação pode ser paralelizada
→ a interação entre os diversos atributos, e a consequente
contribuição para o modelo, é complexa
Algoritmos Genéticos
●

●

●

A escolha dos melhores elementos para predição deve ser feita com base
num dataset de treino
Os elementos que melhor representem a classificação de treino devem ser
escolhidos para nova iteração/reprodução
Algoritmos baseados em Instâncias
●

Usam medidas para a similaridade, como a distância euclidiana
Algoritmos baseados em Instâncias
●

Usam medidas para a similaridade, como a distância euclidiana

d ( x i , x j )=

√

n

∑ (a r ( x i )−a r ( x j ))2
i=1
Algoritmos baseados em Instâncias
●

Usam medidas para a similaridade, como a distância euclidiana

d ( x i , x j )=
●

√

n

∑ (a r ( x i )−a r ( x j ))2
i=1

Podem usar pesos para indicar o valor dos atributos
Algoritmos baseados em Instâncias
●

●

●

Úteis quando o output é complexo demais para ser modelado, uma vez
que procuram apenas a resolução “mais próxima”
Podem ser lentos porque não só avaliam em relação a todos os exemplos de treino
como avaliam todos os atributos
Podem ter maus resultados quando apenas alguns atributos são relevantes
Text Mining
●

●

O texto deve ser uniformizado para que a mesma palavra não seja repetida
→ exemplo: construção vs construindo
Deve ser feito um dicionário de termos relevantes a considerar como atributos
→ retirar todos os termos irrelevantes
Text Mining
●

●

●
●

O texto deve ser uniformizado para que a mesma palavra não seja repetida
→ exemplo: construção vs construindo
Deve ser feito um dicionário de termos relevantes a considerar como atributos
→ retirar todos os termos irrelevantes
Transformar o texto em frequências (0 ou 1 ou mais) das palavras do dicionário
Aplicar os mecanismos de Data Mining :)
Aplicações Empresariais
●
●
●
●

Análise do cesto de compras
Classificação de música em géneros
Previsão de consumos de energia
Investigação médica e farmâceutica
Bibliografia Relevante
●
●
●

●
●

Artificial Intelligence: A Modern Approach (Stuart Russell and Peter Norvig, 1995)
Machine Learning (Tom Mitchell, 1997)
Data Mining: Practical Machine Learning Tools and Techniques (Ian Witten
and Eibe Frank, 2011)
The Data Warehouse Lifecycle Toolkit (Ralph Kimball, 2008)
Text Mining: Predictive Methods for Analyzing Unstructured Information
(Sholom M. Weiss, 2004)
Desenvolvimento com RapidMiner
http://sourceforge.net/projects/rapidminer/
http://archive.ics.uci.edu/ml/datasets.html?format=
&task=&att=&area=&numAtt=&numIns=&type=&sort=dateDown&view=table
Contactos
Pedro Costa
ppcosta@primeit.pt

Big data

  • 1.
  • 2.
    Big Data “Big datais quite simply data that cannot be managed or analyzed by traditional technologies.” IBM
  • 3.
    Agenda Porquê e FatoresChave Análise de Dados e Modelos Preditivos Aplicações Empresariais Desenvolvimento com RapidMiner
  • 4.
    Porquê ● ● ● “Em 2009, ostorage dos dados de empresas com mais de 1000 colaboradores tinham um tamanho médio de 200 Terabytes” “Ganhos de 100 mil milhões de dólares em custos operacionais e fraude fiscal” “Ganhos de 600 mil milhões de dólares para empresas que segmentem os seus produtos” McKinsey Global Institute
  • 5.
    Porquê ● ● ● ● ● “Em 2009, ostorage dos dados de empresas com mais de 1000 colaboradores tinham um tamanho médio de 200 Terabytes” “Ganhos de 100 mil milhões de dólares em custos operacionais e fraude fiscal” “Ganhos de 600 mil milhões de dólares para empresas que segmentem os seus produtos” McKinsey Global Institute “Big Data Technology and Services Forecast Shows Market Expected to Grow to $32.4 Billion in 2017 (27%)” IDC
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
    Fatores Chave ● Sistemas deSuporte à Decisão
  • 13.
    Fatores Chave ● Sistemas deSuporte à Decisão
  • 14.
  • 15.
    Vantagens/Desvantagens e Ética ● Vantagens →Predição de tendências e opções futuras → Aumento de lucros através do estudo de hábitos e padrões → Redução de custos operacionais
  • 16.
    Vantagens/Desvantagens e Ética ● ● Vantagens →Predição de tendências e opções futuras → Aumento de lucros através do estudo de hábitos e padrões → Redução de custos operacionais Desvantagens → Custos elevados de implementação → Privacidade dos dados → Possíveis erros no tratamento de dados
  • 17.
    Vantagens/Desvantagens e Ética ● ● ● Vantagens →Predição de tendências e opções futuras → Aumento de lucros através do estudo de hábitos e padrões → Redução de custos operacionais Desvantagens → Custos elevados de implementação → Privacidade dos dados → Possíveis erros no tratamento de dados Ética → exemplo: Banco A decide crédito com base num código postal pode estar a excluir por raça
  • 18.
  • 19.
    Conceitos, Exemplos eAtributos ● Descrição do conceito como output do esquema de aprendizagem → exemplo: Jogar Futebol: SIM ou NÃO?
  • 20.
    Conceitos, Exemplos eAtributos ● ● Descrição do conceito como output do esquema de aprendizagem → exemplo: Jogar Futebol: SIM ou NÃO? Exemplos ou Instâncias → exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim
  • 21.
    Conceitos, Exemplos eAtributos ● ● ● Descrição do conceito como output do esquema de aprendizagem → exemplo: Jogar Futebol: SIM ou NÃO? Exemplos ou Instâncias → exemplo: Temperatura - 15º; Humidade – Alta; Ventoso – Sim Atributos → Temperatura; …; → Podem ter várias medidas
  • 22.
    Tratamento de Dados ● Normalização:descrever todos os atributos num mesmo formato
  • 23.
    Tratamento de Dados ● ● Normalização:descrever todos os atributos num mesmo formato Valores em falta: devem ser normalizados da mesma forma
  • 24.
    Tratamento de Dados ● ● ● Normalização:descrever todos os atributos num mesmo formato Valores em falta: devem ser normalizados da mesma forma Valores errados/duplicados podem conduzir a resultados adulterados
  • 25.
  • 26.
  • 27.
    Árvores de Decisão ● Formamuma árvore em que cada nó é um atributo e os ramos são os valores
  • 28.
    Árvores de Decisão ● Formamuma árvore em que cada nó é um atributo e os ramos são os valores Temperatura <= 10 > 10 SIM Ventoso Não SIM Sim NÃO
  • 29.
    Árvores de Decisão ● Formamuma árvore em que cada nó é um atributo e os ramos são os valores Temperatura <= 10 > 10 SIM Ventoso Não SIM ● Sim NÃO Qual o melhor atributo para escolher como raiz?
  • 30.
    Árvores de Decisão ● Deveser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever (classificar) o conjunto de exemplos
  • 31.
    Árvores de Decisão ● ● Deveser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever (classificar) o conjunto de exemplos A entropia mede o grau de impureza dos atributos: entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n
  • 32.
    Árvores de Decisão ● ● Deveser escolhido como raíz o atributo mais “útil” - o que ajude mais a descrever (classificar) o conjunto de exemplos A entropia mede o grau de impureza dos atributos: entropia (S )=− p y∗log (2)∗ p y− pn∗log (2)∗ p n ● O ganho de informação mede a redução esperada de entropia Sv ganho(S , A)=entropia(S )− ∑ ( )∗entropia( S) v∈Valores ( A) S
  • 33.
    Árvores de Decisão ● ID3(Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas
  • 34.
    Árvores de Decisão ● ID3(Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração
  • 35.
    Árvores de Decisão ● ID3(Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração → Problema 3: A complexidade da árvore pode retirar informação quando existem poucos dados ou dados com muito ruído (overfitting)
  • 36.
    Árvores de Decisão ● ● ID3(Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração → Problema 3: A complexidade da árvore pode retirar informação quando existem poucos dados ou dados com muito ruído (overfitting) C4.5 (Quinlan, 1993) → Pode ser necessário podar a árvore... para a generalizar!
  • 37.
    Árvores de Decisão ● ● ID3(Quinlan, 1986) → Problema 1: Nem todas as hipóteses são cobertas → Problema 2: Após a escolha de um nó não existe reconsideração → Problema 3: A complexidade da árvore pode retirar informação quando existem poucos dados ou dados com muito ruído (overfitting) C4.5 (Quinlan, 1993) → Pode ser necessário podar a árvore... para a generalizar!
  • 38.
    Árvores de Decisão ● Deve-seusar com problemas em que: → os exemplos são descritos por valores discretos → o output é um valor discreto → há valores em falta
  • 39.
  • 40.
    Redes Neuronais Artificiais ● Simulamuma rede de sinapses com retro-propagação entre os neurónios
  • 41.
    Redes Neuronais Artificiais ● Simulamuma rede de sinapses com retro-propagação entre os neurónios
  • 42.
    Redes Neuronais Artificiais ● ● Simulamuma rede de sinapses com retro-propagação entre os neurónios Os tempos de aprendizagem podem ser muito mais lentos e pode ser difícil compreender o output, ao contrário das árvores
  • 43.
    Redes Neuronais Artificiais ● Arede é formada por um perceptrão multi-camada
  • 44.
    Redes Neuronais Artificiais ● ● Arede é formada por um perceptrão multi-camada A primeira camada (input) corresponde ao número de atributos
  • 45.
    Redes Neuronais Artificiais ● ● ● Arede é formada por um perceptrão multi-camada A primeira camada (input) corresponde ao número de atributos A última camada (output) corresponde à classificação (ex: SIM / NÃO)
  • 46.
    Redes Neuronais Artificiais ● ● ● ● Arede é formada por um perceptrão multi-camada A primeira camada (input) corresponde ao número de atributos A última camada (output) corresponde à classificação (ex: SIM / NÃO) A camada intermédia (escondida) deve ser testada para: → Não ter demasiados neurónios e levar a overfitting → Não ter excessivamente poucos e não ser possível uma decisão adequada
  • 47.
    Redes Neuronais Artificiais ● Cadaneurónio tem uma função de activação dos pesos de cada sinapse para o próximo neurónio à frente (feedforward)
  • 48.
    Redes Neuronais Artificiais ● ● Cadaneurónio tem uma função de activação dos pesos de cada sinapse para o próximo neurónio à frente (feedforward) A retropropagação permite que sejam computados os erros de cada output para se poder calibrar os melhores pesos para cada ligação
  • 49.
    Redes Neuronais Artificiais ● ● ● Cadaneurónio tem uma função de activação dos pesos de cada sinapse para o próximo neurónio à frente (feedforward) A retropropagação permite que sejam computados os erros de cada output para se poder calibrar os melhores pesos para cada ligação Deve-se usar métodos de validação cruzada com um dataset de treino e outro de validação para saber o número de iterações da retropropagação
  • 50.
    Redes Neuronais Artificiais ● Deve-seusar com problemas em que: → podem existir muitos pares atributo-valor com valores reais → o output pode conter vários pares atributo-valor ou valores discretos → é necessário uma avaliação rápida do output → os tempos de aprendizagem não são relevantes → não é importante a compreensão da rede gerada
  • 51.
  • 52.
    Redes Bayesianas ● Baseiam-se noTeorema de Bayes P( P( A B )= B )∗P ( A) A P ( B)
  • 53.
    Redes Bayesianas ● Baseiam-se noTeorema de Bayes P( ● P( A B )= B )∗P ( A) A P ( B) Estimam a classificação mais provável argmax v ∈V ∑h ∈H P ( j i vj hi )∗P ( hi D )
  • 54.
    Redes Bayesianas ● Baseiam-se noTeorema de Bayes P( ● P( A B )= B )∗P ( A) A P ( B) Estimam a classificação mais provável argmax v ∈V ∑h ∈H P ( j ● i vj hi )∗P ( hi D ) Pode-se deduzir se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex.
  • 55.
    Redes Bayesianas ● Baseiam-se noTeorema de Bayes P( ● P( A B )= B )∗P ( A) A P ( B) Estimam a classificação mais provável argmax v ∈V ∑h ∈H P ( j ● ● i vj hi )∗P ( hi D ) Pode-se deduzir se se Jogar Futebol = SIM, quando Temperatura <= 10, p.ex. São muitas vezes usados para validação de outros métodos
  • 56.
  • 57.
    Algoritmos Genéticos ● Simulam ateoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor
  • 58.
    Algoritmos Genéticos ● ● Simulam ateoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação
  • 59.
    Algoritmos Genéticos ● ● ● Simulam ateoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação Os datasets representam populações com atributos genéticos
  • 60.
    Algoritmos Genéticos ● ● ● ● ● Simulam ateoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação Os datasets representam populações com atributos genéticos Mutação → O novo elemento contém modificações aleatória de um atributo Cruzamento → O novo elemento recebe atributos cruzados dos ascendentes
  • 61.
    Algoritmos Genéticos ● ● ● ● ● ● Simulam ateoria da evolução biológica, segundo a qual o elemento mais “inteligente” é o que se adapta melhor Utiliza conceitos das ciências naturais como cruzamento e mutação Os datasets representam populações com atributos genéticos Mutação → O novo elemento contém modificações aleatória de um atributo Cruzamento → O novo elemento recebe atributos cruzados dos ascendentes Problema: Como saber qual o melhor elemento para continuar a reprodução?
  • 62.
    Algoritmos Genéticos ● A escolhados melhores elementos para predição deve ser feita com base num dataset de treino
  • 63.
    Algoritmos Genéticos ● ● A escolhados melhores elementos para predição deve ser feita com base num dataset de treino Os elementos que melhor representem a classificação de treino devem ser escolhidos para nova iteração/reprodução
  • 64.
    Algoritmos Genéticos ● Deve-se usarcom problemas em que: → computação pode ser paralelizada → a interação entre os diversos atributos, e a consequente contribuição para o modelo, é complexa
  • 65.
    Algoritmos Genéticos ● ● ● A escolhados melhores elementos para predição deve ser feita com base num dataset de treino Os elementos que melhor representem a classificação de treino devem ser escolhidos para nova iteração/reprodução
  • 66.
    Algoritmos baseados emInstâncias ● Usam medidas para a similaridade, como a distância euclidiana
  • 67.
    Algoritmos baseados emInstâncias ● Usam medidas para a similaridade, como a distância euclidiana d ( x i , x j )= √ n ∑ (a r ( x i )−a r ( x j ))2 i=1
  • 68.
    Algoritmos baseados emInstâncias ● Usam medidas para a similaridade, como a distância euclidiana d ( x i , x j )= ● √ n ∑ (a r ( x i )−a r ( x j ))2 i=1 Podem usar pesos para indicar o valor dos atributos
  • 69.
    Algoritmos baseados emInstâncias ● ● ● Úteis quando o output é complexo demais para ser modelado, uma vez que procuram apenas a resolução “mais próxima” Podem ser lentos porque não só avaliam em relação a todos os exemplos de treino como avaliam todos os atributos Podem ter maus resultados quando apenas alguns atributos são relevantes
  • 70.
    Text Mining ● ● O textodeve ser uniformizado para que a mesma palavra não seja repetida → exemplo: construção vs construindo Deve ser feito um dicionário de termos relevantes a considerar como atributos → retirar todos os termos irrelevantes
  • 71.
    Text Mining ● ● ● ● O textodeve ser uniformizado para que a mesma palavra não seja repetida → exemplo: construção vs construindo Deve ser feito um dicionário de termos relevantes a considerar como atributos → retirar todos os termos irrelevantes Transformar o texto em frequências (0 ou 1 ou mais) das palavras do dicionário Aplicar os mecanismos de Data Mining :)
  • 72.
    Aplicações Empresariais ● ● ● ● Análise docesto de compras Classificação de música em géneros Previsão de consumos de energia Investigação médica e farmâceutica
  • 73.
    Bibliografia Relevante ● ● ● ● ● Artificial Intelligence:A Modern Approach (Stuart Russell and Peter Norvig, 1995) Machine Learning (Tom Mitchell, 1997) Data Mining: Practical Machine Learning Tools and Techniques (Ian Witten and Eibe Frank, 2011) The Data Warehouse Lifecycle Toolkit (Ralph Kimball, 2008) Text Mining: Predictive Methods for Analyzing Unstructured Information (Sholom M. Weiss, 2004)
  • 74.
  • 75.