Aprendizagem Automática

Aprendizagem Automática Aprendizagem SupervisionadaAprendizagem Não Supervisionada

Aula anterior Redes Neuronais Métodos de aceleração de Redes Neuronais

Aprendizagem Supervisionada Dado um conjunto de exemplos, será que é possível descobrir o padrão que os gera? Exemplo simples:

Valores Valores possíveis, por atributo

Pre-processamento Discretizar, quantificar, normalizar …

Quantização Vectorial (Learning Vector Quantization) ,[object Object]

Atribuir ao novo exemplo a mesma classe

não é muito fiável quando há “ruído”

... Usar representantes/protótipos (1 por classe)(semelhante à Aprendizagem Competitiva, ... mas o representante é aproximado se a classificação é correcta e afastado caso contrário)

(L)VQ: (Learning) Vector Quantization

Usado com sucesso na compressão de dados e classificação de documentação.,[object Object]

Case-BasedReasoning(matéria de IA) Semelhante ao K-NN, mas … Não guarda todos os exemplos, antes cria “casos-padrão”: Quando um padrão de entrada “está incluído” num “caso” guardado, é ignorado; Quando um padrão de entrada “é semelhante” a um “caso” guardado, o caso é estendido para incluir o novo padrão; Quando um padrão de entrada “não é semelhante” a nenhum “caso” guardado, é criado um novo caso; Tipicamente tem valores de entrada/saída complexos (e.g. grafos); Permite “combinar” valores de saída de vários exemplos de um modo complexo; Implementação sempre intimamente ligada a um domínio.

Aprendizagem Supervisionada Sair = (Previsão == Limpo E Humidade == Normal) OU (Previsão == Nublado) OU (Previsão == Chuva E Vento == Fraco)

Árvores de Decisão(DecisionTrees) A cada nó está associado, durante o treino, o conjunto de exemplos que é classificado por este nó Céu Chuva Limpo Nublado Vento Humidade Sim Forte Fraco Normal Alta Sair = (Previsão == Limpo E Humidade == Normal) OU (Previsão == Nublado) OU (Previsão == Chuva E Vento == Fraco) Sim Não Sim Não

Árvores de Decisão(DecisionTrees) Céu Chuva Limpo Nublado Vento Humidade Vento Forte Fraco Normal Alta Forte Fraco Sim Não Sim Não Sim Não

DecisionTrees: Quando se usam? Instâncias representadas por atributos com valores discretos (ou discretizados em intervalos) Pequenos conjuntos de valores possíveis para cada atributo Pretende-se uma classificação das instâncias (de preferência booleana) Dados podem conter erros e valores indefinidos Solução pode ser representada por uma expressão booleana ou uma classificação, e.g.: (Previsão = Limpo E Humidade = Normal) OU (Previsão = nublado) OU (Previsão = Chuva E Vento = Fraco)

DecisionTrees: Construção Qual o atributo que melhor separa as instâncias numa decisão booleana? Entropia(S) = - p+ log2 (p+) - p- log2 (p-) S : Conjunto de exemplos de um conceito p+ : Percentagem de exemplos positivos p- : Percentagem de exemplos negativos

DecisionTrees: Construção Quanto mais equilibrado o conjunto (p+ = p-), maior a entropia, i.e. menor a probabilidade de prever de que classe é um exemplo tirado ao acaso.

DecisionTrees: Construção Entropia relativa à classificação em c partes, com base num atributo com c valores diferentes (pretende-se minimizar a entropia): X : Conjunto de exemplos de um conceito (e.g. “Sair?”) c: nº de valores possíveis para o conceito a pi : Percentagem de exemplos em que: a = vi

Ganho de informação Ganho de informação de um atributo a em relação a um conjunto X: v: valores possíveis para a Xv: Subconjunto de X em que o valor de a é igual a v |X|: nº de elementos de X

Ganho de informação a = Vento v = {Forte, Fraco} nº de instâncias de X (total) = 14 (9+, 5-) nº de instâncias de X em que (Vento = Forte) = 6 (3+, 3-) nº de instâncias de X em que (Vento = Fraco) = 8 (6+, 2-) G(X,Vento) = 0.94 – [(8*0.811) + (6*1.0)] /14 = 0.048 Fraco Forte

ID3 ID3(Exemplos, Atributo-Alvo, Atributos) Criar a raíz Se p+ = 1: raíz = + Se p- = 1: raíz = - Se Atributos = Ø, raíz = valor mais comum do alvo em exemplos A <- Atributo que melhor classifica os exemplos de acordo com o ganho de informação Raíz = A Para cada valor (v) possível de A: Adicionar novo ramo A = v Exemplosv = Conjunto de exemplos em que A=v Se Exemplosv = Ø: adicionar ramo com valor mais comum do alvo em Exemplosv senão ramo = ID3(Exemplosv, Atributo-Alvo, Atributos – {A})

C4.5/C5.0 Semelhante ao ID3, mas … Atributos contínuos: cria uma série de classes para um atributo contínuo dividindo o seu domínio em partes [Quinlan, 96] Permite a utilização quando há valores em falta: não são usados no cálculo da entropia. Permite que os atributos tenham custos diferentes. Remoção (a posteriori) de nós que não são úteis. [Quinlan, 96] J. R. Quinlan. Improved use of continuous attributes in c4.5. Journal of Artificial Intelligence Research, 4:77-90, 1996.

Aprendizagem Competitiva *CompetitiveLearning[RumelhartandZipser 85] Criar N representantes ao acaso Para cada exemplo: Calcular o representante mais próximo “Aproximar” o representante do exemplo (só um pouco) Enquanto os representantes “mudarem muito de posição” do início para o fim da “época”, voltar ao ponto 2 (ou número fixo de épocas). *Termo usado para designar um sub-grupo dos algoritmos de aprendizagem não-supervisionada, este em particular é uma versão iterativa do algoritmo de Lloyd (também conhecido como K-Means, um dos mais comuns nesta área).

Aprendizagem Competitiva Seja X = {x1, x2, x3, … xn} o conjunto de exemplos E c1, c2, … cm (n >> m) os representantes (inicializados aleatoriamente) Para cada exemplo (xi): Calcular distância (1) Seleccionar o centro mais próximo: ck (2) Aproximar ck de xi (3) Enquanto mudar (4)

Aprendizagem Competitiva (1)* distância (2) mais próximo (3) aproximar (4) paragem * Podem ser usadas outras medidas de distância (por exemplo nº de atributos diferentes)

Mapas Topológicos, Self-Organizing Maps [Kohonen 90] Semelhante à aprendizagem competitiva, mas: Cada classe tem um conjunto de vizinhos, Os vizinhos são alterados progressivamente menos de acordo com a distância

Aprendizagem Não-Supervisionada Como agrupar padrões e criar classes de exemplos, sem ter uma classe-objectivo?

K-Means[Loyd 57] Parte de um conjunto de entrada X = {x1, x2, x3, … xn} Distribui aleatoriamente N representantes, cada xi “pertence” ao conjunto associado ao representante mais próximo Actualiza as posições de todos os representantes para o centro do conjunto que representam Redistribui os exemplos de modo a que cada xi “pertence” ao conjunto associado ao representante mais próximo Volta ao passo 3 até estabilizar os conjuntos / representantes * De facto é um caso particular de um algoritmo mais geral chamado EM (ExpectationMaximization)

Análise de componentes principais (Principal ComponentsAnalysis) Encontrar o sub-espaço, de dimensão menor que maximiza a variância dos dados

Análise de componentes principais Substituição de 2 dimensões por uma combinação linear de ambas (dados a 1 dimensão)

Análise de componentes principais Calculando a os valores próprios da matriz de covariância e seleccionando a base com os maiores valores próprios associados (para conjuntos grandes: demorado e sujeito a problemas de arredondamentos) ... ou por métodos iterativos

Classificação não-supervisionada Dendrograma (dendro = árvore) Dados Distância proporcional ao número de atributos diferentes 6 classes 4 classes 3 classes 2 classes Imagens: Dendrogram. (2008, August 19). In Wikipedia, The Free Encyclopedia. Retrieved 12:30, September 16, 2008, from http://en.wikipedia.org/w/index.php?title=Dendrogram&oldid=232979561

Classificação por agrupamento Single link: distância entre conjuntos é a menor das distâncias entre os elementos Complete link: distância entre conjuntos é a maior das distâncias entre os seus elementos CobWeb [Fisher 87] – Utilidade de categoria

COBWEB [Fisher 87] Conjuntos com atributos discretos Para cada novo exemplo (ponto) pode: Inserir numa classe existente(simula inserção em todas e calcula a utilidade); Criar uma nova classe(simula a criação de uma nova classe apenas com o novo exemplo); Combinar duas classes(simula a combinação das duas classes com maior utilidade para o novo exemplo); Dividir uma classe(simula retirar o nó imediatamente acima do ponto de inserção do novo exemplo); Baseado na Utilidade de Categoria, (aumento do número de atributos que pode ser previsto para os elementos de cada classe).

COBWEB [Fisher 87] Utilidade de Categoria Cada atributo (i), todos os valores possíveis (j) Todas as categorias (l) Utilidade diminui com o aumento do número de classes

Utilização Aprendizagem Não Supervisionada: procura de padrões em dados sem etiquetas; No Pré-processamento de dados: É (quase) sempre necessário/útil Aprendizagem Competitiva: Raramente usada, mas é base de outros algoritmos; Mapas Topológicos: Quando há relações entre as classes; K-Means: Quando sabemos distribuições que geraram dos dados; PCA: Redução da dimensão dos dados, perdendo o mínimo de informação possível; Conceptual Clustering (CobWeb e outros): Quando o conceito a gerar e as relações entre aglomerados são fundamentais na análise e a semelhança entre padrões obedece a regras complexas.

Aprendizagem Automática

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (15)

Semelhante a Aprendizagem Automática

Semelhante a Aprendizagem Automática (20)

Mais de butest

Mais de butest (20)

Aprendizagem Automática