Introdução sobre uma estrutura de árvode de dados adaptativa. Embora tenha sido apresentada em 2011, o assunto continua bastante relevante por causa do interesse sobre Machine Learning. Durante a palestra, introduzimos o conceito de "complexidade algorítmica" (Kolmogorov), que fundamenta a questão da aprendizagem de máquina.
2. Workshop de Tecnologia Adaptativa 2010
◦ Foram apresentados inúmeros casos práticos
relacionados com classificação de dados, na qual a a
adaptatividade foi utilizada amplamente para resolver
problemas
3. Atributos: Asas, Bico, Corpo
Pergunta: “A ave é migratória?”
(A)(B)(C) -> [sim] ou [não]
4. Folhas e nós podem ser adicionados
◦ A aprendizagem ocorre por meio de adaptação na
estrutura da árvore
5. AdapTree
◦ Hemerson Pistori (2003)
◦ Tese de Doutorado: Tecnologia Adaptativa em
Engenharia de Computação: Estado da Arte e
Aplicações
6. Árvores de Decisão C4.5 (derivada do ID3)
◦ Autor: J. R. Quinlan
◦ Utiliza o cálculo da entropia para direcionar a
segmentação da árvore e folhas
◦ Realiza a discretização de atributos e poda de árvore
Comparativo do AdapTree e C4.5
C4.5 possui excelentes resultados
◦ Mas existem limitações!
7. A criação de um Modelo é feita a partir de
amostra de dados
8. Em geral, o objetivo é minimizar o erro quadrático
entre o modelo proposto e os dados coletados
9. Em determinados casos, o modelo resultante do
“erro mínimo” pode ser inadequado
10. Princípio da Navalha de Occam
◦ “Se há diversas possibilidades, opte pela mais simples.
Ela provavelmente é a mais correta”
◦ Definição de simplicidade: (?)
11. Complexidade K(x) = Corresponde ao tamanho do menor
programa capaz de gerar a cadeia X
Fatos
◦ K(x) é uma função incomputável
◦ K(x) é dependente do referencial (Máquina de Turing Universal)
adotado
Exemplos aproximados:
◦ Número de nós e ramos de uma árvore
◦ Número de linhas do programa
12. Predição x Aleatoriedade x Complexidade
◦ R. Solomonoff – Definiu e utilizou a “Distribuição
Universal” para mostrar a relação entre complexidade e
previsibilidade
Resultados práticos:
◦ Minimum Description Length (MDL)
◦ Minimum Message Length (MML)
13. Processo: Remover os nós e ramos em excesso
Objetivo: Diminuir a complexidade
Aprendizado: Determinar qual ramo cortar
14. O modelo espacial de um círculo aproximado por
uma série de segmento de retas verticais e
horizontais
15. Árvore de Decisão C4.5 (e quase todas outras)
assume que os atributos são independentes
Exemplo:
◦ Atributo “cor do animal”, “tamanho do bico”
◦ Atributo x, atributo y
16. Ao invés das coordenadas cartesianas (x,y), o
sistema apresentaria melhor desempenho se
fosse representado por coordenadas polares (ρ,θ)
17. Busca por relação entre os atributos
◦ Agrupamento de características (Clustering)
Utilizar algoritmos não-supervisionados para
determinar novos atributos calculados
Discretização de atributos contínuos
◦ Determinar intervalos de valores para os atributos
contínuos usando a “entropia máxima”
18. Existe uma infinidade de
possibilidades, diferentes
atributos usados e calculados
Limitação: Tempo e Recurso
A escolha final é feita com
base no tamanho da árvore de
decisão resultante (menor
complexidade)
19. Preparação de treinamentos prévios com desafios
mais simples
◦ Identificar os atributos pouco utilizados
◦ Ajustar os parâmetros dos algoritmos não-
supervisionados
◦ Modificação da ordem dos algoritmos prioritários
Adaptatividade pode priorizar quais serão os
algoritmos e atributos utilizados
Permite a aprendizagem Semi-Supervisionada
20. Árvores de Decisão Adaptativas
◦ Alteração estrutural
◦ Poda da árvore
◦ Inclusão de atributos
21. J. J. Neto, “Adaptive rule-driven devices – general formulation
and a case study”. In CIAA’2001 Sixth International
Conference on Implementation and Application of Automata.
Springer-Verlag.
H. Pistori, “Adaptive Non-Deterministic Decision Trees:
General Formulation and Case Study”.
J. R. Quinlan, Induction of Decision Trees. Machine Learning
(Mar. 1986), 81-106
R. Solomonoff, A Formal Theory of Inductive Inference Part I,
Information and Control, Part I: Vol 7, No. 1, pp. 1-22, March
1964
Notas do Editor
Tudo começou ano passado, nessa mesma sessão do WTA versão 2010, na qual tive o primeiro contato com a tecnologia adaptativa. Lembro bem das apresentações do pessoal de graduação, que mostrou a análise de manchas (será q é cancer) e do pessoal de OCR.
Participação no WTA2010, Exemplo do OCR, precisão x seletividade, resolve com estatística? Ou Adaptatividade?
Começamos com um cenário, na qual observamos no céu um monte de aves voando. Sabemos que cada uma é ligeiramente diferente uma da outra, como a tonalidade das penas ou formato do olho. Por outro lado, há características que são inerentes a aquela espécie: asas, bico, corpo.
Ressaltamos a clareza com que a árvore é capaz de representar o conhecimento.
Vamos a um exemplo: as andorinhas possuem asas desenvolvidas, Existem aves (andorinha q sao migratórias)
Nessa apresentação, limitarei a dizer que Complexidade é um número associado a complexidade do algoritmo. Poderia ser o numero de nos da árvore? Poderia ser o numero de linhas do programa?
e adicionar a toler
Generalizar a tabuada
. Nao é um processo aleatório.