Um Portal Web para a Organização Hierárquica de NotíciasDissertação de mestrado04/11/2009Hugo Lima BorgesOrientadora: Profa. Dra. Ana Carolina Lorena
Motivações e objetivosEstudar a CHT (Categ. Hierárquica de Textos) e aplicá-lo no contexto de um portal agregador de notícias
Uso da hierarquia facilita acesso a notícias mais  específicas e pode ajudar na categorização
Avaliar uma boa configuração para o classificador no cenário propostoClassificação HierárquicaPossível ganho na efetividade preditiva (depende do algoritmo)
Decomposição do problema plano ( possível ganho de desempenho computacional)
Usada em cenários em que é possível estruturar documentos em uma hierarquia de categoriasNaïve Bayes Plano x Hierárquico (20 Newsgroups)
EtapasPré-processamento
Representação do texto
Redução dimensional
Stemming e cuttof
Seleção de atributos
Pesagem de atributos
Abordagem hierárquica
Algoritmo de classificação
Avaliação da efetividade preditivaRepresentação do TextoBag of Words (BOW): cada palavra representa um atributo (ou termo)
Desconsidera posição das palavras
Pesagem dos termos: frequência, binária …
Alternativas:
Bigrama, trigrama (n-grama)
Análise de Semântica Latente
Extração de termos (ex.: agrupamento)Stemming e cutoffStemming: redução da palavra para radical (palavras com significado próximo)
Cutoff: remoção de palavras com baixa/alta frequência que não são representativas para a distinção entre classes (típico: 3 ou 5)Seleção de atributosSelecionar atributos mais relevantes para distinguir as classes
Filtragem ou wrapper
Atributos que aparecem na classe
Atributos que não aparecem na classeMultinomialNaïveBayes(MNB)Algoritmo probabilístico (regra de Bayes)
Assume independência dos termos
Variações do algoritmo e heurísticas para contornar alguns problemasMNB (2)Fi – pesagem do termo i no documento dj
Nci – ocorrências do termo i na classe c
Nc – ocorrência de termos na classe c
N – total de termos
Dc– documentos pertencentes a classe c
D – total de documentosMNB (3)Eficiente computacionalmente
Implementação simples
Fácil adição de exemplos de treinamento
Pré-processamento é importante
Nem sempre apresenta boa efetividade
Necessidade de quantidade mínima de exemplosAbordagem top-downf1_plano1                     2f3_planof2_plano1.1  1.22.1  2.2Mais empregada
Fácil de implementar (algoritmos planos)
Propagação de erros

Informeme - Apresentação da devesa