Classificação de documentos

Classificação de
Documentos
Classificação baseada em Inteligência Artificial

Agenda
1. Introdução
2. Ferramentas
3. Exercício prático
4. Case

Por que classificar
documentos?

Classificação de documentos
1. Exemplos de documentos (arquivos) de cada classe;
2. Criar dicionários de dados e extrair características;
3. Separar amostras para treino e teste;
4. Treinar classificador;
5. Testar classificador treinado.

Ferramentas
● O processamento distribuído do Hadoop permite escalar;
● O Mahout encapsula a complexidade matemática dos algoritmos de ML;
● Embora o Mahout seja uma API Java, é possível utilizá-la com outras
tecnologias.

Ambiente
● Virtualização Docker;
● Apache Hadoop;
● Apache Mahout;
● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e
religião);
Referência: https://github.com/evertongago/text-mining

Case - Contexto
Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos
advogados associados.
Seu processo de trabalho inclui:
● 200+ diários oficiais publicados entre 06h e 11h da manhã
● Converter arquivos PDF para recortes em arquivos texto
● Classificar manualmente cada convocação (80% = ~ 14M / mês)

Case - Dificuldades
● O volume de trabalho dificulta a evolução do processo
● “Afoga” o departamento de TI e os analistas
● Sobra pouco tempo e recurso para evoluções

Case - Objetivo
Os principais objetivos deste trabalho são:
● Melhorar a classificação automática (hoje ~ 20%)
● Minimizar a classificação crítica e spam
● Diferencial de mercado em relação aos outros players

Case - Resultados
APROVADOS DESCARTADOS ACERTOS %
APROVADOS 64.934 667 98.98%
DESCARTADOS 40.300 192.388 82.68%
DESCARTES ERRADOS 1.02%
APROVAÇÕES ERRADAS 17.3%

Case - Resultados
Foram criados dois cenários de análise:
● Analisar manualmente as aprovações (-64% de trabalho)
○ Benefício: Minimizar o número de spam
○ Risco: Assume 1.02% de notificações não recebidas
● Analisar manualmente os descartes (-35% de trabalho)
○ Benefício: Minimizar o número de notificações não recebidas
○ Risco: Assume 17.3% de spam

Decisão
Algoritmo de Classificação
Naive Bayes

Decisão
● Simples de manter
● Agilidade de replicação
● Integração multiplataforma
Solução baseada em
infraestrutura

Classificação de documentos

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Classificação de documentos

Semelhante a Classificação de documentos (20)

Mais de Dextra

Mais de Dextra (20)

Classificação de documentos