Esta palestra apresenta as principais técnicas para classificação de documentos, através do uso do Apache Mahout, a popular biblioteca Java para aprendizado de máquina.
A palestra apresenta um case real onde utilizamos inteligência artificial para classificar convocações judiciais, que são extraidas de editais públicos e precisam ser encaminhadas aos advogados conveniados. O objetivo deste trabalho foi minimizar a intervenção humana durante a análise dos documentos, separando as convocações que precisam ser encaminhadas daquelas que devem ser descartadas.
5. Classificação de documentos
1. Exemplos de documentos (arquivos) de cada classe;
2. Criar dicionários de dados e extrair características;
3. Separar amostras para treino e teste;
4. Treinar classificador;
5. Testar classificador treinado.
8. Ferramentas
● O processamento distribuído do Hadoop permite escalar;
● O Mahout encapsula a complexidade matemática dos algoritmos de ML;
● Embora o Mahout seja uma API Java, é possível utilizá-la com outras
tecnologias.
13. Case - Contexto
Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos
advogados associados.
Seu processo de trabalho inclui:
● 200+ diários oficiais publicados entre 06h e 11h da manhã
● Converter arquivos PDF para recortes em arquivos texto
● Classificar manualmente cada convocação (80% = ~ 14M / mês)
14. Case - Dificuldades
● O volume de trabalho dificulta a evolução do processo
● “Afoga” o departamento de TI e os analistas
● Sobra pouco tempo e recurso para evoluções
15. Case - Objetivo
Os principais objetivos deste trabalho são:
● Melhorar a classificação automática (hoje ~ 20%)
● Minimizar a classificação crítica e spam
● Diferencial de mercado em relação aos outros players
18. Case - Resultados
Foram criados dois cenários de análise:
● Analisar manualmente as aprovações (-64% de trabalho)
○ Benefício: Minimizar o número de spam
○ Risco: Assume 1.02% de notificações não recebidas
● Analisar manualmente os descartes (-35% de trabalho)
○ Benefício: Minimizar o número de notificações não recebidas
○ Risco: Assume 17.3% de spam