O documento discute o uso de modelos preditivos para melhorar a seleção de solicitações de compensação tributária para análise manual, reduzindo os riscos de compensações indevidas. O autor desenvolveu modelos usando regressão logística e algoritmos de aprendizado de máquina treinados com dados de solicitações analisadas manualmente por auditores. Os resultados mostraram que os modelos podem acertar cerca de 70% das predições, auxiliando na seleção de processos com maior risco de indeferimento.
Painel 01 03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
Melhoria na seleção de compensações tributárias usando modelos preditivos
1.
2. Crises financeiras e restrições orçamentárias
Redução de Auditores-Fiscais nas
administrações tributárias e aduaneiras de todo
o mundo
Aumento na carga de trabalho (contribuintes,
solicitações de compensação, importação e
exportação)
2
5. Trabalhar melhor = selecionar melhor o que
deve ser trabalhado
Volume de dados não permite mais análises de
especialistas sem auxílio de ferramentas
Análise de dados: encontrar padrões,
correlações e realizar predições a partir de
massas de dados* e conhecimento de
especialistas nos processos de trabalho 5
7. Compensação de crédito: utilizar um crédito
para quitar um débito (diferentes tributos ou
não)
Ex: pagamento a maior (erro na hora de pagar
um “carnê leão”) pode ser restituído (receber o
valor de volta) ou compensado
Vantagem da compensação: processo mais
célere em comparação com a restituição 7
8. O Sistema de Controle de Crédito (SCC) analisa a
soliticação e, com base em alguns parâmetros de
risco, defere, indefere ou separa a compensaçao
para análise manual do Auditor-Fiscal.
Estoque de processos de análise manual se elevou
sobremaneira. Classificar melhor as solicitações
para escolher aqueles com maior risco de
indeferimento
8
10. Problema: seleção de solicitações para análise manual
pode gerar compensações indevidas, afetando o saldo
líquido de arrecadação
Proposta: melhorar a seleção de processos de
compensação tributária utilizando modelos preditivos
Reduzir os riscos para aumentar a análise de
processos que tenham mais riscos de indeferimento
(equívoco do contribuinte ou fraude)
10
11. Mestrado em Computação Aplicada - UnB
Orientador: Prof. Dr. João Carlos Felix
Coorientador: Prof. Dr. Rommel Novaes Carvalho
(de novo esse cara?)
Predizer se uma solicitação de compensação
será indeferida
11
13. Quais características do contribuinte são mais
importantes estatisticamente para definir se
haverá deferimento ou não da solicitação de
compensação?
Para novas solicitações de crédito, quais as
chances de serem ou não deferidas?
13
14. Ensaio inicial: 1a
Região Fiscal da RFB, que
abrange as unidades federativas do DF, GO,
MT, MS e TO
+- 8000 famílias trabalhadas manualmente
(classificadas) por Auditores-Fiscais
1 família são todas as solicitações de
compensação relativas a um mesmo crédito
14
15. Tratamentos básicos:
Retirada de acentos
Exclusão de linhas com poucas informações ou
nulas
Transformação de tipos de dados
Os dados foram todos trabalhos utilizando o
software R (R Studio).
15
16. Uma família pode ter solicitações deferidas e
indeferidas
Limite arbritrário: acima de 70% do valor do
crédito indeferido é uma família indeferida,
abaixo de 70% é considerada deferida
16
17. Do total de variáveis dependentes, foram
escolhidas 8 (oito) para iniciar as análise de
importância e significância estatística e para
construção dos modelos
Variáveis escolhidas por especialistas em
compensação de crédito
17
18. Responder aos questionamentos realizados no
entendimento do negócio.
Regressão logística para entender quais
características da compensação/contribuinte
mais influenciam na decisão de
deferimento/indeferimento
18
19. Regressão logística: somente 4 das 8 delas se
mostraram estatisticamente significativas para
explicar o modelo
Modelos preditivos: regressão logística, o
algoritmo Naive Bayes e Random Forests.
19
20. Para todos os modelos a base foi separada em
duas, uma de treinamento e outra para testes
na proporção 80 para 20%.
Base de treinamento foi utilizada para realizar a
chamada validação cruzada (cross-validation),
que permite que uma mesma base seja usada
tanto para treinamento quanto para validação
para achar um modelo menos sobreajustado
20
23. Boa técnica: usar regressão para escolher as
variáveis antes da confecção dos modelos
preditivos (modelos com todas as variáveis não
passou de 0.53 de acurácia).
Resultados interessantes, cerca de 70% de
acerto nas predições
23
24. Nem sempre acertar mais significa melhora no
processo de seleção de trabalhos
Indicador de performance de processo é
necessário: valor indeferido/família analisada
Resultado: fracasso completo
24
25. Retornar ao entendimento do negócio para
avaliar por tipo de crédito (Saldo negativo de
IRPJ, PIS/Cofins não cumulativo, etc)
Resultado: um pouco melhor
25
27. Análise por tipo de crédito com retirada de
outliers (instituições financeiras, grandes
empreiteiras)
Amostras maiores (8a
RF)
A partir de um modelo com boa predição,
aplicar em algumas unidades
27