CLASSIFICAÇÃO AUTOMATIZADA DE
PRODUTOS E SERVIÇOS LICITADOS
Thiago Marzagão
CONTEXTO: LABORATÓRIO DE
ANÁLISE DE DADOS DO CADE
(mais sobre isso amanhã)
PROBLEMA:
CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
etc
LICITAÇÃO FEDERAL:
LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:
DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:
(POSSÍVEL) SOLUÇÃO:
PROCESSAMENTO DE LINGUAGEM NATURAL
1. REMOVE STOPWORDS (“DE”, “A”, ETC)
2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)
3. PASSA TUDO P/ SINGULAR (RSLP-S)
4. VETOR...
FERRAMENTAS
K-MEANS
(c/ licitações do GDF)
TENTATIVA #1
1. DEFINE CENTRÓIDES ALEATÓRIOS
2. ALOCA CADA DESCRIÇÃO VETORIZADA AO
CENTRÓIDE MAIS PRÓXIMO
3. COM BASE NESSAS ALOCAÇÕES,...
K-MEANS
RESULTADO: PÉSSIMO
CLUSTERS SEM O MENOR SENTIDO
EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS”
DENTRO DE UM MESMO CLUSTER
SIMILARIDADE DO CO-SENO
(c/ licitações do GDF e NCM)
TENTATIVA #2
SIMILARIDADE DO CO-SENO
RESULTADO: RUIM
# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS
EXEMPLO: “CARREGADOR DE BATERIA”
CLASSIFICAD...
SVM
(c/ licitações federais e CATMAT/CATSER)
TENTATIVA #3
PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA
É MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES
AS CLASSES NÃO SÃO DIVIDIDAS POR UMA
L...
AJUSTES QUE TENTEI:
1. FUNÇÃO DE CUSTO (HINGE, SQUARED
HINGE, HUBER)
2. TERMO DE REGULARIZAÇÃO (L1, L2,
ELASTICNET)
3. DIF...
TOTAL DE ~5 MILHÕES DE DESCRIÇÕES
70% TREINAMENTO
15% TESTE
15% VALIDAÇÃO
SVM
SVM
RANDOM FOREST?
REDES NEURAIS?
TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE
A MAIOR PROBABILIDADE < x, IGNORA
DESCRIÇÃO)
SUGEST...
thiago.marzagao@cade.gov.br
thiagomarzagao.com
Próximos SlideShares
Carregando em…5
×

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

125 visualizações

Publicada em

Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
125
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

  1. 1. CLASSIFICAÇÃO AUTOMATIZADA DE PRODUTOS E SERVIÇOS LICITADOS Thiago Marzagão
  2. 2. CONTEXTO: LABORATÓRIO DE ANÁLISE DE DADOS DO CADE (mais sobre isso amanhã)
  3. 3. PROBLEMA: CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS: NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS: etc
  4. 4. LICITAÇÃO FEDERAL:
  5. 5. LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:
  6. 6. DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:
  7. 7. (POSSÍVEL) SOLUÇÃO: PROCESSAMENTO DE LINGUAGEM NATURAL
  8. 8. 1. REMOVE STOPWORDS (“DE”, “A”, ETC) 2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC) 3. PASSA TUDO P/ SINGULAR (RSLP-S) 4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO 5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS PALAVRAS MAIS DISCRIMINANTES) 6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE TAMANHOS MUITO DIFERENTES) PRÉ-PROCESSAMENTO:
  9. 9. FERRAMENTAS
  10. 10. K-MEANS (c/ licitações do GDF) TENTATIVA #1
  11. 11. 1. DEFINE CENTRÓIDES ALEATÓRIOS 2. ALOCA CADA DESCRIÇÃO VETORIZADA AO CENTRÓIDE MAIS PRÓXIMO 3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA OS CENTRÓIDES 4. REPETE 2 E 3 ATÉ CONVERGÊNCIA K-MEANS
  12. 12. K-MEANS RESULTADO: PÉSSIMO CLUSTERS SEM O MENOR SENTIDO EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS” DENTRO DE UM MESMO CLUSTER
  13. 13. SIMILARIDADE DO CO-SENO (c/ licitações do GDF e NCM) TENTATIVA #2
  14. 14. SIMILARIDADE DO CO-SENO RESULTADO: RUIM # EXCESSIVO DE CLASSIFICAÇÕES ERRADAS EXEMPLO: “CARREGADOR DE BATERIA” CLASSIFICADO COMO “BATERIA” RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS
  15. 15. SVM (c/ licitações federais e CATMAT/CATSER) TENTATIVA #3
  16. 16. PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA É MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES AS CLASSES NÃO SÃO DIVIDIDAS POR UMA LINHA MAS POR UM POLÍGONO DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT- MARGIN (PENALIZA CLASSIFICAÇÕES NO POLÍGONO) OU KERNEL TRICK (AUMENTA # DE DIMENSÕES P/ QUE NADA CAIA NO POLÍGONO) SVM
  17. 17. AJUSTES QUE TENTEI: 1. FUNÇÃO DE CUSTO (HINGE, SQUARED HINGE, HUBER) 2. TERMO DE REGULARIZAÇÃO (L1, L2, ELASTICNET) 3. DIFERENTES NÍVEIS DO CATMAT/CATSER: GRUPOS (79) E CLASSES (670) 4. # DE PASSES SOBRE OS DADOS 5. TAXA DE APRENDIZADO 6. PESO MAIOR P/ PRIMEIRAS PALAVRAS 7. CONSISTÊNCIA GRUPO-CLASSE SVM
  18. 18. TOTAL DE ~5 MILHÕES DE DESCRIÇÕES 70% TREINAMENTO 15% TESTE 15% VALIDAÇÃO SVM
  19. 19. SVM
  20. 20. RANDOM FOREST? REDES NEURAIS? TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE A MAIOR PROBABILIDADE < x, IGNORA DESCRIÇÃO) SUGESTÕES?? PRÓXIMOS PASSOS
  21. 21. thiago.marzagao@cade.gov.br thiagomarzagao.com

×