Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

•Transferir como PPTX, PDF•

0 gostou•197 visualizações

Tribunal de Contas da União - TCU (Oficial)

Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.

Tecnologia

CLASSIFICAÇÃO AUTOMATIZADA DE
PRODUTOS E SERVIÇOS LICITADOS
Thiago Marzagão

CONTEXTO: LABORATÓRIO DE
ANÁLISE DE DADOS DO CADE
(mais sobre isso amanhã)

PROBLEMA:
CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
etc

(POSSÍVEL) SOLUÇÃO:
PROCESSAMENTO DE LINGUAGEM NATURAL

1. REMOVE STOPWORDS (“DE”, “A”, ETC)
2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)
3. PASSA TUDO P/ SINGULAR (RSLP-S)
4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO
5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS
PALAVRAS MAIS DISCRIMINANTES)
6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE
TAMANHOS MUITO DIFERENTES)
PRÉ-PROCESSAMENTO:

K-MEANS
(c/ licitações do GDF)
TENTATIVA #1

1. DEFINE CENTRÓIDES ALEATÓRIOS
2. ALOCA CADA DESCRIÇÃO VETORIZADA AO
CENTRÓIDE MAIS PRÓXIMO
3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA
OS CENTRÓIDES
4. REPETE 2 E 3 ATÉ CONVERGÊNCIA
K-MEANS

K-MEANS
RESULTADO: PÉSSIMO
CLUSTERS SEM O MENOR SENTIDO
EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS”
DENTRO DE UM MESMO CLUSTER

SIMILARIDADE DO CO-SENO
(c/ licitações do GDF e NCM)
TENTATIVA #2

SIMILARIDADE DO CO-SENO
RESULTADO: RUIM
# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS
EXEMPLO: “CARREGADOR DE BATERIA”
CLASSIFICADO COMO “BATERIA”
RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS

SVM
(c/ licitações federais e CATMAT/CATSER)
TENTATIVA #3

PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA
É MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES
AS CLASSES NÃO SÃO DIVIDIDAS POR UMA
LINHA MAS POR UM POLÍGONO
DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT-
MARGIN (PENALIZA CLASSIFICAÇÕES NO
POLÍGONO) OU KERNEL TRICK (AUMENTA # DE
DIMENSÕES P/ QUE NADA CAIA NO POLÍGONO)
SVM

AJUSTES QUE TENTEI:
1. FUNÇÃO DE CUSTO (HINGE, SQUARED
HINGE, HUBER)
2. TERMO DE REGULARIZAÇÃO (L1, L2,
ELASTICNET)
3. DIFERENTES NÍVEIS DO CATMAT/CATSER:
GRUPOS (79) E CLASSES (670)
4. # DE PASSES SOBRE OS DADOS
5. TAXA DE APRENDIZADO
6. PESO MAIOR P/ PRIMEIRAS PALAVRAS
7. CONSISTÊNCIA GRUPO-CLASSE
SVM

TOTAL DE ~5 MILHÕES DE DESCRIÇÕES
70% TREINAMENTO
15% TESTE
15% VALIDAÇÃO
SVM

RANDOM FOREST?
REDES NEURAIS?
TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE
A MAIOR PROBABILIDADE < x, IGNORA
DESCRIÇÃO)
SUGESTÕES??
PRÓXIMOS PASSOS

thiago.marzagao@cade.gov.br
thiagomarzagao.com

Mais conteúdo relacionado

Mais de Tribunal de Contas da União - TCU (Oficial)

La visión del ministerio de planificación- TCUTribunal de Contas da União - TCU (Oficial)

Presentación del instituto serzedello corrêa - TCUTribunal de Contas da União - TCU (Oficial)

Presentación del ccc - TCUTribunal de Contas da União - TCU (Oficial)

Innovación como solución para problemas complejos -2016- TCU - 2Tribunal de Contas da União - TCU (Oficial)

Geotecnologías - 2016 - la visión del ministerio del medio ambiente.Tribunal de Contas da União - TCU (Oficial)

Design thinking 2016 - HerramientasTribunal de Contas da União - TCU (Oficial)

Control social 2016 - la visión del Tribunal de Cuentas de la Unión.Tribunal de Contas da União - TCU (Oficial)

Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1Tribunal de Contas da União - TCU (Oficial)

Control social 2016 - la visión de la cámara de diputados.Tribunal de Contas da União - TCU (Oficial)

Análisis de datos 2016 - la visión del tribunal de cuentas de la unión.Tribunal de Contas da União - TCU (Oficial)

Taller Innovación - Innovación como solución para problemas complejos - TCUTribunal de Contas da União - TCU (Oficial)

Lancamento do Portal de inovação do TCUTribunal de Contas da União - TCU (Oficial)

Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração PúblicaTribunal de Contas da União - TCU (Oficial)

Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Tribunal de Contas da União - TCU (Oficial)

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...Tribunal de Contas da União - TCU (Oficial)

Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...Tribunal de Contas da União - TCU (Oficial)

Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...Tribunal de Contas da União - TCU (Oficial)

Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...Tribunal de Contas da União - TCU (Oficial)

Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...Tribunal de Contas da União - TCU (Oficial)

Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...Tribunal de Contas da União - TCU (Oficial)

Mais de Tribunal de Contas da União - TCU (Oficial) (20)

La visión del ministerio de planificación- TCU

Presentación del instituto serzedello corrêa - TCU

Presentación del ccc - TCU

Innovación como solución para problemas complejos -2016- TCU - 2

Geotecnologías - 2016 - la visión del ministerio del medio ambiente.

Design thinking 2016 - Herramientas

Control social 2016 - la visión del Tribunal de Cuentas de la Unión.

Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1

Control social 2016 - la visión de la cámara de diputados.

Análisis de datos 2016 - la visión del tribunal de cuentas de la unión.

Taller Innovación - Innovación como solución para problemas complejos - TCU

Lancamento do Portal de inovação do TCU

Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública

Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção ...

Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...

Painel 04 02 - Jedson Passos - Análise Sistêmica de Orçamentos de Obras Púb...

Painel 04 01 - Rommel Carvalho - uso de mineração de dados e textos para cá...

Painel 03 04 - André Vital - Avaliação de Risco em Contratos de Obras Rodov...

Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

1. CLASSIFICAÇÃO AUTOMATIZADA DE PRODUTOS E SERVIÇOS LICITADOS Thiago Marzagão

2. CONTEXTO: LABORATÓRIO DE ANÁLISE DE DADOS DO CADE (mais sobre isso amanhã)

3. PROBLEMA: CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS: NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS: etc

4. LICITAÇÃO FEDERAL:

5. LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:

6. DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:

7. (POSSÍVEL) SOLUÇÃO: PROCESSAMENTO DE LINGUAGEM NATURAL

8. 1. REMOVE STOPWORDS (“DE”, “A”, ETC) 2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC) 3. PASSA TUDO P/ SINGULAR (RSLP-S) 4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO 5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS PALAVRAS MAIS DISCRIMINANTES) 6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE TAMANHOS MUITO DIFERENTES) PRÉ-PROCESSAMENTO:

9. FERRAMENTAS

10. K-MEANS (c/ licitações do GDF) TENTATIVA #1

11. 1. DEFINE CENTRÓIDES ALEATÓRIOS 2. ALOCA CADA DESCRIÇÃO VETORIZADA AO CENTRÓIDE MAIS PRÓXIMO 3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA OS CENTRÓIDES 4. REPETE 2 E 3 ATÉ CONVERGÊNCIA K-MEANS

12. K-MEANS RESULTADO: PÉSSIMO CLUSTERS SEM O MENOR SENTIDO EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS” DENTRO DE UM MESMO CLUSTER

13. SIMILARIDADE DO CO-SENO (c/ licitações do GDF e NCM) TENTATIVA #2

14. SIMILARIDADE DO CO-SENO RESULTADO: RUIM # EXCESSIVO DE CLASSIFICAÇÕES ERRADAS EXEMPLO: “CARREGADOR DE BATERIA” CLASSIFICADO COMO “BATERIA” RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS

15. SVM (c/ licitações federais e CATMAT/CATSER) TENTATIVA #3

16. PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA É MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES AS CLASSES NÃO SÃO DIVIDIDAS POR UMA LINHA MAS POR UM POLÍGONO DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT- MARGIN (PENALIZA CLASSIFICAÇÕES NO POLÍGONO) OU KERNEL TRICK (AUMENTA # DE DIMENSÕES P/ QUE NADA CAIA NO POLÍGONO) SVM

17. AJUSTES QUE TENTEI: 1. FUNÇÃO DE CUSTO (HINGE, SQUARED HINGE, HUBER) 2. TERMO DE REGULARIZAÇÃO (L1, L2, ELASTICNET) 3. DIFERENTES NÍVEIS DO CATMAT/CATSER: GRUPOS (79) E CLASSES (670) 4. # DE PASSES SOBRE OS DADOS 5. TAXA DE APRENDIZADO 6. PESO MAIOR P/ PRIMEIRAS PALAVRAS 7. CONSISTÊNCIA GRUPO-CLASSE SVM

18. TOTAL DE ~5 MILHÕES DE DESCRIÇÕES 70% TREINAMENTO 15% TESTE 15% VALIDAÇÃO SVM

19. SVM

20. RANDOM FOREST? REDES NEURAIS? TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE A MAIOR PROBABILIDADE < x, IGNORA DESCRIÇÃO) SUGESTÕES?? PRÓXIMOS PASSOS

21. thiago.marzagao@cade.gov.br thiagomarzagao.com

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Tribunal de Contas da União - TCU (Oficial)

Mais de Tribunal de Contas da União - TCU (Oficial) (20)

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas