Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.
8. 1. REMOVE STOPWORDS (“DE”, “A”, ETC)
2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)
3. PASSA TUDO P/ SINGULAR (RSLP-S)
4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO
5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS
PALAVRAS MAIS DISCRIMINANTES)
6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE
TAMANHOS MUITO DIFERENTES)
PRÉ-PROCESSAMENTO:
11. 1. DEFINE CENTRÓIDES ALEATÓRIOS
2. ALOCA CADA DESCRIÇÃO VETORIZADA AO
CENTRÓIDE MAIS PRÓXIMO
3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA
OS CENTRÓIDES
4. REPETE 2 E 3 ATÉ CONVERGÊNCIA
K-MEANS
14. SIMILARIDADE DO CO-SENO
RESULTADO: RUIM
# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS
EXEMPLO: “CARREGADOR DE BATERIA”
CLASSIFICADO COMO “BATERIA”
RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS
16. PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA
É MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES
AS CLASSES NÃO SÃO DIVIDIDAS POR UMA
LINHA MAS POR UM POLÍGONO
DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT-
MARGIN (PENALIZA CLASSIFICAÇÕES NO
POLÍGONO) OU KERNEL TRICK (AUMENTA # DE
DIMENSÕES P/ QUE NADA CAIA NO POLÍGONO)
SVM
17. AJUSTES QUE TENTEI:
1. FUNÇÃO DE CUSTO (HINGE, SQUARED
HINGE, HUBER)
2. TERMO DE REGULARIZAÇÃO (L1, L2,
ELASTICNET)
3. DIFERENTES NÍVEIS DO CATMAT/CATSER:
GRUPOS (79) E CLASSES (670)
4. # DE PASSES SOBRE OS DADOS
5. TAXA DE APRENDIZADO
6. PESO MAIOR P/ PRIMEIRAS PALAVRAS
7. CONSISTÊNCIA GRUPO-CLASSE
SVM
18. TOTAL DE ~5 MILHÕES DE DESCRIÇÕES
70% TREINAMENTO
15% TESTE
15% VALIDAÇÃO
SVM