MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQU...
2
INTRODUÇÃO
REVISÃO BIBLIOGRÁFICA
METODOLOGIA
ESTUDO DE CASO
CONSIDERAÇÕES FINAIS
Agenda
3
INTRODUÇÃO
Motivação, justificativa e objetivo
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
4
Processo Produtivo de
Semicondutores Análise de
dados
Melhoria
do
Processo
Produtivo
Motivação
• Aplicação da Mineração ...
5
Justificativa e relevância do estudo
• Dificuldades na aplicação de redes SOM:
– Definição dos parâmetros que regulam o ...
6
Objetivo
• Objetivo Geral
– Uso de Mapas Auto-organizáveis (Self-organizing maps –
SOM) em aplicações de Mineração de Da...
7
REVISÃO BIBLIOGRÁFICA
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
8
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Modelos de Processo:
DCBD, CRISP-DM, SEMMA
Banco de Dados
Prepa...
9
METODOLOGIA
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
10
Metodologia
Abordagem Metodológica
Metodologia de Pesquisa
3. Execução Processo DCBD (Estudo de Caso)
3.1 Definição dos...
11
Definição da Instância do
Processo DCBD (Descoberta de Conhecimento em BD)
DCBD (Fayyad, 1996)
CRISP-DM (CHAPMAN, CLINT...
12
Instância do Processo DCBD
13
• SOM Toolbox (2005) e SOMVIS (2009)
• Biblioteca Matlab de código aberto
• Universidade de Tecnologia de
Helsinki/Finl...
15
ESTUDO DE CASO
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
16
Objetivo do processo de DCBD
• Analisar os dados gerados pelo processo produtivo e
identificar padrões que possam revel...
17
Processo DCBD
18
Processo DCBD
19
Processo de Produção de Módulos de Memória
• Dados coletados:
 Compras
 Produção
 Vendas
 Devolução de Clientes
20
Visão Geral dos Sistemas de Informação da
Empresa alvo do estudo de caso
21
Sistema Origem Dados disponíveis Características Técnicas
Sistema de Controle
de Produção (SCP)
 Histórico das etapas ...
22
Processo DCBD
23
Consulta
SQL
Data
Mining
View
Critério de Seleção:
Ordens de Produção criadas
entre Ago e Set/2011
Tabelas dos Sistemas...
24
Processo DCBD
25
Limpeza & Transformação de dados
DM View
Limpeza e
Transformação
 Análise da qualidade dos dados: descarte de atributo...
26
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimens...
27
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimens...
28
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
...
29
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas no
vetor de
entrada
Valor
Min/Máx
Média
Desv.
P...
30
# Grupo de atributos
Dimensões
originais
Componentes
Principais
Redução de
dimensões
1 Grupo 1 131 74 -44%
2
Grupo 1 (c...
31
Figura 19 – Percentual da variação acumulada em função dos números de componentes principais.
Redução da dimensionalida...
32
Processo DCBD
33
Planejamento dos experimentos
• Verificar o efeito da priorização e do uso de diferentes
combinações de atributos na fo...
34
Nro.
Exp.
Grupo de Atributos
Atributos
Prioriz.?
N de
Neurônios
Distorção
Normalizada
Erro de
Quantização
Médio
Erro d...
35
Nro.
Exp.
Formato do
Mapa
Nro. de
Neurônios
Erro de
Distorção
Erro de
Quantização
Erro
Topográfico
Tempo de
Processamen...
36
Figura 29 – Experimento 6: Agrupamentos mostram o relacionamento entre
os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORD...
37
Figura 31 - Evolução dos erros de Distorção, Quantização e Topográfico dos
mapas gerados.
Ferramenta Matlab SOM Toolbox...
38
39
Interpretação e avaliação dos resultados
Mapas Viscovery e Matlab: Resultados semelhantes
DEVOLVIDA REJECT TEMPO_PROD C...
40
Este agrupamento sugere que produtos que sofreram
algum retrabalho durante o processo produtivo e,
devido a isso, levar...
41
• Os melhores resultados foram gerados pelos Experimentos
5 e 6 (Grupo 2, sem os atributos XTAOPERATOR e BOM):
 Grupo ...
42
• Os piores resultados foram gerados pelos Experimentos 1,
3 e 8 (Grupo 2, com os atributos XTAOPERATOR e BOM):
 Grupo...
44
CONSIDERAÇÕES FINAIS
Conclusões , Contribuições e Pesquisas futuras
Mestrando Wagner Furtado Canto
Orientador Prof. Dr....
45
• Com relação à técnica de MD utilizada
• Com relação às ferramentas utilizadas
• Com relação à metodologia utilizada
•...
48
1) Canto, W. F. ; Souza, L. S. ; CANTO, N. C. F. . Mineração de Dados: uma
aplicação para a indústria de semicondutores...
49
Considerações Finais
Pesquisas futuras
• Uso dos padrões gerados pela rede SOM para classificar
automaticamente seriais...
MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQU...
51
Diagrama de Classes da Base de dados selecionada
ERP - Sistema Integrado de Gestão
SAT - Sistema de Assistência Técnica...
52
Tabela Sistema
Nro. de
registros
Nro. de
atributos
Descrição SGBD
TblJob SCP 7.574 29 Cabeçalho ordem produção MS SQL S...
53
Mapa Auto-organizável Self-organizing Map (SOM)
• Algoritmo criado pelo pesquisador Finlandês Dr. Teuvo Kohonen em 1982...
54
Arquitetura da Rede SOM
55
Algoritmo SOM
Atualização do neurônio vencedor (BMU) e seus vizinhos
Neurônio
vencedor
BMU = Best Matching Unit
56
y
x
m1
m2
m3
m4
m5
m6
v1
Função de vizinhançaTaxa de aprendizado
Neurônio vencedor
Algoritmo SOM
57
Diferentes arranjos de neurônios para o SOM
58
Redução da Dimensionalidade
P ≤ D
59
Matriz-U em um arranjo retangular (A) e hexagonal (B)
60
61
Processo de DCBD (Fayyad, 1996)
62
Processo CRISP-DM (CHAPMAN, CLINTON et al., 2000)
63
Processo SEMMA (SAS, 2012)
64
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
1
Total: 836.564
Devolvidos...
65
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
2
Total: 836.564
Devolvidos...
66
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
3
Total: 836.564
Devolvidos...
67
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
4
Total: 836.564
Devolvidos...
68
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
5
Total: 836.564
Devolvidos...
69
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
6
Total: 836.564
Devolvidos...
70
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
7
Total: 836.564
Devolvidos...
71
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
8
Total: 836.564
Devolvidos...
72
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
9
Total: 836.564
Devolvidos...
73
Figura 23 - Experimentos 1 (a) e 3 (b): não apresentam agrupamentos relevantes.
Experimentos 1 e 3
74
Cubo OLAP (On-line Analytical Processing)
75
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
S2
S1
S3
Figura 24 - Exp...
76
TEMPO_PROD
0,00 0,03 0,07 0,10 0,13 0,16
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0...
77
TEMPO_PROD
0,00 0,02 0,05 0,07 0,09 0,12
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0...
78
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Processo DCBD
AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-...
79
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Mineração e
Agrupamento de
Dados
LAINE, S. Selecting the varia...
80
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Ferramentas Geração
Mapas SOM
DEMUTH, H.; BEALE, M.; HAGAN, M....
81
82
Sub-processos DCBD CRISP-DM SEMMA
1) Compreender o domínio da
aplicação e identificar o objetivo do
processo DCBD.
Pré ...
83
Item de
comparação
Matlab SOM Toolbox +
SOMVIS
Viscovery SOMine
Finalidade
– Uso acadêmico
– Código aberto
– Uso profis...
84
Ferramenta Prós Contras
Viscovery SOMine
 Interação com os mapas
gerados
 Visualização dos vetores que
atingiram cada...
85
86
Fase 1 Fase 2 Fase 3 Fase n
Matérias-Primas
Fases produtivas
Produto Acabado
Obs.: existem 3 linhas produtivas
Estrutur...
87
Figura 30 – Experimento 6: Agrupamentos mostram o relacionamento entre os
atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORD...
88
Figura 32 – (a) Projeção PCA dos
primeiros 2 componentes principais; (b)
Gráfico da variação acumulada da
PCA pelo núme...
89
Arquivo de entrada na ferramenta Matlab
90
Redução da dimensionalidade
Análise de Componentes Principais (PCA)
91
Medidas de Qualidade SOM
• Erro de Quantização (QE): Resolução do mapa,
decresce conforme cresce o tamanho do mapa, med...
Próximos SlideShares
Carregando em…5
×

IPT defesa Wagner F Canto v6

47 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
47
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

IPT defesa Wagner F Canto v6

  1. 1. MINERAÇÃO DE DADOS UTILIZANDO MAPAS AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A INDÚSTRIA DE SEMICONDUTORES INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE COMPUTAÇÃO – MOD. ENG. DE SOFTWARE Defesa de Dissertação 1º Semestre 2012 Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  2. 2. 2 INTRODUÇÃO REVISÃO BIBLIOGRÁFICA METODOLOGIA ESTUDO DE CASO CONSIDERAÇÕES FINAIS Agenda
  3. 3. 3 INTRODUÇÃO Motivação, justificativa e objetivo Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  4. 4. 4 Processo Produtivo de Semicondutores Análise de dados Melhoria do Processo Produtivo Motivação • Aplicação da Mineração de Dados (MD) em um caso prático: Análise de dados gerados pelo processo produtivo de uma indústria de semicondutores • Agrupamento de Dados → Mapas de Kohonen (SOM – Self Organizing Maps)
  5. 5. 5 Justificativa e relevância do estudo • Dificuldades na aplicação de redes SOM: – Definição dos parâmetros que regulam o comportamento – Preparação de dados e seleção de atributos • Incorporação da Mineração de Dados ao processo de negócio: objetivo raramente alcançado • Falta de pesquisas aplicadas na área de Mineração de Dados • Fracassos na área de Mineração de Dados são raramente documentados
  6. 6. 6 Objetivo • Objetivo Geral – Uso de Mapas Auto-organizáveis (Self-organizing maps – SOM) em aplicações de Mineração de Dados • Objetivo Específico – Desenvolver um processo com o qual se pretende: • Identificar caminhos, demandas e restrições no uso da técnica para Mineração de Dados originados no processo de fabricação de semicondutores; • Investigar técnicas heurísticas para a determinação dos parâmetros que regulam o comportamento de redes SOM e para seleção e priorização de atributos.
  7. 7. 7 REVISÃO BIBLIOGRÁFICA Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  8. 8. 8 Revisão Bibliográfica Visão Geral das Teorias de Suporte Modelos de Processo: DCBD, CRISP-DM, SEMMA Banco de Dados Preparação de dados para MD Dimensionalidade de dados Qualidade de dados Mineração de Dados Agrupamento de dados Mapas SOM Parametrização de Mapas SOM e suas heurísticas Medidas de Qualidade de Mapas SOM Ferramentas Geração Mapas SOM Estatística: Correlação e PCA Aplicações da MD na Indústria
  9. 9. 9 METODOLOGIA Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  10. 10. 10 Metodologia Abordagem Metodológica Metodologia de Pesquisa 3. Execução Processo DCBD (Estudo de Caso) 3.1 Definição dos objetivos 3.2 Seleção & Pré-processamento 3.3 Limpeza & Transformação 3.4 Mineração de Dados 3.5 Interpretação / Avaliação 2. Definição Instância do Processo DCBD 1. Revisão Bibliográfica 4. Considerações Finais
  11. 11. 11 Definição da Instância do Processo DCBD (Descoberta de Conhecimento em BD) DCBD (Fayyad, 1996) CRISP-DM (CHAPMAN, CLINTON et al., 2000) SEMMA (SAS, 2012) Figura 12 - Processo para execução dos experimentos de DCBD.
  12. 12. 12 Instância do Processo DCBD
  13. 13. 13 • SOM Toolbox (2005) e SOMVIS (2009) • Biblioteca Matlab de código aberto • Universidade de Tecnologia de Helsinki/Finlândia. http://www.cis.hut.fi/projects/somtoolbox/ Ferramentas de geração de Mapas SOM selecionadas • Viscovery SOMine 5.2 (2010) • Ferramenta comercial • Viscovery Software GmbH Viena, Áustria http://www.viscovery.net/somine/ http://www.viscovery.net/customers
  14. 14. 15 ESTUDO DE CASO Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  15. 15. 16 Objetivo do processo de DCBD • Analisar os dados gerados pelo processo produtivo e identificar padrões que possam revelar informações até então desconhecidas como, por exemplo, características dos produtos que são devolvidos pelos clientes devido a mau funcionamento
  16. 16. 17 Processo DCBD
  17. 17. 18 Processo DCBD
  18. 18. 19 Processo de Produção de Módulos de Memória • Dados coletados:  Compras  Produção  Vendas  Devolução de Clientes
  19. 19. 20 Visão Geral dos Sistemas de Informação da Empresa alvo do estudo de caso
  20. 20. 21 Sistema Origem Dados disponíveis Características Técnicas Sistema de Controle de Produção (SCP)  Histórico das etapas de elaboração do produto  Histórico de eventos / defeitos  Máquinas utilizadas em cada fase  Operadores  Lotes de fabricação  Número de série do produto  Quantidades produzidas  Resultado de testes de qualidade  33 milhões de registros (1 ano)  SGBD: MS-SQL Server Sistema Integrado de Gestão (ERP)  Dados de fornecedores (compras)  Dados de clientes (vendas)  Dados de produção (lotes matérias- primas utilizadas em cada ordem de fabricação)  408 mil de registros (1 ano)  SGBD: Oracle Sistema de Assistência Técnica (SAT)  Dados de devolução de clientes (por mau funcionamento do produto)  Análise de falhas  Histórico de falhas  113 mil registros (1 ano)  SGBD: MS- Access 97 Detalhamento das informações contidas nas bases de dados dos sistemas SCP, ERP e SAP
  21. 21. 22 Processo DCBD
  22. 22. 23 Consulta SQL Data Mining View Critério de Seleção: Ordens de Produção criadas entre Ago e Set/2011 Tabelas dos Sistemas: • ERP - Sistema Integrado de Gestão • SCP - Sistema de Controle de Produção • SAT - Sistema de Assistência Técnica 49 atributos 837.285 seriais (registros) 2.456 seriais devolvidos 333 ordens de produção Consulta SQL desenvolvida para extrair dados dos sistemas ERP, SCP e SAT
  23. 23. 24 Processo DCBD
  24. 24. 25 Limpeza & Transformação de dados DM View Limpeza e Transformação  Análise da qualidade dos dados: descarte de atributos  Transformação e Normalização de atributos  Geração dos arquivos no formato de cada ferramenta  Seleção de atributos: redução da dimensionalidade Formato Matlab Formato Viscovery Cubo OLAP Geração de PCA & Correlação 837.285 seriais 49 atributos 25 atributos
  25. 25. 26 SCP ERP SAT DM View Consulta SQLSeleção e pré-processamento Limpeza e transformação dos dados 226 atributos 1623 dimensões 49 atributos 1127 dimensões 25 atributos 391 dimensões Sistemas Correlação e PCA Análise da Qualidade dos Dados Seleção de registros de Ago e Set/2011 Cubo OLAP Padrões / Agrupamentos 12 atributos 260 dimensões Seleção de Atributos Mineração de Dados Geração Mapas SOM
  26. 26. 27 SCP ERP SAT DM View Consulta SQLSeleção e pré-processamento Limpeza e transformação dos dados 226 atributos 1623 dimensões 49 atributos 1127 dimensões 25 atributos 391 dimensões Sistemas Correlação e PCA Análise da Qualidade dos Dados Seleção de registros de Ago e Set/2011 Cubo OLAP Padrões / Agrupamentos 12 atributos 260 dimensões Seleção de Atributos Mineração de Dados Geração Mapas SOM
  27. 27. 28 Grupos # Atributo Descrição do atributo Tipo atributo Dimensões geradas Valor Min/Máx Média Desv. Padrão Valores Nulos Atributo chave LOTLOTKEY Número do serial do produto C 0 0 (0%) Grupo 1 Atributos de Classificação do Produto 1 JOBPARTID Código do produto C 75 0 (0%) 2 X512MB_EQUIV Equivalência com produto de 512MB N 1 0 (0%) 3 APPLICATION Aplicação do produto (Desktop, Laptop, ...) C 4 0 (0%) 4 CAPACITY Capacidade C 4 0 (0%) 5 DENSITY Densidade C 3 0 (0%) 6 MONO_IC Mono IC C 5 0 (0%) 7 IC_REVISION Revisão do CI C 5 0 (0%) 8 MONO_ORG Organização do Mono C 5 0 (0%) 9 MONO_QTY Quantidade de CI C 6 0 (0%) 10 ORGANIZATION Organização do CI C 10 0 (0%) 11 PLATFORM Tipo de utilização C 3 0 (0%) 12 SUPPLIER Fornecedor C 5 0 (0%) 13 TYPE Tipo de produto C 5 0 (0%) Total 131 dimensões Grupo 1 de atributos Classificação do Produto
  28. 28. 29 Grupos # Atributo Descrição do atributo Tipo atributo Dimensões geradas no vetor de entrada Valor Min/Máx Média Desv. Padrão Valores Nulos Grupo 2 Atributos relacionados com à produção 14 NJOBQTY Quantidade produzida pela ordem de produção N 1 0,002 /1,000 0,561 0,267 0 (0%) 15 DIA_SEM Dia semana término da produção C 7 0 (0%) 16 TEMPO_PROD Tempo decorrido entre o início e o fim da produção N 1 0,000 /1,000 0,005 0,011 0 (0%) 17 ORDER_CLASS Classificação da Ordem C 4 0 (0%) 18 TIPO_CI Classificação do CI usado C 2 41.803 (5,00%) 19 REJECT Local do rejeito C 2 0 (0%) 20 XTASHIFT Turno de produção C 4 0 (0%) 21 XTAOPERATOR Operador que testou a peça C 80 0 (0%) 22 XTALINE Linha de produção C 4 41.803 (5,00%) 23 BOM Código da estrutura de produto usada C 146 0 (0%) 24 BOM_VERSION Versão da Estrutura de Produtos (BoM) C 7 0 (0%) 25 DEVOLVIDA Produto devolvido pelo cliente (Sim/Não) C 2 0 (0%) Total 260 dimensões Grupo 2 de atributos Atributos relacionados com à produção
  29. 29. 30 # Grupo de atributos Dimensões originais Componentes Principais Redução de dimensões 1 Grupo 1 131 74 -44% 2 Grupo 1 (com TEMPO_PROD, REJECT, DEVOLVIDA) 136 76 -44% 3 Grupo 2 260 240 -8% 4 Grupo 2 (sem XTAOPERATOR e BOM) 34 25 -26% 5 Grupo 1 + Grupo 2 391 240 -39% 6 Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM) 165 98 -41% Redução da dimensionalidade Análise de Componentes Principais (PCA)
  30. 30. 31 Figura 19 – Percentual da variação acumulada em função dos números de componentes principais. Redução da dimensionalidade % Variação Acumulada x Componentes Principais
  31. 31. 32 Processo DCBD
  32. 32. 33 Planejamento dos experimentos • Verificar o efeito da priorização e do uso de diferentes combinações de atributos na formação de agrupamentos • Aplicar heurísticas para definição do número de neurônios e verificar a sua influência nas medidas de qualidade de mapas SOM
  33. 33. 34 Nro. Exp. Grupo de Atributos Atributos Prioriz.? N de Neurônios Distorção Normalizada Erro de Quantização Médio Erro de Quantização Máximo Tempo de Proc. Resultado 1 Grupo 2 12 atributos/260 dimensões Não 2000 0,007681 0,003939 64 9h 39min - Mapa disperso - Erros altos 2 Grupo 2 12 atributos/260 dimensões Sim 2000 0,003811 0,002166 9 6h - Indicou agrupamento 3 Grupo 2 12 atributos/260 dimensões Não 4.565 0,006134 0,001742 63 12h 56min - Mapa disperso - Erros altos 4 Grupo 2 12 atributos/260 dimensões Sim 4.565 0,002631 0,001144 4,2 11h 58min - Indicou agrupamento com mais intensidade 5 Grupo 2 (sem XTAOPERATOR e BOM) 10 atributos/34 dimensões Não 4.565 0,01522 0,001806 1,3 1h 31min - Indicou agrupamento com mais intensidade - Erros mais baixos 6 Grupo 2 (sem XTAOPERATOR e BOM) 10 atributos/34 dimensões Não 2.000 0,02827 0,01011 33 35 min - Indicou agrupamento com mais intensidade - Erros altos 7 Grupo 1 (com TEMPO_PROD, REJECT e DEVOLVIDA) 13 atributos/136 dimensões Sim 4.565 0,01532 0,00008758 0,33 4h 56min - Nenhum relacionamento entre os atributos do Grupo 1 e os atributos DEVOLVIDA, REJECT e TEMPO_PROD. 8 Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM) 25 atributos/391 dimensões Sim 4.565 0,002354 0,0009642 30 26h 19min - Mapa disperso - Erros altos 9 Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM) 23 atributos/165 dimensões Sim 4.565 0,0219 0,003582 16 11h 14min - Indicou agrupamento com menor intensidade - Erros mais baixos Ferramenta Viscovery SOMine Resultados Mapa disperso Gerou agrupamento
  34. 34. 35 Nro. Exp. Formato do Mapa Nro. de Neurônios Erro de Distorção Erro de Quantização Erro Topográfico Tempo de Processamento 1 11 x 9 99 123.508 3.825 0,045 238s 2 26 x 19 494 106.533 3.132 0,089 541s 3 37 x 27 999 91.756 2.965 0,146 881s 4 53 x 38 2.014 83.517 2.908 0,115 1.591s 5 64 x 47 3.008 74.777 2.835 0,130 1.877s 6 79 x 58 4.582 71.211 2.837 0,112 4.171s 7 91 x 66 6.006 69.787 2.866 0,123 5.963s 8 104 x 77 8008 66.897 2.812 0,115 12.342s 9 116 x 86 9976 66.311 2.835 0,118 17.455s 10 143 x 105 15015 65.647 2.809 0,094 23.403s Ferramenta Matlab SOM Toolbox Resultados
  35. 35. 36 Figura 29 – Experimento 6: Agrupamentos mostram o relacionamento entre os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor igual a “CLASS_D”. Ferramenta Matlab SOM Toolbox Resultados
  36. 36. 37 Figura 31 - Evolução dos erros de Distorção, Quantização e Topográfico dos mapas gerados. Ferramenta Matlab SOM Toolbox Validação da Heurística: 5 x √ Nro. vetores de entrada Overfitting Underfitting Heurística: 5 x √837.285 = 4.575 neurônios Intervalos c/ pouca variação dos Erros
  37. 37. 38
  38. 38. 39 Interpretação e avaliação dos resultados Mapas Viscovery e Matlab: Resultados semelhantes DEVOLVIDA REJECT TEMPO_PROD CLASS_D Viscovery Matlab
  39. 39. 40 Este agrupamento sugere que produtos que sofreram algum retrabalho durante o processo produtivo e, devido a isso, levaram mais tempo para serem produzidos, são mais susceptíveis a apresentarem problemas técnicos e consequentemente serem devolvidos pelos clientes. TEMPO_PROD S2 S1 S3 0,00 0,15 REJECT: NOK S2 S1 S3 0,0 0,5 1,0 DEVOLVIDA: S S2 S1 S3 0,00 0,11 Interpretação e avaliação dos resultados Agrupamento interessante
  40. 40. 41 • Os melhores resultados foram gerados pelos Experimentos 5 e 6 (Grupo 2, sem os atributos XTAOPERATOR e BOM):  Grupo de atributos que necessita do menor número de Componentes Principais (PCAs) para representar 100% da sua variabilidade Interpretação e avaliação dos resultados
  41. 41. 42 • Os piores resultados foram gerados pelos Experimentos 1, 3 e 8 (Grupo 2, com os atributos XTAOPERATOR e BOM):  Grupo de atributos que necessita do maior número de Componentes Principais (PCAs) para representar 100% da sua variabilidade Interpretação e avaliação dos resultados
  42. 42. 44 CONSIDERAÇÕES FINAIS Conclusões , Contribuições e Pesquisas futuras Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  43. 43. 45 • Com relação à técnica de MD utilizada • Com relação às ferramentas utilizadas • Com relação à metodologia utilizada • Com relação aos resultados alcançados Considerações Finais Conclusões
  44. 44. 48 1) Canto, W. F. ; Souza, L. S. ; CANTO, N. C. F. . Mineração de Dados: uma aplicação para a indústria de semicondutores. In: 6ª Conferência Ibérica de Sistemas e Tecnologias de Informação, 2011, Chaves. Mineração de Dados: uma aplicação para a indústria de semicondutores, 2011. v. 1. p. 1-4. 2) CANTO, N. C. F. ; SASSI, R. J. ; Canto, W. F. . Aplicação de Mapas Auto- organizáveis para Mineração de Textos. In: 6ª Conferência Ibérica de Sistemas e Tecnologias de Informação, 2011, Chaves. Aplicação de Mapas Auto-organizáveis para Mineração de Textos, 2011. v. 1. Contribuições Artigos Publicados
  45. 45. 49 Considerações Finais Pesquisas futuras • Uso dos padrões gerados pela rede SOM para classificar automaticamente seriais • Aprofundar o estudo de técnicas de seleção de atributos • Estudo de ferramentas de ETL (Extract Transform Load) para automatizar o processo de extração Especificamente para a empresa alvo deste estudo: • Acumular conhecimento durante várias execuções do processo de DCBD para diferentes meses • Ampliar o nível de análise adicionando mais atributos no mapa e/ou realizando novas combinações
  46. 46. MINERAÇÃO DE DADOS UTILIZANDO MAPAS AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A INDÚSTRIA DE SEMICONDUTORES INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE COMPUTAÇÃO – MOD. ENG. DE SOFTWARE Defesa de Dissertação 1º Semestre 2012 Mestrando Wagner Furtado Canto Orientador Prof. Dr. Luiz Sérgio de Souza
  47. 47. 51 Diagrama de Classes da Base de dados selecionada ERP - Sistema Integrado de Gestão SAT - Sistema de Assistência Técnica SCP - Sistema de Controle de Produção Origem dos dados
  48. 48. 52 Tabela Sistema Nro. de registros Nro. de atributos Descrição SGBD TblJob SCP 7.574 29 Cabeçalho ordem produção MS SQL Server 2000 TblLot SCP 6.360.853 29 Item ordem de produção (detalhes da produção) MS SQL Server 2000 TblTransaction SCP 26.782.195 25 Detalhe item ordem de produção MS SQL Server 2000 TblRejectDetail SCP 153.162 6 Dados sobre rejeitos MS SQL Server 2000 Tbl_PPB ERP 17.263 11 Tipo de componente consumido pela ordem Oracle 9.0i ZBR_TRMA ERP 35.060 4 Dados da devolução de vendas Oracle 9.0i wMat_Clas ERP 699 17 Classificação dos Materiais Oracle 9.0i AUFM ERP 354.998 41 Materiais consumidos pela ordem de produção Oracle 9.0i t_RMAItem_A SAT 113.859 65 Dados de assistência técnica MS-Access 97 Total 33.825.663 227
  49. 49. 53 Mapa Auto-organizável Self-organizing Map (SOM) • Algoritmo criado pelo pesquisador Finlandês Dr. Teuvo Kohonen em 1982 • Tipo de rede neural artificial • Reduz a dimensionalidade dos dados • Utiliza aprendizado competitivo e não supervisionado • Permite visualização dos resultados obtidos • Pode ser usado na análise de agrupamento de dados • Há dificuldades para definição dos parâmetros que regulam o comportamento da rede (quantidade de neurônios de saída, taxa de aprendizado e outros)
  50. 50. 54 Arquitetura da Rede SOM
  51. 51. 55 Algoritmo SOM Atualização do neurônio vencedor (BMU) e seus vizinhos Neurônio vencedor BMU = Best Matching Unit
  52. 52. 56 y x m1 m2 m3 m4 m5 m6 v1 Função de vizinhançaTaxa de aprendizado Neurônio vencedor Algoritmo SOM
  53. 53. 57 Diferentes arranjos de neurônios para o SOM
  54. 54. 58 Redução da Dimensionalidade P ≤ D
  55. 55. 59 Matriz-U em um arranjo retangular (A) e hexagonal (B)
  56. 56. 60
  57. 57. 61 Processo de DCBD (Fayyad, 1996)
  58. 58. 62 Processo CRISP-DM (CHAPMAN, CLINTON et al., 2000)
  59. 59. 63 Processo SEMMA (SAS, 2012)
  60. 60. 64 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 1 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 2.000 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Todos os atributos do Grupo 2 com prioridade igual a 1, exceto atributo DEVOLVIDA que recebeu a prioridade 0 Experimentos 1
  61. 61. 65 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 2 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 2.000 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,20 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,20 XTASHIFT: 1,00 XTAOPERATOR: 0,70 XTALINE: 1,00 BOM: 0,70 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 2
  62. 62. 66 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 3 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Todos os atributos do Grupo 2 com prioridade igual a 1, exceto atributo DEVOLVIDA que recebeu a prioridade 0 Experimento 3
  63. 63. 67 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 4 Total: 836.564 Devolvidos: 2.456 12 atributos 260 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,20 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,20 XTASHIFT: 1,00 XTAOPERATOR: 0,70 XTALINE: 1,00 BOM: 0,70 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 4
  64. 64. 68 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 5 Total: 836.564 Devolvidos: 2.456 10 atributos 34 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 (sem XTAOPERATOR e BOM) NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,00 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,00 XTASHIFT: 1,00 XTALINE: 1,00 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 5
  65. 65. 69 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 6 Total: 836.564 Devolvidos: 2.456 10 atributos 34 dimensões - Nro. de Neurônios: 2.000 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 2 (sem XTAOPERATOR e BOM) NJOBQTY: 1,00 DIA_SEM: 1,00 TEMPO_PROD: 1,00 ORDER_CLASS: 1,00 TIPO_CI: 1,00 REJECT: 1,00 XTASHIFT: 1,00 XTALINE: 1,00 BOM_VERSION: 1,00 DEVOLVIDA: 0 Experimento 6
  66. 66. 70 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 7 Total: 836.564 Devolvidos: 2.456 13 atributos 136 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 1 (com TEMPO_PROD, REJECT e DEVOLVIDA) JOBPARTID: 0,7 X512MB_EQUIV: 1 APPLICATION: 1 CAPACITY: 1 DENSITY: 1 MONO_IC: 1 IC_REVISION: 1 MONO_OR: 1 MONO_QTY: 1 ORGANIZATION: 1 PLATFORM: 1 SUPPLIER: 1 TYPE: 1 TEMPO_PROD: 1,2 REJECT: 1,2 DEVOLVIDA: 0 Experimento 7
  67. 67. 71 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 8 Total: 836.564 Devolvidos: 2.456 25 atributos 391 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM) NJOBQTY: 1 DIA_SEM: 1 TEMPO_PROD: 1 JOBPARTID: 0,7 X512MB_EQUIV: 1 APPLICATION: 1 CAPACITY: 1 DENSITY: 1 MONO_IC: 1 IC_REVISION: 1 MONO_ORG: 1 MONO_QTY: 1 ORGANIZATION: 1 PLATFORM: 1 SUPPLIER: 1 TYPE: 1 ORDER_CLASS: 1 TIPO_CI: 1 REJECT: 1 XTASHIFT: 1 XTAOPERATOR: 0,7 XTALINE: 1 BOM: 0,7 BOM_VERSION: 1 DEVOLVIDA: 0 Experimento 8
  68. 68. 72 Nro. do Experimento Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade 9 Total: 836.564 Devolvidos: 2.456 23 atributos 165 dimensões - Nro. de Neurônios: 4.565 - Plano de treinamento: Normal - Tensão: 0,5 - Compensação da correlação: ligado Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM) NJOBQTY: 1 DIA_SEM: 1 TEMPO_PROD: 1 JOBPARTID: 0,7 X512MB_EQUIV: 1 APPLICATION: 1 CAPACITY: 1 DENSITY: 1 MONO_IC: 1 IC_REVISION: 1 MONO_ORG: 1 MONO_QTY: 1 ORGANIZATION: 1 PLATFORM: 1 SUPPLIER: 1 TYPE: 1 ORDER_CLASS: 1 TIPO_CI: 1 REJECT: 1 XTASHIFT: 1 XTALINE: 1 BOM_VERSION: 1 DEVOLVIDA: 0 Experimento 9
  69. 69. 73 Figura 23 - Experimentos 1 (a) e 3 (b): não apresentam agrupamentos relevantes. Experimentos 1 e 3
  70. 70. 74 Cubo OLAP (On-line Analytical Processing)
  71. 71. 75 TEMPO_PROD S2 S1 S3 0,00 0,15 REJECT: NOK S2 S1 S3 0,0 0,5 1,0 DEVOLVIDA: S S2 S1 S3 0,00 0,11 S2 S1 S3 Figura 24 - Experimento 5: apresenta agrupamentos bem definidos. Figura 25 – Experimento 5: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos. Experimento 5
  72. 72. 76 TEMPO_PROD 0,00 0,03 0,07 0,10 0,13 0,16 REJECT: NOK 0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0 DEVOLVIDA: S 0,00 0,03 0,05 0,08 0,11 0,13 Quantization Error 0 0 0 0 0 0 0 0 30 Figura 27 – Experimento 8: não apresenta agrupamentos relevantes. Experimento 8
  73. 73. 77 TEMPO_PROD 0,00 0,02 0,05 0,07 0,09 0,12 REJECT: NOK 0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0 DEVOLVIDA: S 0,00 0,03 0,05 0,08 0,10 0,13 Quantization Error 0 0 0 0 0 0 0 0 16 Figura 28 – Experimento 9: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos, resultado semelhante ao experimento 5. Experimento 9
  74. 74. 78 Revisão Bibliográfica Visão Geral das Teorias de Suporte Processo DCBD AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A parallel overview. IADIS European Conference Data Mining 2008, p. 182-185, 2008. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. Advances in Knowledge Discovery and Data Mining, Cambridge, p. p. 1-36, 1996. Aplicações de MD na Indústria LAINE, S. Using visualization, variable selection and feature extraction to learn from industrial data. 2003. Tese de Doutorado Departamento de Ciência da Computação e Engenharia, Helsinki University of Technology, Espoo. DOMINGUES, M. L. C. S. Mineração de Dados Utilizando Aprendizado Não- Supervisionado: um estudo de caso para bancos da saúde 2003. Mestrado em Ciência da Computação Instituto de Informática, Universidade Federal do Rio Grande do Sul GIUDICI, P.; FIGINI, S. Applied Data Mining for Business and Industry. 2 a . Wiley- Interscience, 2009. LUFTMAN, J.; BEN-ZVI, T. Key Issues for IT Executives 2011: Cautions Optimism in Uncertain Economic Times. MIS Quartely Executive - Universidade of Minnesota, v. 10, n. 4, p. 203-213, 2011. SIMULA, O.; VESANTO, J. The Self-Organzing Map in Industry Analysis. Industrial Applications of Neural Networks, n. 1, p. 89-112, 1998. Preparação de Dados PYLE, D. Data Preparation for Data Mining. 1st edition. Academic Press, 1999. p. 349 REFAAT, M. Data Preparation for Data Mining Using SAS. Elsevier, 2007.
  75. 75. 79 Revisão Bibliográfica Visão Geral das Teorias de Suporte Mineração e Agrupamento de Dados LAINE, S. Selecting the variables that train a self-organizing map (SOM) which best separates predefined clusters Proceedings ofthe 9th International Conference on Neural Information Processing (ICONIP'02), v. 4, p. 1961-1965, 2002b. LAINE, S. Finding the variables of interest. Minerals Engineering, n. 15, p. 167–176, 2002a. NISBET, R.; ELDER, J.; MINER, G. Handbook of Statistical Analysis and Data Mining Applications. Elsevier, 2009. TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining - Mineração de Dados. 2009. p. 1-15 Qualidade de Dados OLSON, J. O. Data Quality: The Accuracy Dimension. Elsevier, 2003. Mapas SOM PÖLZLBAUER, G. Advanced data exploration methods based on Self-Organizing Maps. 2008. Tese de Doutorado Information and Software Engineering Group, Vienna University of Technology KOHONEN, T. Self-organizing maps. 3rd edition. Springer, 2001. KASKI, S. Data Exploration using Self-Organizing Maps. 1997. Tese de Doutorado Departamento de Ciência da Computação e Engenharia, Helsinki University of Technology ZUCHINI, M. H. Aplicações de Mapas Auto-organizáveis em Mineração de Dados e Recuperação de Informação. 2003. Mestrado em Eng. Elétrica Faculdade de Eng. Elétrica e de Computação, Universidade Estadual de Campinas
  76. 76. 80 Revisão Bibliográfica Visão Geral das Teorias de Suporte Ferramentas Geração Mapas SOM DEMUTH, H.; BEALE, M.; HAGAN, M. Matlab - Neural Network Toolbox 6: The Mathworks 2009. MOEHRMANN, J. et al. A Discussion on Visual Interactive Data Exploration Using Self-Organizing Maps. WSOM 2011, p. 178-187, 2011. VISCOVERY. Viscovery SOMine web page. 2010. Disponível em: < http://www.viscovery.net/somine/ >. Acesso em: 13-Dez-2011. Banco de Dados CHEN, P. Modelagem de Dados. 1990. SETZER, V. W. Banco de Dados: Conceitos, Modelos, Gerenciadores, Projeto Lógico, Projeto Físico. Edgard Blücher, 1987. Estatística: Correlação e PCA AILON, N.; CHAZELLE, B. Faster Dimension Reduction. Communications of the ACM, v. 53, n. 2, p. 97, 2010. HILL, T.; LEWICKI, P. STATISTICS: Methods and Applications. StatSoft. 2007. Medidas de Qualidade de Mapas SOM PÖLZLBAUER, G. Survey and comparison of quality measures for self-organizing maps. Proceedings of the Fifth Workshop on Data Analysis (WDA'04), 2004. Elfa Academic Press. p.67-82.
  77. 77. 81
  78. 78. 82 Sub-processos DCBD CRISP-DM SEMMA 1) Compreender o domínio da aplicação e identificar o objetivo do processo DCBD. Pré DCBD Entendimento do negócio - 2) Selecionar, organizar e preparar dados Seleção de dados Entendimento dos Dados Amostragem 3) Executar análise exploratória e transformação dos dados Pré-processamento Explorar os dados Transformação Preparação dos dados Modificação dos dados 4) Especificar métodos estatísticos Mineração de Dados Modelagem Modelagem 5) Executar algoritmos de mineração de dados e colher os resultados 6) Avaliar e comparar os métodos usados e escolher o método final de análise 7) Interpretar o método escolhido e o seu uso no processo de decisão Interpretação/Avaliação Avaliação Avaliação Pós DCBD Implantação - Comparação entre os processos DCBD, CRISP-DM e SEMMA
  79. 79. 83 Item de comparação Matlab SOM Toolbox + SOMVIS Viscovery SOMine Finalidade – Uso acadêmico – Código aberto – Uso profissional – Ferramenta proprietária Algoritmo – Em lote (batch) – Sequencial e SOM_PAK – SOM Ward Medidas de qualidade SOM – Erro de Quantização – Erro de Distorção – Erro Topográfico – Outras medidas podem ser programadas – Erro de quantização – Erro de Distorção normalizado Pré-processamento de dados – Normalização de dados numéricos – Normalização e limpeza – Histogramas – Estatística (PCA, correlação de Pearson) Parâmetros de geração de Mapas – Algoritmo de treinamento, tamanho e topologia do mapa – Algoritmo de treinamento, tamanho e topologia do mapa – Número de épocas de treinamento (Training Schedulle) Análise dos Mapas – Gera mapas estáticos – Relatórios podem ser desenvolvidos usando a linguagem de programação do Matlab. – Rótulos em Agrupamentos – Visualização dos dados de agrupamentos – Permite a seleção de agrupamentos e análise dos vetores que atingiram cada agrupamento e/ou segmentação Características especiais – Não possui – Priorização de atributos – Ajuste da tensão do mapa
  80. 80. 84 Ferramenta Prós Contras Viscovery SOMine  Interação com os mapas gerados  Visualização dos vetores que atingiram cada neurônio  Performance em altos volumes Matlab SOM Toolbox + SOMVIS  Múltiplas visualizações dos dados  Flexibilidade de adaptação: Ambiente Matlab de programação  Ferramenta didática, própria para o ensino de redes SOM  Performance em altos volumes  Não permite priorização de atributos  Formato do arquivo de entrada
  81. 81. 85
  82. 82. 86 Fase 1 Fase 2 Fase 3 Fase n Matérias-Primas Fases produtivas Produto Acabado Obs.: existem 3 linhas produtivas Estrutura do Produto placa de circuito impresso solda CI (circuito integrado) componentes (resistores, capacidores) CI (circuito integrado) - CI pode ser produzido internamente ou importado. - Os outros componentes são comprados. Processo de Produção de Módulos de Memória
  83. 83. 87 Figura 30 – Experimento 6: Agrupamentos mostram o relacionamento entre os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor igual a “CLASS_D”.
  84. 84. 88 Figura 32 – (a) Projeção PCA dos primeiros 2 componentes principais; (b) Gráfico da variação acumulada da PCA pelo número de dimensões Figura 33 - (a) Agrupamento PCA destacado na grade de neurônios; (b) Plano de componentes principais ordenado pelo valor absoluto da correlação linear. A área demarcada mostra os atributos CLASS_D, DEVOLVIDA, REJECT e TEMPO_PROD.
  85. 85. 89 Arquivo de entrada na ferramenta Matlab
  86. 86. 90 Redução da dimensionalidade Análise de Componentes Principais (PCA)
  87. 87. 91 Medidas de Qualidade SOM • Erro de Quantização (QE): Resolução do mapa, decresce conforme cresce o tamanho do mapa, medida de quão bem os vetores de conjunto de dados de origem atingem um neurônio específico. Em um mapa bem treinado, os erros de quantização são pequenos e distribuídos pelo mapa. • Erro Topográfico (TE): Topologia dos dados de entrada, qualidade da projeção, pode ser usado para aperfeiçoar o tamanho do mapa. • Erro de Distorção (DE): Medida de qualidade geral do mapa.

×