Análise Discriminante: Avaliação do Desempenho da Taxa de Erro Utilizando uma
Nova Proposta a Partir do Método de Peter A....
demais, já que, nunca foi avaliado um método que contabilizasse os custos de classificações
incorretas e as probabilidades...
Neste método utilizam-se as amostras aleatórias de ambas as populações 1π e 2π que
inicialmente assumem-se como normais mu...
amostrada, então, pode-se determinar se ela foi classificada correta ou incorretamente.
Fazendo isso para cada observação,...
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
1. 2.
* *
1 1
(1.2.5.2)
2 2p p
y y
TEA
S...
Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey
Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey
Próximos SlideShares
Carregando em…5
×

Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey

192 visualizações

Publicada em

Material de apoio - desenvolvido por terceiros - ao curso de Ciências Atuariais

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
192
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey

  1. 1. Análise Discriminante: Avaliação do Desempenho da Taxa de Erro Utilizando uma Nova Proposta a Partir do Método de Peter A. Lachenbruch e M. Ray Michey Altemir da Silva Braga1 ; Daniel F. Ferreira2 ; Patrícia de Siqueira Ramos3 1. INTRODUÇÃO A análise de discriminante é uma técnica da análise estatística multivariada e a sua idéia consiste em classificar um indivíduo ou um grupo de indivíduos com várias características em diferentes populações conhecidas ou não. Existem vários métodos usados para estimar a probabilidade de classificação incorreta de uma observação amostral, dentre eles destacam-se: método da re-substituição, método da re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas, método dois de Lachenbruch e Mickey (1968), conforme Ferreira (2008). Neste estudo estaremos avaliando o desempenho destes métodos, para duas populações normais com variâncias comuns, pelas taxas de erros. Para Lachenbruch e Mickey (1968) os métodos da re-substituição, método da re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas possuem piores desempenhos que os demais, Giri (2004). A problemática deste estudo está no livro Giri (2004), onde ele sugere que no método de Lachenbruch e Mickey (1968), seja considerada uma variância combinada nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, visto que, essa suposição é feita para as populações. Outro aspecto que será levado em conta é o custo por cada classificação incorreta e as probabilidades a priori de cada população diferentes. Assim o nosso objetivo é avaliar este método, substituindo na função que estima a probabilidade de classificação incorreta e na função que estima a taxa de erro aparente o desvio padrão amostral por um estimador comum e acrescentar na equação discriminante uma função - Ψ ( 0Ψ ≠ ) que contemple a probabilidade a priori de se classificar em uma de duas populações normais e os custos por cada classificação incorreta. E através de simulações Monte Carlo será verificado se o método com as modificações é mais eficiente do que os 1 Mestrando do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA. 2. Professor do Departamento de Ciências Exatas da Universidade Federal de Lavras. 3. Doutoranda do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA 2 3
  2. 2. demais, já que, nunca foi avaliado um método que contabilizasse os custos de classificações incorretas e as probabilidades a priori diferentes. 1.1. Classificação em Uma de Duas Populações Normais Supondo que x seja uma realização de uma variável p-dimensional X com distribuição normal multivariada, a qual se quer classificar em uma duas populações 1( )f x e 2 ( )f x , sendo: { } 1 122 1 ( ) (2 ) exp ( ) ( ) (2.1.1) 2 p T i i if x x xπ µ µ − − − = ∑ − − ∑ − Para 1,2i = , em que iµ é o vetor de médias da i=ésima população e Σ é a matriz de covariâncias positiva definida comum às duas populações. De acordo com a regra do mínimo de ECI deve-se classificar x em 1π se 1 2 2 1 ( ) (1| 2) (2.1.2) ( ) (2 |1) f x PC f x C P    ≥  ÷     e em 2π caso contrário. Assim classifica-se x em 1π se: 1 1 2 1 2 1 2 1 2 1 1 (1| 2) ( ) ( ) ( ) ln (2.1.3) 2 (2 |1) T PC x C P µ µ µ µ µ µ− −      − ∑ − − ∑ + ≥   ÷       e em 2π , caso contrário. Como em situações reais os parâmetros populacionais são desconhecidos Wald (1944) sugeriu substituir os parâmetros desconhecidos pelos seus estimadores. Assim, a regra de discriminação estimada pode ser obtida substituindo iµ , ∑ , iX e pS , na equação (2.1.3) . Então, deve-se alocar x na população 1π se: 1 1 2 1 2 1 2 1 2 1 1 (1| 2) ( ) ( ) ( ) ln (2.1.4) 2 (2 |1) T T p p PC X X S x X X S X X C P − −      − − − + ≥   ÷       e na população 2π , caso contrário. Se os custos e as probabilidades a priori forem idênticos nas duas populações, a expressão pode ser simplificada. Neste caso, aloca-se x na população 1π , segundo Johnson e Wichern (1992), se: 1 1 1 2 1 2 1 2 1 ( ) ( ) ( ) (2.1.5) 2 T T p pX X S x X X S X X− − − ≥ − + 1.2. Métodos para Estimar a Probabilidade Total de Classificação Incorreta e a Taxa de Erro Aparente (TEA) Serão comparados cinco métodos para estimar as taxas de erro aparente e as probabilidades de classificação incorreta. 1.2.1. Método da Re-substituição
  3. 3. Neste método utilizam-se as amostras aleatórias de ambas as populações 1π e 2π que inicialmente assumem-se como normais multivariadas, ou seja, 111 12 1, ,..., nX X X observações p-variadas amostras da população 1π e 221 22 1, ,..., nX X X observações p-variadas amostras da população 2π , com 1 2 2n n p+ − ≥ e estima-se os parâmetros e a função discriminante. Cada observação das amostras de ambas as populações é classificada em uma das populações de acordo com a regra de classificação estimada, segundo Ferreira (2008). Assim, o estimador da probabilidade total de classificação incorreta, denominada de taxa de erro aparente (TEA), é dado por: 12 21 12 21 1 2 (1.2.1.1) n n n n TEA n n n + + = = + Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por: 12 1 ˆ(2 |1) n P n = e 21 2 ˆ(1| 2) (1.2.1.2) n P n = 1.2.2. Método da Re-substituição com Divisão Amostral Para Ferreira (2008), neste método a idéia é dividir a amostra em duas partes. A primeira é denominada de amostra de treinamento, sendo utilizada para poder estimar a função discriminante e especificar a regra estimada de classificação. A outra parte é denominada de amostra de validação. Nesta amostra as observações são classificadas de acordo com a regra estimada na amostra de treinamento e as taxas de erro de classificação são estimadas. Assim, o estimador da probabilidade total de classificação incorreta, é dado por: 12 21 12 21 1 2 (1.2.2.1) n n n n TEA n n n + + = = + Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por: 12 1 ˆ(2 |1) n P n = e 21 2 ˆ(1| 2) (1.2.2.2) n P n = 1.2.3. Método Pseudo-jackknife Esse método é devido a Lachenbrusch e Mickey (1968) e é muito similar às técnicas Jackknife utilizadas na estatística, sendo considerado também um tipo de validação cruzada, o que supera a principal dificuldade do método anterior. A idéia é omitir uma observação por vez das 1 2n n+ originais na amostra de treinamento e estimar as regras de classificação utilizando as 1 2 1n n+ − observações remanescentes. A observação omitida é classificada em uma das populações. Como se sabe de qual população esta observação originariamente foi
  4. 4. amostrada, então, pode-se determinar se ela foi classificada correta ou incorretamente. Fazendo isso para cada observação, ijx , podem-se determinar quantas originadas da população 1π foram classificadas de forma incorreta em 2π e quantas de 2π foram classificadas incorretamente em 1π . Assim, o estimador da probabilidade total de classificação incorreta, é dado por: (1.2.3.1) 2 TEA φ  ∆ = − ÷   % E as probabilidades (2 |1)P e (1| 2)P são estimadas por: ˆ ˆ(2 |1) (1| 2) (1.2.3.2) 2 P P φ  ∆ = = − ÷   % 1.2.4. Método Dois de Lachenbruch e Mickey (1968) Lachenbruch e Mickey (1968) propuseram um segundo método, baseado em um procedimento que combina a técnica jackknife e o método das probabilidades de classificações incorretas estimadas, apresentados anteriormente. Deve-se, para aplicar este método, omitindo das 1 2n n+ observações a realização ijx da i-ésima população referente a j- ésima unidade amostral, sendo i1,2 e j=1,...,ni = . Devem-se estimar as médias das amostras das populações 1 e 2 e a matriz de covariância comum, excluindo esta observação ijx . Assim, Lachenbruch e Mickey (1968) propuseram o estimador da probabilidade total de classificação incorreta, que é dado por: 1. 2. 1 2 1 1 (1.2.4.1) 2 2 y y TEA S S φ φ     = − + − ÷  ÷     E as probabilidades (2 |1)P e (1| 2)P são estimadas por: 1. 1 ˆ(2 |1) y P S φ   = − ÷   e 2. 2 ˆ(1| 2) (1.2.4.2) y P S φ   = − ÷   1.2.5. Método de Lachenbruch e Mickey Modificado Segundo Giri (2004), vale a pena investigar por intermédio de simulação Monte Carlo o desempenho do método anterior, onde seja considerada um estimador comum para 1 2e SS nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, contemplando custos e probabilidades a priori potencialmente diferentes, que é dado por: 2 2 1 1 2 2 1 2 (n 1) ( 1)S = (1.2.5.1) n 2 p S n S n − + − + −
  5. 5. Assim, o estimador da probabilidade total de classificação incorreta, é dado por: 1. 2. * * 1 1 (1.2.5.2) 2 2p p y y TEA S S φ φ     = − + − ÷  ÷ ÷  ÷     E as probabilidades (2 |1)P e (1| 2)P são estimadas por: 1. * ˆ(2 |1) p y P S φ   = − ÷ ÷   e 2. * ˆ(1| 2) (1.2.5.3) p y P S φ   = − ÷ ÷   2. MATERIAL E MÉTODO 2.1. Simulações Serão geradas amostras de duas populações normais multivariadas homocedásticas. A média da população 1 será fixada como 1 0µ = e o parâmetro 2µ será fixado em função da distância entre as médias populacionais dada por 2 1 1 2 1 2( ) ( )T µ µ µ µ− ∆ = − Σ − , que serão consideradas iguais a 0, 1, 2, 4, 8, 16 e 32. Os tamanhos amostrais da população 1 e 2 serão 10, 20, 50, 100in = sendo i=1,2 combinados fatorialmente. Em cada uma das simulações será estimada as taxas de erro aparente e as taxas de classificação incorreta, utilizando os cinco métodos. Como os vetores de médias µ dessas populações são conhecidos, é possível determinar a probabilidade exata de classificação incorreta para cada função discriminante amostral. Assim, pode-se comparar o desempenho dos métodos de estimação utilizando os dados gerados pelas simulações. Serão utilizadas N = 2000 simulações Monte Carlo. 3. RESULTADOS E DISCUSSÃO Este trabalho está em desenvolvimento e os resultados estão sendo processados e os programas para simulações estão sendo implementados no software R. 4. CONCLUSÕES O novo método de classificação incorreta para duas populações normais foi devidamente formulado e especificado. A validação deste novo método deverá ser realizada por meio de simulação Monte Carlo. 5. REFERÊNCIAS BIBLIOGRÁFICAS FERREIRA, D. F. Estatística Multivariada. 1º ed. Ufla, 2008. p. 554 - 583. GIRI, N. C. Multivariate statistical analysis. 2th.ed. New York: Marcel Dekker, 2004, p. 558. JOHNSON, R. A., WICHERN, D. W. Applied multivariate statistical analysis. 3th. ed. New Jersey: Prentice Hall, 1992. p. 503. LACHENBRUCH, P. A. ; MICKEY, M. R. Estimation of error rates in discriminant analysis. Technometrics, v. 10, n. 1, p. 1-11, 1968.

×