SlideShare uma empresa Scribd logo
1 de 297
Baixar para ler offline
ANÁLISE
MULTIVARIADA º··v----i
DE DAD S À
/
L,/
// /
/
.,,,,."'° /'
,//
/
/
/
CORTESIA DO EDITOR
SEM VALOR COMERCIAL
E-mail:bookman.artmed@terra.com.br•13t) 3213-7499
João Monteiro·Divulgação/Vendas -31 i9162-5709
E-mail:bookman monteiro@hotmail.com
BOOKMÂNCÕr~r1AllH!A EDITORA
OFERTA do EDITOR 
• sem valor comercial m _ _)
___.......-..------···
H153a Hair, Jr., J.F.
kmciftÇ/1<> Brasileira para
u Proteção do, Din,lto,
Edilorlnl'I o Auto,ai'I
RESPEITE O AUTOR
NAO FA<;i CôP!A
ki#&l!tffiliâi&iffi$
Análise multivariada de dados / J.F. Hair Jr., R.E. Anderson,
R.L. Tatham e W.C. Black; trad. Adonai Schlup Sant'Anna e Anselmo
Chaves Neto. - 5. ed. - Porto Alegre :Bookman, 2005.
1. Estatística multivariada. J. Anderson, R.E. II.Tatham, R.L.
lll. Black, W.C.
CDU 519.1/.258
Catalogação na publicação: Mônica Ballejo Canto-CRB 10/1023
ISBN 85-363-0482-0
JOSEPH F. HAIR, J
R.
Lousiana Sta/e University
RüLPH E. ANDERSbN
Drexel Universíty
RONALD L. TATHAM
Burke Marketing Research
WILLIAM C. BLACK
Lousiana Sta/e University
5a. edição
Tradução:
Acionai Schlup Sant'Anna
Anselmo Chaves Neto
Consultoria, supervisão e revisão técnica desta edição:
Maria Aparecida Gouvêa
Doutora em Administração, FEA/USP
Mestra em Estatística, IME/USP
Professora livre-docente do Departamento de Administração da FEA/USP
2005
CORTESIA DO EDITOR
SEM VALOR COMERCIAL
E-mail:bookman.artmed@terra.com.br •131) 3213-7499
João Monteiro.Divulgação/Vendas -131) 9162-5709
E-mail:bookman monte1ro@llotmail.com
,,---·-~---·---·--·-·•••·----··•-••·-·--•-"'--·•-sa•--·----,,
j1Rif"iif<f".,,u~1r i) r~,,.,.,ti,i<<''~ r, l'Jq 1't?. ,...,.~.,1,,_,.....~ ,=,,
~ti}htV
1
~··lJiJ L)JVf[,lJ~.l)t1l/.i t{J~ ~ t)HJ~
l i"1.....'t~~·",..•T i1 ~ ~.,... f, ~ · •
1
t.:,E= r: ~'fi. i t-~~ f..j e~ t "JtT{Jt1~
!. " S1ern valor comen::.ia/ ··
"""•'•"'•••-"'•' ,,µM,>,~,~-·-·-·~··-·-·--~--------...---···-··
Obra originalmente publicada sob o título
Multivariate Data Analysis, 5th Edition
Hair, Joseph F.; Tatham, Ronald L.; Anderson, Rolph E.; Black, William
© 1998, Frentice-Hall, Inc.
'Tradução autorizada a partir do original em língua inglesa, publicada por Pearson Education, Inc., sob o selo Frentice Hall.
ISBN 0-13-017706-7
Capa: Mnrio Riilmelt
Preparação do original: Letícia Vasconcellos Abreu
Supervisão editorial: Denise Weber Nowaczyk
Editoração eletrônica: Laser House
Reservados todos os direitos de publicação em língua portuguesa à
ARTMED® EDIWRA S. A.
(BOOKMAN® COMPANHIA EDIWRA é uma divisão da ARTMED® EDIWRA S. A.)
Av. Jerônimo de Omelas, 670 - Santana
90040-340 - Porto Alegre - RS
Fones (51) 3027-7000 Fax (51) 3027-7070
É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer
formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na
Web e outros), sem permissão expressa da Editora.
SÃO.PAULO
Av. Angélica, 1.091 - Higienópolis
01227-100-São Paulo -SP
Fone: (11) 3667-1100 Fax: (11) 3667-1333
SAC 0800 703-3444
IMPRESSO NO BRASIL
PRINTED IN BRAZIL
Agradecimentos
M
uitos indivíduos nos ajudaram a completar a quinta edição deste texto. Barbara Ross,
doutoranda na Louisiana State University, contribuiu com inestimável auxílio em to-
das as fases da revisão. Stern Neill, também doutorando na Louisiana State Univer-
sity, ajudou na análise dos dados e na adição de novas técnicas estatísticas. Estamos em débito
com os seguintes revisores por sua valiosa colaboração para a quinta edição:
David Booth, Kent Sta/e University
Robert Bush, Memphis Sta/e Llniversity
Rabikar Chatterjee, University ofMichigan
Kerri Curtis, Golden Gale UniversiltJ
Muzaffar Shaikh, Florida Institute ofTechnology
Também gostaríamos de agradecer a ajuda das seguintes pessoas em edições anteriores do
livro: Bruce Alford, University of Evansville; David Andrus, Kansas State University; Alvin C.
Burns, Louisiana State University; Alan J. Bush, University of Memphis; Robert Bush, Univer-
sity of Memphis; Chaim Ehrrnan, University of Illinois at Chicago; Joel Evans, Hofstra Univer-
sity; Thomas L. Gillpatrick, Portland State University; Dipak Jain, Northwestern University;
John Lastovicka, University of Kansas; Maragret Liebman, La Salle University; Richard Nete-
meyer, Louisiana State University; Scott Roach, Northeast Louisiana University; Walter A.
Smith, Tulsa University; Ronald D. Taylor, Mississippi State University; and Jerry L. Wall, Nor-
theast Louisiana University.
J.F.H.
R.E.A.
R.L.T.
W.C.B.
Prefácio da quinta edição
..
americana
Q
uem imaginaria, na época em que a primeira edição de Multivariate Data Analysís foi
publicada há quase 20 anos, que o uso de estatística multivariada seria tão atraente co-
mo o é hoje. Durante esse período temos testemunhado uma grande mudança no am-
biente ae pesquisa tanto acadêmica quanto aplicada. Primeiro, a revolução do computador
pessoal ofereceu um poder de trabalho que era inimaginável poucos anos atrás. Nesse trajeto,
passamos de cartões perfurados para reconhecimento da voz, revolucionando o modo como
podemos interagir e usufruir do computador pessoal. Simultaneamente temos visto tremen-
dos avanços na disponibilidade e até mesmo facilidade de uso de programas estatísticos, va-
riando de pacotes computacionais completamente integrados, tais como SPSS e SAS, até os
programas especializados em técnicas, como redes neurais e análise conjunta. Hoje, o pesqui-
sador pode encontrar praticamente qualquer técnica concebível em formato de PC e a um pre-
ço razoável.
Na frente estatística, temos presenciado um desenvolvimento contínuo de novas técnicas,
como análise conjunta, modelagem via equação estrutural e redes neurais. Todos esse avanços
tecnológicos, contudo, têm sido acompanhados por uma crescente demanda por maior capa-
cidade analítica. A explosão de dados nos últimos anos não tem taxado apenas nossos recursos
para fisicamente lidar e analisar toda a informação disponível, mas também exigido uma rea-
valiação de nossa abordagem à análise de dados. Finalmente, a combinação da complexidade
dos tópicos abordados e do crescente papel da teoria em projetos de pesquisa está requerendo
técnicas mais rigorosas e sofisticadas para executar a necessária análise confirmatória.
Esses eventos têm contribuído para a aceitação das últimas quatro edições deste manuscri-
to e para a demanda desta quinta edição. Ao tratar dessa revisão, tentamos contemplar tanto
os pesquisadores acadêmicos quanto aplicados, com uma apresentação fortemente fundamen-
tada em técnicas estatísticas, focalizando em projetos, estimações e interpretação. Continua-
mente nos esforçamos em reduzir nossa dependência na notação e terminologia estatísticas e,
ao invés disso, identificamos os conceitos fundamentais que afetam nosso uso de tais técnicas
e os expressamos em termos simples: uma introdução orientada a aplicações em análise mul-
tivariada para aqueles que não são estatísticos. Prosseguimos com nosso compromisso de for-
necer uma firme compreensão dos princípios estatísticos e gerenciais subjacentes à análise
multivariada de modo a desenvolver uma "área de conforto" não apenas para as questões es-
tatísticas envolvidas mas também as práticas.
viii PREFÁCIO DA ÜUINTA EDIÇÃO AMERICANA
O que há de novo?
A mudança mais óbvia na quinta edição americana é a sua reorganização em quatro seções. Es-
sa organização caminha com o processo de pesquisa de maneira mais próxima, particularmen-
te ao se concentrar na preparação de dados e no desenvolvimento de escalas antes de se em-
pregar técnicas de dependência e interdependência. A Seção l, Preparação para uma Análise
Multivariada, centraliza na preparação de dados, tais como análise de dados perdidos e teste
de premissas estatísticas ao longo de redução de dados, com uma ênfase particular em desen-
volvimento de medida múltipla. A Seção 2, Técnicas de Dependência, contém discussões sobre
cinco técnicas de dependência multivariada: regressão múltipla, análise discriminante e re-
gressão logística, análise multivariada de variância, análise conjunta e correlação canônica. A
Seção 3, Técnicas de Interdependência, fornece uma coberh1ra de análise de agrupamentos e
escalonamento multidimensional e seus usos na abordagem da estrutura entre observações. A
seção final, Seção 4, Técnicas Avançadas e Emergentes, introduz a modelagem via equação es-
trutural junto com algumas áreas emergentes da análise multivariada, incluindo mineração e
armazenamento de dados, redes neurais e reamostragem.
Dois itens foram acrescentados na discussão de cada técnica multivariada. Primeiro, um
exemplo simples é dado no início de cada capítulo para ilustrar os princípios básicos e objeti-
vos e mostrar como um método em particular funcionaria em uma situação real. Segundo, ca-
da um dos exemplos detalhados usando o conjunto de dados HATCO é seguido de um resu-
mo gerencial que provê uma perspetctiva sobre a interpretação dos resultados e como eles po-
deriam ser empregados ao se lidar com a questão pesquisada. Esses dois acréscimos devem
oferecer um contexto melhor fundamentado para cada técnica.
O que foi expandido e atualizado
Cada capítulo foi revisado de modo a incorporar avanços na tecnologia e vários capítulos so-
freram uma mudança mais extensa. Com a inclusão do Capítulo 3, Análise Fatorial, na Seção 1-
foi dada ênfase no desenvolvimento de medida múltipla e na aplicação de escalas ou escores
fatoriais em outras aplicações. O Capítulo 5, Análise Discriminante Múltipla e Regressão Lo-
gística, agora apres~nta urna completa cobertura da análise de variáveis dependentes categó-
ricas incluindo ambas a análise discriminante e a regressão logística, e contém uma dicussão
espandida de outros modelos categóricos. O Capítulo 7, Análise Conjunta, conta com um exa-
me revisado de questões sobre projetos de pesquisa, o qual se concentra no desenvolvimento
dos estímulos conjuntos de uma maneira concisa e direta. Finalmente, o capítulo 11, Modela-
gem de Equações Estruturais, for atualizado para refletir as muitas mudanças nessa área nos
últimos anos. Três tópicos que são discutidos são modelos fatoriais de segunda ordem; técni-
cas alternativas de estimação tais como simulação ou bootstrap; e alguns dos problemas opera-
cionais mais comuns como dados perdidos ou a obtenção de urna matriz que não é definida
positiva durante a avaliação do modelo. Cada uma dessa mudanças, bem corno outras não
mencionadas, contribuirá no ganho de urna compreensão mais profunda dos aspectos estatís-
ticos e aplicativos por detrás dessas técnicas.
Olhando para o futuro
Fizemos mais dois acréscimos que acreditamos serem inovadores e que irão substancialmente
melhorar seu entendimento sobre análise multivariada. O primeiro é um capítulo novo - Téc-
nicas Emergentes em Análise Multivariada (Capíhllo 12) - focalizando sobre novos tópicos na
área da análise m1.lltivariada. À medida em que o ambiente de pesquisa evolue, pesquisadores
devem se adaptar às novas condições. O pesquisador de hoje encara um volume crescente de
informações e a necessidade por um método objetivo tanto de descoberta quanto de explica-
PREFÁCIO DA QUINTA EDIÇÃO AMERICANA ix
ção. Introduzimo~ os tó~i~os de arm~zenarnento '; mineração de dados para expor O pesquisa-
dor aos_:'eus objetivos_basicos e prmcipios envolvidos. Usando as perspectivas conseguidas na
discussao ?e mitras _tecrncas, contrastamos_ a natureza mais exploratória da mineração de da-
dos. Tarnbern discutimos sobre redes neurais, urna das técnicas fortemente associadas com mi-
neração de dados e empregada em muitas aplicações hoje em dia. Um terceiro tópico é rearnos-
tragern, também conhecido como bootstrap e jackknife. Disponível mas não amplamente utiliza-
do p_or _:11uitos a~o5., essa té~nica está ganhando maior aceitação corno urna alternativa para
avahaçao pararnetrica. As discussões oferecem um breve resumo dos tópicos e, em seguida,
uma ilustração empírica simples. Por exemplo, demonstramos a habilidade de redes neurais
para fazer uma análise discriminante e reamostragem de dados quando aplicada à regressão
múltipla.
O desenvolvimento final é a criação de um site http:/ /www.prenhall.com/hair voltado à
análise multivariada e intitulado Great Ideas in Teaching Multivariate Statistics. Essa página na
Internet (em inglês) funciona corno uma fonte para todos os interessados em análise multiva-
riada, oferecendo links para recursos em cada técnica, bem corno um fórum para identificar no-
vos assu:1tos ou métodos estatísticos. Desse modo podemos oferecer um retorno mais ágil pa-
ra P';sqmsadores do que simplesmente urna nova edição do livro. Também desejamos que o si-
te sep um banco de materiais sobre o ensino de estatística multivariada, oferecendo exercícios,
dados e idéias para projetos.
Prefácio
Capítulo 1 Introdução 23
O que é análise multivariada? 25
O impacto da revolução na informática 26
Definição de análise multivariada 26
Alguns conceitos básicos de análise multivariada 27
A variável estatística 27
Escalas de medida 27
Erro de medida e medida multivariada 28
Significância estatística versus poder estatístico 29
Tipos de técnicas multivariadas 32
Sumário
Análise de componentes principais e análise dos fatores comuns 32
RElwessão múltipla 32
Análise discriminante múltipla 32
Análise multivariada de variância e covariância 33
Análise conjunta 33
Correlação canônica 33
Análise de agrupamentos 33
Escalonamento multidimensional 34
Análise de correspondência 34
Modelos lineares de probabilidade 34
Modelagem de equações estruturais 34
Outras técnicas multivariadas emergentes 35
Uma classificação de técnicas multivariadas 35
Diretrizes para análises multivariadas e interpretação 38
Estabeleça significância prática, bem como significância estatística 39
O tamanho da amostra afeta todos os resultados 39
12 SUMÁRIO
Conheça seus dados 39
Esforce-se por modelos parcimoniosos 40
Examine seus erros 40
Valide seus resultados 40
Um tratamento estruturado para construir modelos multivariados 40
Estágio 1: definição do problema da pesquisa, dos objetivos e da técnica multivariada
a ser usada 41
Estágio 2: desenvolvimento do plano de análise 41
Estágio 3: avaliação das suposições inerentes à técnica multivariada 41
Estágio 4: estimação do modelo multivariado e avaliação do ajuste geral do modelo 41
Estágio 5: interpretação da(s) variável(eis) estatística(s) 42
Estágio 6: validação do modelo multivariado 42
Um fluxograma de decisão 42
Bases de dados 42
Base de dados primária 42
Outras bases de dados 44
Organização dos demais capítulos 44
Resumo - Questões - Referências 44
Seção 1
Preparação para uma análise multivariada 47
Capítulo 2 Examine seus dados 49
Introdução 52
Exame gráfico dos dados 52
A natureza da variável: examine a forma da distribuição 53
Examine a relação entre variáveis 53
Examine as diferenças de grupos 54
Perfis multivariados 55
Resumo 56
Dados perdidos 56
Um exemplo simples de uma análise de dados perdidos 58
Compreenda as razões que levam a dados perdidos 59
Examine os padrões de dados perdidos 60
Faça um diagnóstico da aleatoriedade do processo de dados perdidos 60
Tratamentos para lidar com dados perdidos 61
Uso de observações com dados completos somente 61
Desconsidere caso(s) e/ou variável(is) 61
Métodos de atribuição 61
Procedimentos baseados em modelos 63
Uma ilustração de diagnóstico de dados perdidos 64
Uma recapitulação da análise de valores perdidos 70
Resumo 71
Observações atípicas 71
Identificação de observações atipicas 72
Descrição e perfil de observações atípicas 72
Retenção ou eliminação de observações atípicas 73
Um exemplo de análise de observações atípicas 73
Teste das suposições da análise multivariada 76
Avaliação de variáveis individuais versus a variável estatística 76
Normalidade 76
Homoscedasticidade 78
Linearidade 79
Ausência de erros correlacionados 80
Transformações de dados 80
SUMÁRIO 13
Uma ilustração do teste das suposições inerentes à análise multivariada 82
Homoscedasticidade 85
Incorporação de dados não-métricos com variáveis dicotômicas 86
Resumo - Questões - Referências 87
Capítulo 3 Análise fatorial 89
O que é análise fatorial? 91
Um exemplo hipotético de análise fatorial 92
Processo de decisão em análise fatorial 94
Estágio 1: objetivos da análise fatorial 94
Estágio 2: planejamento de uma análise fatorial 96
Estágio 3: suposições na análise fatorial 98
Estágio 4: determinação de fatores e avaliação do ajuste geral 99
Estágio 5: interpretação dos fatores 103
Estágio 6: validação da análise fatorial 109
Estágio 7: usos adicionais dos resultados da análise fatorial 11 o
Exemplo 113
Estágio 1: objetivos da análise fatorial 113
Estágio 2: planejamento de uma análise fatorial 113
Estágio 3: suposições em análise fatorial 114
Análise fatorial de componentes: estágios 4 a 7 115
Análise de fatores comuns: estágios 4 e 5 122
Uma visão gerencial dos resultados 124
Resumo - Questões - Referências - Leituras complementares 124
Técnicas de dependência 129
Capítulo 4 Análise de regressão múltipla 131
O que é análise de regressão múltipla? 136
Um exemplo de regressão simples e múltipla 137
Estabelecimento de um ponto de referência: previsão sem uma variável independente 137
Previsão usando uma única variável independente - regressão simples 138
Previsão usando diversas variáveis independentes - regressão múltipla 142
Resumo 143
Um processo de decisão para a análise de regressão múltipla 143
Estágio 1: objetivos da regressão múltipla 144
Problemas de pesquisa apropriados à regressão múltipla 144
Especificação de uma relação estatística 146
Seleção de variáveis dependente e independentes 146
14 SUMARIO
Estágio 2: planejamento de pesquisa de uma análise de regressão múltipla 147
Tamanho da amostra 147
Previsores de efeitos fixos versus aleatórios 148
Criação de variáveis adicionais 149
Estágio 3: suposições em análise de regressão múltipla 153
Avaliação de variáveis individuais versus a variável estatística 153
Linearidade do fenômeno 153
Variância constante do termo de erro 154
Independência dos termos de erro 154
Normalidade da distribuição dos termos de erro 154
Resumo 155
Estágio 4: estimação do modelo de regressão e avaliação do ajuste geral do modelo 156
Tratamentos gerais para seleção de variáveis 156
Teste se a variável estatística de regressão satisfaz as suposições de regressão 159
Exame da significância estatística de nosso modelo 159
Identificação de observações influentes 162
Estágio 5: interpretação da variável estatística de regressão 164
Utilização dos coeficientes de regressão 164
Padronização dos coeficientes de regressão: coeficientes beta 164
Avaliação da multicolinearidade 165
Estágio 6: validação dos resultados 169
Amostras adicionais ou particionadas 169
Cálculo da estatística PRESS 169
Comparação de modelos de regressão 170
Previsão com o modelo 170
Ilustração de uma análise de regressão 170
Estágio 1: objetivos da regressão múltipla 170
Estágio 2: planejamento de pesquisa de uma análise de regressão múltipla 171
Estágio 3: suposições em análise de regressão múltipla 171
Estágio 4: estimação do modelo de regressão e avaliação do ajuste geral do modelo 171
Estágio 5: interpretação da variável estatística de regressão 179
Estágio 6: validação dos resultados 180
Avaliação de modelos de regressão alternativos 180
Uma visão gerencial dos resultados 183
Resumo - Questões - Referências - Leitura complementar 183
Apêndice 4A Diagnóstico avançado para análise de regressão múltipla 187
Avaliação da multicolinearidade 189
Um processo em duas partes 189
Uma ilustração da avaliação de multicolinearidade 189
Identificação de observações influentes 190
Passo 1: exame dos resíduos 190
Passo 2: identificação dos pontos de alavancagem a partir dos preditores 191
Passo 3: diagnóstico de caso único na identificação de observações influentes 192
Passo 4: seleção e acomodação de observações influentes 193
Exemplo a partir da base de dados HATCO 193
Visão geral 202
Resumo - Questões - Referências 203
Capítulo 5 Análise discriminante múltipla e regressão logística 205
O que são análise discriminante e regressão logística? 208
Analogia com regressão e MANOVA 21 O
Exemplo hipotético de análise discriminante 210
SUMÁRIO 15
Uma análise discriminante de dois grupos: compradores versus não-compradores 21 o
Uma representação geométrica da função discriminante de dois grupos 212
Um exemplo de análise discriminante de três grupos: intenções de troca 213
O processo de decisão para análise discriminante 217
Estágio 1: objetivos da análise discriminante 217
Estágio 2: projeto de pesquisa para análise discriminante 219
Seleção de variáveis dependente e independentes 219
Tamanho da amostra 219
Divisão da amostra 220
Estágio 3: suposições da análise discriminante 220
Estágio 4: estimação do modelo discriminante e avaliação do ajuste geral 221
Método computacional 221
Significância estatística 222
Avaliação do ajuste geral 222
Diagnóstico por casos 227
Resumo 228
Estágio 5: interpretação dos resultados 228
Pesos discriminantes 228
Cargas discriminantes 229
Valores F parciais 229
Interpretação de duas ou mais funções 229
Qual método interpretativo usar? 230
Estágio 6: validação dos resultados 230
Procedimentos de partição de amostra ou validação cruzada 230
Diferenças de perfis de grupos 231
Regressão logística: regressão com uma variável dependente binária 231
Representação da variável dependente binária 232
Estimação do modelo de regressão logística 232
Interpretação dos coeficientes 233
Um exemplo de dois grupos 235
Estágio 1: objetivos da análise discriminante 235
Estágio 2: projeto de pesquisa para análise discriminante 235
Estágio 3: suposições da análise discriminante 236
Estágio 4: estimação do modelo discriminante e avaliação do ajuste geral 236
Estágio 5: interpretação dos resultados 244
Estágio 6: validação dos resultados 245
Uma visão gerencial 246
16 SUMÁRIO
Um exemplo de três grupos 246
Estágio 1: objetivos da análise discriminante 246
Estágio 2: projeto de pesquisa para a análise discriminante 246
Estágio 3: suposições da análise discriminante 247
Estágio 4: estimação do modelo discriminante e avaliação do ajuste geral 247
Estágio 5: interpretação dos resultados da análise discriminante de três grupos 256
Estágio 6: validação dos resultados discriminantes 259
Uma visão gerencial 260
Um exemplo de regressão logística 260
Estágios 1, 2 e 3: objetivos da pesquisa, projeto de pesquisa e
suposições estatísticas 261
Estágio 4: estimação do modelo de .regressão logística e
avalicld,ão do ajuste geral 261
Estágio 5: interpretação dos resultados 265
Estágio 6: validação dos resultados 266
Uma visão gerencial 266
Resumo - Questões - Referências - Artigos complementares 266
Capítulo 6 Análise multivariada de variância 271
O que é análise multivariada de variância? 274
Procedimentos univariados para avaliar diferenças de grupos 274
Análise multivariada de variância 276
Diferenças entre MANOVA e análise discriminante 278
Uma ilustração hipotética de MANOVA 278
Quando devemos usar MANOVA? 279
Controle de taxa de erro experimental 279
Diferenças em uma combinação de variáveis dependentes 280
Um processo de decisão para MANOVA 280
Estágio 1: objetivos de MANOVA 281
Tipos de questões multivariadas apropriadas a MANOVA 281
Estágio 2: questões no projeto de pesquisa de MANOVA 282
Exigências no tamanho da amostra - geral e por grupo 282
Delineamentos fatoriais - dois ou mais tratamentos 283
Uso de covariáveis - ANCOVA e MANCOVA 284
Estágio 3: suposições de ANOVA e MANOVA 286
1ndependência 286
Igualdade de matrizes de variância-covariância 287
Normalidade 287
Linearidade e multicolinearidade entre as variáveis dependentes 287
Sensibilidade a observações atípicas 288
Estágio 4: estimação do modelo MANOVA e avaliação do ajuste geral 288
Critérios para teste de significância 289
Poder estatístico dos testes multivariados 289
Estágio 5: interpretação dos resultados MANOVA 291
Avaliação de covariáveis estatísticas 291
Avaliação da variável estatística dependente 291
Identificação de diferenças entre grupos individuais 292
Estágio 6: validação dos resultados 293
Resumo 294
Exemplo 1: diferença entre dois grupos independentes 294
Uma abordagem univariada: o teste t 294
Uma abordagem multivariada: T' de Hotelling 296
Exemplo 2: diferença entre k grupos independentes 300
Uma abordagem univariada: ANOVA de kgrupos 300
Uma abordagem multivariada: MANOVA com kgrupos 301
Exemplo 3: um delineamento fatorial para MANOVA com duas variáveis
independentes 306
Estágio 1: objetivos de MANOVA 306
Estágio 2: projeto de pesquisa de MANOVA 307
Estágio 3: suposições em MANOVA 307
Estágio 4: estimação do modelo MANOVA e avaliação do ajuste geral 307
Estágio 5: interpretação dos resultados 31 O
Uma visão geral gerencial dos resultados 311
Resumo - Questões - Referências - Artigos complementares 314
Capítulo 7 Análise conjunta 319
O que é análise conjunta? 323
Um exemplo hipotético de análise conjunta 323
Um exemplo empírico 324
Os usos gerenciais da análise conjunta 327
Comparação entre a análise conjunta e outros métodos multivariados 328
Técnicas de composição versus decomposição 328
Especificação da variável estatística conjunta 328
Modelos separados para cada indivíduo 328
Tipos de relações 328
Planejamento de um experimento de análise conjunta 329
Estágio 1: os objetivos da análise conjunta 329
Definição da utilidade total do objeto 329
Especificação dos fatores determinantes 330
Estágio 2: o projeto de uma análise conjunta 332
Seleção de uma metodologia de análise conjunta 332
Planejamento de estímulos: seleção e definição de fatores e níveis 332
Especificação da forma do modelo básico 335
Coleta de dados 337
Estágio 3: suposições da análise conjunta 342
Estágio 4: estimação do modelo conjunto e avaliação do ajuste geral 342
Seleção de uma técnica de estimação 342
Avaliação da qualidade do ajuste do modelo 344
Estágio 5: interpretação dos resultados 344
Análise agregada versus desagregada 344
Avaliação da importância relativa de atributos 344
SUMÁRIO 17
18 SUMÁRIO
Estágio 6: validação dos resultados conjuntos 345
Aplicações gerenciais de análise conjunta 345
Segmentação 345
Análise de lucratividade 345
Simuladores conjuntos 345
Metodologias conjuntas alternativas 346
Análise conjunta adaptativa: conjunta com um grande número de fatores 346
Visão geral das três metodologias conjuntas 350
Uma ilustração de análise conjunta 350
Estágio 1: objetivos da análise conjunta 351
Estágio 2: projeto da análise conjunta 351
Estágio 3: suposições na análise conjunta 352
Estágio 4: estimação do modelo conjunto e avaliação do ajuste geral do modelo 352
Estágio 5: interpretação dos resultados 354
Estágio 6: validação dos resultados 355
Uma aplicação gerencial: uso de um simulador de escolha 355
Resumo - Questões - Referências - Artigos complementares 356
Capítulo 8 Análise de correlação canônica 361
O que é correlação canônica? 362
Exemplo hipotético de correlação canônica 362
Análise das relações com correlação canônica 363
Estágio 1: objetivos da análise de correlação canônica 364
Estágio 2: planejamento de uma análise de correlação canônica 365
Estágio 3: suposições em correlação canônica 366
Estágio 4: determinação das funções canônicas e avaliação do ajuste geral 366
Determinação de funções canônicas 366
Quais funções canônicas devem ser interpretadas? 367
Estágio 5: interpretação da variável estatística canônica 369
Pesos canônicos 369
Cargas canônicas 369
Cargas cruzadas canônicas 369
Qual abordagem de interpretação usar 369
Estágio 6: validação e diagnóstico 370
Um exemplo 370
Estágio 1: objetivos da análise de correlação canônica 370
Estágios 2 e 3: planejamento de uma análise de correlação canônica e
teste das suposições 371
Estágio 4: determinação das funções canônicas e avaliação do ajuste geral 371
Estágio 5: interpretação das variáveis estatísticas canônicas 372
Estágio 6: validação e diagnóstico 374
Uma visão gerencial 375
Resumo - Questões - Referências - Artigos complementares 375
Seção Ili
Técnicas de interdependência 379
Capítulo 9 Análise de agrupamentos 381
O que é análise de agrupamentos? 384
Como funciona a análise de agrupamentos? 385
Como medir a similaridade 385
Formação de agrupamentos 385
Determinação do número de agrupamentos na solução final 387
Processo de decisão em análise de agrupamentos 389
Estágio 1: objetivos da análise de agrupamentos 389
Seleção de variáveis de agrupamento 389
Estágio 2: projeto de pesquisa em análise de agrupamentos 389
Detecção de observações atípicas 391
Medidas de similaridade 392
Padronização dos dados 396
Estágio 3: suposições em análise de agrupamentos 397
Representatividade da amostra 397
Impacto de multicolinearidade 397
Estágio 4: determinação de agrupamentos e avaliação do ajuste geral 398
Algoritmos de agrupamento 398
Quantos agrupamentos devem ser formados? 403
A análise de agrupamentos deve ser reespecificada? 404
Estágio 5: interpretação dos agrupamentos 404
Estágio 6: validação e pertil dos agrupamentos 405
Validação da solução de agrupamentos 405
Perfil da solução por agrupamento 405
Resumo do processo de decisão 405
Um exemplo 406
Estágio 1: objetivos da análise de agrupamentos 406
Estágio 2: projeto de pesquisa da análise de agrupamentos 406
Estágio 3: suposições da análise de agrupamentos 406
Estágio 4: determinação de agrupamentos e avaliação do ajuste geral 406
Estágio 5: interpretação dos agrupamentos 412
Estágio 6: validação e perfil dos agrupamentos 4i 4
Uma visão gerencial 4i 5
Resumo - Questões- Referências-Artigos complementares 417
Capítulo 1O Escalonamento multidimensional 421
O que é escalonamento multidimensional? 423
Uma visão simplificada sobre como funciona o MDS 424
Comparação entre MDS e outras técnicas de interdependência 426
Individuo como a unidade de análise 426
Falta de uma variável estatística 427
Uma estrutura de decisão para mapeamento perceptual 427
SUMÁRIO 19
20 SUMÁRIO
Estágio 1: objetivos do MDS 427
Decisões-chave para estabelecer objetivos 427
Estágio 2: projeto de pesquisa do MDS 430
Seleção entre uma abordagem decomposicional (livre de atributos) ou composicional
(baseado em atributos) 430
Objetos: seu número e seleção 432
Métodos não-métricos versus métricos 432
Coleta de dados de similaridade ou de preferência 433
Estágio 3: suposições da análise de MDS 434
Estágio 4: determinação da solução do MDS e avaliação do ajuste geral 435
Determinação da posição de um objeto no mapa perceptual 435
Seleção da dimensionalidade do mapa perceptual 435
Incorporação de preferências ao MOS 436
Estágio 5: interpretação dos resultados do MDS 439
Identificação das dimensões 439
Estágio 6: validação dos resultados do MDS 440
Análise de correspondência 441
Um exemplo simples de CA 441
Estágio 1: objetivos da CA 444
Estágio 2: projeto de pesquisa de CA 444
Estágio 3: suposições em CA 444
Estágio 4: determinação dos resultados da CA e avaliação do ajuste geral 444
Estágio 5: interpretação dos resultados 445
Estágio 6: validação dos resultados 445
Visão geral da análise de correspondência 445
Ilustração do MDS e da AC 446
Estágio 1: objetivos do mapeamento perceptual 446
Estágio 2: projeto de pesquisa do estudo do mapeamento perceptual 446
Estágio 3: suposições no mapeamento perceptual 447
Escalonamento multidimensional: estágios 4 e 5 447
Visão geral dos resultados decomposicionais 453
Análise de correspondência: estágios 4 e 5 454
Estágio 6: validação dos resultados 456
Uma visão gerencial dos resultados do MOS 458
Resumo - Questões - Referências - Artigos complementares 458
Seção IV
Técnicas avançadas e emergentes 463
Capítulo 11 Modelagem de equações estruturais 465
O que é modelagem de equações estruturais? 470
Acomodação de múltiplas relações de dependência inter-relacionadas 470
Incorporação de variáveis que não medimos diretamente 470
Um exemplo simples de SEM 471
A questão de pesquisa 471
Preparação do modelo de equações estruturais para análise de caminhos 472
Uma aplicação da análise de caminhos 472
Resumo 473
O papel da teoria na modelagem de equações estruturais 474
Desenvolvendo uma estratégia de modelagem 474
Estratégia de modelagem confirmatória 474
Estratégia de modelos concorrentes 474
Estratégia de desenvolvimento de modelos 475
Estágios na modelagem de equações estruturais 475
Estágio 1: desenvolvendo um modelo teórico 476
Estágio 2: construção de diagrama de caminhos de relações causais 477
Estágio 3: conversão do diagrama de caminhos em um conjunto de
modelos estruturais e de mensuração 478
SUMÁRIO 21
Estágio 4: escolha do tipo de matriz de entrada e estimação do modelo proposto 482
Estágio 5: avaliação da identificação do modelo estrutural 486
Estágio 6: avaliação de critérios de qualidade de ajuste 488
Estágio 7: interpretação e modificação do modelo 491
Uma recapitulação do processo de sete estágios 492
Duas ilustrações de modelagem de equações estruturais 492
Análise fatorial confirmatória 492
Estágio 1: desenvolvendo um modelo teórico 492
Estágio 2: construção de um diagrama de caminhos de relações causais 493
Estágio 3: conversão do diagrama de caminhos em um conjunto de
modelos estruturais e de mensuração 493
Estágio 4: escolha do tipo de matriz de entrada e estimação do modelo proposto 493
Estágio 5: avaliação da identificação do modelo estrutural 494
Estágio 6: avaliação de critérios de qualidade de ajuste 494
Estágio 7: interpretação e modificação do modelo 497
Modelos de análise fatorial de ordem superior 498
Resumo 499
Estimação de um modelo de caminhos com SEM 500
Estágio 1: desenvolvendo um modelo teórico 500
Estágio 2: construção de um diagrama de caminhos de relações causais 501
Estágio 3: conversão do diagrama de caminhos em um comjunto de
modelos estruturais e de mensuração 501
Estágio 4: escolha do tipo de matriz de entrada e estimação do modelo proposto 502
Estágio 5: avaliação da identificação do modelo estrutural 503
Estágio 6: avaliação dos critérios de qualidade de ajuste 503
Estágio 7: interpretação e modificação do modelo 509
Visão geral do processo de sete estágios 513
Resumo - Questões 513
Apêndice 11 A Uma representação_ matemática em notação LISREL 515
Notação LISREL 515
De um diagrama de caminhos para a notação LISREL 516
Construção de equações estruturais a partir do diagrama de caminhos 516
Resumo 520
22 SUMÁRIO
Apêndice 11 B Medidas de qualidade de ajuste geral para modelagem de
equações estruturais 521
Medidas de ajuste absoluto 521
Estatística qui-quadrado da razão de verossimilhança 522
Parâmetros de não-centralidade e de não-centralidade escalonados 522
índice de qualidade de ajuste 522
Raiz do resíduo quadrático médio 523
Raiz do erro quadrático médio de aproximação 523
índice de validação cruzada esperada 523
Índice de validação cruzada 523
Medidas de ajuste incremental 523
índice de qualidade de ajuste calibrado 523
Índice de Tucker-Lewis 523
índice de ajuste normado 524
Outras medidas de ajuste incremental 524
Medidas de ajuste parcimonioso 524
índice de ajuste normado parcimonioso 524
índice de qualidade de ajuste parcimonioso 524
Qui-quadrado normado 524
Critério de informação de Akaike 525
uma revisão das medidas de qualidade de ajuste do modelo estrutural
Resumo - Referências - Artigos complementares 525
Capítulo 12 Técnicas emergentes em análise multivariada
Introdução 536
A avalanche de informações 536
Análise sem inferência estatística 536
Tópicos cobertos neste capítulo 537
Armazenamento e mineração de dados 537
533
o que são armazenamento e mineração de dados? 538
Conceitos fundamentais em armazenamento de dados 538
Questões fundamentais em mineração de dados 540
Redes neurais 545
Conceitos básicos de redes neurais 546
Estimação de um modelo de rede neural 547
Uso de uma rede neural para classificação 550
Resumo 550
Reamostragem 551
Uma breve revisão de inferência paramétrica 551
Conceitos básicos em reamostragem 552
Um exemplo de reamostragem e regressão múltipla 552
Resumo 553
Resumo - Questões - Referências 553
Apêndice A Aplicações de análise multivariada de dados
Índice 583
557
525
Capítulo
Introdução
Objetivos de aprendizagem
Ao concluir este capítulo, você deverá ser capaz de:
• Explicar o que é análise multivariada e quando sua aplicação é adequada.
• Definir e discutir as técnicas específicas incluídas na análise multivariada.
• Determinar qual técnica multivariada é apropriada a um problema específico de pesquisa.
• Discutir a natureza das escalas de medida e sua relação com técnicas multivariadas.
• Descrever os aspectos conceituais e estatísticos inerentes à análise multivariada.
Apresentação do capítulo
O Capítulo 1 apresenta uma visão geral simplificada
da análise multivariada. Enfatiza que os métodos de
análise multivariada irão influenciar cada vez mais
não apenas os aspectos analíticos de pesquisa, mas
também o planejamento e a abordagem da coleta de
dados para decisões e resolução de problemas. Apesar
de as técnicas multivariadas terem muitas característi-
cas em comum com suas contrapartes univariada e bi-
variada, várias diferenças importantes surgem na tran-
Termos-chave
Antes de começ;;ir o capítulo, leia os termos-chave para
comprender os conceitos e a terminologia empregados.
Ao longo do capítulo, os termos-chave aparecem em ne-
grito. Outros pontos que merecem destaque, além das re-
ferências cruzadas nos termos-chave, estão em itálico.
sição para uma análise multivariada. Para ilustrar essa
transição, este capíhilo apresenta uma classificação
das técnicas multivariadas. Em seguida, oferece linhas
gerais para a aplicação dessas técnicas, bem como uma
abordagem estruturada para a formulação, estimação
e interpretação dos resultados multivariados. O capí-
tulo conclui com uma discussão da base de dados uti-
lizada ao longo da maior parte do livro para ilustrar a
aplicação das técnicas.
Alfa (a) Ver Erro Tipo I.
Análise multivariada Análise de múltiplas variáveis
em um único relacionamento ou conjunto de rela-
ções.
24 ANÁLISE MULTIVARIADA DE DADOS
Análise univariada de variância (ANOVA) Técnica es-
tatística para determinar, com base em uma medida de-
pendente, se várias amostras são oriundas de popula-
ções com médias iguais.
Beta (p) Ver Erro Tipo II.
Confiabilidade Extensão em que uma variável ou um
conjunto de variáveis é consistente com o que se pre-
tende medir. Se medidas repetidas forem executadas,
as medidas confiáveis serão consistentes em seus valo-
res. É diferente de validade, por se referir não ao que
deveria ser medido mas do modo como é medido.
Correlação parcial bivariada Correlação simples (duas
variáveis) entre dois conjuntos de resíduos (variâncias
inexplicadas) que permanecem depois que a associação
de outras variáveis independentes é removida.
Dados métricos Também chamados de dados quantitati-
vos, dados intervalares ou dados proporcionais, essas medi-
das identificam ou descrevem indivíduos (ou objetos)
não apenas na posse de um atributo, mas também pela
quantia ou grau em que o indivíduo pode ser caracteri-
zado pelo atributo. Por exemplo, a idade ou o peso de
alguém são dados métricos.
Dados não-métricos Também chamados de dados qua-
litativos, são atributos, características ou proprieda-
des categóricas que identificam ou descrevem um in-
divíduo ou objeto. Diferem dos dados métricos no sen-
tido de indicarem a presença de um atributo, mas não
a quantia. Exemplos são ocupações (médico, advoga-
do, professor) ou status do comprador (comprador,
não-comprador). São também conhecidos como dados
nominais ou dados ordinais.
Erro de especificação Omissão de uma variável-chave
da análise, que causa um impacto sobre os efeitos esti-
mados de variáveis incluídas.
Erro de medida Imprecisão na mensuração dos valores
"verdadeiros" das variáveis devido à falibilidade do·
instrumento de medida (ou seja, escalas de respostas
inapropriadas), erros na entrada de dados ou enganos
dos respondentes.
Erro Tipo I Probabilidade de rejeitar incorretamente a
hipótese nula - na maioria dos casos, isso significa dizer
que existe uma diferença ou correlação quando na ver-
dade não é o caso. Também chamado de alfa (a). Níveis
comuns são 5 ou 1%, chamados de nível 0,05 ou 0,01,
respectivamente.
Erro Tipo II Probabilidade de falhar incorretamente na
rejeição da hipótese nula - em termos simples, a proba-
bilidade de não encontrar uma correlação ou diferença
na média quando ela existe. Também chamado de beta
(P), está inversamente relacionado ao erro Tipo I. O valor
1 menos o erro Tipo II é definido como poder.
Escalas Múltiplas Método de combinação de diversas
variáveis que medem o mesmo conceito em uma única
variável como tentativa de aumentar a confiabilidade da
medida por meio de medida multivariada. Na maioria
dos exemplos, as variáveis separadas são somadas e em
seguida seu escore total ou médio é usado na análise.
Indicador Variável única utilizada em conjunção com
uma ou mais variáveis diferentes para formar uma me-
dida composta.
Medida Composta Ver Escala múltipla.
Medida multivariada Uso de duas ou mais variáveis
como indicadores de uma única medida composta. Por
exemplo, um teste de personalidade pode oferecer as
resp()stas a diversas questões individuais (indicado-
res), as quais são então combinadas para formar um
escore único (escala múltipla), que representa o tipo de
personalidade.
Multicolinearidade Extensão em que uma variável po-
de ser explicada pelas outras variáveis na análise. À
medida que a multicolinearidade aumenta, fica mais
complicada a interpretação da variável estatística, uma
vez que se torna mais difícil verificar o efeito de qual-
quer variável, devido a suas inter-relações.
Poder Probabilidadea.e rejeitar corretamente a hipótese
nula quando a mesma é falsa, ou seja, de encontrar cor-
retamente um suposto relacionamento quando ele exis-
te. Determinado como uma função (1) do nível de signi-
ficância estatística (a) dado pelo pesquisador para um
erro Tipo 1, (2) do tamanho da amostra utilizada na aná-
lise e (3) do tamanho do efeito examinado.
Significância prática Método de avaliar resultados· da
análise multivariada baseado em suas descobertas
substanciais, em vez de sua significância estatística. En-
quanto a significância estatística determina se o resulta-
do pode ser atribuído ao acaso, a significância prática
avalia se o resultado é útil (i.e., substancial o bastante
para garantir ação).
Tamanho do efeito Estimativa do grau em que o fenô-
meno estudado (p. ex., correlação ou diferença em mé-
dias) existe na população.
Técnica de dependência Classificação de técnicas esta-
tísticas diferenciadas por terem uma variável ou um
conjunto de variáveis identificado como a(s) variável/eis)
dependente(s) e a(s) variável(eis) remanescente(s) como
independente(s). O objetivo é a previsão da(s) variá-
vel(eis) dependente(s) pela(s) variável(eis) independen-
te(s). Um exemplo é a análise de regressão.
Técnica de interdependência Classificação de técnicas
estatísticas nas quais as variáveis não são divididas em
conjuntos dependentes e independentes (p. ex., análise fato-
rial), todas as variáveis são analisadas como um único
conjunto.
Tratamento Variável independente que o pesquisador
manipula para ver o efeito (se houver) sobre a(s) variá-
vel(eis) dependente(s), como em um experimento.
Validade Extensão em que uma medida ou um conjunto
de medidas representa corretamente o conceito do estu-
do - o grau em que se está livre de qualquer erro siste-
mático ou não-aleatório. A validade se refere a quão
bem o conceito é definido pela(s) medida(s), enquanto
confiabilidade se refere à consistência da(s) medida(s).
Variável dependente Efeito presumido, ou resposta, a
uma mudança na(s) variável/eis) independente(s).
Variável dicotômica Variável não-métrica transformada
em uma variável métrica designando-se 1 ou Oa um ob-
jeto, dependendo se este possui ou não uma caracterís-
tica particular.
Variável estatística Combinação linear de variáveis for-
mada na técnica multivariada determinando-se pesos
empíricos aplicados a um conjunto de variáveis especi-
ficado pelo pesquisador.
Variável independente Causa presumida de qualquer
mudança na variável dependente.
O que é análise multivariada?
A tecnologia computacional hoje disponível, quase inima-
ginável apenas duas décadas atrás, tem feito avanços ex-
traordinários na análise de dados psicológicos, sociológi-
cos e outros tipos de dados comportamentais. Esse im-
pacto é mais evidente na relativa facilidade com que com-
putadores podem analisar grandes quantidades de dados
complexos. Praticamente qualquer problema atual é facil-
mente analisado por vários programas estatísticos em mi-
crocomputadores. Além disso, os efeitos do progresso tec-
nológico têm se estendido para além da habilidade de
manipular dados, libertando pesquisadores de restrições
do passado na análise de dados e conferindo-lhes condi-
ções de se engajarem em um desenvolvimento e uma ava-
liação mais importantes de seus modelos teóricos. Limita-
ções metodológicas não são mais uma preocupação cru-
cial para o teórico que se esforça por apoio empírico. Boa
parte dessa crescente compreensão e domínio da análise
de dados vem do estudo de estatística e inferência estatís-
tica. Igualmente importante, contudo, têm sido o entendi-
mento e a aplicação cada vez maiores de um grupo de téc-
nicas estatísticas conhecido como análise multivariada.
Técnicas analíticas multivariadas estão sendo am-
plamente aplicadas na indústria, no governo e em cen-
tros de pesquisa acadêmica. Além disso, poucas áreas
de estudo ou pesquisa têm falhado na integração de téc-
nicas multivariadas em suas "ferramentas" analíticas.
Para atender a esse interesse crescente, têm sido publi-
cados muitos livros e artigos que tratam dos aspectos
teóricos e matemáticos dessas ferramentas, e textos in-
~odutórios também têm surgido em quase todas as
areas. Poucos livros, porém, têm sido escritos para o
pesquisador que não é especialista em matemática ou
INTRODUÇÃO 25
estatística. Menos livros ainda discutem as aplicações da
estatística multivariada, oferecendo uma discussão con-
ceitua! dos métodos estatísticos. Este livro foi escrito
para preencher tal lacuna.
Livros orientados a aplicações são de interesse cru-
cial para cientistas do comportamento e administrado-
res, sejam do governo ou de empresas, que têm de ex-
pandir seu conhecimento de análise multivariada para
compreender melhor os fenômenos complexos em seu
ambiente de trabalho. Qualquer pesquisador que exami-
ne apenas relações entre duas variáveis e evite análise
multivariada estará ignorando poderosas ferramentas
que podem dar informações potencialmente úteis. Como
já foi dito, "Para os propósitos de... qualquer. .. área apli-
cada, a mai01ia de nossas ferramentas é, ou deveria ser,
multivariada. Somos levados à conclusão de que a me-
nos que um... problema seja tratado como multivariado,
será tratado superficialmente" [7, p. 158]. De acordo com
os estatísticos Hardyck e Peh-inovich [8, p. 7]:
Os métodos de análise multivariada predominarão no fu-
turo e resultarão em drásticas n1udanças na'maneira co-
mo profissionais de pesquisa pensam em problemas e
planejam sua pesquisa. Esses métodos tornam possível le-
vantar questões específicas e precisas de considerável
complexidade em cenários naturais. Isso viabiliza a con-
dução de pesquisas teoricamente importantes e a avalia-
ção dos efeitos de variações paramétricas que natural-
mente ocorrem no contexto em que elas normalmente
aparecem. Dessa maneira, as correlações naturais entre as
mültiplas influências de comportamento podem ser pre-
servadas e efeitos separados dessas influências, estuda-
dos estatisticamente sem causar um isolamento comum
de qualquer indivíduo ou variável.
Por exemplo, os homens de negócios de hoje não conse-
guem seguir a abordagem simplista na qual os consumi-
dores são considerados homogêneos e caracterizados por
um pequeno número de variáveis demográficas. Ao in-
vés disso, eles devem desenvolver estratégias que ape-
lem a inúmeros segmentos de clientes com características
demográficas e psicográficas variadas em um mercado
com múltiplas restrições (p. ex., legais, econômicas, com-
petitivas, tecnológicas). É somente por meio de técnicas
multivariadas que essas múltiplas relações podem ser
adequadamente examinadas para se obter uma com-
preensão mais completa e realista na tomada de decisões.
Ao longo do texto, usamos o termo genérico "pesqui-
sador" quando nos referimos a um analista de dados,
profissional ou acadêmico. Julgamos inapropriado fazer
distinção entre essas duas áreas, uma vez que a atividade
de pesquisa deve se sustentar em bases teóricas e quanti-
tativas. A despeito de os objetivos da pesquisa e da ênfa-
se na interpretação poderem variai~ um pesquisador em
qualquer área deve abordar todos os tópicos, sejam con-
ceituais ou empíricos, que surgem nas discussões sobre
os métodos estatísticos.
26 ANÁLISE MULTIVARIADA DE DADOS
O impacto da revolução na informática
É quase impossível discutir a aplicação de técnicas mul-
tivariadas sem uma discussão do impacto do computa-
dor. Como anteriormente mencionado, a ampla aplica-
ção de computadores (primeiro de grande porte e depois
computadores pessoais) para processar bancos de dados
grandes e complexos tem incentivado significativamen-
te o uso de métodos estatísticos multivariados. A teoria
estatística para técnicas multivariadas de hoje foi desen-
volvida bem antes do surgimento de computadores,
mas essas técnicas permaneceram quase desconhecidas
fora da área de estatística teórica até o momento em que
o poder computacional tornou-se disponível para execu-
tar seus cálculos cada vez mais complexos. Os avanços
tecnológicos contínuos em computação, particularmen-
te em computadores pessoais, têm oferecido, a qualquer
pesquisador interessado, rápido acesso a todos os recur-
sos necessários para abordar problemas multivariados
de praticamente qualquer tamanho. De fato, muitos pes-
quisadores referem-se a si mesmos como analistas de da-
dos, em vez de estatísticos ou (como no vernáculo)
"quantitativistas". Esses analistas de dados têm contri-
buído substancialmente para o aumento do uso e da
aceitacão da estatística multivariada em setores priva-
dos e ,do governo. Dentro da comunidade acadêmica,
disciplinas em todas as áreas têm adotado técnicas mul-
tivariadas, e cada vez mais freqüentemente acadêmicos
devem ser versados nas técnicas multivariadas apro-
priadas para suas pesquisas empíricas. Mesmo para pes-
soas com forte qualificação quantitativa, a disponibilida-
de de pacotes computacionais para análise multivariada
tem facilitado a complexa manipulação de matrizes de
dados que há muito tempo têm dificultado o desenvol-
vimento de técnicas multivariadas.
Muitas universidades de porte já exigem que os ca-
louros comprem seus próprios computadores antes da
matrícula, e estudantes e professores agora rotineira-
mente analisam dados multivariados para responder a
questões em áreas de estudo que vão da antropologia à
zoologia. Todos os pacotes estatísticos abrangentes ela-
borados para computadores de grande porte (p. ex.,
SPSS, SAS e BMDP) estão agora disponíveis também em
computadores pessoais. Programas especializados para
outros tipos de análise multivariada, incluindo escalo-
namento multidimensional, modelagem de equações si-
multâneas e estruturais e análise conjunta, estavam ao
alcance apenas - mas com limitações - em computado-
res de grande porte, porém hoje eles são compatíveis
com computadores pessoais. Sistemas especialistas es-
tão sendo desenvolvidos para tratar até mesmo de ques-
tões como a seleção de uma técnica estatística [4] ou o
delineamento de um plano de amostragem para garan-
tir objetivos estatísticos e práticos almejados [3].
Programas estatísticos não são mais primeiramente
desenvolvidos para sistemas de grande porte e então
adaptados para computadores pessoais; em vez disso,
eles agora são incialmente desenvolvidos para o micro-
computador. Talvez a categoria de programas estatísticos
de mais rápido crescimento seja a dos pacotes estatísticos
projetados especificamente para tirar proveito da flexibi-
lidade do computador pessoal. Técnicas multivariadas
são tão difundidas que todas as técnicas ilustradas neste
texto podem ser avaliadas com pacotes estatísticos pron-
tamente disponíveis tanto para computadores de grande
porte quanto minicomputadores ou computadores pes-
soais. Uma lista abrangente dos principais programas
disponíveis de análise multivariada pode ser encontrada
no Apêndice A. Dedica-se especial atenção a programas
de computadores pessoais.
Definição de análise multivariada
Não é fácil definir análise multivariada. De um modo
geral, ela refere-se a todos os métodos estatísticos que
simultaneamente analisam múltiplas medidas sobre ca-
da indivíduo ou objeto sob investigação. Qualquer aná-
lise simultânea de mais de duas variáveis de certo mo-
do pode ser considerada análise multivariada. Assim,
muitas técnicas multivariadas são extensões da análise
univariada (análise de distribuições de uma única va-
riável) e da análise bivariada (classificação cruzada, cor-
relação, análise de variância e regressão simples usada
para analisar duas variáveis). Por exemplo, regressão
simples (com uma variável preditora) é estendida no
caso multivariado para incluir várias variáveis predito-
ras. Do mesmo modo, a variável dependente isolada
encontrada na análise de variância é estendida de for-
ma a incluir múltiplas variáveis dependentes em análi-
se multivariada de variância. Em muitos casos, técnicas
multivariadas são um meio de executar em uma única
análise aquilo que antes exigia múltiplas análises usan-
do técnicas univariadas. Outras técnicas multivariadas,
contudo, são unicamente projetadas para lidar com
questões multivariadas, como análise fatorial, que iden-
tifica a estrutura subjacente a um conjunto de variáveis,
ou análise discriminante, que discrimina grupos com
base em um conjunto de variáveis.
Uma razão para a dificuldade de definir análise mul-
tivariada é que o termo multivariada não é usado de ma-
neira consistente na literatura. Alguns pesquisadores o
utilizam simplesmente para designar o exame de rela-
ções entre mais de duas variáveis. Outros, somente em
problemas nos quais todas as variáveis múltiplas são
consideradas como tendo uma distribuição normal mul-
tivariada. Para ser considerada verdadeiramente como
multivariada, contudo, todas as variáveis devem ser
aleatórias e'inter-relacionadas de maneira que seus dife-
rentes efeitos não podem ser significativamente interpre-
tados de forma separada. Alguns autores estabelecem que
0 propósito da análise multivariada é m~~ir,.explic~r _e
prever o grau de relacionamento ent:: v~nave1s estatisti-
cas (combinações ponderadas de vanave1s). Desse modo,
0 caráter multivariado consiste nas múltiplas variáveis es-
tatísticas (combinações múltiplas de variáveis) e não ape-
nas no número de variáveis ou observações. Para os pro-
pósitos deste livro, :'ão !11sis~mos_e;11 uma de~ç~o rígi-
da. A análise mulhvanada mclrnra tanto as tecmcas de
múltiplas variáveis quanto as técnicas verdadeiramente
multivariadas, uma vez que acreditamos que o conheci-
mento de técnicas de múltiplas variáveis é um primeiro
passo essencial na compreensão da análise multivariada.
Alguns conceitos básicos de análise
multivariada
Apesar de a análise multivariada ter suas raízes nas esta-
tísticas univariada e bivariada, a extensão para o domí-
nio multivariado introduz éonceitos adicionais e ques-
tões que têm particular relevância. Esses conceitos va-
riam da necessidade de uma compreensão conceitua! do
constructo da análise multivariada - a variável estatísti-
ca - até pontos específicos que lidam com os tipos de es-
calas de medida empregadas e as questões estastíticas de
testes de significância e níveis de confiança. Cada concei-
to tem um papel significativo na aplicação bem-sucedida
de qualquer técnica multivariada.
A variável estatística
Como anteriormente mencionado, o constructo da análi-
se multivariada é a variável estatística, uma combinação
linear de variáveis com pesos empiricamente determina-
dos. As variáveis são especificadas pelo pesquisador,
sendo os pesos determinados pela técnica multivariada
para atingir um objetivo específico. Uma variável estatís-
tica de n variáveis ponderadas (X1 até X,,) pode ser enun-
ciada matematicamente como:
Valor da variável estatística=
w1X1 + w2X2 + w3X3 + ... + w11 Xu
onde X,, é a variável observada e w,, é o peso determina-
do pela técnica multivariada.
O resultado é um único valor que representa uma
combinação do conjunto inteiro de variáveis que melhor
atinge o objetivo da análise multivariada específica. Em
regressão múltipla, a variável estatística é determinada
de modo a melhor se correlacionar com a variável a ser
prevista. Em análise discriminante, a variável estatística
é formada de modo a criar escores para cada observação
INTRODUÇÃO 27
que diferencie de forma máxima entre grupos de obser-
vações. Em análise fatorial, variáveis estatísticas são for-
madas para melhor representarem a estrutura subjacente
ou a dimensionalidade das variáveis como representadas
por suas intercorrelações.
Em cada caso, a variável estatística captura o caráter
multivariado da análise. Assim, em nossa discussão de
cada técnica, a variável estatística é foco da análise em
muitos aspectos. Devemos compreender não apenas seu
impacto coletivo em satisfazer o objetivo da técnica, mas
também a contribuição de cada variável separada para o
efeito geral da variável estatística.
Escalas de medida
A análise de dados envolve a partição, a identificação e a
medida de variação em um conjunto de variáveis, seja en-
tre elas ou entre uma variável dependente e uma ou mais
variáveis independentes. A palavra-chave aqui é medida,
pois o pesquisador não pode repartir ou identificar varia-
ção a menos que ela possa ser medida. A mensuração é
importante para representar com precisão D conceito de
interesse e é instrumental na seleção do método multiva-
riado apropriado para análise. A seguir, discutimos como
o conceito de medida se relaciona à análise de dados e
particularmente às várias técnicas multivariadas.
Há dois tipos básicos de dados: não-métricos (quali-
tativos) e métricos (quantitativos). Dados não-métricos
são atributos, características ou propriedades categóricas
que identificam ou descrevem um objeto. Descrevem di-
ferenças em tipo ou espécie, indicando a presença ou au-
sência de uma característica ou propriedade. Muitas pro-
priedades são discretas, no sentido de terem uma caracte-
rística particular, sendo todas as outras características ex-
cluídas; por exemplo, se alguém é do sexo masculino, não
pode ser do sexo feminino. Não existe qualquer "quan-
tia" de sexo; há apenas o estado de ser masculino ou femi-
nino. Em contrapartida, medidas de dados méhicos são
feitas de modo que os indivíduos podem ser identificados
como diferenciados em quantia ou grau. Variáveis metri-
camente medidas refletem quantidade relativa ou grau.
Medidas métricas são apropriadas para casos que envol-
vem quantia ou magnitude, como nível de satisfação ou
compromisso com um emprego.
Escalas de medida não-métrica
As medidas não-métricas podem ser feitas com uma es-
cala nominal ou ordinal. A medida com uma escala no-
minal designa números usados para rotular ou identifi-
car indivíduos ou objetos. As escalas nominais, também
conhecidas como escalas categóricas, fornecem o núme-
ro de ocorrências em cada classe ou categoria da variá-
vel em estudo. Portanto, os números ou símbolos desig-
nados aos objetos não têm significado quantitativo além
28 ANÁLISE MULTIVARIADA DE DADOS
da indicação da presença ou ausência do atributo ou ca-
racterística sob investigação. Exemplos de dados esca-
lonados nominalmente incluem o sexo , a religião ou o
partido político de um indivíduo. Ao trabalhar com es-
ses dados, o pesquisador pode designar números para
cada categoria, por exemplo, 2 para mulheres e 1 para
homens. Esses números simplesmente representam ca-
tegorias 011 classes e não implicam quantias de um atri-
buto ou característica.
Escalas ordinais são o próximo nível superior de
precisão em medida. Variáveis podem ser ordenadas ou
ranqueadas com escalas ordinais em relação à quantia
do atributo possuída. Toda subclasse pode ser compara-
da com outra em termos de uma relação. da forma
"maior que" ou "menos que". Por exemplo, diferentes
níveis de satisfação de um consumidor em relação a di-
versos novos produtos podem ser ilustrados em uma
escala ordinal. A escala a seguir mostra a opinião de um
respondente sobre três produtos. Ele está mais satisfei-
to com A do que com B e mais satisfeito com B do que
comC.
Produto A Produto B Produto e
1 1 1
Muito satisfeito Insatisfeito
Os números utilizados em escalas ordinais, como esses,
são não-quantitativos, pois indicam apenas posições re-
lativas em uma série ordenada. Não existe medida de
grau de satisfação do consumidor em termos absolutos,
e o pesquisador também não sabe a diferença exata en-
tre pontos na escala de satisfação. Muitas escalas em
ciências do comportamento recaem nessa categoria or-
dinal.
Escalas de medida métrica
As escalas intervalares e escalas de razão (ambas métri-
cas) fornecem o mais alto nível de precisão de medida,
permitindo que quase todas as operações matemáticas
sejam executadas. Essas duas escalas têm unidades
constantes de medida e, portanto, diferenças entre
quaisquer dois pontos adjacentes em qualquer parte da
escala são iguais. A única diferença real entre escalas in-
tervalares e escalas de razão é que as primeiras têm um
ponto zero arbitrário, enquanto as segundas têm um
ponto zero absoluto. As escalas intervalares mais fami-
liares são as escalas de temperatura Fahrenheit e Cel-
sius. Cada uma tem um ponto zero arbitrário diferente
e nenhuma indica uma quantia nula ou ausência de
temperatura, já que podemos registrar temperaturas
abaixo do ponto zero em ambas. Logo, não é possível
dizer que qualquer valor em uma escala intervalar é um
múltiplo de algum outro ponto da escala. Por exemplo,
não se pode considerar que um dia de SOºF tenha o do-
bro de temperatura de um dia de 40ºF, pois sabemos
que SOºF, em uma escala diferente, como Celsius, é
26,7ºC. Do mesmo modo, 40ºF em Celsius é 4,4ºC. Ape-
sar de 80°F ser de fato o dobro de 40ºF, não podemos
afirmar que o calor de SOºF é o dobro do calor de 40ºF, já
que, usando diferentes escalas, o calor não tem o dobro
da intensidade, isto é, 4,4ºC x 2 * 26,7ºC.
As escalas de razão representam a mais elevada for-
ma de precisão de medida, pois possuem as vantagens
de todas as escalas inferiores somadas à existência de
um ponto zero absoluto. Todas as operações matemáti-
cas são possíveis com medidas de escala razão. As ba-
lanças de banheiros ou outros aparelhos comuns para
medir pesos são exemplos dessas escalas, pois têm um
ponto zero absoluto, e assim podemos falar em termos
de múltiplos quando relacionamos um ponto da escala
com outro; por exemplo, 100 libras é duas vezes o peso
de 50 libras.
Compreender os diferentes tipos de escalas de me-
dida é importante por duas razões. Primeiro, o pesqui-
sador deve identificar a escala de medida de cada va-
riável usada, de forma que dados não-métricos não se-
jam incorretamente usados como dados métricos e vi-
ce-versa. Segundo, a escala de medida é cr.ítica ao de-
terminar quais técnicas multivariadas são as mais apli-
cáveis aos dados, com considerações feitas para ambas
as variáveis, independentes e dependentes. Na discus-
são sobre as técnicas e sua classificação em seções,
apresentadas mais adiante, as propriedades métricas e
não-métricas de variáveis independentes e dependen-
tes são os fatores determinantes na escolha da técnica
apropriada.
Erro de medida e medida multivariada
O uso de variáveis múltiplas e a confiança em sua combi-
nação (a variável estatística) em técnicas multivariadas
também concentra a atenção em uma questão comple-
mentar - o erro de medida. Erro de medida é o grau em
que os valores observados não são representativos dos
valores "verdadeiros". Tem muitas fontes, que variam
desde os erros na entrada de dados devido à imprecisão
da medida (p. ex., impor escalas com sete pontos para
medida de atitude quando o pesquisador sabe que os
respondentes podem responder precisamente apenas
em escalas de três pontos) até a falta de habilidade de
respondentes em fornecerem informações precisas (p.
ex., respostas como a renda familiar podem ser razoa-
velmente corretas, mas raramente exatas). Assim, todas
as variáveis usadas em técnicas multivariadas devem
ser consideradas como tendo um certo grau de erro de
medida. O impacto de erro de medida é o acréscimo de
"ruído" às variáveis observadas ou medidas. Logo, o
valor observado obtido representa tanto o nível "verda-
deiro" quanto o "ruído". Quando usado para computar
correlações ou médias, o efeito "verdadeiro" é parcial-
mente mascarado pelo erro de medida, causando um
enfraquecimento nas correlações e menor precisão nas
médias. O impacto específico de erro de medida e sua
acomodação em relacionamentos de dependência é
abordado mais detalhadamente no Capítulo 11.
O objetivo do pesquisador de reduzir o erro de medi-
da pode seguir diversos caminhos. Ao avaliar o grau de
erro presente em qualquer medida, o pesquisador deve
levar em conta a validade e a confiabilidade da medida.
Validade é o grau em que uma medida representa preci-
samente aquilo que se espera. Por exemplo, se queremos
medir renda discricionária, não devemos perguntar a
renda familiar total. A garantia da validade começa com
uma compreensão direta do que deve ser medido e então
realizar a medida tão "correta" e precisa quanto possível.
No entanto, valores exatos não garantem validade. Em
nosso exemplo de renda, o pesquisador poderia definir
com grande exatidão o que é renda familiar, mas ainda
ter uma medida inválida de.renda discricionária porque
a pergunta"correta" não foi formulada.
Se a validade está garantida, o pesquisador deve ain-
da considerar a confiabilidade das medidas. Confiabili-
dade é o grau em que a variável observada mede o valor
"verdadeiro" e está "livre de erro"; assim, é o oposto de
erro de medida. Se a mesma medida for feita repetida-
mente, por exemplo, medidas mais confiáveis mostrarão
maior consistência do que medidas menos confiáveis. O
pesquisador sempre deve avaliar as variáveis emprega-
das_e se medidas alternativas válidas estão disponíveis, e
entao escolher a variável com a maior confiabilidade.
Além disso, o pesquisador pode querer desenvolver
medidas multivariadas, também conhecidas como esca-
las múltiplas, nas quais diversas variáveis são reunidas
em uma medida composta para representar um conceito
(p. ex., escalas de personalidade com múltiplos itens ou
e.scal~s n:1últiplas de satisfação com um produto). O obje-
tivo e evitar o uso de apenas uma variável para represen-
tar um conceito e, ao invés disso, usar várias variáveis
como i~dicadores (ver Termos-Chave), todos represen-
tando diferentes facetas do conceito, para se obter uma
perspectiva mais "ampla". O uso de múltiplos indicado-
res permite ao pesquisador especificar mais precisa-
n:iente as respostas desejadas. Não deposita total con-
fia~J~ e.m ~ma única re.sposta, mas na resposta "média"
ou tlp1ca de um coniunto de respostas relacionadas.
~or exemplo, ao medir satisfação, poder-se-ia perguntar
simplesmente "Quão satisfeito você está?" e basear a
anális~ nesta única resposta. Ou uma escala múltipla
poderia s':r de~envolvida combinando-se várias respos-
tas de satisfaçao, talvez em diferentes formatos deres-
INTRODUÇÃO 29
posta e ':m.difere~tes ~reas de interesse imaginadas pa-
ra con~tit_u1r a satisfaçao geral. A premissa é que respos-
tas mult1plas refletem a resposta "verdadeira" com
maior precisão do que uma única resposta. Avaliação de
confiabi!idade e incorporação de escalas na análise são
métodos que o pesquisador deve empregar. Para uma
introdução mais detalhada a modelos de múltiplas me-
didas e construção de escalas, ver discussão suplemen-
tar no Capítulo 3 (Análise Fatorial) e no Capítulo 11
(Modelagem de Equações Estruturais) ou textos adicio-
nais [10]. Além disso, compilações de escalas que podem
fornecer ao pesquisador uma escala "pronta para usar"
com confiabilidade demonstrada têm sido publicadas re-
centemente [1,5].
O impacto de erro de medida e a confiabilidade ruim
não podem ser diretamente percebidos, uma vez que es-
tão embutidos nas variáveis observadas. Portanto, o pes-
quisador sempre deve trabalhar para aumentar a confia-
bilidade e a validade, que em contrapartida resultarão
em uma descrição "mais verdadeira" das variáveis de in-
teresse. Resultados pobres não são sempre devido a erro
de medida, mas a presença de erro de medida certamen-
te distorce as relações observadas e torna as técnicas mul-
tivariadas menos poderosas. Reduzir erro de medida,
apesar de demandar esforço, tempo e recursos adicio-
nais, pode melhorar resultados fracos ou marginais, bem
como fortalecer resultados demonstrados.
Significância estatística versus
poder estatístico
Todas as técnicas multivariadas, exceto análise de agru-
pamentos e escalonamento multidimensional, são ba-
seadas na inferência estatística dos valores ou relações
de uma população entre variáveis de uma amostra alea-
tória extraída daquela população. Se conduzimos um
censo da população inteira, então a inferência estatísti-
ca é desnecessária, pois qualquer diferença ou relação,
não importa quão pequena, é "verdadeira" e existe. En-
tretanto, raramente, ou nunca, um censo é realizado; lo-
go, o pesquisador é obrigado a fazer inferências a partir
de uma amostra. -
Interpretar inferências estatísticas requer que o pes-
quisador especifique os níveis de erro estatístico aceitá-
veis. A abordagem mais comum é especificar o nível do
erro Tipo I, também conhecido como alfa (o:). O erro TI-
po I é a probabilidade de rejeitar a hipótese nula quan-
do a mesma é verdadeira, ou, em termos simples, a
chance de o teste exibir significância estatística quando
na verdade esta não está presente - o caso de um "posi-
tivo falso". Ao especificar um nível alfa, o pesquisador
estabelece os limites permitidos para erro, especifican-
30 ANÁLISE MULTIVARIADA DE DADOS
do a probabilidade de se concluir que a significância
existe quando na realidade esta não ocorre.
Quando especifica o nível de erro Tipo I, o pesquisa-
dor também determina um erro associado, chamado de
erro Tipo II ou beta (~). O erro Tipo II é a probabilidade
de não rejeitar a hipótese nula quando na realidade esta é
falsa. Urna probabilidade ainda mais interessante é 1 - ~'
chamada çle poder do teste de inferência estatística. Po-
der é a probabilidade de rejeitar corretamente a hípótese
nula quando esta deve ser rejeitada.
Logo, poder é a probabilidade de a significância esta-
tística ser indicada se estiver presente. A relação das dife-
rentes probabilidades de erro na situação hipotética de
teste para a diferença em duas médias é rnosttada aqui:
Realidade
H0
: sem diferença Hn: com diferença
H0:sem
~
diferença
1 - (1
Erro Tipo li
Decisão
estatística
H3:com (1 1-~
diferença Erro Tipo 1 Poder
Apesar de a especificação de alfa estabelecer o nível de
significância estatística aceitável, é o nível de poder que
determina a probabilidade de "sucesso" em encontrar as
diferenças se elas realmente existirem. Então por que não
fixar alfa e beta em níveis aceitáveis? Porque os erros Ti-
po I e Tipo II são inversamente relacionados e, à medida
que o erro Tipo I se toma mais restritivo (se aproxima de
zero), o erro Tipo II aumenta. Reduzir erros Tipo I, por-
tanto, reduz o poder do teste es.tatístico. Assim, o pesqui-
sador deve jogar com o equilíbrio entre o nível alfa e o
poder resultante.
O poder não é apenas uma função de a. É na verda-
de determinado por três fatores:
1. Tamanho do efeito - A probabilidade de atingir sig-
nificância estatística, é baseada não apenas em consi-
derações estatísticas, mas também na verdadeira
magnitude do efeito de interesse (p. ex., tuna diferen-
ça de médias entre dois grupos ou a correlação entre
variáveis) na população, denominado tamanho do
efeito* (ver Termos-Chave). Como era de se esperar,
um efeito maior é mais facilmente encontrado do que
um efeito menor, o que causa impacto no poder do
teste estatístico. Para avaliar o poder de qualquer tes-
te estatístico, o pesquisador deve primeiro com-
preender o efeito sendo examinado. Os tamanhos de
efeito são definidos em termos padronizados para fa-
cilitar a comparação. As diferenças de média são da-
das em termos de desvios-padrão, de modo que um
tamanho de efeito de 0,5 indica que a diferença de
média é metade de um desvio-padrão. Para correia-
* N. de R.T. Em inglês, effect size (ES).
ções, o tamanho do efeito é baseado na real correla-
ção entre as variáveis.
2. Alfa (a) - Como já foi discutido, quando alfa se torna
mais restritivo, o poder diminui. Isso significa que
quando o pesquisador reduz a chance de encontrar
um efeito significante incorreto, a probabilidade de
corretamente encontrar um efeito também diminui.
Diretrizes convencionais sugerem níveis de alfa de
0,05 ou 0,01. Entretanto, o pesquisador deve conside-
rar o impacto dessa decisão sobre o poder antes de
selecionar o nível alfa. A relação dessas duas probabi-
lidades é ilustrada em discussões posteriores.
3. Tamanho da amostra - Em qualquer nível alfa, tama-
nhos de amostras aumentados sempre produzem
maior poder do teste estatístico. No entanto, aumentar
o tamanho da amostra também pode produzir poder
"em excesso". Isso significa que se aumentarmos o ta-
manho da amosh·a, efeitos cada vez menores serão
considerados estatisticamente significantes, até o pon-
to em que para tamanhos de amostra muito gra)'.ldes
praticamente qualquer efeito será significante. O pes-
quisador sempre deve estar ciente de que o tamanho
da amostra pode impactar o teste estatístico, tornan-
do-o insensível (com amostras pequenas) ou exagera-
damente sensível (com amosh·as muito grandes).
As relações entre alfa, tamanho da amostra, tama-
nho do efeito e poder são muito complicadas, e muitas
referências de orientação estão disponíveis. Cohen [6]
examina o poder para a maioria dos testes de inferência
estatística e apresenta uma orientação para níveis acei-
táveis de poder, sugerindo que estudos devem ser pla-
nejados para atingir níveis alfa de pelo menos 0,05 com
níveis de poder de 80%. Para atingir tais níveis de po-
der, os três fatores - alfa, tamanho da amostra e tama-
nho do efeito - devem ser considerados simultanea-
mente. Essas inter-relações podem ser ilustradas por
dois exemplos simples. O primeiro envolve o teste para
a diferença entre os escores médios de dois grupos.
Considere que o tamanho do efeito deva variar entre
pequeno (0,2) e moderado (0,5). O pesquisador agora
deve determinar o nível alfa necessário e o tamanho da
amostra de cada grupo. A Tabela 1.1 ilustra o impacto
do tamanho da amostra e do nível alfa necessário sobre
o poder. Como se vê, o poder se torna aceitável com ta-
manhos de amostra de 100 ou mais em situações com
um tamanho de efeito moderado nos dois níveis alfa.
Todavia, quando o tamanho do efeito é pequeno, os tes-
tes estatísticos têm pouco poder, mesmo com níveis alfa
expandidos ou amostras de 200 ou mais. Por exemplo,
uma amostra de 200 em cada grupo, com um alfa de
0,05, ainda tem apenas 50% de chance de diferenças sig-
nificantes serem encontradas se o tamanho do efeito for
pequeno. Isso sugere que se o pesquisador antecipar
que os efeitos serão pequenos, ele deverá planejar o es-
/NTRODUÇÃO 31
TABELA 1.1 'Níveis de poder para a comparação de duas médias: variacões por tamanho de amostra nível de · ·t· , ·
tamanho do efeito ' ' sigrn 1cancia e
alfa (a) - 0,05
Tamanho do efeito (ES - Effect Size)
alfa (a) =0,01
Tamanho do efeito (ES)
Tamanho da amostra Pequeno (0,2) Moderado (0,5) Pequeno (0,2) Moderado (0,5)
20
40
60
80
100
150
200
0,095
0,143
0,192
0,242
0,290
0,411
0,516
Fonte: Solo Power A11nlysis, BMDP Statistical Software, Inc.
0,338
0,598
0,775
0,882
0,940
0,990
0,998
tudo com tamanhos de amostra muito maiores e/ou ní-
veis alfa menos restritivos (0,05 ou 0,10).
No segundo exemplo, a Figura 1.1 apresenta grafica-
mente o poder para níveis de significância 0,01, 0,05 e
0,10 para tamanhos de amostra de 30 a 300 por grupo,
quando o tamanho do efeito (0,35) está entre pequeno e
moderado. Diante de tais perspectivas, a especificação de
um nível de significância de 0,01 requer uma amostra de
200 por grupo para atingir o nível desejado de 80% de
poder. No entanto, se o nível alfa é relaxado, um poder
0,6
0,4
0,2
0,025 0,144
0,045 0,349
0,067 0,549
0,092 0,709
0,120 0,823
0,201 0,959
0,284 0,992
de 80% é alcançado com amostras de 130 para um nível
alfa de 0,05 e de 100 para um nível alfa de 0,10.
_T~is análises permitem que o pesquisador tenha
mais mformações para tomar decisões sobre o planeja-
mento de estudo e a interpretação dos res1,1ltados. Ao
planejar uma pesquisa, o pesquisador deve estimar o
tamanho do efeito e então selecionar o tamanho da
am_ostra e alfa para atingir o nível de poder desejado.
Alem de seus usos para planejamento, a análise de po-
der também é utilizada depois que a análise está com-
Poder sugerido: 0,80
f Tamanho do efeito: 0,351
0,0 ,~--=-----==---J___L_---1_ _..J__ _j__ __JL___ _j__ _j___ _L__ _j__---1_
30 50 70 90 110 130 150 170 190 230 270 290
210 250
Tamanho da amostra por grupo
FIGURA 1.1 Impacto do tamanho da amostra sobre o poder para vários níveis alfa (O 01 O05 O10) com tamanho do
efeito de 0,35.
1
' ' ' '
32 ANÁLISE MULTIVARIADA DE DADOS
pleta para determinar o real poder alcançado, de modo
que os resultados possam ser apropriadamente inte1:-
pretados. Os resultados são devido a tamanhos de efei-
to, tamanhos das amostras ou níveis de significância? O
pesquisador pode avaliar cada um desses fatores por
seu impacto na significância ou não-significância dos
resultados. O pesquisador de hoje pode consultar estu-
dos publicados que detalham as especificações da de-
terminação de poder [6] ou apelar para diversos progra-
mas de computador que auxiliam no planejam~nto de
estudos com o propósito de atingir o poder desejado ou
calcular o poder de resultados reais [2,3]. Orientações
específicas para regressão múltipla.e análise multiv~r!a-
da de variância - as aplicações mais comuns de analise
de poder - são discutidas com mais detalhes nos Capí-
tulos 4 e 6.
Após termos abordado as questões de estender técni-
cas multivariadas a partir de suas origens univariadas e
bivariadas, agora introduzimos brevemente cada méto-
do multivariado discutido no texto. Após as introduções
das técnicas, apresentamos um esquema de classificação
para auxiliar na seleção da técnica apropriada, especifi-
cando os objetivos da pesquisa (relação de independên-
cia ou dependência) e os tipos de dados (métricos ou
não-métricos).
Tipos de técnicas multivariadas
Análise multivariada é um conjunto de técnicas para análi-
se de dados que está sempre em expansão. Dentre as técni-
cas mais estabelecidas discutidas neste livro, estão (1) aná-
lise de componentes principais e análise dos fatores co-
muns, (2) regressão múltipla e correlação múltipla, (3) aná-
lise discriminante múltipla, (4) análise multivariada deva-
riância e covariância, (5) análise conjunta, (6) correlação ca-
nônica, (7) análise de agmpamentos e (8) escalonamento
multidimensional. Denh·e as técnicas emergentes, também
estão incluídas (9) análise de correspondência, (10) modelos
lineares de probabilidade, como logit e probit, e (11) a mode-
lagem de equações simultâneas/estruhirais. Aqui introdu-
zimos cada uma das técnicas multivariadas, definindo bre-
vemente a técnica e o objetivo para sua aplicação.
Análise de componentes principais e
análise dos fatores comuns
Análise fatorial, que inclui análise de componentes
principais e análise dos fatores comuns, é um.a ab~rda-
gem estatística que pode se: usada para ~~al;sar mte:-
relações entre um grande numero de vanave1s e expli-
car essas variáveis em termos de suas dimensões ine-
rentes comuns (fatores). O objetivo é encontrar um
meio de condensar a informação contida em um nú-
mero de variáveis originais em um conjunto menor de
variáveis estatísticas (fatores) com urna perda mínima
de informação. Pelo fato de fornecer urna estimativa
empírica da "estrutura" das variáveis consideradas, a
análise fatorial se torna urna base objetiva para criar
escalas rnúltiplas.
Regressão múltipla
Regressão múltipla é o método de análise ap
7
o~riado
quando o problema de pesquisa envolve urna uruca va-
riável dependente métrica considerada relacionada a
duas ou mais variáveis independentes métricas. O obje-
tivo da análise de regressão múltipla é prever as mudan-
ças na variável dependente corno resposta a mudanças
nas variáveis independentes. Esse objetivo é alcançado,
com freqüência, por meio da regra estatística dos míni-
mos quadrados.
Sempre que o pesquisador estiver interessado em
prever a quantia ou rnagnirude da variável dependente,
a regressão múltipla será útil. Por exemplo, despesas
mensais com jantares fora de casa (variável dependen-
te) podem ser previstas a partir de informações referen-
tes a renda familiar, tamanho da família e idade do che-
fe da família (variáveis independentes). Do mesmo mo-
do, o pesquisador pode tentar prever as vendas de urna
empresa a partir de informações sobre suas despesas
em publicidade, o número de vendedores e o número
de lojas que vendem seus produtos.
Análise discriminante múltipla
Análise discriminante múltipla (MDA- multiple discri-
minant analysis) é a técnica multivariada adequada
quando a única variável dependente é dicotômica (p.
ex., masculino-feminino) ou multicotôrnica (p. ex., alto-
médio-baixo) e, portanto, não-métrica. Corno na regres-
são múltiplá, pressupõe-se que as variáveis indepen-
dentes sejam métricas. A análise discriminante é aplicá-
vel em situações nas quais a amostra total pode ser divi-
dida em grupos baseados em uma variável dependente
não-métrica que caracteriza diversas classes conheci-
das. Os objetivos primários da análise discriminante
múltipla são entender diferenças de grupos e prever a
probabilidade de que uma entidade (indivíduo ou obje-
to) pertencerá a uma classe ou grupo em particular com
base em diversas variáveis independentes métricas. Por
exemplo, a análise discriminante poderia ser emprega-
da para distinguir inovadores de não-inovadores de
acordo com seus perfis demográficos e psicográficos.
Outras aplicações incluem a distinção de usuários de
peso daqueles que não o são, sexo masculino de sexo
feminino, consumidores de marcas nacionais de consu-
midores de marcas importadas e bons riscos de crédito
de riscos ruins de crédito. Até mesmo o Interna! Reve-
nue Service dos EUA usa análise discriminante para
comparar restituições de impostos federais seleciona-
das com uma restituição hipotética de contribuinte
composta e normal (com diferentes níveis de renda) pa-
ra identificar as restituições mais promissoras e áreas
para auditoria.
Análise multivariada de variância
e covariância
A análise multivariada de variância (MANOVA- multi-
variate analysis ofvariance and covariance) é uma técnica
estatística que pode ser usada para explorar simulta-
neamente as relações entre diversas variáveis indepen-
dentes categóricas (geralmente chamadas de tratamen-
tos) e duas ou mais variáveis dependentes métricas. Co-
mo tal, representa urna extensão da análise univariada
de variância (ANOVA- univariate analysis ofvariance).
A análise multivariada de covariância (MANCOVA -
rnultivariate analysis of covariance) pode ser usada em
conjunção com MANOVA para remover (após o experi-
mento) o efeito de quaisquer variáveis independentes
métricas não controladas (conhecidas como covariáveis
estatísticas) sobre as variáveis dependentes. O procedi-
mento é análogo ao envolvido na correlação parcial bi-
variada, na qual o efeito de uma terceira variável é re-
movido da correlação. MANOVA é útil quando o pes-
quisador planeja urna sihiação experimental (manipu-
lação de várias variáveis não-métricas que representam
tratamento) para testar hipóteses referentes à variância
em respostas nos grupos sobre duas ou mais variáveis
dependentes métricas.
Análise conjunta
A análise conjunta é uma técnica emergente de depen-
dência que tem trazido nova sofisticação para a avalia-
ção de objetos, como produtos novos, serviços ou
idéias. A aplicação mais direta é no desenvolvimento de
novos produtos ou serviços, viabilizando a avaliação de
produtos complexos e mantendo um contexto realista
de decisão para o respondente. O pesquisador de mer-
cado é capaz de avaliar a importância de atributos, bem
como os níveis de cada atributo, enquanto consumido-
res avaliam apenas uns poucos perfis do produto, os
quais são combinações de níveis de produto. Por exem-
plo, considere que um dado produto tenha três atribu-
tos (preço, qualidade e cor), cada um com três níveis
possíveis (p. ex., vermelho, amarelo e azul). Em vez de
avaliar as 27 (3 x 3 x 3) combinações possíveis, um sub-
conjunto (9 ou mais) pode ser avaliado por seu apelo
perante consumidores, e o pesquisador sabe não apenas
INTRODUÇÃO 33
o quão importante cada atributo é, mas também a im-
portância de cada nível (a atratividade de vermelho ver-
sus amarelo versus azul). Além disso, quando as avalia-
ções do consumidor são concluídas, os resultados da
análise conjunta podem igualmente ser usados em si-
muladores de planejamento do produto, os quais mos-
tram a aceitação do consumidor a qualquer número de
formulações do produto e ajudam no planejamento do
produto ótimo.
Correlação canônica
A análise de correlação canônica pode ser vista corno
urna extensão lógica da análise de regressão múltipla.
Lembre que a análise de regressão múltipla envolve uma
única variável dependente métrica e várias variáveis in-
dependentes métricas. Com a análise canônica, o objeti-
vo é correlacionar simultaneamente diversas variáveis
dependentes métricas e diversas variáveis independen-
tes métricas. A regressão múltipla envolve urna única va-
riável dependente; a correlação canônica envolve múlti-
plas variáveis dependentes.
O princípio subjacente é desenvolver urna combina-
ção linear de cada conjunto de variáveis (independentes
e dependentes) para maximizar a correlação entre os
dois conjuntos. Em outras palavras, o procedimento en-
volve a obtenção de um conjunto de pesos para as va-
riáveis dependentes e independentes que fornece a cor-
relação simples máxima entre o conjunto de variáveis
dependentes e o de variáveis independentes.
Análise de agrupamentos
A análise de agrupamentos é uma técnica analítica para
desenvolver subgrupos significativos de indivíduos ou
objetos. Especificamente, o objetivo é classificar uma
amostra de entidades (indivíduos ou objetos) em um pe-
queno número de grupos rnuhlamente excludentes, com
base nas similaridades entre as entidades. Na análise de
agrupamentos, diferentemente da análise discriminante,
os grupos não são predefinidos. Ao invés disso, a técnica
é usada para identificar os grupos.
A análise de agrupamentos geralmente envolve pelo
menos três passos. O primeiro é a medida de alguma for-
ma de similaridade ou associação entre as entidades pa-
ra determinar quantos grupos realmente existem na
amostra. O segundo é o próprio processo de agrupamen-
to, nas quais entidades são particionadas em grupos
(agrupamentos). O último passo é estabelecer o perfil das
pessoas ou variáveis para determinar sua composição.
Muitas vezes, isso é possível pela aplicação da análise
discriminante aos grupos identificados pela técnica de
agrupamento.
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf

Mais conteúdo relacionado

Semelhante a HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf

UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...
UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...
UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...Mehran Misaghi
 
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimUlbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimGetulio Valentim
 
Gestão da Tecnologia da Informação (04/03/2014): Status Report do TCC
Gestão da Tecnologia da Informação (04/03/2014): Status Report do TCCGestão da Tecnologia da Informação (04/03/2014): Status Report do TCC
Gestão da Tecnologia da Informação (04/03/2014): Status Report do TCCAlessandro Almeida
 
Apresentação Software as a Service
Apresentação Software as a ServiceApresentação Software as a Service
Apresentação Software as a ServiceMarcelo Tavares
 
Defesa de Tese - Luiz Agner (PUC-Rio, 2007)
Defesa de Tese - Luiz Agner (PUC-Rio, 2007)Defesa de Tese - Luiz Agner (PUC-Rio, 2007)
Defesa de Tese - Luiz Agner (PUC-Rio, 2007)Luiz Agner
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSVivaldo Jose Breternitz
 
Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...
Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...
Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...Eduardo Francisco
 
Handbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dadosHandbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dadosLuiz Agner
 
Formação em ciência de dados
Formação em ciência de dadosFormação em ciência de dados
Formação em ciência de dadosFernando Palma
 
125 producaoonline 02
125 producaoonline 02125 producaoonline 02
125 producaoonline 02Felipe Silva
 
Perfil e competências do profissional de informação para a gestão de dados (B...
Perfil e competências do profissional de informação para a gestão de dados (B...Perfil e competências do profissional de informação para a gestão de dados (B...
Perfil e competências do profissional de informação para a gestão de dados (B...Luísa Alvim
 
Tese Business Intelligence na Administracao Publica Portuguesa
Tese Business Intelligence na Administracao Publica PortuguesaTese Business Intelligence na Administracao Publica Portuguesa
Tese Business Intelligence na Administracao Publica PortuguesaMIGUEL IGREJA SANTOS
 
Tipos de Sistemas de Informação Resumo
Tipos de Sistemas de Informação ResumoTipos de Sistemas de Informação Resumo
Tipos de Sistemas de Informação ResumoRobson Santos
 

Semelhante a HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf (20)

UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...
UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...
UMA ANÁLISE BIBLIOMÉTRICA SOBRE A APLICAÇÃO DO PENSAMENTO ENXUTO NA ENGENHARI...
 
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimUlbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
 
Atps estatistica
Atps estatisticaAtps estatistica
Atps estatistica
 
Gestão da Tecnologia da Informação (04/03/2014): Status Report do TCC
Gestão da Tecnologia da Informação (04/03/2014): Status Report do TCCGestão da Tecnologia da Informação (04/03/2014): Status Report do TCC
Gestão da Tecnologia da Informação (04/03/2014): Status Report do TCC
 
Apresentação Software as a Service
Apresentação Software as a ServiceApresentação Software as a Service
Apresentação Software as a Service
 
Defesa de Tese - Luiz Agner (PUC-Rio, 2007)
Defesa de Tese - Luiz Agner (PUC-Rio, 2007)Defesa de Tese - Luiz Agner (PUC-Rio, 2007)
Defesa de Tese - Luiz Agner (PUC-Rio, 2007)
 
Artigo jad utfpr
Artigo jad utfprArtigo jad utfpr
Artigo jad utfpr
 
Pim 4
Pim 4Pim 4
Pim 4
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
 
Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...
Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...
Inteligência Geográfica e Big Data - ESPM Proxxima 2014 - Apresentação de Edu...
 
Big Data SENAC
Big Data SENACBig Data SENAC
Big Data SENAC
 
Handbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dadosHandbook Usability Testing - Capitulo 11 - Analise de dados
Handbook Usability Testing - Capitulo 11 - Analise de dados
 
Swot fct 2013
Swot fct 2013Swot fct 2013
Swot fct 2013
 
Projeto 5 Doc
Projeto 5 DocProjeto 5 Doc
Projeto 5 Doc
 
Formação em ciência de dados
Formação em ciência de dadosFormação em ciência de dados
Formação em ciência de dados
 
125 producaoonline 02
125 producaoonline 02125 producaoonline 02
125 producaoonline 02
 
Perfil e competências do profissional de informação para a gestão de dados (B...
Perfil e competências do profissional de informação para a gestão de dados (B...Perfil e competências do profissional de informação para a gestão de dados (B...
Perfil e competências do profissional de informação para a gestão de dados (B...
 
Tese Business Intelligence na Administracao Publica Portuguesa
Tese Business Intelligence na Administracao Publica PortuguesaTese Business Intelligence na Administracao Publica Portuguesa
Tese Business Intelligence na Administracao Publica Portuguesa
 
Pre projeto
Pre projetoPre projeto
Pre projeto
 
Tipos de Sistemas de Informação Resumo
Tipos de Sistemas de Informação ResumoTipos de Sistemas de Informação Resumo
Tipos de Sistemas de Informação Resumo
 

HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf

  • 1. ANÁLISE MULTIVARIADA º··v----i DE DAD S À / L,/ // / / .,,,,."'° /' ,// / / / CORTESIA DO EDITOR SEM VALOR COMERCIAL E-mail:bookman.artmed@terra.com.br•13t) 3213-7499 João Monteiro·Divulgação/Vendas -31 i9162-5709 E-mail:bookman monteiro@hotmail.com BOOKMÂNCÕr~r1AllH!A EDITORA OFERTA do EDITOR • sem valor comercial m _ _) ___.......-..------···
  • 2. H153a Hair, Jr., J.F. kmciftÇ/1<> Brasileira para u Proteção do, Din,lto, Edilorlnl'I o Auto,ai'I RESPEITE O AUTOR NAO FA<;i CôP!A ki#&l!tffiliâi&iffi$ Análise multivariada de dados / J.F. Hair Jr., R.E. Anderson, R.L. Tatham e W.C. Black; trad. Adonai Schlup Sant'Anna e Anselmo Chaves Neto. - 5. ed. - Porto Alegre :Bookman, 2005. 1. Estatística multivariada. J. Anderson, R.E. II.Tatham, R.L. lll. Black, W.C. CDU 519.1/.258 Catalogação na publicação: Mônica Ballejo Canto-CRB 10/1023 ISBN 85-363-0482-0 JOSEPH F. HAIR, J R. Lousiana Sta/e University RüLPH E. ANDERSbN Drexel Universíty RONALD L. TATHAM Burke Marketing Research WILLIAM C. BLACK Lousiana Sta/e University 5a. edição Tradução: Acionai Schlup Sant'Anna Anselmo Chaves Neto Consultoria, supervisão e revisão técnica desta edição: Maria Aparecida Gouvêa Doutora em Administração, FEA/USP Mestra em Estatística, IME/USP Professora livre-docente do Departamento de Administração da FEA/USP 2005 CORTESIA DO EDITOR SEM VALOR COMERCIAL E-mail:bookman.artmed@terra.com.br •131) 3213-7499 João Monteiro.Divulgação/Vendas -131) 9162-5709 E-mail:bookman monte1ro@llotmail.com ,,---·-~---·---·--·-·•••·----··•-••·-·--•-"'--·•-sa•--·----,, j1Rif"iif<f".,,u~1r i) r~,,.,.,ti,i<<''~ r, l'Jq 1't?. ,...,.~.,1,,_,.....~ ,=,, ~ti}htV 1 ~··lJiJ L)JVf[,lJ~.l)t1l/.i t{J~ ~ t)HJ~ l i"1.....'t~~·",..•T i1 ~ ~.,... f, ~ · • 1 t.:,E= r: ~'fi. i t-~~ f..j e~ t "JtT{Jt1~ !. " S1ern valor comen::.ia/ ·· """•'•"'•••-"'•' ,,µM,>,~,~-·-·-·~··-·-·--~--------...---···-··
  • 3. Obra originalmente publicada sob o título Multivariate Data Analysis, 5th Edition Hair, Joseph F.; Tatham, Ronald L.; Anderson, Rolph E.; Black, William © 1998, Frentice-Hall, Inc. 'Tradução autorizada a partir do original em língua inglesa, publicada por Pearson Education, Inc., sob o selo Frentice Hall. ISBN 0-13-017706-7 Capa: Mnrio Riilmelt Preparação do original: Letícia Vasconcellos Abreu Supervisão editorial: Denise Weber Nowaczyk Editoração eletrônica: Laser House Reservados todos os direitos de publicação em língua portuguesa à ARTMED® EDIWRA S. A. (BOOKMAN® COMPANHIA EDIWRA é uma divisão da ARTMED® EDIWRA S. A.) Av. Jerônimo de Omelas, 670 - Santana 90040-340 - Porto Alegre - RS Fones (51) 3027-7000 Fax (51) 3027-7070 É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na Web e outros), sem permissão expressa da Editora. SÃO.PAULO Av. Angélica, 1.091 - Higienópolis 01227-100-São Paulo -SP Fone: (11) 3667-1100 Fax: (11) 3667-1333 SAC 0800 703-3444 IMPRESSO NO BRASIL PRINTED IN BRAZIL Agradecimentos M uitos indivíduos nos ajudaram a completar a quinta edição deste texto. Barbara Ross, doutoranda na Louisiana State University, contribuiu com inestimável auxílio em to- das as fases da revisão. Stern Neill, também doutorando na Louisiana State Univer- sity, ajudou na análise dos dados e na adição de novas técnicas estatísticas. Estamos em débito com os seguintes revisores por sua valiosa colaboração para a quinta edição: David Booth, Kent Sta/e University Robert Bush, Memphis Sta/e Llniversity Rabikar Chatterjee, University ofMichigan Kerri Curtis, Golden Gale UniversiltJ Muzaffar Shaikh, Florida Institute ofTechnology Também gostaríamos de agradecer a ajuda das seguintes pessoas em edições anteriores do livro: Bruce Alford, University of Evansville; David Andrus, Kansas State University; Alvin C. Burns, Louisiana State University; Alan J. Bush, University of Memphis; Robert Bush, Univer- sity of Memphis; Chaim Ehrrnan, University of Illinois at Chicago; Joel Evans, Hofstra Univer- sity; Thomas L. Gillpatrick, Portland State University; Dipak Jain, Northwestern University; John Lastovicka, University of Kansas; Maragret Liebman, La Salle University; Richard Nete- meyer, Louisiana State University; Scott Roach, Northeast Louisiana University; Walter A. Smith, Tulsa University; Ronald D. Taylor, Mississippi State University; and Jerry L. Wall, Nor- theast Louisiana University. J.F.H. R.E.A. R.L.T. W.C.B.
  • 4. Prefácio da quinta edição .. americana Q uem imaginaria, na época em que a primeira edição de Multivariate Data Analysís foi publicada há quase 20 anos, que o uso de estatística multivariada seria tão atraente co- mo o é hoje. Durante esse período temos testemunhado uma grande mudança no am- biente ae pesquisa tanto acadêmica quanto aplicada. Primeiro, a revolução do computador pessoal ofereceu um poder de trabalho que era inimaginável poucos anos atrás. Nesse trajeto, passamos de cartões perfurados para reconhecimento da voz, revolucionando o modo como podemos interagir e usufruir do computador pessoal. Simultaneamente temos visto tremen- dos avanços na disponibilidade e até mesmo facilidade de uso de programas estatísticos, va- riando de pacotes computacionais completamente integrados, tais como SPSS e SAS, até os programas especializados em técnicas, como redes neurais e análise conjunta. Hoje, o pesqui- sador pode encontrar praticamente qualquer técnica concebível em formato de PC e a um pre- ço razoável. Na frente estatística, temos presenciado um desenvolvimento contínuo de novas técnicas, como análise conjunta, modelagem via equação estrutural e redes neurais. Todos esse avanços tecnológicos, contudo, têm sido acompanhados por uma crescente demanda por maior capa- cidade analítica. A explosão de dados nos últimos anos não tem taxado apenas nossos recursos para fisicamente lidar e analisar toda a informação disponível, mas também exigido uma rea- valiação de nossa abordagem à análise de dados. Finalmente, a combinação da complexidade dos tópicos abordados e do crescente papel da teoria em projetos de pesquisa está requerendo técnicas mais rigorosas e sofisticadas para executar a necessária análise confirmatória. Esses eventos têm contribuído para a aceitação das últimas quatro edições deste manuscri- to e para a demanda desta quinta edição. Ao tratar dessa revisão, tentamos contemplar tanto os pesquisadores acadêmicos quanto aplicados, com uma apresentação fortemente fundamen- tada em técnicas estatísticas, focalizando em projetos, estimações e interpretação. Continua- mente nos esforçamos em reduzir nossa dependência na notação e terminologia estatísticas e, ao invés disso, identificamos os conceitos fundamentais que afetam nosso uso de tais técnicas e os expressamos em termos simples: uma introdução orientada a aplicações em análise mul- tivariada para aqueles que não são estatísticos. Prosseguimos com nosso compromisso de for- necer uma firme compreensão dos princípios estatísticos e gerenciais subjacentes à análise multivariada de modo a desenvolver uma "área de conforto" não apenas para as questões es- tatísticas envolvidas mas também as práticas.
  • 5. viii PREFÁCIO DA ÜUINTA EDIÇÃO AMERICANA O que há de novo? A mudança mais óbvia na quinta edição americana é a sua reorganização em quatro seções. Es- sa organização caminha com o processo de pesquisa de maneira mais próxima, particularmen- te ao se concentrar na preparação de dados e no desenvolvimento de escalas antes de se em- pregar técnicas de dependência e interdependência. A Seção l, Preparação para uma Análise Multivariada, centraliza na preparação de dados, tais como análise de dados perdidos e teste de premissas estatísticas ao longo de redução de dados, com uma ênfase particular em desen- volvimento de medida múltipla. A Seção 2, Técnicas de Dependência, contém discussões sobre cinco técnicas de dependência multivariada: regressão múltipla, análise discriminante e re- gressão logística, análise multivariada de variância, análise conjunta e correlação canônica. A Seção 3, Técnicas de Interdependência, fornece uma coberh1ra de análise de agrupamentos e escalonamento multidimensional e seus usos na abordagem da estrutura entre observações. A seção final, Seção 4, Técnicas Avançadas e Emergentes, introduz a modelagem via equação es- trutural junto com algumas áreas emergentes da análise multivariada, incluindo mineração e armazenamento de dados, redes neurais e reamostragem. Dois itens foram acrescentados na discussão de cada técnica multivariada. Primeiro, um exemplo simples é dado no início de cada capítulo para ilustrar os princípios básicos e objeti- vos e mostrar como um método em particular funcionaria em uma situação real. Segundo, ca- da um dos exemplos detalhados usando o conjunto de dados HATCO é seguido de um resu- mo gerencial que provê uma perspetctiva sobre a interpretação dos resultados e como eles po- deriam ser empregados ao se lidar com a questão pesquisada. Esses dois acréscimos devem oferecer um contexto melhor fundamentado para cada técnica. O que foi expandido e atualizado Cada capítulo foi revisado de modo a incorporar avanços na tecnologia e vários capítulos so- freram uma mudança mais extensa. Com a inclusão do Capítulo 3, Análise Fatorial, na Seção 1- foi dada ênfase no desenvolvimento de medida múltipla e na aplicação de escalas ou escores fatoriais em outras aplicações. O Capítulo 5, Análise Discriminante Múltipla e Regressão Lo- gística, agora apres~nta urna completa cobertura da análise de variáveis dependentes categó- ricas incluindo ambas a análise discriminante e a regressão logística, e contém uma dicussão espandida de outros modelos categóricos. O Capítulo 7, Análise Conjunta, conta com um exa- me revisado de questões sobre projetos de pesquisa, o qual se concentra no desenvolvimento dos estímulos conjuntos de uma maneira concisa e direta. Finalmente, o capítulo 11, Modela- gem de Equações Estruturais, for atualizado para refletir as muitas mudanças nessa área nos últimos anos. Três tópicos que são discutidos são modelos fatoriais de segunda ordem; técni- cas alternativas de estimação tais como simulação ou bootstrap; e alguns dos problemas opera- cionais mais comuns como dados perdidos ou a obtenção de urna matriz que não é definida positiva durante a avaliação do modelo. Cada uma dessa mudanças, bem corno outras não mencionadas, contribuirá no ganho de urna compreensão mais profunda dos aspectos estatís- ticos e aplicativos por detrás dessas técnicas. Olhando para o futuro Fizemos mais dois acréscimos que acreditamos serem inovadores e que irão substancialmente melhorar seu entendimento sobre análise multivariada. O primeiro é um capítulo novo - Téc- nicas Emergentes em Análise Multivariada (Capíhllo 12) - focalizando sobre novos tópicos na área da análise m1.lltivariada. À medida em que o ambiente de pesquisa evolue, pesquisadores devem se adaptar às novas condições. O pesquisador de hoje encara um volume crescente de informações e a necessidade por um método objetivo tanto de descoberta quanto de explica- PREFÁCIO DA QUINTA EDIÇÃO AMERICANA ix ção. Introduzimo~ os tó~i~os de arm~zenarnento '; mineração de dados para expor O pesquisa- dor aos_:'eus objetivos_basicos e prmcipios envolvidos. Usando as perspectivas conseguidas na discussao ?e mitras _tecrncas, contrastamos_ a natureza mais exploratória da mineração de da- dos. Tarnbern discutimos sobre redes neurais, urna das técnicas fortemente associadas com mi- neração de dados e empregada em muitas aplicações hoje em dia. Um terceiro tópico é rearnos- tragern, também conhecido como bootstrap e jackknife. Disponível mas não amplamente utiliza- do p_or _:11uitos a~o5., essa té~nica está ganhando maior aceitação corno urna alternativa para avahaçao pararnetrica. As discussões oferecem um breve resumo dos tópicos e, em seguida, uma ilustração empírica simples. Por exemplo, demonstramos a habilidade de redes neurais para fazer uma análise discriminante e reamostragem de dados quando aplicada à regressão múltipla. O desenvolvimento final é a criação de um site http:/ /www.prenhall.com/hair voltado à análise multivariada e intitulado Great Ideas in Teaching Multivariate Statistics. Essa página na Internet (em inglês) funciona corno uma fonte para todos os interessados em análise multiva- riada, oferecendo links para recursos em cada técnica, bem corno um fórum para identificar no- vos assu:1tos ou métodos estatísticos. Desse modo podemos oferecer um retorno mais ágil pa- ra P';sqmsadores do que simplesmente urna nova edição do livro. Também desejamos que o si- te sep um banco de materiais sobre o ensino de estatística multivariada, oferecendo exercícios, dados e idéias para projetos.
  • 6. Prefácio Capítulo 1 Introdução 23 O que é análise multivariada? 25 O impacto da revolução na informática 26 Definição de análise multivariada 26 Alguns conceitos básicos de análise multivariada 27 A variável estatística 27 Escalas de medida 27 Erro de medida e medida multivariada 28 Significância estatística versus poder estatístico 29 Tipos de técnicas multivariadas 32 Sumário Análise de componentes principais e análise dos fatores comuns 32 RElwessão múltipla 32 Análise discriminante múltipla 32 Análise multivariada de variância e covariância 33 Análise conjunta 33 Correlação canônica 33 Análise de agrupamentos 33 Escalonamento multidimensional 34 Análise de correspondência 34 Modelos lineares de probabilidade 34 Modelagem de equações estruturais 34 Outras técnicas multivariadas emergentes 35 Uma classificação de técnicas multivariadas 35 Diretrizes para análises multivariadas e interpretação 38 Estabeleça significância prática, bem como significância estatística 39 O tamanho da amostra afeta todos os resultados 39
  • 7. 12 SUMÁRIO Conheça seus dados 39 Esforce-se por modelos parcimoniosos 40 Examine seus erros 40 Valide seus resultados 40 Um tratamento estruturado para construir modelos multivariados 40 Estágio 1: definição do problema da pesquisa, dos objetivos e da técnica multivariada a ser usada 41 Estágio 2: desenvolvimento do plano de análise 41 Estágio 3: avaliação das suposições inerentes à técnica multivariada 41 Estágio 4: estimação do modelo multivariado e avaliação do ajuste geral do modelo 41 Estágio 5: interpretação da(s) variável(eis) estatística(s) 42 Estágio 6: validação do modelo multivariado 42 Um fluxograma de decisão 42 Bases de dados 42 Base de dados primária 42 Outras bases de dados 44 Organização dos demais capítulos 44 Resumo - Questões - Referências 44 Seção 1 Preparação para uma análise multivariada 47 Capítulo 2 Examine seus dados 49 Introdução 52 Exame gráfico dos dados 52 A natureza da variável: examine a forma da distribuição 53 Examine a relação entre variáveis 53 Examine as diferenças de grupos 54 Perfis multivariados 55 Resumo 56 Dados perdidos 56 Um exemplo simples de uma análise de dados perdidos 58 Compreenda as razões que levam a dados perdidos 59 Examine os padrões de dados perdidos 60 Faça um diagnóstico da aleatoriedade do processo de dados perdidos 60 Tratamentos para lidar com dados perdidos 61 Uso de observações com dados completos somente 61 Desconsidere caso(s) e/ou variável(is) 61 Métodos de atribuição 61 Procedimentos baseados em modelos 63 Uma ilustração de diagnóstico de dados perdidos 64 Uma recapitulação da análise de valores perdidos 70 Resumo 71 Observações atípicas 71 Identificação de observações atipicas 72 Descrição e perfil de observações atípicas 72 Retenção ou eliminação de observações atípicas 73 Um exemplo de análise de observações atípicas 73 Teste das suposições da análise multivariada 76 Avaliação de variáveis individuais versus a variável estatística 76 Normalidade 76 Homoscedasticidade 78 Linearidade 79 Ausência de erros correlacionados 80 Transformações de dados 80 SUMÁRIO 13 Uma ilustração do teste das suposições inerentes à análise multivariada 82 Homoscedasticidade 85 Incorporação de dados não-métricos com variáveis dicotômicas 86 Resumo - Questões - Referências 87 Capítulo 3 Análise fatorial 89 O que é análise fatorial? 91 Um exemplo hipotético de análise fatorial 92 Processo de decisão em análise fatorial 94 Estágio 1: objetivos da análise fatorial 94 Estágio 2: planejamento de uma análise fatorial 96 Estágio 3: suposições na análise fatorial 98 Estágio 4: determinação de fatores e avaliação do ajuste geral 99 Estágio 5: interpretação dos fatores 103 Estágio 6: validação da análise fatorial 109 Estágio 7: usos adicionais dos resultados da análise fatorial 11 o Exemplo 113 Estágio 1: objetivos da análise fatorial 113 Estágio 2: planejamento de uma análise fatorial 113 Estágio 3: suposições em análise fatorial 114 Análise fatorial de componentes: estágios 4 a 7 115 Análise de fatores comuns: estágios 4 e 5 122 Uma visão gerencial dos resultados 124 Resumo - Questões - Referências - Leituras complementares 124 Técnicas de dependência 129 Capítulo 4 Análise de regressão múltipla 131 O que é análise de regressão múltipla? 136 Um exemplo de regressão simples e múltipla 137 Estabelecimento de um ponto de referência: previsão sem uma variável independente 137 Previsão usando uma única variável independente - regressão simples 138 Previsão usando diversas variáveis independentes - regressão múltipla 142 Resumo 143 Um processo de decisão para a análise de regressão múltipla 143 Estágio 1: objetivos da regressão múltipla 144 Problemas de pesquisa apropriados à regressão múltipla 144 Especificação de uma relação estatística 146 Seleção de variáveis dependente e independentes 146
  • 8. 14 SUMARIO Estágio 2: planejamento de pesquisa de uma análise de regressão múltipla 147 Tamanho da amostra 147 Previsores de efeitos fixos versus aleatórios 148 Criação de variáveis adicionais 149 Estágio 3: suposições em análise de regressão múltipla 153 Avaliação de variáveis individuais versus a variável estatística 153 Linearidade do fenômeno 153 Variância constante do termo de erro 154 Independência dos termos de erro 154 Normalidade da distribuição dos termos de erro 154 Resumo 155 Estágio 4: estimação do modelo de regressão e avaliação do ajuste geral do modelo 156 Tratamentos gerais para seleção de variáveis 156 Teste se a variável estatística de regressão satisfaz as suposições de regressão 159 Exame da significância estatística de nosso modelo 159 Identificação de observações influentes 162 Estágio 5: interpretação da variável estatística de regressão 164 Utilização dos coeficientes de regressão 164 Padronização dos coeficientes de regressão: coeficientes beta 164 Avaliação da multicolinearidade 165 Estágio 6: validação dos resultados 169 Amostras adicionais ou particionadas 169 Cálculo da estatística PRESS 169 Comparação de modelos de regressão 170 Previsão com o modelo 170 Ilustração de uma análise de regressão 170 Estágio 1: objetivos da regressão múltipla 170 Estágio 2: planejamento de pesquisa de uma análise de regressão múltipla 171 Estágio 3: suposições em análise de regressão múltipla 171 Estágio 4: estimação do modelo de regressão e avaliação do ajuste geral do modelo 171 Estágio 5: interpretação da variável estatística de regressão 179 Estágio 6: validação dos resultados 180 Avaliação de modelos de regressão alternativos 180 Uma visão gerencial dos resultados 183 Resumo - Questões - Referências - Leitura complementar 183 Apêndice 4A Diagnóstico avançado para análise de regressão múltipla 187 Avaliação da multicolinearidade 189 Um processo em duas partes 189 Uma ilustração da avaliação de multicolinearidade 189 Identificação de observações influentes 190 Passo 1: exame dos resíduos 190 Passo 2: identificação dos pontos de alavancagem a partir dos preditores 191 Passo 3: diagnóstico de caso único na identificação de observações influentes 192 Passo 4: seleção e acomodação de observações influentes 193 Exemplo a partir da base de dados HATCO 193 Visão geral 202 Resumo - Questões - Referências 203 Capítulo 5 Análise discriminante múltipla e regressão logística 205 O que são análise discriminante e regressão logística? 208 Analogia com regressão e MANOVA 21 O Exemplo hipotético de análise discriminante 210 SUMÁRIO 15 Uma análise discriminante de dois grupos: compradores versus não-compradores 21 o Uma representação geométrica da função discriminante de dois grupos 212 Um exemplo de análise discriminante de três grupos: intenções de troca 213 O processo de decisão para análise discriminante 217 Estágio 1: objetivos da análise discriminante 217 Estágio 2: projeto de pesquisa para análise discriminante 219 Seleção de variáveis dependente e independentes 219 Tamanho da amostra 219 Divisão da amostra 220 Estágio 3: suposições da análise discriminante 220 Estágio 4: estimação do modelo discriminante e avaliação do ajuste geral 221 Método computacional 221 Significância estatística 222 Avaliação do ajuste geral 222 Diagnóstico por casos 227 Resumo 228 Estágio 5: interpretação dos resultados 228 Pesos discriminantes 228 Cargas discriminantes 229 Valores F parciais 229 Interpretação de duas ou mais funções 229 Qual método interpretativo usar? 230 Estágio 6: validação dos resultados 230 Procedimentos de partição de amostra ou validação cruzada 230 Diferenças de perfis de grupos 231 Regressão logística: regressão com uma variável dependente binária 231 Representação da variável dependente binária 232 Estimação do modelo de regressão logística 232 Interpretação dos coeficientes 233 Um exemplo de dois grupos 235 Estágio 1: objetivos da análise discriminante 235 Estágio 2: projeto de pesquisa para análise discriminante 235 Estágio 3: suposições da análise discriminante 236 Estágio 4: estimação do modelo discriminante e avaliação do ajuste geral 236 Estágio 5: interpretação dos resultados 244 Estágio 6: validação dos resultados 245 Uma visão gerencial 246
  • 9. 16 SUMÁRIO Um exemplo de três grupos 246 Estágio 1: objetivos da análise discriminante 246 Estágio 2: projeto de pesquisa para a análise discriminante 246 Estágio 3: suposições da análise discriminante 247 Estágio 4: estimação do modelo discriminante e avaliação do ajuste geral 247 Estágio 5: interpretação dos resultados da análise discriminante de três grupos 256 Estágio 6: validação dos resultados discriminantes 259 Uma visão gerencial 260 Um exemplo de regressão logística 260 Estágios 1, 2 e 3: objetivos da pesquisa, projeto de pesquisa e suposições estatísticas 261 Estágio 4: estimação do modelo de .regressão logística e avalicld,ão do ajuste geral 261 Estágio 5: interpretação dos resultados 265 Estágio 6: validação dos resultados 266 Uma visão gerencial 266 Resumo - Questões - Referências - Artigos complementares 266 Capítulo 6 Análise multivariada de variância 271 O que é análise multivariada de variância? 274 Procedimentos univariados para avaliar diferenças de grupos 274 Análise multivariada de variância 276 Diferenças entre MANOVA e análise discriminante 278 Uma ilustração hipotética de MANOVA 278 Quando devemos usar MANOVA? 279 Controle de taxa de erro experimental 279 Diferenças em uma combinação de variáveis dependentes 280 Um processo de decisão para MANOVA 280 Estágio 1: objetivos de MANOVA 281 Tipos de questões multivariadas apropriadas a MANOVA 281 Estágio 2: questões no projeto de pesquisa de MANOVA 282 Exigências no tamanho da amostra - geral e por grupo 282 Delineamentos fatoriais - dois ou mais tratamentos 283 Uso de covariáveis - ANCOVA e MANCOVA 284 Estágio 3: suposições de ANOVA e MANOVA 286 1ndependência 286 Igualdade de matrizes de variância-covariância 287 Normalidade 287 Linearidade e multicolinearidade entre as variáveis dependentes 287 Sensibilidade a observações atípicas 288 Estágio 4: estimação do modelo MANOVA e avaliação do ajuste geral 288 Critérios para teste de significância 289 Poder estatístico dos testes multivariados 289 Estágio 5: interpretação dos resultados MANOVA 291 Avaliação de covariáveis estatísticas 291 Avaliação da variável estatística dependente 291 Identificação de diferenças entre grupos individuais 292 Estágio 6: validação dos resultados 293 Resumo 294 Exemplo 1: diferença entre dois grupos independentes 294 Uma abordagem univariada: o teste t 294 Uma abordagem multivariada: T' de Hotelling 296 Exemplo 2: diferença entre k grupos independentes 300 Uma abordagem univariada: ANOVA de kgrupos 300 Uma abordagem multivariada: MANOVA com kgrupos 301 Exemplo 3: um delineamento fatorial para MANOVA com duas variáveis independentes 306 Estágio 1: objetivos de MANOVA 306 Estágio 2: projeto de pesquisa de MANOVA 307 Estágio 3: suposições em MANOVA 307 Estágio 4: estimação do modelo MANOVA e avaliação do ajuste geral 307 Estágio 5: interpretação dos resultados 31 O Uma visão geral gerencial dos resultados 311 Resumo - Questões - Referências - Artigos complementares 314 Capítulo 7 Análise conjunta 319 O que é análise conjunta? 323 Um exemplo hipotético de análise conjunta 323 Um exemplo empírico 324 Os usos gerenciais da análise conjunta 327 Comparação entre a análise conjunta e outros métodos multivariados 328 Técnicas de composição versus decomposição 328 Especificação da variável estatística conjunta 328 Modelos separados para cada indivíduo 328 Tipos de relações 328 Planejamento de um experimento de análise conjunta 329 Estágio 1: os objetivos da análise conjunta 329 Definição da utilidade total do objeto 329 Especificação dos fatores determinantes 330 Estágio 2: o projeto de uma análise conjunta 332 Seleção de uma metodologia de análise conjunta 332 Planejamento de estímulos: seleção e definição de fatores e níveis 332 Especificação da forma do modelo básico 335 Coleta de dados 337 Estágio 3: suposições da análise conjunta 342 Estágio 4: estimação do modelo conjunto e avaliação do ajuste geral 342 Seleção de uma técnica de estimação 342 Avaliação da qualidade do ajuste do modelo 344 Estágio 5: interpretação dos resultados 344 Análise agregada versus desagregada 344 Avaliação da importância relativa de atributos 344 SUMÁRIO 17
  • 10. 18 SUMÁRIO Estágio 6: validação dos resultados conjuntos 345 Aplicações gerenciais de análise conjunta 345 Segmentação 345 Análise de lucratividade 345 Simuladores conjuntos 345 Metodologias conjuntas alternativas 346 Análise conjunta adaptativa: conjunta com um grande número de fatores 346 Visão geral das três metodologias conjuntas 350 Uma ilustração de análise conjunta 350 Estágio 1: objetivos da análise conjunta 351 Estágio 2: projeto da análise conjunta 351 Estágio 3: suposições na análise conjunta 352 Estágio 4: estimação do modelo conjunto e avaliação do ajuste geral do modelo 352 Estágio 5: interpretação dos resultados 354 Estágio 6: validação dos resultados 355 Uma aplicação gerencial: uso de um simulador de escolha 355 Resumo - Questões - Referências - Artigos complementares 356 Capítulo 8 Análise de correlação canônica 361 O que é correlação canônica? 362 Exemplo hipotético de correlação canônica 362 Análise das relações com correlação canônica 363 Estágio 1: objetivos da análise de correlação canônica 364 Estágio 2: planejamento de uma análise de correlação canônica 365 Estágio 3: suposições em correlação canônica 366 Estágio 4: determinação das funções canônicas e avaliação do ajuste geral 366 Determinação de funções canônicas 366 Quais funções canônicas devem ser interpretadas? 367 Estágio 5: interpretação da variável estatística canônica 369 Pesos canônicos 369 Cargas canônicas 369 Cargas cruzadas canônicas 369 Qual abordagem de interpretação usar 369 Estágio 6: validação e diagnóstico 370 Um exemplo 370 Estágio 1: objetivos da análise de correlação canônica 370 Estágios 2 e 3: planejamento de uma análise de correlação canônica e teste das suposições 371 Estágio 4: determinação das funções canônicas e avaliação do ajuste geral 371 Estágio 5: interpretação das variáveis estatísticas canônicas 372 Estágio 6: validação e diagnóstico 374 Uma visão gerencial 375 Resumo - Questões - Referências - Artigos complementares 375 Seção Ili Técnicas de interdependência 379 Capítulo 9 Análise de agrupamentos 381 O que é análise de agrupamentos? 384 Como funciona a análise de agrupamentos? 385 Como medir a similaridade 385 Formação de agrupamentos 385 Determinação do número de agrupamentos na solução final 387 Processo de decisão em análise de agrupamentos 389 Estágio 1: objetivos da análise de agrupamentos 389 Seleção de variáveis de agrupamento 389 Estágio 2: projeto de pesquisa em análise de agrupamentos 389 Detecção de observações atípicas 391 Medidas de similaridade 392 Padronização dos dados 396 Estágio 3: suposições em análise de agrupamentos 397 Representatividade da amostra 397 Impacto de multicolinearidade 397 Estágio 4: determinação de agrupamentos e avaliação do ajuste geral 398 Algoritmos de agrupamento 398 Quantos agrupamentos devem ser formados? 403 A análise de agrupamentos deve ser reespecificada? 404 Estágio 5: interpretação dos agrupamentos 404 Estágio 6: validação e pertil dos agrupamentos 405 Validação da solução de agrupamentos 405 Perfil da solução por agrupamento 405 Resumo do processo de decisão 405 Um exemplo 406 Estágio 1: objetivos da análise de agrupamentos 406 Estágio 2: projeto de pesquisa da análise de agrupamentos 406 Estágio 3: suposições da análise de agrupamentos 406 Estágio 4: determinação de agrupamentos e avaliação do ajuste geral 406 Estágio 5: interpretação dos agrupamentos 412 Estágio 6: validação e perfil dos agrupamentos 4i 4 Uma visão gerencial 4i 5 Resumo - Questões- Referências-Artigos complementares 417 Capítulo 1O Escalonamento multidimensional 421 O que é escalonamento multidimensional? 423 Uma visão simplificada sobre como funciona o MDS 424 Comparação entre MDS e outras técnicas de interdependência 426 Individuo como a unidade de análise 426 Falta de uma variável estatística 427 Uma estrutura de decisão para mapeamento perceptual 427 SUMÁRIO 19
  • 11. 20 SUMÁRIO Estágio 1: objetivos do MDS 427 Decisões-chave para estabelecer objetivos 427 Estágio 2: projeto de pesquisa do MDS 430 Seleção entre uma abordagem decomposicional (livre de atributos) ou composicional (baseado em atributos) 430 Objetos: seu número e seleção 432 Métodos não-métricos versus métricos 432 Coleta de dados de similaridade ou de preferência 433 Estágio 3: suposições da análise de MDS 434 Estágio 4: determinação da solução do MDS e avaliação do ajuste geral 435 Determinação da posição de um objeto no mapa perceptual 435 Seleção da dimensionalidade do mapa perceptual 435 Incorporação de preferências ao MOS 436 Estágio 5: interpretação dos resultados do MDS 439 Identificação das dimensões 439 Estágio 6: validação dos resultados do MDS 440 Análise de correspondência 441 Um exemplo simples de CA 441 Estágio 1: objetivos da CA 444 Estágio 2: projeto de pesquisa de CA 444 Estágio 3: suposições em CA 444 Estágio 4: determinação dos resultados da CA e avaliação do ajuste geral 444 Estágio 5: interpretação dos resultados 445 Estágio 6: validação dos resultados 445 Visão geral da análise de correspondência 445 Ilustração do MDS e da AC 446 Estágio 1: objetivos do mapeamento perceptual 446 Estágio 2: projeto de pesquisa do estudo do mapeamento perceptual 446 Estágio 3: suposições no mapeamento perceptual 447 Escalonamento multidimensional: estágios 4 e 5 447 Visão geral dos resultados decomposicionais 453 Análise de correspondência: estágios 4 e 5 454 Estágio 6: validação dos resultados 456 Uma visão gerencial dos resultados do MOS 458 Resumo - Questões - Referências - Artigos complementares 458 Seção IV Técnicas avançadas e emergentes 463 Capítulo 11 Modelagem de equações estruturais 465 O que é modelagem de equações estruturais? 470 Acomodação de múltiplas relações de dependência inter-relacionadas 470 Incorporação de variáveis que não medimos diretamente 470 Um exemplo simples de SEM 471 A questão de pesquisa 471 Preparação do modelo de equações estruturais para análise de caminhos 472 Uma aplicação da análise de caminhos 472 Resumo 473 O papel da teoria na modelagem de equações estruturais 474 Desenvolvendo uma estratégia de modelagem 474 Estratégia de modelagem confirmatória 474 Estratégia de modelos concorrentes 474 Estratégia de desenvolvimento de modelos 475 Estágios na modelagem de equações estruturais 475 Estágio 1: desenvolvendo um modelo teórico 476 Estágio 2: construção de diagrama de caminhos de relações causais 477 Estágio 3: conversão do diagrama de caminhos em um conjunto de modelos estruturais e de mensuração 478 SUMÁRIO 21 Estágio 4: escolha do tipo de matriz de entrada e estimação do modelo proposto 482 Estágio 5: avaliação da identificação do modelo estrutural 486 Estágio 6: avaliação de critérios de qualidade de ajuste 488 Estágio 7: interpretação e modificação do modelo 491 Uma recapitulação do processo de sete estágios 492 Duas ilustrações de modelagem de equações estruturais 492 Análise fatorial confirmatória 492 Estágio 1: desenvolvendo um modelo teórico 492 Estágio 2: construção de um diagrama de caminhos de relações causais 493 Estágio 3: conversão do diagrama de caminhos em um conjunto de modelos estruturais e de mensuração 493 Estágio 4: escolha do tipo de matriz de entrada e estimação do modelo proposto 493 Estágio 5: avaliação da identificação do modelo estrutural 494 Estágio 6: avaliação de critérios de qualidade de ajuste 494 Estágio 7: interpretação e modificação do modelo 497 Modelos de análise fatorial de ordem superior 498 Resumo 499 Estimação de um modelo de caminhos com SEM 500 Estágio 1: desenvolvendo um modelo teórico 500 Estágio 2: construção de um diagrama de caminhos de relações causais 501 Estágio 3: conversão do diagrama de caminhos em um comjunto de modelos estruturais e de mensuração 501 Estágio 4: escolha do tipo de matriz de entrada e estimação do modelo proposto 502 Estágio 5: avaliação da identificação do modelo estrutural 503 Estágio 6: avaliação dos critérios de qualidade de ajuste 503 Estágio 7: interpretação e modificação do modelo 509 Visão geral do processo de sete estágios 513 Resumo - Questões 513 Apêndice 11 A Uma representação_ matemática em notação LISREL 515 Notação LISREL 515 De um diagrama de caminhos para a notação LISREL 516 Construção de equações estruturais a partir do diagrama de caminhos 516 Resumo 520
  • 12. 22 SUMÁRIO Apêndice 11 B Medidas de qualidade de ajuste geral para modelagem de equações estruturais 521 Medidas de ajuste absoluto 521 Estatística qui-quadrado da razão de verossimilhança 522 Parâmetros de não-centralidade e de não-centralidade escalonados 522 índice de qualidade de ajuste 522 Raiz do resíduo quadrático médio 523 Raiz do erro quadrático médio de aproximação 523 índice de validação cruzada esperada 523 Índice de validação cruzada 523 Medidas de ajuste incremental 523 índice de qualidade de ajuste calibrado 523 Índice de Tucker-Lewis 523 índice de ajuste normado 524 Outras medidas de ajuste incremental 524 Medidas de ajuste parcimonioso 524 índice de ajuste normado parcimonioso 524 índice de qualidade de ajuste parcimonioso 524 Qui-quadrado normado 524 Critério de informação de Akaike 525 uma revisão das medidas de qualidade de ajuste do modelo estrutural Resumo - Referências - Artigos complementares 525 Capítulo 12 Técnicas emergentes em análise multivariada Introdução 536 A avalanche de informações 536 Análise sem inferência estatística 536 Tópicos cobertos neste capítulo 537 Armazenamento e mineração de dados 537 533 o que são armazenamento e mineração de dados? 538 Conceitos fundamentais em armazenamento de dados 538 Questões fundamentais em mineração de dados 540 Redes neurais 545 Conceitos básicos de redes neurais 546 Estimação de um modelo de rede neural 547 Uso de uma rede neural para classificação 550 Resumo 550 Reamostragem 551 Uma breve revisão de inferência paramétrica 551 Conceitos básicos em reamostragem 552 Um exemplo de reamostragem e regressão múltipla 552 Resumo 553 Resumo - Questões - Referências 553 Apêndice A Aplicações de análise multivariada de dados Índice 583 557 525 Capítulo Introdução Objetivos de aprendizagem Ao concluir este capítulo, você deverá ser capaz de: • Explicar o que é análise multivariada e quando sua aplicação é adequada. • Definir e discutir as técnicas específicas incluídas na análise multivariada. • Determinar qual técnica multivariada é apropriada a um problema específico de pesquisa. • Discutir a natureza das escalas de medida e sua relação com técnicas multivariadas. • Descrever os aspectos conceituais e estatísticos inerentes à análise multivariada. Apresentação do capítulo O Capítulo 1 apresenta uma visão geral simplificada da análise multivariada. Enfatiza que os métodos de análise multivariada irão influenciar cada vez mais não apenas os aspectos analíticos de pesquisa, mas também o planejamento e a abordagem da coleta de dados para decisões e resolução de problemas. Apesar de as técnicas multivariadas terem muitas característi- cas em comum com suas contrapartes univariada e bi- variada, várias diferenças importantes surgem na tran- Termos-chave Antes de começ;;ir o capítulo, leia os termos-chave para comprender os conceitos e a terminologia empregados. Ao longo do capítulo, os termos-chave aparecem em ne- grito. Outros pontos que merecem destaque, além das re- ferências cruzadas nos termos-chave, estão em itálico. sição para uma análise multivariada. Para ilustrar essa transição, este capíhilo apresenta uma classificação das técnicas multivariadas. Em seguida, oferece linhas gerais para a aplicação dessas técnicas, bem como uma abordagem estruturada para a formulação, estimação e interpretação dos resultados multivariados. O capí- tulo conclui com uma discussão da base de dados uti- lizada ao longo da maior parte do livro para ilustrar a aplicação das técnicas. Alfa (a) Ver Erro Tipo I. Análise multivariada Análise de múltiplas variáveis em um único relacionamento ou conjunto de rela- ções.
  • 13. 24 ANÁLISE MULTIVARIADA DE DADOS Análise univariada de variância (ANOVA) Técnica es- tatística para determinar, com base em uma medida de- pendente, se várias amostras são oriundas de popula- ções com médias iguais. Beta (p) Ver Erro Tipo II. Confiabilidade Extensão em que uma variável ou um conjunto de variáveis é consistente com o que se pre- tende medir. Se medidas repetidas forem executadas, as medidas confiáveis serão consistentes em seus valo- res. É diferente de validade, por se referir não ao que deveria ser medido mas do modo como é medido. Correlação parcial bivariada Correlação simples (duas variáveis) entre dois conjuntos de resíduos (variâncias inexplicadas) que permanecem depois que a associação de outras variáveis independentes é removida. Dados métricos Também chamados de dados quantitati- vos, dados intervalares ou dados proporcionais, essas medi- das identificam ou descrevem indivíduos (ou objetos) não apenas na posse de um atributo, mas também pela quantia ou grau em que o indivíduo pode ser caracteri- zado pelo atributo. Por exemplo, a idade ou o peso de alguém são dados métricos. Dados não-métricos Também chamados de dados qua- litativos, são atributos, características ou proprieda- des categóricas que identificam ou descrevem um in- divíduo ou objeto. Diferem dos dados métricos no sen- tido de indicarem a presença de um atributo, mas não a quantia. Exemplos são ocupações (médico, advoga- do, professor) ou status do comprador (comprador, não-comprador). São também conhecidos como dados nominais ou dados ordinais. Erro de especificação Omissão de uma variável-chave da análise, que causa um impacto sobre os efeitos esti- mados de variáveis incluídas. Erro de medida Imprecisão na mensuração dos valores "verdadeiros" das variáveis devido à falibilidade do· instrumento de medida (ou seja, escalas de respostas inapropriadas), erros na entrada de dados ou enganos dos respondentes. Erro Tipo I Probabilidade de rejeitar incorretamente a hipótese nula - na maioria dos casos, isso significa dizer que existe uma diferença ou correlação quando na ver- dade não é o caso. Também chamado de alfa (a). Níveis comuns são 5 ou 1%, chamados de nível 0,05 ou 0,01, respectivamente. Erro Tipo II Probabilidade de falhar incorretamente na rejeição da hipótese nula - em termos simples, a proba- bilidade de não encontrar uma correlação ou diferença na média quando ela existe. Também chamado de beta (P), está inversamente relacionado ao erro Tipo I. O valor 1 menos o erro Tipo II é definido como poder. Escalas Múltiplas Método de combinação de diversas variáveis que medem o mesmo conceito em uma única variável como tentativa de aumentar a confiabilidade da medida por meio de medida multivariada. Na maioria dos exemplos, as variáveis separadas são somadas e em seguida seu escore total ou médio é usado na análise. Indicador Variável única utilizada em conjunção com uma ou mais variáveis diferentes para formar uma me- dida composta. Medida Composta Ver Escala múltipla. Medida multivariada Uso de duas ou mais variáveis como indicadores de uma única medida composta. Por exemplo, um teste de personalidade pode oferecer as resp()stas a diversas questões individuais (indicado- res), as quais são então combinadas para formar um escore único (escala múltipla), que representa o tipo de personalidade. Multicolinearidade Extensão em que uma variável po- de ser explicada pelas outras variáveis na análise. À medida que a multicolinearidade aumenta, fica mais complicada a interpretação da variável estatística, uma vez que se torna mais difícil verificar o efeito de qual- quer variável, devido a suas inter-relações. Poder Probabilidadea.e rejeitar corretamente a hipótese nula quando a mesma é falsa, ou seja, de encontrar cor- retamente um suposto relacionamento quando ele exis- te. Determinado como uma função (1) do nível de signi- ficância estatística (a) dado pelo pesquisador para um erro Tipo 1, (2) do tamanho da amostra utilizada na aná- lise e (3) do tamanho do efeito examinado. Significância prática Método de avaliar resultados· da análise multivariada baseado em suas descobertas substanciais, em vez de sua significância estatística. En- quanto a significância estatística determina se o resulta- do pode ser atribuído ao acaso, a significância prática avalia se o resultado é útil (i.e., substancial o bastante para garantir ação). Tamanho do efeito Estimativa do grau em que o fenô- meno estudado (p. ex., correlação ou diferença em mé- dias) existe na população. Técnica de dependência Classificação de técnicas esta- tísticas diferenciadas por terem uma variável ou um conjunto de variáveis identificado como a(s) variável/eis) dependente(s) e a(s) variável(eis) remanescente(s) como independente(s). O objetivo é a previsão da(s) variá- vel(eis) dependente(s) pela(s) variável(eis) independen- te(s). Um exemplo é a análise de regressão. Técnica de interdependência Classificação de técnicas estatísticas nas quais as variáveis não são divididas em conjuntos dependentes e independentes (p. ex., análise fato- rial), todas as variáveis são analisadas como um único conjunto. Tratamento Variável independente que o pesquisador manipula para ver o efeito (se houver) sobre a(s) variá- vel(eis) dependente(s), como em um experimento. Validade Extensão em que uma medida ou um conjunto de medidas representa corretamente o conceito do estu- do - o grau em que se está livre de qualquer erro siste- mático ou não-aleatório. A validade se refere a quão bem o conceito é definido pela(s) medida(s), enquanto confiabilidade se refere à consistência da(s) medida(s). Variável dependente Efeito presumido, ou resposta, a uma mudança na(s) variável/eis) independente(s). Variável dicotômica Variável não-métrica transformada em uma variável métrica designando-se 1 ou Oa um ob- jeto, dependendo se este possui ou não uma caracterís- tica particular. Variável estatística Combinação linear de variáveis for- mada na técnica multivariada determinando-se pesos empíricos aplicados a um conjunto de variáveis especi- ficado pelo pesquisador. Variável independente Causa presumida de qualquer mudança na variável dependente. O que é análise multivariada? A tecnologia computacional hoje disponível, quase inima- ginável apenas duas décadas atrás, tem feito avanços ex- traordinários na análise de dados psicológicos, sociológi- cos e outros tipos de dados comportamentais. Esse im- pacto é mais evidente na relativa facilidade com que com- putadores podem analisar grandes quantidades de dados complexos. Praticamente qualquer problema atual é facil- mente analisado por vários programas estatísticos em mi- crocomputadores. Além disso, os efeitos do progresso tec- nológico têm se estendido para além da habilidade de manipular dados, libertando pesquisadores de restrições do passado na análise de dados e conferindo-lhes condi- ções de se engajarem em um desenvolvimento e uma ava- liação mais importantes de seus modelos teóricos. Limita- ções metodológicas não são mais uma preocupação cru- cial para o teórico que se esforça por apoio empírico. Boa parte dessa crescente compreensão e domínio da análise de dados vem do estudo de estatística e inferência estatís- tica. Igualmente importante, contudo, têm sido o entendi- mento e a aplicação cada vez maiores de um grupo de téc- nicas estatísticas conhecido como análise multivariada. Técnicas analíticas multivariadas estão sendo am- plamente aplicadas na indústria, no governo e em cen- tros de pesquisa acadêmica. Além disso, poucas áreas de estudo ou pesquisa têm falhado na integração de téc- nicas multivariadas em suas "ferramentas" analíticas. Para atender a esse interesse crescente, têm sido publi- cados muitos livros e artigos que tratam dos aspectos teóricos e matemáticos dessas ferramentas, e textos in- ~odutórios também têm surgido em quase todas as areas. Poucos livros, porém, têm sido escritos para o pesquisador que não é especialista em matemática ou INTRODUÇÃO 25 estatística. Menos livros ainda discutem as aplicações da estatística multivariada, oferecendo uma discussão con- ceitua! dos métodos estatísticos. Este livro foi escrito para preencher tal lacuna. Livros orientados a aplicações são de interesse cru- cial para cientistas do comportamento e administrado- res, sejam do governo ou de empresas, que têm de ex- pandir seu conhecimento de análise multivariada para compreender melhor os fenômenos complexos em seu ambiente de trabalho. Qualquer pesquisador que exami- ne apenas relações entre duas variáveis e evite análise multivariada estará ignorando poderosas ferramentas que podem dar informações potencialmente úteis. Como já foi dito, "Para os propósitos de... qualquer. .. área apli- cada, a mai01ia de nossas ferramentas é, ou deveria ser, multivariada. Somos levados à conclusão de que a me- nos que um... problema seja tratado como multivariado, será tratado superficialmente" [7, p. 158]. De acordo com os estatísticos Hardyck e Peh-inovich [8, p. 7]: Os métodos de análise multivariada predominarão no fu- turo e resultarão em drásticas n1udanças na'maneira co- mo profissionais de pesquisa pensam em problemas e planejam sua pesquisa. Esses métodos tornam possível le- vantar questões específicas e precisas de considerável complexidade em cenários naturais. Isso viabiliza a con- dução de pesquisas teoricamente importantes e a avalia- ção dos efeitos de variações paramétricas que natural- mente ocorrem no contexto em que elas normalmente aparecem. Dessa maneira, as correlações naturais entre as mültiplas influências de comportamento podem ser pre- servadas e efeitos separados dessas influências, estuda- dos estatisticamente sem causar um isolamento comum de qualquer indivíduo ou variável. Por exemplo, os homens de negócios de hoje não conse- guem seguir a abordagem simplista na qual os consumi- dores são considerados homogêneos e caracterizados por um pequeno número de variáveis demográficas. Ao in- vés disso, eles devem desenvolver estratégias que ape- lem a inúmeros segmentos de clientes com características demográficas e psicográficas variadas em um mercado com múltiplas restrições (p. ex., legais, econômicas, com- petitivas, tecnológicas). É somente por meio de técnicas multivariadas que essas múltiplas relações podem ser adequadamente examinadas para se obter uma com- preensão mais completa e realista na tomada de decisões. Ao longo do texto, usamos o termo genérico "pesqui- sador" quando nos referimos a um analista de dados, profissional ou acadêmico. Julgamos inapropriado fazer distinção entre essas duas áreas, uma vez que a atividade de pesquisa deve se sustentar em bases teóricas e quanti- tativas. A despeito de os objetivos da pesquisa e da ênfa- se na interpretação poderem variai~ um pesquisador em qualquer área deve abordar todos os tópicos, sejam con- ceituais ou empíricos, que surgem nas discussões sobre os métodos estatísticos.
  • 14. 26 ANÁLISE MULTIVARIADA DE DADOS O impacto da revolução na informática É quase impossível discutir a aplicação de técnicas mul- tivariadas sem uma discussão do impacto do computa- dor. Como anteriormente mencionado, a ampla aplica- ção de computadores (primeiro de grande porte e depois computadores pessoais) para processar bancos de dados grandes e complexos tem incentivado significativamen- te o uso de métodos estatísticos multivariados. A teoria estatística para técnicas multivariadas de hoje foi desen- volvida bem antes do surgimento de computadores, mas essas técnicas permaneceram quase desconhecidas fora da área de estatística teórica até o momento em que o poder computacional tornou-se disponível para execu- tar seus cálculos cada vez mais complexos. Os avanços tecnológicos contínuos em computação, particularmen- te em computadores pessoais, têm oferecido, a qualquer pesquisador interessado, rápido acesso a todos os recur- sos necessários para abordar problemas multivariados de praticamente qualquer tamanho. De fato, muitos pes- quisadores referem-se a si mesmos como analistas de da- dos, em vez de estatísticos ou (como no vernáculo) "quantitativistas". Esses analistas de dados têm contri- buído substancialmente para o aumento do uso e da aceitacão da estatística multivariada em setores priva- dos e ,do governo. Dentro da comunidade acadêmica, disciplinas em todas as áreas têm adotado técnicas mul- tivariadas, e cada vez mais freqüentemente acadêmicos devem ser versados nas técnicas multivariadas apro- priadas para suas pesquisas empíricas. Mesmo para pes- soas com forte qualificação quantitativa, a disponibilida- de de pacotes computacionais para análise multivariada tem facilitado a complexa manipulação de matrizes de dados que há muito tempo têm dificultado o desenvol- vimento de técnicas multivariadas. Muitas universidades de porte já exigem que os ca- louros comprem seus próprios computadores antes da matrícula, e estudantes e professores agora rotineira- mente analisam dados multivariados para responder a questões em áreas de estudo que vão da antropologia à zoologia. Todos os pacotes estatísticos abrangentes ela- borados para computadores de grande porte (p. ex., SPSS, SAS e BMDP) estão agora disponíveis também em computadores pessoais. Programas especializados para outros tipos de análise multivariada, incluindo escalo- namento multidimensional, modelagem de equações si- multâneas e estruturais e análise conjunta, estavam ao alcance apenas - mas com limitações - em computado- res de grande porte, porém hoje eles são compatíveis com computadores pessoais. Sistemas especialistas es- tão sendo desenvolvidos para tratar até mesmo de ques- tões como a seleção de uma técnica estatística [4] ou o delineamento de um plano de amostragem para garan- tir objetivos estatísticos e práticos almejados [3]. Programas estatísticos não são mais primeiramente desenvolvidos para sistemas de grande porte e então adaptados para computadores pessoais; em vez disso, eles agora são incialmente desenvolvidos para o micro- computador. Talvez a categoria de programas estatísticos de mais rápido crescimento seja a dos pacotes estatísticos projetados especificamente para tirar proveito da flexibi- lidade do computador pessoal. Técnicas multivariadas são tão difundidas que todas as técnicas ilustradas neste texto podem ser avaliadas com pacotes estatísticos pron- tamente disponíveis tanto para computadores de grande porte quanto minicomputadores ou computadores pes- soais. Uma lista abrangente dos principais programas disponíveis de análise multivariada pode ser encontrada no Apêndice A. Dedica-se especial atenção a programas de computadores pessoais. Definição de análise multivariada Não é fácil definir análise multivariada. De um modo geral, ela refere-se a todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre ca- da indivíduo ou objeto sob investigação. Qualquer aná- lise simultânea de mais de duas variáveis de certo mo- do pode ser considerada análise multivariada. Assim, muitas técnicas multivariadas são extensões da análise univariada (análise de distribuições de uma única va- riável) e da análise bivariada (classificação cruzada, cor- relação, análise de variância e regressão simples usada para analisar duas variáveis). Por exemplo, regressão simples (com uma variável preditora) é estendida no caso multivariado para incluir várias variáveis predito- ras. Do mesmo modo, a variável dependente isolada encontrada na análise de variância é estendida de for- ma a incluir múltiplas variáveis dependentes em análi- se multivariada de variância. Em muitos casos, técnicas multivariadas são um meio de executar em uma única análise aquilo que antes exigia múltiplas análises usan- do técnicas univariadas. Outras técnicas multivariadas, contudo, são unicamente projetadas para lidar com questões multivariadas, como análise fatorial, que iden- tifica a estrutura subjacente a um conjunto de variáveis, ou análise discriminante, que discrimina grupos com base em um conjunto de variáveis. Uma razão para a dificuldade de definir análise mul- tivariada é que o termo multivariada não é usado de ma- neira consistente na literatura. Alguns pesquisadores o utilizam simplesmente para designar o exame de rela- ções entre mais de duas variáveis. Outros, somente em problemas nos quais todas as variáveis múltiplas são consideradas como tendo uma distribuição normal mul- tivariada. Para ser considerada verdadeiramente como multivariada, contudo, todas as variáveis devem ser aleatórias e'inter-relacionadas de maneira que seus dife- rentes efeitos não podem ser significativamente interpre- tados de forma separada. Alguns autores estabelecem que 0 propósito da análise multivariada é m~~ir,.explic~r _e prever o grau de relacionamento ent:: v~nave1s estatisti- cas (combinações ponderadas de vanave1s). Desse modo, 0 caráter multivariado consiste nas múltiplas variáveis es- tatísticas (combinações múltiplas de variáveis) e não ape- nas no número de variáveis ou observações. Para os pro- pósitos deste livro, :'ão !11sis~mos_e;11 uma de~ç~o rígi- da. A análise mulhvanada mclrnra tanto as tecmcas de múltiplas variáveis quanto as técnicas verdadeiramente multivariadas, uma vez que acreditamos que o conheci- mento de técnicas de múltiplas variáveis é um primeiro passo essencial na compreensão da análise multivariada. Alguns conceitos básicos de análise multivariada Apesar de a análise multivariada ter suas raízes nas esta- tísticas univariada e bivariada, a extensão para o domí- nio multivariado introduz éonceitos adicionais e ques- tões que têm particular relevância. Esses conceitos va- riam da necessidade de uma compreensão conceitua! do constructo da análise multivariada - a variável estatísti- ca - até pontos específicos que lidam com os tipos de es- calas de medida empregadas e as questões estastíticas de testes de significância e níveis de confiança. Cada concei- to tem um papel significativo na aplicação bem-sucedida de qualquer técnica multivariada. A variável estatística Como anteriormente mencionado, o constructo da análi- se multivariada é a variável estatística, uma combinação linear de variáveis com pesos empiricamente determina- dos. As variáveis são especificadas pelo pesquisador, sendo os pesos determinados pela técnica multivariada para atingir um objetivo específico. Uma variável estatís- tica de n variáveis ponderadas (X1 até X,,) pode ser enun- ciada matematicamente como: Valor da variável estatística= w1X1 + w2X2 + w3X3 + ... + w11 Xu onde X,, é a variável observada e w,, é o peso determina- do pela técnica multivariada. O resultado é um único valor que representa uma combinação do conjunto inteiro de variáveis que melhor atinge o objetivo da análise multivariada específica. Em regressão múltipla, a variável estatística é determinada de modo a melhor se correlacionar com a variável a ser prevista. Em análise discriminante, a variável estatística é formada de modo a criar escores para cada observação INTRODUÇÃO 27 que diferencie de forma máxima entre grupos de obser- vações. Em análise fatorial, variáveis estatísticas são for- madas para melhor representarem a estrutura subjacente ou a dimensionalidade das variáveis como representadas por suas intercorrelações. Em cada caso, a variável estatística captura o caráter multivariado da análise. Assim, em nossa discussão de cada técnica, a variável estatística é foco da análise em muitos aspectos. Devemos compreender não apenas seu impacto coletivo em satisfazer o objetivo da técnica, mas também a contribuição de cada variável separada para o efeito geral da variável estatística. Escalas de medida A análise de dados envolve a partição, a identificação e a medida de variação em um conjunto de variáveis, seja en- tre elas ou entre uma variável dependente e uma ou mais variáveis independentes. A palavra-chave aqui é medida, pois o pesquisador não pode repartir ou identificar varia- ção a menos que ela possa ser medida. A mensuração é importante para representar com precisão D conceito de interesse e é instrumental na seleção do método multiva- riado apropriado para análise. A seguir, discutimos como o conceito de medida se relaciona à análise de dados e particularmente às várias técnicas multivariadas. Há dois tipos básicos de dados: não-métricos (quali- tativos) e métricos (quantitativos). Dados não-métricos são atributos, características ou propriedades categóricas que identificam ou descrevem um objeto. Descrevem di- ferenças em tipo ou espécie, indicando a presença ou au- sência de uma característica ou propriedade. Muitas pro- priedades são discretas, no sentido de terem uma caracte- rística particular, sendo todas as outras características ex- cluídas; por exemplo, se alguém é do sexo masculino, não pode ser do sexo feminino. Não existe qualquer "quan- tia" de sexo; há apenas o estado de ser masculino ou femi- nino. Em contrapartida, medidas de dados méhicos são feitas de modo que os indivíduos podem ser identificados como diferenciados em quantia ou grau. Variáveis metri- camente medidas refletem quantidade relativa ou grau. Medidas métricas são apropriadas para casos que envol- vem quantia ou magnitude, como nível de satisfação ou compromisso com um emprego. Escalas de medida não-métrica As medidas não-métricas podem ser feitas com uma es- cala nominal ou ordinal. A medida com uma escala no- minal designa números usados para rotular ou identifi- car indivíduos ou objetos. As escalas nominais, também conhecidas como escalas categóricas, fornecem o núme- ro de ocorrências em cada classe ou categoria da variá- vel em estudo. Portanto, os números ou símbolos desig- nados aos objetos não têm significado quantitativo além
  • 15. 28 ANÁLISE MULTIVARIADA DE DADOS da indicação da presença ou ausência do atributo ou ca- racterística sob investigação. Exemplos de dados esca- lonados nominalmente incluem o sexo , a religião ou o partido político de um indivíduo. Ao trabalhar com es- ses dados, o pesquisador pode designar números para cada categoria, por exemplo, 2 para mulheres e 1 para homens. Esses números simplesmente representam ca- tegorias 011 classes e não implicam quantias de um atri- buto ou característica. Escalas ordinais são o próximo nível superior de precisão em medida. Variáveis podem ser ordenadas ou ranqueadas com escalas ordinais em relação à quantia do atributo possuída. Toda subclasse pode ser compara- da com outra em termos de uma relação. da forma "maior que" ou "menos que". Por exemplo, diferentes níveis de satisfação de um consumidor em relação a di- versos novos produtos podem ser ilustrados em uma escala ordinal. A escala a seguir mostra a opinião de um respondente sobre três produtos. Ele está mais satisfei- to com A do que com B e mais satisfeito com B do que comC. Produto A Produto B Produto e 1 1 1 Muito satisfeito Insatisfeito Os números utilizados em escalas ordinais, como esses, são não-quantitativos, pois indicam apenas posições re- lativas em uma série ordenada. Não existe medida de grau de satisfação do consumidor em termos absolutos, e o pesquisador também não sabe a diferença exata en- tre pontos na escala de satisfação. Muitas escalas em ciências do comportamento recaem nessa categoria or- dinal. Escalas de medida métrica As escalas intervalares e escalas de razão (ambas métri- cas) fornecem o mais alto nível de precisão de medida, permitindo que quase todas as operações matemáticas sejam executadas. Essas duas escalas têm unidades constantes de medida e, portanto, diferenças entre quaisquer dois pontos adjacentes em qualquer parte da escala são iguais. A única diferença real entre escalas in- tervalares e escalas de razão é que as primeiras têm um ponto zero arbitrário, enquanto as segundas têm um ponto zero absoluto. As escalas intervalares mais fami- liares são as escalas de temperatura Fahrenheit e Cel- sius. Cada uma tem um ponto zero arbitrário diferente e nenhuma indica uma quantia nula ou ausência de temperatura, já que podemos registrar temperaturas abaixo do ponto zero em ambas. Logo, não é possível dizer que qualquer valor em uma escala intervalar é um múltiplo de algum outro ponto da escala. Por exemplo, não se pode considerar que um dia de SOºF tenha o do- bro de temperatura de um dia de 40ºF, pois sabemos que SOºF, em uma escala diferente, como Celsius, é 26,7ºC. Do mesmo modo, 40ºF em Celsius é 4,4ºC. Ape- sar de 80°F ser de fato o dobro de 40ºF, não podemos afirmar que o calor de SOºF é o dobro do calor de 40ºF, já que, usando diferentes escalas, o calor não tem o dobro da intensidade, isto é, 4,4ºC x 2 * 26,7ºC. As escalas de razão representam a mais elevada for- ma de precisão de medida, pois possuem as vantagens de todas as escalas inferiores somadas à existência de um ponto zero absoluto. Todas as operações matemáti- cas são possíveis com medidas de escala razão. As ba- lanças de banheiros ou outros aparelhos comuns para medir pesos são exemplos dessas escalas, pois têm um ponto zero absoluto, e assim podemos falar em termos de múltiplos quando relacionamos um ponto da escala com outro; por exemplo, 100 libras é duas vezes o peso de 50 libras. Compreender os diferentes tipos de escalas de me- dida é importante por duas razões. Primeiro, o pesqui- sador deve identificar a escala de medida de cada va- riável usada, de forma que dados não-métricos não se- jam incorretamente usados como dados métricos e vi- ce-versa. Segundo, a escala de medida é cr.ítica ao de- terminar quais técnicas multivariadas são as mais apli- cáveis aos dados, com considerações feitas para ambas as variáveis, independentes e dependentes. Na discus- são sobre as técnicas e sua classificação em seções, apresentadas mais adiante, as propriedades métricas e não-métricas de variáveis independentes e dependen- tes são os fatores determinantes na escolha da técnica apropriada. Erro de medida e medida multivariada O uso de variáveis múltiplas e a confiança em sua combi- nação (a variável estatística) em técnicas multivariadas também concentra a atenção em uma questão comple- mentar - o erro de medida. Erro de medida é o grau em que os valores observados não são representativos dos valores "verdadeiros". Tem muitas fontes, que variam desde os erros na entrada de dados devido à imprecisão da medida (p. ex., impor escalas com sete pontos para medida de atitude quando o pesquisador sabe que os respondentes podem responder precisamente apenas em escalas de três pontos) até a falta de habilidade de respondentes em fornecerem informações precisas (p. ex., respostas como a renda familiar podem ser razoa- velmente corretas, mas raramente exatas). Assim, todas as variáveis usadas em técnicas multivariadas devem ser consideradas como tendo um certo grau de erro de medida. O impacto de erro de medida é o acréscimo de "ruído" às variáveis observadas ou medidas. Logo, o valor observado obtido representa tanto o nível "verda- deiro" quanto o "ruído". Quando usado para computar correlações ou médias, o efeito "verdadeiro" é parcial- mente mascarado pelo erro de medida, causando um enfraquecimento nas correlações e menor precisão nas médias. O impacto específico de erro de medida e sua acomodação em relacionamentos de dependência é abordado mais detalhadamente no Capítulo 11. O objetivo do pesquisador de reduzir o erro de medi- da pode seguir diversos caminhos. Ao avaliar o grau de erro presente em qualquer medida, o pesquisador deve levar em conta a validade e a confiabilidade da medida. Validade é o grau em que uma medida representa preci- samente aquilo que se espera. Por exemplo, se queremos medir renda discricionária, não devemos perguntar a renda familiar total. A garantia da validade começa com uma compreensão direta do que deve ser medido e então realizar a medida tão "correta" e precisa quanto possível. No entanto, valores exatos não garantem validade. Em nosso exemplo de renda, o pesquisador poderia definir com grande exatidão o que é renda familiar, mas ainda ter uma medida inválida de.renda discricionária porque a pergunta"correta" não foi formulada. Se a validade está garantida, o pesquisador deve ain- da considerar a confiabilidade das medidas. Confiabili- dade é o grau em que a variável observada mede o valor "verdadeiro" e está "livre de erro"; assim, é o oposto de erro de medida. Se a mesma medida for feita repetida- mente, por exemplo, medidas mais confiáveis mostrarão maior consistência do que medidas menos confiáveis. O pesquisador sempre deve avaliar as variáveis emprega- das_e se medidas alternativas válidas estão disponíveis, e entao escolher a variável com a maior confiabilidade. Além disso, o pesquisador pode querer desenvolver medidas multivariadas, também conhecidas como esca- las múltiplas, nas quais diversas variáveis são reunidas em uma medida composta para representar um conceito (p. ex., escalas de personalidade com múltiplos itens ou e.scal~s n:1últiplas de satisfação com um produto). O obje- tivo e evitar o uso de apenas uma variável para represen- tar um conceito e, ao invés disso, usar várias variáveis como i~dicadores (ver Termos-Chave), todos represen- tando diferentes facetas do conceito, para se obter uma perspectiva mais "ampla". O uso de múltiplos indicado- res permite ao pesquisador especificar mais precisa- n:iente as respostas desejadas. Não deposita total con- fia~J~ e.m ~ma única re.sposta, mas na resposta "média" ou tlp1ca de um coniunto de respostas relacionadas. ~or exemplo, ao medir satisfação, poder-se-ia perguntar simplesmente "Quão satisfeito você está?" e basear a anális~ nesta única resposta. Ou uma escala múltipla poderia s':r de~envolvida combinando-se várias respos- tas de satisfaçao, talvez em diferentes formatos deres- INTRODUÇÃO 29 posta e ':m.difere~tes ~reas de interesse imaginadas pa- ra con~tit_u1r a satisfaçao geral. A premissa é que respos- tas mult1plas refletem a resposta "verdadeira" com maior precisão do que uma única resposta. Avaliação de confiabi!idade e incorporação de escalas na análise são métodos que o pesquisador deve empregar. Para uma introdução mais detalhada a modelos de múltiplas me- didas e construção de escalas, ver discussão suplemen- tar no Capítulo 3 (Análise Fatorial) e no Capítulo 11 (Modelagem de Equações Estruturais) ou textos adicio- nais [10]. Além disso, compilações de escalas que podem fornecer ao pesquisador uma escala "pronta para usar" com confiabilidade demonstrada têm sido publicadas re- centemente [1,5]. O impacto de erro de medida e a confiabilidade ruim não podem ser diretamente percebidos, uma vez que es- tão embutidos nas variáveis observadas. Portanto, o pes- quisador sempre deve trabalhar para aumentar a confia- bilidade e a validade, que em contrapartida resultarão em uma descrição "mais verdadeira" das variáveis de in- teresse. Resultados pobres não são sempre devido a erro de medida, mas a presença de erro de medida certamen- te distorce as relações observadas e torna as técnicas mul- tivariadas menos poderosas. Reduzir erro de medida, apesar de demandar esforço, tempo e recursos adicio- nais, pode melhorar resultados fracos ou marginais, bem como fortalecer resultados demonstrados. Significância estatística versus poder estatístico Todas as técnicas multivariadas, exceto análise de agru- pamentos e escalonamento multidimensional, são ba- seadas na inferência estatística dos valores ou relações de uma população entre variáveis de uma amostra alea- tória extraída daquela população. Se conduzimos um censo da população inteira, então a inferência estatísti- ca é desnecessária, pois qualquer diferença ou relação, não importa quão pequena, é "verdadeira" e existe. En- tretanto, raramente, ou nunca, um censo é realizado; lo- go, o pesquisador é obrigado a fazer inferências a partir de uma amostra. - Interpretar inferências estatísticas requer que o pes- quisador especifique os níveis de erro estatístico aceitá- veis. A abordagem mais comum é especificar o nível do erro Tipo I, também conhecido como alfa (o:). O erro TI- po I é a probabilidade de rejeitar a hipótese nula quan- do a mesma é verdadeira, ou, em termos simples, a chance de o teste exibir significância estatística quando na verdade esta não está presente - o caso de um "posi- tivo falso". Ao especificar um nível alfa, o pesquisador estabelece os limites permitidos para erro, especifican-
  • 16. 30 ANÁLISE MULTIVARIADA DE DADOS do a probabilidade de se concluir que a significância existe quando na realidade esta não ocorre. Quando especifica o nível de erro Tipo I, o pesquisa- dor também determina um erro associado, chamado de erro Tipo II ou beta (~). O erro Tipo II é a probabilidade de não rejeitar a hipótese nula quando na realidade esta é falsa. Urna probabilidade ainda mais interessante é 1 - ~' chamada çle poder do teste de inferência estatística. Po- der é a probabilidade de rejeitar corretamente a hípótese nula quando esta deve ser rejeitada. Logo, poder é a probabilidade de a significância esta- tística ser indicada se estiver presente. A relação das dife- rentes probabilidades de erro na situação hipotética de teste para a diferença em duas médias é rnosttada aqui: Realidade H0 : sem diferença Hn: com diferença H0:sem ~ diferença 1 - (1 Erro Tipo li Decisão estatística H3:com (1 1-~ diferença Erro Tipo 1 Poder Apesar de a especificação de alfa estabelecer o nível de significância estatística aceitável, é o nível de poder que determina a probabilidade de "sucesso" em encontrar as diferenças se elas realmente existirem. Então por que não fixar alfa e beta em níveis aceitáveis? Porque os erros Ti- po I e Tipo II são inversamente relacionados e, à medida que o erro Tipo I se toma mais restritivo (se aproxima de zero), o erro Tipo II aumenta. Reduzir erros Tipo I, por- tanto, reduz o poder do teste es.tatístico. Assim, o pesqui- sador deve jogar com o equilíbrio entre o nível alfa e o poder resultante. O poder não é apenas uma função de a. É na verda- de determinado por três fatores: 1. Tamanho do efeito - A probabilidade de atingir sig- nificância estatística, é baseada não apenas em consi- derações estatísticas, mas também na verdadeira magnitude do efeito de interesse (p. ex., tuna diferen- ça de médias entre dois grupos ou a correlação entre variáveis) na população, denominado tamanho do efeito* (ver Termos-Chave). Como era de se esperar, um efeito maior é mais facilmente encontrado do que um efeito menor, o que causa impacto no poder do teste estatístico. Para avaliar o poder de qualquer tes- te estatístico, o pesquisador deve primeiro com- preender o efeito sendo examinado. Os tamanhos de efeito são definidos em termos padronizados para fa- cilitar a comparação. As diferenças de média são da- das em termos de desvios-padrão, de modo que um tamanho de efeito de 0,5 indica que a diferença de média é metade de um desvio-padrão. Para correia- * N. de R.T. Em inglês, effect size (ES). ções, o tamanho do efeito é baseado na real correla- ção entre as variáveis. 2. Alfa (a) - Como já foi discutido, quando alfa se torna mais restritivo, o poder diminui. Isso significa que quando o pesquisador reduz a chance de encontrar um efeito significante incorreto, a probabilidade de corretamente encontrar um efeito também diminui. Diretrizes convencionais sugerem níveis de alfa de 0,05 ou 0,01. Entretanto, o pesquisador deve conside- rar o impacto dessa decisão sobre o poder antes de selecionar o nível alfa. A relação dessas duas probabi- lidades é ilustrada em discussões posteriores. 3. Tamanho da amostra - Em qualquer nível alfa, tama- nhos de amostras aumentados sempre produzem maior poder do teste estatístico. No entanto, aumentar o tamanho da amostra também pode produzir poder "em excesso". Isso significa que se aumentarmos o ta- manho da amosh·a, efeitos cada vez menores serão considerados estatisticamente significantes, até o pon- to em que para tamanhos de amostra muito gra)'.ldes praticamente qualquer efeito será significante. O pes- quisador sempre deve estar ciente de que o tamanho da amostra pode impactar o teste estatístico, tornan- do-o insensível (com amostras pequenas) ou exagera- damente sensível (com amosh·as muito grandes). As relações entre alfa, tamanho da amostra, tama- nho do efeito e poder são muito complicadas, e muitas referências de orientação estão disponíveis. Cohen [6] examina o poder para a maioria dos testes de inferência estatística e apresenta uma orientação para níveis acei- táveis de poder, sugerindo que estudos devem ser pla- nejados para atingir níveis alfa de pelo menos 0,05 com níveis de poder de 80%. Para atingir tais níveis de po- der, os três fatores - alfa, tamanho da amostra e tama- nho do efeito - devem ser considerados simultanea- mente. Essas inter-relações podem ser ilustradas por dois exemplos simples. O primeiro envolve o teste para a diferença entre os escores médios de dois grupos. Considere que o tamanho do efeito deva variar entre pequeno (0,2) e moderado (0,5). O pesquisador agora deve determinar o nível alfa necessário e o tamanho da amostra de cada grupo. A Tabela 1.1 ilustra o impacto do tamanho da amostra e do nível alfa necessário sobre o poder. Como se vê, o poder se torna aceitável com ta- manhos de amostra de 100 ou mais em situações com um tamanho de efeito moderado nos dois níveis alfa. Todavia, quando o tamanho do efeito é pequeno, os tes- tes estatísticos têm pouco poder, mesmo com níveis alfa expandidos ou amostras de 200 ou mais. Por exemplo, uma amostra de 200 em cada grupo, com um alfa de 0,05, ainda tem apenas 50% de chance de diferenças sig- nificantes serem encontradas se o tamanho do efeito for pequeno. Isso sugere que se o pesquisador antecipar que os efeitos serão pequenos, ele deverá planejar o es- /NTRODUÇÃO 31 TABELA 1.1 'Níveis de poder para a comparação de duas médias: variacões por tamanho de amostra nível de · ·t· , · tamanho do efeito ' ' sigrn 1cancia e alfa (a) - 0,05 Tamanho do efeito (ES - Effect Size) alfa (a) =0,01 Tamanho do efeito (ES) Tamanho da amostra Pequeno (0,2) Moderado (0,5) Pequeno (0,2) Moderado (0,5) 20 40 60 80 100 150 200 0,095 0,143 0,192 0,242 0,290 0,411 0,516 Fonte: Solo Power A11nlysis, BMDP Statistical Software, Inc. 0,338 0,598 0,775 0,882 0,940 0,990 0,998 tudo com tamanhos de amostra muito maiores e/ou ní- veis alfa menos restritivos (0,05 ou 0,10). No segundo exemplo, a Figura 1.1 apresenta grafica- mente o poder para níveis de significância 0,01, 0,05 e 0,10 para tamanhos de amostra de 30 a 300 por grupo, quando o tamanho do efeito (0,35) está entre pequeno e moderado. Diante de tais perspectivas, a especificação de um nível de significância de 0,01 requer uma amostra de 200 por grupo para atingir o nível desejado de 80% de poder. No entanto, se o nível alfa é relaxado, um poder 0,6 0,4 0,2 0,025 0,144 0,045 0,349 0,067 0,549 0,092 0,709 0,120 0,823 0,201 0,959 0,284 0,992 de 80% é alcançado com amostras de 130 para um nível alfa de 0,05 e de 100 para um nível alfa de 0,10. _T~is análises permitem que o pesquisador tenha mais mformações para tomar decisões sobre o planeja- mento de estudo e a interpretação dos res1,1ltados. Ao planejar uma pesquisa, o pesquisador deve estimar o tamanho do efeito e então selecionar o tamanho da am_ostra e alfa para atingir o nível de poder desejado. Alem de seus usos para planejamento, a análise de po- der também é utilizada depois que a análise está com- Poder sugerido: 0,80 f Tamanho do efeito: 0,351 0,0 ,~--=-----==---J___L_---1_ _..J__ _j__ __JL___ _j__ _j___ _L__ _j__---1_ 30 50 70 90 110 130 150 170 190 230 270 290 210 250 Tamanho da amostra por grupo FIGURA 1.1 Impacto do tamanho da amostra sobre o poder para vários níveis alfa (O 01 O05 O10) com tamanho do efeito de 0,35. 1 ' ' ' '
  • 17. 32 ANÁLISE MULTIVARIADA DE DADOS pleta para determinar o real poder alcançado, de modo que os resultados possam ser apropriadamente inte1:- pretados. Os resultados são devido a tamanhos de efei- to, tamanhos das amostras ou níveis de significância? O pesquisador pode avaliar cada um desses fatores por seu impacto na significância ou não-significância dos resultados. O pesquisador de hoje pode consultar estu- dos publicados que detalham as especificações da de- terminação de poder [6] ou apelar para diversos progra- mas de computador que auxiliam no planejam~nto de estudos com o propósito de atingir o poder desejado ou calcular o poder de resultados reais [2,3]. Orientações específicas para regressão múltipla.e análise multiv~r!a- da de variância - as aplicações mais comuns de analise de poder - são discutidas com mais detalhes nos Capí- tulos 4 e 6. Após termos abordado as questões de estender técni- cas multivariadas a partir de suas origens univariadas e bivariadas, agora introduzimos brevemente cada méto- do multivariado discutido no texto. Após as introduções das técnicas, apresentamos um esquema de classificação para auxiliar na seleção da técnica apropriada, especifi- cando os objetivos da pesquisa (relação de independên- cia ou dependência) e os tipos de dados (métricos ou não-métricos). Tipos de técnicas multivariadas Análise multivariada é um conjunto de técnicas para análi- se de dados que está sempre em expansão. Dentre as técni- cas mais estabelecidas discutidas neste livro, estão (1) aná- lise de componentes principais e análise dos fatores co- muns, (2) regressão múltipla e correlação múltipla, (3) aná- lise discriminante múltipla, (4) análise multivariada deva- riância e covariância, (5) análise conjunta, (6) correlação ca- nônica, (7) análise de agmpamentos e (8) escalonamento multidimensional. Denh·e as técnicas emergentes, também estão incluídas (9) análise de correspondência, (10) modelos lineares de probabilidade, como logit e probit, e (11) a mode- lagem de equações simultâneas/estruhirais. Aqui introdu- zimos cada uma das técnicas multivariadas, definindo bre- vemente a técnica e o objetivo para sua aplicação. Análise de componentes principais e análise dos fatores comuns Análise fatorial, que inclui análise de componentes principais e análise dos fatores comuns, é um.a ab~rda- gem estatística que pode se: usada para ~~al;sar mte:- relações entre um grande numero de vanave1s e expli- car essas variáveis em termos de suas dimensões ine- rentes comuns (fatores). O objetivo é encontrar um meio de condensar a informação contida em um nú- mero de variáveis originais em um conjunto menor de variáveis estatísticas (fatores) com urna perda mínima de informação. Pelo fato de fornecer urna estimativa empírica da "estrutura" das variáveis consideradas, a análise fatorial se torna urna base objetiva para criar escalas rnúltiplas. Regressão múltipla Regressão múltipla é o método de análise ap 7 o~riado quando o problema de pesquisa envolve urna uruca va- riável dependente métrica considerada relacionada a duas ou mais variáveis independentes métricas. O obje- tivo da análise de regressão múltipla é prever as mudan- ças na variável dependente corno resposta a mudanças nas variáveis independentes. Esse objetivo é alcançado, com freqüência, por meio da regra estatística dos míni- mos quadrados. Sempre que o pesquisador estiver interessado em prever a quantia ou rnagnirude da variável dependente, a regressão múltipla será útil. Por exemplo, despesas mensais com jantares fora de casa (variável dependen- te) podem ser previstas a partir de informações referen- tes a renda familiar, tamanho da família e idade do che- fe da família (variáveis independentes). Do mesmo mo- do, o pesquisador pode tentar prever as vendas de urna empresa a partir de informações sobre suas despesas em publicidade, o número de vendedores e o número de lojas que vendem seus produtos. Análise discriminante múltipla Análise discriminante múltipla (MDA- multiple discri- minant analysis) é a técnica multivariada adequada quando a única variável dependente é dicotômica (p. ex., masculino-feminino) ou multicotôrnica (p. ex., alto- médio-baixo) e, portanto, não-métrica. Corno na regres- são múltiplá, pressupõe-se que as variáveis indepen- dentes sejam métricas. A análise discriminante é aplicá- vel em situações nas quais a amostra total pode ser divi- dida em grupos baseados em uma variável dependente não-métrica que caracteriza diversas classes conheci- das. Os objetivos primários da análise discriminante múltipla são entender diferenças de grupos e prever a probabilidade de que uma entidade (indivíduo ou obje- to) pertencerá a uma classe ou grupo em particular com base em diversas variáveis independentes métricas. Por exemplo, a análise discriminante poderia ser emprega- da para distinguir inovadores de não-inovadores de acordo com seus perfis demográficos e psicográficos. Outras aplicações incluem a distinção de usuários de peso daqueles que não o são, sexo masculino de sexo feminino, consumidores de marcas nacionais de consu- midores de marcas importadas e bons riscos de crédito de riscos ruins de crédito. Até mesmo o Interna! Reve- nue Service dos EUA usa análise discriminante para comparar restituições de impostos federais seleciona- das com uma restituição hipotética de contribuinte composta e normal (com diferentes níveis de renda) pa- ra identificar as restituições mais promissoras e áreas para auditoria. Análise multivariada de variância e covariância A análise multivariada de variância (MANOVA- multi- variate analysis ofvariance and covariance) é uma técnica estatística que pode ser usada para explorar simulta- neamente as relações entre diversas variáveis indepen- dentes categóricas (geralmente chamadas de tratamen- tos) e duas ou mais variáveis dependentes métricas. Co- mo tal, representa urna extensão da análise univariada de variância (ANOVA- univariate analysis ofvariance). A análise multivariada de covariância (MANCOVA - rnultivariate analysis of covariance) pode ser usada em conjunção com MANOVA para remover (após o experi- mento) o efeito de quaisquer variáveis independentes métricas não controladas (conhecidas como covariáveis estatísticas) sobre as variáveis dependentes. O procedi- mento é análogo ao envolvido na correlação parcial bi- variada, na qual o efeito de uma terceira variável é re- movido da correlação. MANOVA é útil quando o pes- quisador planeja urna sihiação experimental (manipu- lação de várias variáveis não-métricas que representam tratamento) para testar hipóteses referentes à variância em respostas nos grupos sobre duas ou mais variáveis dependentes métricas. Análise conjunta A análise conjunta é uma técnica emergente de depen- dência que tem trazido nova sofisticação para a avalia- ção de objetos, como produtos novos, serviços ou idéias. A aplicação mais direta é no desenvolvimento de novos produtos ou serviços, viabilizando a avaliação de produtos complexos e mantendo um contexto realista de decisão para o respondente. O pesquisador de mer- cado é capaz de avaliar a importância de atributos, bem como os níveis de cada atributo, enquanto consumido- res avaliam apenas uns poucos perfis do produto, os quais são combinações de níveis de produto. Por exem- plo, considere que um dado produto tenha três atribu- tos (preço, qualidade e cor), cada um com três níveis possíveis (p. ex., vermelho, amarelo e azul). Em vez de avaliar as 27 (3 x 3 x 3) combinações possíveis, um sub- conjunto (9 ou mais) pode ser avaliado por seu apelo perante consumidores, e o pesquisador sabe não apenas INTRODUÇÃO 33 o quão importante cada atributo é, mas também a im- portância de cada nível (a atratividade de vermelho ver- sus amarelo versus azul). Além disso, quando as avalia- ções do consumidor são concluídas, os resultados da análise conjunta podem igualmente ser usados em si- muladores de planejamento do produto, os quais mos- tram a aceitação do consumidor a qualquer número de formulações do produto e ajudam no planejamento do produto ótimo. Correlação canônica A análise de correlação canônica pode ser vista corno urna extensão lógica da análise de regressão múltipla. Lembre que a análise de regressão múltipla envolve uma única variável dependente métrica e várias variáveis in- dependentes métricas. Com a análise canônica, o objeti- vo é correlacionar simultaneamente diversas variáveis dependentes métricas e diversas variáveis independen- tes métricas. A regressão múltipla envolve urna única va- riável dependente; a correlação canônica envolve múlti- plas variáveis dependentes. O princípio subjacente é desenvolver urna combina- ção linear de cada conjunto de variáveis (independentes e dependentes) para maximizar a correlação entre os dois conjuntos. Em outras palavras, o procedimento en- volve a obtenção de um conjunto de pesos para as va- riáveis dependentes e independentes que fornece a cor- relação simples máxima entre o conjunto de variáveis dependentes e o de variáveis independentes. Análise de agrupamentos A análise de agrupamentos é uma técnica analítica para desenvolver subgrupos significativos de indivíduos ou objetos. Especificamente, o objetivo é classificar uma amostra de entidades (indivíduos ou objetos) em um pe- queno número de grupos rnuhlamente excludentes, com base nas similaridades entre as entidades. Na análise de agrupamentos, diferentemente da análise discriminante, os grupos não são predefinidos. Ao invés disso, a técnica é usada para identificar os grupos. A análise de agrupamentos geralmente envolve pelo menos três passos. O primeiro é a medida de alguma for- ma de similaridade ou associação entre as entidades pa- ra determinar quantos grupos realmente existem na amostra. O segundo é o próprio processo de agrupamen- to, nas quais entidades são particionadas em grupos (agrupamentos). O último passo é estabelecer o perfil das pessoas ou variáveis para determinar sua composição. Muitas vezes, isso é possível pela aplicação da análise discriminante aos grupos identificados pela técnica de agrupamento.