Apostila planejamento

1.286 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.286
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
23
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apostila planejamento

  1. 1. Capitulo 1- Introdução Praticamente em todas as áreas do conhecimentos o uso da estatística emespecial das técnicas de planejamento de experimentos são imprecendiveis para astomadas de decisão visando a avaliação de novos procedimentos ou a otimização deprocessos e produtos. Segundo Montegomery(2001), um experimento planejado é um teste, ou série detestes, no qual são feitas mudanças propositais nas variáveis de entrada de um processo,de modo a podermos observar e identificar mudanças correspondentes na resposta desaída. Figura 1.1: Modelo geral de um processo O processo, como mostra a Figura 1, pode ser visualizado como umacombinação de máquinas, métodos e pessoas, que transforma um material de entradaem um produto de saída. Este produto de saída pode ter uma ou mais características daqualidade observáveis ou respostas. Algumas das variáveis do processo x1 , x 2 ,  , x psão controláveis, enquanto outras, z1 , z 2 ,  , z q são não-controláveis(embora possamser controláveis para efeito de teste). Algumas vezes, esses fatores não-controláveis sãochamados fatores de ruído. Os objetivos do experimento podem incluir 1. Determinação de quais variáveis são mais influentes na resposta y . 2. Determinação do valor a ser atribuído aos x ’s influentes de modo que y esteja perto da exigência nominal. 3. Determinação do valor a ser atribuído aos x ’s influentes de modo que a variabilidade em y seja pequena. 4. Determinação do valor a ser atribuído aos x ’s influentes de modo que os efeitos das variáveis não-controláveis sejam minimizados. Assim, métodos de planejamento experimental podem ser usados tanto nodesenvolvimento do processo quanto na solução de problemas do processo, paramelhorar o seu desempenho ou obter um processo que seja robusto ou não-sensível afontes externas de variabilidade. 1
  2. 2. Aplicação dos Planejamentos Experimentais na Industria são fundamentais paradesenvolvimento de novos produtos e para o controle de processos. Nesta área é comumaparecer problemas em que se precisa estudar várias propriedades ao mesmo tempo eestas, por sua vez, são afetadas por um grande número de fatores experimentais. È papelde técnicas de planejamento de experimentos, auxiliar na fabricação de produtos commelhores características, na diminuição do seu tempo de desenvolvimento, aumentar aprodutividade de processos e minimizar a sensibilidade a fatores externos (NETO et al.,2001). A análise de dados para os modelos de planejamento de experimentos ficapraticamente inviabilizada sem o uso de softwares específicos. Neste material éapresentado as possíbilidades de análise de dados para modelos de planejamento pelosoftware R. O software R, que é uma linguagem e ambiente para computação estatística egráfica de domínio público (VENABLES e SMITH, 2001), atualmente muito difundidonos grandes centros, contudo pouco conhecido em Goiás. Este software pode ser umaótima alternativa para o trabalho com Análise de Experimentos, pois, tem apresentadoigual ou superior eficiência para análise de dados, além de haver material disponível nainternet e listas de discussão que servem como guia de suporte e aprendizagem. Nesta apostila serão apresentados um resumo dos principais modelos deplanejamento de experimentos, dentre os quais destacamos: Planejamentocompletamente aleatorizado com único fator, Planejamento completamente aleatorizadocom blocos, Planejamento Fatoriais e Planejamentos Hierarquicos e para cada modeloapresentou-se a sequencia de comandos em R para a análise estatística dos modelos, quegeram os resultados finais como o Quadro da ANOVA, as Comparações Multiplas e aAnálise de Resíduos. 2
  3. 3. Capítulo 2- Elementos Básicos da Experimenta-ção Segundo Werkema & Aguiar (1996), para se realizar de forma eficiente umexperimento, deve-se ser utilizada uma abordagem científica para o planejamento.Esta abordagem é identificada por meio do termo planejamento estatístico deexperimentos, que se refere ao procedimento de planejar um experimento de forma queos dados apropriados sejam coletados em tempo e custo mínimos. A análise destesdados por meio de técnicas estatísticas resultará em conclusões confiáveis. Portanto existem dois aspectos fundamentais em qualquer estudo experimental:o planejamento do experimento e a análise estatística dos dados. Estes dois aspectosdevem ser bem avaliados, já que a técnica de análise depende diretamente doplanejamento utilizado. Um dos grande problemas dos estudos experimentais é a coleta de dados. Se osdados forem coletados de forma inadequada, não há técnica estatística de análise dedados que concerte o problema e todo o experimento fica comprometido.2.1 Princípios Básicos Para que seja possível planejar de modo adequado a coleta de dados, princípiosbásicos do planejamento de experimentos como a réplica, a aleatorização e a formaçãode blocos devem ser entendidos.2.1.1- Réplicas As réplicas são repetições do experimento feitas sob as mesmas condiçõesexperimentais. O termo “sob as mesmas condições experimentais” se refere ao fato deque os demais fatores que possam influenciar a variável resposta de interesse sejamcontrolados de modo a não sofrerem variações de uma experimentação para outra. Em um experimento, a realização de réplicas é importante pelos seguintesmotivos: • As réplicas permitem a obtenção de uma estimativa da variabilidade devida ao erro experimental. A partir desta estimativa é possível avaliar se a variabilidade presente nos dados é devida somente ao erro experimental ou se existe influência das diferentes condições avaliadas pelo pesquisador. Se estas condições forem influentes, o responsável pela pesquisa poderá determinar qual é a condição mais favoravel para conduzir o experimento. • Por meio da escolha adequada do número de réplicas é possível detectar, com precisão desejada, quaisquer efeitos produzidos pelas diferentes condições experimentais que sejam considerados significantes do ponto de vista prático.2.1.2- Aleatorização A expressão aleatorização se refere ao fato de que tanto a alocação do materialexperimental às diversas condições de experimentação, quanto a ordem segundo a qualos ensaios individuais do experimento serão realizados, são determinados ao acaso. Aaleatorização torna possível a plicação dos métodos estatísticos para a análise dos 3
  4. 4. dados. A maioria dos modelos subjacentes e estes métodos estatísticos exigem que oscomponentes do erro experimental sejam variáveis aleatórias independentes e aaleatorização geralmente torna válida esta exigência. A aleatorização permite ainda que os efeitos de fatores não-controlados, queafetam a variável resposta e que podem estar presentes durante a realização doexperimento, sejam balanceados entre todas as possíveis medidas. Este balanceamentoevita possíveis confundimentos na avaliação dos resultados devido à atuação destesfatores.2.1.3- Formação de Blocos Em muitas situações experimentais é necessário planejar o experimento deforma que a variabilidade resultante de fatores externos conhecidos, sobre os quais nãoexiste interesse, possa ser sistematicamente controlada e avaliada. Se estes fatores externos não forem controlados, mesmo usando a aleatorização,o erro experimental irá refletir tanto o erro aleatório inerente ao experimento, quanto avariabilidade existente em função desses fatores. Nesta situação, deve-se formar blocos para os varios fatores externos deinfluência, e realizar repetições completas do experimento em cada bloco, dessa formaem cada bloco poderão ser observadas as diferenças existentes devido ao fator deinteresse, minimizando assim o efeito dos fatores pertubadores no resultado final doexperimento. Aqui cada bloco corresponde a um corpo de prova. Note que o objetivoprincipal do experimento não é medir o efeito destes fatores pertubadores, mas simavaliar com maior eficiência os efeitos dos fatores de interesse. Assim de forma genérica podemos definir que blocos são conjuntoshomogêneos de unidades experimentais.2.1.4- Terminologia BásicaNa terminologia básica para um planejamento de experimentos, destaca-se: • Unidade experimental: É a unidade básica para a qual será feita a medida da resposta. • Fatores: São as variáveis cuja influência sobre a variável resposta está sendo estudada no experimento. • Niveis de um Fator: Os diferentes modos de presença de um fator no estudo considerado são denominados níveis do fator. • Tratamento: As combinações específicas dos níveis de diferentes fatores são denominadas tratamentos. Quando há apenas um fator, os níveis deste fator correspondem aos tratamentos. • Ensaio: Cada realização do experimento em uma determinada condição de interesse(tratamento) é denominada ensaio, isto é, um ensaio corresponde a aplicação de um tratamento a uma unidade experimental. • Variável Resposta: O resultado de interesse registrado após a realização de um ensaio é denominado variável resposta. 4
  5. 5. Vamos considerar um exemplo apresentado em Werkema & Aguiar (1996) para ilustrarmelhor os princípios básicos do planejamento de experimentos:Exemplo 2.1- Suponha que um engenheiro esteja interessado em estudar o efeitoproduzido por três diferentes banhos(meios) de têmpera: têmpera em água, em óleo eem solução aqüosa de cloreto de sódio (água salgada) na dureza de um determinado tipode aço. Aqui o propósito era determinar qual banho de têmpera produziria a durezamáxima do aço. Com este objetivo ele decidiu submeter um determinado número deamostras da liga, que denominaremos corpos de prova, a cada meio de têmpera e aseguir mediu a dureza da liga.Vamos ilustrar a aplicação dos princípios do planejamento neste problema.Réplica: Neste caso uma réplica do experimento completo consiste em medir a durezade um corpo de prova submetido à têmpera em água, de um segundo corpo de provasubmetido à têmpera em óleo e de um terceiro temperado em solução de cloreto desódio.Isto é, realizar uma réplica do experimento completo significa coletar umaobservação da variável resposta em cada condição experimental considerada no estudo.Portanto, se seis corpos de prova são temperados em cada banho (água, óleo e águasalgada), sendo feita a seguir a medida da dureza de cada um destes corpos de prova,dizemos que foram realizadas seis réplicas do experimento(sendo realizados dessaforma 6x3=18 ensaios).Aleatorização: Neste experimento a aleatorização deve-se fazer presente peladistribuição ao acaso dos corpos de prova entre os banhos de têmpera. Esteprocedimento atenua por exemplo situações onde a espessura dos corpos de prova sãoligeiramente diferentes, assim de todas as amostras com espessura maior foramsubmetidas a um mesmo banho de têmpera este provavelmente estará em situaçãovantajosa e os resultados do experimento estarão tendenciosos.Blocos: Supor que os corpos de prova são provenientes de corridas diferentes ( oumatérias primas diferentes), se planejarmos um experimento onde estes corpos de provasejam distribuídos ao acaso entre os diferentes banhos de têmpera, as diferenças entre oscorpos de prova irão acrescentar uma variabilidade adicional às medidas de dureza, oque poderá mascarar os efeitos devidos ao fator de interesse (banho de têmpera). Paraeliminar do erro experimental a variabilidade devida ao fato de os corpos de provaterem sido produzidos em corridas diferentes, deve-se realizar o experimento daseguinte maneira: cada corpo de prova será dividido em três partes iguais, sendo cadaparte submetida a um diferente banho de têmpera. Deste modo, dentro de cada ternoformado pelas três partes de um mesmo corpo de prova, a influência devida àscaracterísticas particulares de cada corpo de prova deverá ocorrer de formaaproximadamente igual para cada um dos banhos de têmpera.Dentro da terminologia básica temos que:Unidade Experimental: Corpo de prova do aço utilizado no estudo.Fatores: Banhos de têmpera. 5
  6. 6. Níveis do Fator: água, água salgada e óleoEnsaio: Cada ensaio consiste em tratar um corpo de prova em um determinado banhode têmpera.Variável Resposta: É a dureza do corpo de prova medida após a realização da têmpera.2.1.5- Roteiro para a Realização de um Bom Experimento. Para usar a abordagem estatística no planejamento e na análise de umexperimento é necessário que as pessoas envolvidas na experimentação tenham,antecipadamente, uma idéia clara do que será estudado e da forma como os dados serãocoletados. Também é recomendado que se tenha uma idéia qualitativa de como os dadosserão analisados. Um roteiro para a realização de um bom experimento é apresentado aseguir: 1. Reconhecimento e relato do problema. Na prática, geralmente é difícil perceber que existe um problema que exige experimentos planejados formais, de maneira que não pode ser fácil obter-se um relato claro de problema que é aceito por todos. No entanto é de primordial importância desenvolver todas as idéias do problema e definir de forma clara os objetivos específicos do experimento. 2. Escolha dos fatores e dos níveis. Devem ser escolhidos os fatores que devem variar, os intervalos sobre os quais esses fatores variarão e os níveis específicos nos quais cada rodada será feita. Exige-se conhecimento do processo para fazer isso, esse conhecimento em geral é uma combinação de experiência prática e conhecimento teórico. É importante a investigação de todos os fatores que possam ser importantes e evitar ser excessivamente influenciado pela experiência passada. 3. Escolha da variável resposta: Na escolha da variável resposta, o experimentador deve ter certeza de que aquela variável realmente fornece informação útil sobre o processo em estudo e a capacidade de medida dessa variável. Se a capacidade do medidor é baixa, então apenas grandes efeitos dos fatores serão detectados pelo experimento, ou será necessário muitas réplicas. 4. Escolha do planejamento experimental. A escolha do planejamento envolve consideração sobre o tamanho da amostra(número de replicações), seleção de uma ordem adequada de rodadas para as tentativas experimentais, ou se a formação de blocos ou outras restrições de aleatorização estão envolvidas. 5. Realização do experimento. Quanto da realização do experimento, é de vital importância monitorar o processo, para garantir que tudo esteja sendo feito de acordo com o planejamento. Erros no procedimento experimental nessa etapa, em geral comprometem a validade do experimento. 6. Análise dos dados. Métodos estatísticos devem ser usados para analisar os dados, de modo que os resultados e conclusões sejam objetivos e não de opinião. Se o experimento foi planejado corretamente o método estatístico para análise não será um problema. A análise de resíduos e a verificação da validade do modelo são importantes e devem ser feitas. 7. Conclusões e recomendações. Uma vez analisados os dados, o experimento deve acarretar conclusões práticas sobre os resultados e recomendar um curso de ação. Deve-se auxiliar de métodos gráficos, particularmente na apresentação dos resultados para outras pessoas. Seqüências de acompanhamento e testes de 6
  7. 7. confirmação devem ser também realizados para validar as conclusões do experimento.2.2 – Exercícios do Capítulo 1. Planeje um experimento para comparar quatro drogas no alívio de cefaléias, supondo que você dispõe de um conjunto de pacientes similares. 2. Planeje um experimento para comparar três fórmulas de adubação no crescimento de Pinus, supondo que você dispõe de um terreno heterogêneo que deve ser dividido em cinco blocos e que em cada bloco podem ser alocadas nove parcelas. 3. Planeje um experimento para comparar dois testes de inteligência tomando cada criança como um bloco. 4. Planeje um experimento para comparar o desempenho(tempo de realização da tarefa) de três máquinas empacotadeiras, dispondo de 5 operadores. 7
  8. 8. Capítulo 3 - Planejamento Completamente Alea-torizado com Único Fator. Para a comparação de dois tratamentos( duas populações) vindos de populaçõesnormais, utiliza-se em o teste t-student, desde que as suposições sejam válidas. Paracomparação de mais de dois tratamentos não é muito recomendado sua utilização, vistoque serão necessárias várias comparações, o que acaretará um aumento no erro tipo I.Essa situação é ilutrada em Montegomery (2001). O problema para a comparação de k tratamentos por meio de ensaiosrealizados em ordem aleatória é descrito abaixo. Consideremos que existem k diferentes níveis (tratamentos de um único fator)que queremos comparar. A resposta para cada um dos k tratamentos é uma variávelaleatória. A ilustração da disposição dos dados é ilustrado na Tabela abaixo:Tabela 3.1: Esquema da disposição de dados para Experimento Aleatorizado com Fator Único. Tratamento Observações Totais Médias 1 y11 y12  y1n y1. y1. 2 y 21 y 22  y2n y 2. y 2.        k y k1 y k 2  y kn yk. yk. y .. y.. Aqui y ij representa a j ª - ésima observação feita sob o i ª-ésimo tratamento.Neste caso estamos considerando a situação em que há um número igual deobservações, n , em cada tratamento.3.1 – Modelo Estatístico Cada observação y ij na Tabela 3.1, pode ser descrita pelo seguinte modeloestatístico linear, y ij = µ + τ i + ε ij , (3.1)com i =1,2,..., k e j =1,2,..., n .Aqui,y ij : é uma v.a. denotando a (ij)ª obeservação;µ : é a média geral, comum a todos os tratamentos; 8
  9. 9. τ i : é o efeito do i-ésimo tratamento;εij : é a componente do erro aleatório.Supondo que ε ij ~ N (0; σ ) , ou seja, os erros são independentes e normalmente 2distribuidos com média zero e variância σ 2 . Dessa forma, cada tratamento pode serpensado como uma população normal com média µ i = µ + τ i e variância σ 2 , ou seja, y ij ~ N ( µi ; σ 2 ) .Assim, vamos apresentar o procedimento para testar a igualdade das k médiaspopulacionais. Esse modelo de análise de variância é chamado de efeitos fixos. Osefeitos dos tratamentos τi são definidos, em geral, como desvios da média geral µ , demodo que ∑i =1τ i = 0 kRepresentando, y i . , o total das observações sob o i-ésimo tratamento e por y i . amédia das observações sob o i-ésimo tratamento, analogamente, y.. o total geral e y.. amédia geral, n y i.y i. = ∑ y ij y i. = , i =1,2,..., k . i =1 n k n y..y.. = ∑∑ y ij y.. = , N = kn “ Número total de observações” i =1 j =1 NEstamos interessados em testar a igualdade das médias µ , µ2 ,..., µk dos k 1tratamentos. Pela equação 3.1, este procedimento é equivalente a testar as hipóteses: H o : τ1 = τ 2 = ... = τ k = 0 (3.2) H 1 : τ i ≠ 0 para pelo menos um i.Dessa forma se H o é verdadeira, cada observação consiste de uma média geral µmais uma realização da componente do erro aleatório εij . Assim se H o é verdadeira amudança dos níveis do fator (tratamentos) não tem qualquer efeito sobre a respostamédia. A análise de variância particiona a variabilidade total na amostra de dados emduas partes então o teste proposto em (3.2) é baseado na comparação de duasestimativas independentes da variância populacional.A variabilidade total dos dados é dada a partir da soma de quadrados totais SQT = ∑∑ ( y ij − y.. ) k n 2 (3.3) i =1 j =1Mas pode-se particionar SQT de forma que: 9
  10. 10. ∑∑ ( y − y.. ) = n∑ ( y i. − y.. ) 2 + ∑∑ ( y ij − y i. ) k n k k n 2 2 ij i =1 j =1 i =1 i =1 j =1 (3.4)Demonstração: Ver Montogomery 2001.A relação em (3.4), mostra que a variabilidade total nos dados, medida pela soma dequadrados total, pode ser particionada em uma soma de quadrados das diferenças entreas médias dos tratamentos e a média geral, e na soma de quadrados das diferenças entreas observações dentro de cada tratamento e a média do respectivo tratamento.Diferenças entre médias de tratamentos observadas e a média geral quantificamdiferenças entre tratamentos, enquanto diferenças das observações dentro de umtratamento e a média do tratamento podem ser devidas apenas a um erro aleatório.Dessa forma, reescrevemos (3.4) como SQT = SQTrat + SQE , onde:SQT = ∑∑ ( y ij − y.. ) : k n 2 Soma dos quadrados total. i =1 j =1 kSQTrat = n∑ ( y i. − y.. ) : Soma dos quadrados devido aos tratamentos. 2 i =1SQE = ∑∑ ( y ij − y i. ) : Soma dos quadrados dos erros. k n 2 i =1 j =1Calculando os valores esperados de SQTrat e SQ E tem-se : k E ( SQTrat ) = (k − 1)σ 2 + n∑τ i2 (3.5) i =1Demonstração: Ver Montgomery (2001)  1 Sob H o verdadeira, temos que E   SQTrat  = σ 2   ( k −1) Se H 1 é verdadeira, então n∑i =1τ i2 k  1   (k − 1) SQTrat  = σ + k − 1 E 2    SQTratA razão QM Trat = é chamada média quadrática dos tratamentos. Logo, se H o é k −1verdadeira, QM Trat é um estimador não-viciado de σ 2 , enquanto que, se H 1 é 10
  11. 11. verdadeira, QM Trat estima σ 2 mais um termo positivo que incorpora a variaçãodevida à diferença entre as médias dos tratamentos.Da mesma forma, tem-se que E ( SQ E ) = k (n − 1)σ 2 (3.6) SQ EEntão a média quadrática dos erros QM E = é um estimador não-viciado de k ( n −1)σ 2 , independente de H o ser ou não verdadeira.Analisaremos também a partição dos graus de liberdade.SQT : tem N − 1 = kn − 1 graus de liberdadeSQTrat : tem k −1 graus de liberdadeSQ E : tem k ( n −1) graus de liberdadeSupondo que cada uma das k populações possa ser modelada com uma distribuiçãonormal. Com essa suposição pode-se mostrar que, sob H o , então: SQTrat QM Trat Fo = k − 1 = ~ F( k −1, k ( n −1) ) (3.7) SQ E QM E k (n − 1)Se H o é verdadeira QM Trat e QM E são estimadores não viciados de σ 2 , mas se H o é falsa então E ( QM Trat ) será maior que E (QM E ) , assim sob a hipótesealternativa, Fo será grande. Dessa forma um teste de hipótese é construído. Devemosrejeitar H o se o valor da estatística é grande, isso implica em uma região críticaunilateral superior. Então rejeita-se H o se Fo > Fα,( k −1), k ( n −1) . No geral utiliza-se oseguinte quadro para ANOVA. Tabela 3.2 - Quadro da AnovaFonte de Variação SQ G.L QM FoEntre Tratamentos SQTrat k −1 QM Trat QM Trat Fo = QM EDentro dos Tratamentos (Erro) SQ E k ( n −1) QM ETotal SQT kn −1Estimativas dos efeitos dos tratamentos: τ i = y i . − y.. , i =1,2,..., k ˆ 11
  12. 12. 3.2 Análise de Resíduos. O modelo matemático de um planejamento completamente aleatorizado,considera que as observações sejam distribuidas de forma normal, com mesmavariância. Essas suposições podem ser verificadas através da análise de resíduos. Um resíduo é a diferença entre uma observação y ij e seu valor estimado (ou ˆajustado) a partir do modelo estatístico que esta sendo utilizado, denotado por y ij . Parao modelo específico temos que y ij = y i . , com cada resíduo sendo ε ij = y ij − y i . , ou seja, ˆa diferença entre uma observação e a média correspondente observada do tratamento. Para identificar se as suposições estão sendo violadas utilizamos básicamentetrês tipos de gráficos: Resíduos X Ordem de Coleta, Resíduos X Tratamentos (médias y i . ) e Gráfico de probabilidade normal dos Resíduos. O gráfico de Resíduos X Ordem de Coleta busca identificar algum tipo deassociação dos resíduos com a ordem de coleta das observações. A identificação dealgum tipo de associação viola a suposição de indepêndencia entre os dados, portantoespera-se em uma análise de resíduos que não haja associoação entre resíduos e ordemde coleta. O gráfico deve apresentar uma configuração aleatória entre resíduos e ordemde coleta. Figura 3.1: Gráfico Resíduo X Ordem Na Figura 3.1, tem-se uma típica configuração aleatória entre ordem X resíduos,validando a suposição de independência entre as observações. O gráfico de Resíduos X Tratamento, busca identificar algum tipo de alteraçãona dispersão dos resíduos para cada tratamento. Se houver dispersões muito diferentesentre tratamentos pode significar que a variação não é constante, e uma importantesuposição do modelo estará violada. O gráfico deve apresentar uma configuração dedispersão semelhante para todos os tratamentos. 12
  13. 13. Figura 3.2: Resíduo X Média dos TratamentosNa Figura 3.2, verifica-se um caso típico de não violação da suposição de igualdade davariância. O gráfico de probabilidade normal dos resíduos identifica se os dadosapresentam uma distribuição normal. Os resíduos plotados contra os quantils de umadistribuição normal devem ficar de forma aproximada ao longo de uma reta. Neste casopode-se usar um teste estatístico baseado no coeficiente de correlação para identificaruma possível lineariedade. Figura 3.3: Gráfico de Probabilidade Normal para os Resíduos. Em situações como na Figura 3.3, percebemos que pontos centrais estavamlocalizados, de forma aproximada, ao longo de uma reta, o que indica que oscomponentes do erro do modelo seguiam uma distribuição normal. No entanto paraconfirmar essa hipótese sugere-se utilizar um teste para normalidade.3.3 Comparações Multiplas 13
  14. 14. A análise de variância nós indica que há uma diferença entre as médias, mas elanão diz qual média que difere.Existem procedimentos específicos chamados deprocedimentos de comparação múltipla, para testar as diferenças entre as médiasespecíficas seguindo uma análise de variância. Dentre os testes mais conhecidosdestacamos o teste Tukey (Montgomery,2001).3.3.1 Teste de Tukey O teste de Tukey, está baseado na amplitude total estudentizada e pode ser usadopara comparar todos os pares de contrastes que envolvem diferenças de médias.O teste é exato de nível α quando o número de repetições é o mesmo para todostratamentos e aproximado quando o número de repetições é diferente para ostratamentos. Este teste pode ainda ser usado para a construção de intervalos deconfiança para a difernça entre as médias dos tratamentos.O procedimento está baseado na distribuição de amplitude total estudentizada(studentized range statistic) dada por: y − y min q = max QM E (3.8) nonde ymax e ymin são as maiores e menores médias amostrais respectivamente,calculadas para um grupo de p amostras. A distribuição de qα ( p, f ) , com α sendoo percentil superior de pontos de q com f graus de liberdade, associado aoestimador QM E é calculada computacionalmente.Para um número igual de repetições, o teste Tukey detecta diferenças significativasentre pares de duas médias se o valor absoluto da diferenças das médias amostraisexeceder QM E Tα = qα (k , f ) nDe forma equivalente, constrói-se intervalos de 100(1 − α )% de confiança para todos ospares de médias dada por: yi. − y j . − Tα ≤ µi − µ j ≤ yi. − y j . + Tα , i ≠ j .Para tamanhos amostrais diferentes (diferente n° de repetições), temos: qα ( k , f ) 1 1  Tα = QM E  +  n  2  i nj e yi. − y j . − Tα ≤ µi − µ j ≤ yi. − y j . + Tα , i ≠ j respectivamente.3.4- Análise Estatística de um Planejamento Completamente Aleatorizado com ouso do Software R. 14
  15. 15. Neste tópico vamos ilustrar a utilização do software R na análise de dados para omodelo de planejamento de experimento completamente aleatorizado.3.4.1- Descrição do Programa O software R, que é uma linguagem e ambiente para computação estatística egráfica de domínio público (VENABLES e SMITH, 2001), atualmente muito difundidonos grandes centros.A linguagem R é derivada da linguagem do Software S-plus. Sua sintaxe é semelhantecom a linguagem C, e sua estrutura é de linguagem funcional. A tela inicial doprograma está ilustrada na figura abaixo: Figura 3.4 : Tela Inicial do Software R.O simbolo > indica a linha de comando (“prompt”) na qual serão digitados os comandospara a execusão das análises.O R tem um sistema de ajuda on-line que permite que a documentação seja exibida emum browser (explorer,mozilla,ou similar). Para iniciar este sistema on-line clique em“help” depois “html help”.Para uma consulta rápida, quando já se sabe o nome da função, basta digitarhelp(nome_da_função).Para conhecer ou lembrar os parâmetros ou argumentos da função utilize o comandoargs(nome_da_função). 15
  16. 16. Quando se quer listar todas as funções que possuem um determinado termo utiliza-se ocomando apropos(termo). Por Exemplo:> apropos(vector)[1] ".__C__vector" "as.data.frame.vector" "as.vector"[4] "as.vector.factor" "is.vector" "vector"Por ser gratuito, o R não possui suporte oficial. Existe uma lista de discussão através doendereço http://www.r-project.org/mail.html, que se tem mostrado um suporte interativobastante eficiente.3.4.2 – Aplicação do Software R na analise de dados para o planejamento deexperimentos completamente aleatorizado com único fator. Para ilustrarmos a aplicação desse modelo, utilizamos o problema proposto emWerkema & Aguiar (1996) descrito abaixo:Os técnicos de uma indústria metalúrgica, desejam avaliar a dureza de peças de açoapós diferentes banhos de têmpera. O experimento consistiu em submeter nove peças deaço a cada tipo de banho de têmpera (água, óleo A e óleo B), a seguir medir a dureza nocentro das peças temperadas e comparar as durezas médias obtidas, com o objetivo deidentificar o meio de têmpera mais adequado. Este é um exemplo de um experimentocom um único fator (banho de têmpera) com k = 3 níveis (água, óleo A e óleo B) e n= 9 réplicas. Neste experimento, os 27 ensaios ou testes foram realizados em ordemaleatória. Na Tabela 9, apresenta-se os resultados do experimento. Tabela 3.3 : Dados do experimento com a ordem dos ensaios. Ordem Água Ordem Óleo A Ordem Óleo B 24 36,7 11 36 4 35,3 12 38,9 26 36,4 14 35 25 38,7 9 35,3 15 34,3 22 38,8 23 36,8 17 35,7 21 37,6 2 36,9 20 35,2 8 37,2 18 37,5 3 34,2 13 38,8 1 35,3 5 36,5 16 38 10 36 6 35,8 7 37,2 19 35,7 27 35,5Neste caso a matriz de planejamento de experimento pode ser montada com a seguinteseqüência de comandos para entrar com os dados do experimento:Montando as colunas resposta e ordem:>y<- scan() : Depois do comando o próximo passo é digitar os valores da respostaseguidos de enter e para encerrar digite enter duas vezes.>or<- scan() : Depois do comando o próximo passo é entrar com os dados da ordem doensaio da mesma forma anterior. 16
  17. 17. Montando a variável tratamento:>x<-rep(1:3,each=9) : no caso temos 3 tratamentos com 9 repetições, ou,>x1<-factor(rep(1:3,each=9),labels=c("agua","oleoA","oleoB"))Montando o data.frame ( matriz de dados e fatores)bt<-data.frame(resp=y, ordem=or, trat=x1)Assim, a matriz de planejamento terá a seguinte forma: resp ordem trat1 36.7 24 agua2 38.9 12 agua * * *26 35.8 6 oleoB27 35.5 27 oleoBPara a análise descritiva o primeiro passo é indicar o caminho das variáveis nodata.frame, isso é feito com o comando attach(bt) . O comando tapply, possibilita amanipulação de dados no data.frame. Para um resumo descritivo usamos a seqüência:tapply(resp,trat,summary)$água Min. 1st Qu. Median Mean 3rd Qu. Max. 36.70 37.20 38.00 37.99 38.80 38.90$óleoA Min. 1st Qu. Median Mean 3rd Qu. Max. 35.30 35.70 36.00 36.21 36.80 37.50$óleoB Min. 1st Qu. Median Mean 3rd Qu. Max. 34.20 35.00 35.30 35.28 35.70 36.50O comando resultou em um resumo descritivo das respostas por tratamento.Uma inspeção gráfica pode ser obtida pelo Gráfico de Box-Cox.>plot(resp~trat,xlab="Banho de Têmpera",ylab="Dureza", col ="red") 17
  18. 18. Figura 3.5: Box-Plot para os Valores de Dureza Obtidos em cada Banho de Têmpera. Pela Figura 3.5 e medidas descritivas acima, pode-se observar que parece haveruma diferença entre os banhos de óleo e o de água, sendo que a maior dureza média foiobservada no banho de água. O problema agora é verificar se essas diferenças de fato são significativas oupodem ser de origem aleatória. Para constatarmos se de fato as diferenças sãosignificativas utilizaremos à análise de variância. Para a Análise de Variância temos a seguinte seqüência de comandos:aov(formula, data = NULL, projections = FALSE, qr = TRUE, contrasts = NULL, ...)Este comando efetua e guarda todos os resultados da ANOVA do modelo (formula)av<-aov(resp~trat) :O comando names(av) lista todos os vetores de resultados gerados pela ANOVA comopor exemplo o vetor de resíduos.> names(av) [1] "coefficients" "residuals" "effects" "rank" "fitted.values" "assign""qr" [8] "df.residual" "contrasts" "xlevels" "call" "terms" "model"Para utilizar esses vetores deve-se referenciar como por exemplo av$res ou av$fitt ,aqui será listado o vetor de resíduos e o vetor de valores ajustados pelo modeloproposto.Agora utiliza-se o comando summary(av) ou anova(av) , que geram a Tabela daANOVA abaixo:Analysis of Variance TableResponse: resp Df SumSq Mean Sq F value Pr(>F)trat 2 34.145 17.073 28.389 4.732e-07 ***Residuals 24 14.433 0.601 18
  19. 19. ---Signif. codes: 0 `*** 0.001 `** 0.01 `* 0.05 `. 0.1 ` 1 Assim, como Fo = 28.389 é um valor bem maior que 1, temos evidênciassignificativas para concluir que pelo menos um tratamento difere dos demais. Essaevidência é mais facilmente verificado pelo p-value que neste caso é dado porPr(>F)=4.732e-07 , ou seja, a diferença é significativa a um nível de abaixo de 0.001. Dessa forma verifica-se que as médias diferem, isto é, que o tipo de banhoutilizado afeta a dureza das peças temperadas. Detectado a diferença entre tratamentos o próximo passo e identificar de fatoqual dos tratamentos esta diferindo do outro. Nesta etapa vamos utilizar o teste deTukey. O comando para o teste de Tukey é:>TukeyHSD(av)Tukey multiple comparisons of means 95% family-wise confidence levelFit: aov(formula = resp ~ trat)$trat diff lwr uproleoA-agua -1.7777778 -2.690713 -0.8648426oleoB-agua -2.7111111 -3.624046 -1.7981760oleoB-oleoA -0.9333333 -1.846268 -0.0203982 Percebe-se, através do teste paras diferenças entre tratamentos e o intervalo deconfiança para as diferenças, que todos os tratamentos são diferentes entre si e a ordemé dada por: Água > Óleo A > Óleo B 19
  20. 20. Figura 3.6: Comparações Múltiplas.O resultado pode ser melhor ilustrado pela Figura 3.6, que é gerado através do comado:> plot(TukeyHSD(av)) O modelo de análise de variância assume que as observações são independentes,com distribuição normal de mesma variância em cada tratamento. Dessa forma devemosanalisar o comportamento dos resíduos através dos seguintes gráficos:• Gráfico de resíduos contra ordem de coleta das observações (tempo)• Gráfico de resíduos contra Valores Ajustados• Gráfico de probabilidade normal. Para o Gráfico de resíduos contra ordem de coleta das observações (tempo),utiliza-se o comando:>plot (ordem,av$res,xlab="Ordem",ylab="Resíduos",col="red")Aqui “ordem” é o vetor associado a ordem de realização do experimento, “av$res” é ovetor relacionado com os resíduos gerados pelo modelo, xlab é o nome da coordenada x,ylab é o nome da coordenada y e col é a cor desejada. Da mesma forma para ResíduosX Valores Ajustados temos: Figura 3.7 – Gráficos: Resíduos X Ordem e Resíduos X Valores Ajustados>plot(av$fit,av$res, xlab="Valores Ajustados",ylab="Resíduos",col="blue")Para o Gráfico Normal tem-se a seqüência de comando:>qqnorm(av$res,xlab="Quantil da Normal",ylab="Resíduos") 20
  21. 21. Este comando plot os quantis da distribuição normal contra os valores dos resíduosordenados>qqline(av.$res)Este comando ajusta a reta entre os pontos. Neste caso espera-se que os dados sealinhem em torno da reta ajustada. Figura 3.8 – Gráfico Normal de Probabilidade dos Resíduos Considerando o gráfico dos Resíduos X ordem, não se identifica nenhum relaçãoexistente, validando dessa forma a suposição de independência entre os resíduos. Para ográfico de resíduos X valores ajustados (médias) a suposição testada era a de variaçãoigual para ambos os tratamentos, neste caso também parece não haver ocorrido violaçãoda suposição. No gráfico normal de probabilidade (QQ-Plot) os dados também parecemnão terem violado de forma comprometedora a suposição de normalidade.Abaixo apresenta-se os testes de Bartlett para homogeneidade de variâncias nostratamentos e Shapiro-Wilk para normalidade dos resíduos.O Teste de Bartlett é usado através do comando:>bartlett.test(av$res,trat) Bartlett test of homogeneity of variancesdata: resp and tratBartletts K-squared = 0.199, df = 2, p-value = 0.9053 21
  22. 22. Como visto não se rejeita a hipótese de igualdade de variâncias, portanto essa suposiçãonão foi violada.O teste de normalidade de Shapiro-Wilk é usado através do comando:>shapiro.test(av$res) Shapiro-Wilk normality testdata: av$resW = 0.9613, p-value = 0.3954Da mesma forma, não se rejeita a hipótese de normalidade dos resíduos, portanto asuposição de normalidade não foi violada.Conclusão Final: • Todos os tratamentos (água, óleo A e óleo B) diferem entre si. • A ordem da durabilidade para o tipo de tratamento é: Água > Óleo A > Óleo B. • O modelo utilizado para a análise foi adequado, não violando nenhuma suposição inicial.3.5 - Exercícios do Capítulo 1. Considere um experimento para determinar o efeito da vazão de C 2F6 sobre a uniformidade do ataque químico em uma pastilha de silicone usada na fabricação de um circuito integrado. Três vazões são usadas no experimento e a uniformidade (%) resultante, para seis replicatas, é mostrado a seguir. • Faça um estudo descritivo, visando comparar os níveis do fator (tabela decritiva e Box-Plot). • Faça um análise de variância completa usando α = 0.1 e verifique quais as vazões de gás que produzem diferentes uniformidades médias de ataque químico. 2. Um experimento foi feito para determinar se quatro temperaturas específicas de queima afetam a densidade de um certo tipo de tijolo. O experimento conduziu aos seguintes dados. 22
  23. 23. • Faça um estudo descritivo, visando comparar os níveis do fator (tabela decritiva e Box-Plot). • Faça um análise de variância completa usando α = 0.05 e verifique quais níveis de temperatura que produzem diferentes densidades nos tijolos. 3. A resistência à compressão do concreto está sendo estudada e quatro técnicas diferentes de mistura estão sendo investigadas. Os seguintes dados foram coletados. • Faça um estudo descritivo, visando comparar os níveis do fator (tabela decritiva e Box-Plot). • Faça um análise de variância completa usando α = 0.05 e verifique se as misturas afetam a resistência do concreto. 4. Um engenheiro eletrônico está interessado no efeito, na condutividade do tubo, de cinco tipos diferentes de recobrimento de tubos de raios catódicos em uma tela de um sistema de telecomunicações. Os seguintes dados de condutividade são obtidos. Se α = 0.05 , você pode isolar qualquer diferença na condutividade média devido ao tipo de recobrimento?Capítulo 4- Planejamento de Experimentos emBlocos Completamente Aleatorizados.4.1 Introdução 23
  24. 24. Em muitas situações experimentais, a presença de fontes externas perturbadorasconhecidas pode provocar variabilidade extra e alterar os efeitos dos fatores deinteresse, confundindo dessa forma a análise final do planejamento experimental. Os planejamentos de experimentos com blocos completamente aleatorizados sãoplanejamentos experimentais nos quais parte dessa variabilidade devida a fatoresexternos conhecidos é controlada.Um exemplo desse estudo pode ser ilustrado em uma situação onde se deseja testar aeficiência de diferentes processos de produção para a mesma finalidade sabendo que amatéria-prima, que é vinda de diferentes fornecedores pode influenciar no resultado.Aqui não se tem interesse em testar a matéria prima e sim os processos, no entanto amatéria-prima que não vem de forma padronizada pode confundir o desempenho dosprocessos. Nesta situação, os diferentes lotes de matéria-prima devem ser tratados comoblocos. Dentro do bloco devem ser realizados todos os ensaios correspondentes aospossíveis tratamentos (ou níveis do fator de interesse). Ainda dentro do bloco, aassociação dos tratamentos ás unidades experimentais e a ordem de realização dosensaios devem ser determinadas ao acaso.4.2 Formulação Teórica Para este modelo, vamos considerar em geral, que existem k tratamentos queserão avaliados em b blocos. A disposição dos dados é ilustrada na Tabela abaixo: Blocos Trat 1 2 ... b Totais 1 y11 y12 ... y1b y1. 2 y21 y22 ... y2 b y 2.       k yk 1 yk 2 ... ykb yk . Totais y.1 y.2 ... y.b y.. Nesta situação será coletada apenas uma observação para cada tratamento (níveldo fator), em cada bloco. A maneira como os tratamentos serão alocados às unidadesexperimentais e a ordem de realização dos ensaios, dentro de cada bloco, serãodeterminadas de modo aleatório. Em função da primeira aleatorização dos tratamentoscom os blocos, dizemos que os blocos representam uma restrição a aleatorização. O modelo estatístico para esse experimento é yij = µ + τ i + β j + ε ij , i =1,2,, k e j =1,2,, b . (4.1)ondeyij : observações coletadas sob o i-ésimo tratamento no j-ésimo bloco.µ : média geral. 24
  25. 25. τi : efeito do i-ésimo tratamento.βj : efeito do j-ésimo bloco.εij : erro aleatório associado à observação y ij . Aqui será feita a suposição de que os erros aleatórios são independentes edistribuídos de forma normal com média zero e variância σ 2 , ou seja, ε ij ~ N (0, σ ) . 2Os tratamentos e blocos serão considerados, inicialmente, como fatores fixos. Temos ainda que os efeitos dos tratamentos e dos blocos são definidos comodesvios da média global, de modo que ∑i =1τ i = 0 e ∑j =1 β j = 0 . Considerando k btambém que os tratamentos e os blocos não interagem. Assim, estamos interessados em testar a igualdade dos efeitos do tratamento. Istoé: H 0 : τ1 = τ 2 =  = τ k = 0 (4.2) H 1 : τ i ≠ 0 , para no mínimo um i Dessa forma a análise de variância pode ser estendida ao planejamento emblocos completamente aleatorizados. O procedimento usa a soma de quadrados total,SQT , que representa uma partição da variabilidade total das observações em relação àvariabilidade explicada pelo tratamento, pelos blocos e pelo acaso.SQT = ∑∑ ( y ij − y.. ) = b∑ ( y i . − y.. ) 2 + k ∑ ( y. j − y.. ) 2 + ∑∑ ( y ij − y. j − y i . + y.. ) 2 k b k b k b 2 i =1 j =1 i =1 j =1 i =1 j =1 (4.3)Aqui:y i . : soma da observações no i-ésimo tratamentoy . j : soma da observações no j-ésimo blocoy .. : soma totaly i . : média das observações no i-ésimo tratamentoy . j : média das observações no j-ésimo blocoy .. : média geral de todas as observações.N = kb : Total de observações. A demonstração da partição de SQT pode ser vista em Montegomery, 2001. Aidentidade da soma quadrática pode ser representada simbolicamente por SQT = SQTrat + SQBloco + SQE (4.4)onde, k bSQT = ∑∑ ( y ij − y.. ) 2 : Soma de quadrados total. i =1 j =1 kSQTrat = b∑ ( y i. − y.. ) 2 : Soma de quadrados devido aos tratamentos. i =1 25
  26. 26. bSQ Blo cos = k ∑( y. j − y.. ) 2 : Soma de quadrados devido aos blocos. j =1 k bSQ E = ∑∑ ( y ij − y. j − y i. + y.. ) 2 : Soma do quadrado dos resíduos. i =1 j =1 O desmembramento do grau de liberdade correspondente a essas somasquadráticas é dado da seguinte forma. Para N observações, SQT terá N −1 graus deliberdade, para k tratamentos e b blocos, SQTrat e SQBlo cos terão k −1 e b −1graus de liberdade respectivamente. Para SQ E temos ( k −1)(b −1) graus deliberdade por subtração. A idéia do teste é a mesma do planejamento completamentealeatorizado, procurando trabalhar com os quadrados médios. Para este modelo osquadrados médios são: SQTrat QM Trat = : Quadrado Médio dos Tratamentos k −1 SQBlo cos QM Blo cos = : Quadrado Médio dos Blocos. b −1 SQ E QM E = : Quadrado Médio dos Resíduos. (k −1)(b −1) Pode ser demonstrado (ver Montgomery, 2002) que os valores esperados dessasmédias quadráticas são: k b∑ τ i2 (4.5) E ( QM Trat ) = σ 2 + i =1 k −1 b k ∑ β j2 (4.6) E ( QM Blo cos ) = σ 2 + j =1 b −1 E ( QM E ) = σ 2 (4.7)Dessa forma, se a hipótese nula H 0 for verdadeira de modo que todos os efeitos dotratamento τ i = 0 , então QM Trat será um estimador não tendencioso de σ 2 , enquantose H o for falsa, estimará σ 2 mais um termo quadrático positivo. O quadrado médiodos resíduos será sempre um estimador não tendencioso de σ 2 . Dessa forma para testara hipótese nula de que os efeitos dos tratamentos sejam iguais a zero, utilizamos aestatística QM Trat F0 = QM Eque, sob H o , terá uma distribuição F, com ( k −1), (k −1)(b −1) graus de liberdade.Assim, rejeita-se a hipótese nula H o , com um nível de significância α , se 26
  27. 27. Fo = Fα , [ ( k −1),( k −1)(b −1) ]O quadro da ANOVA será dado por: Tabela 4.1 – Quadro da Anova Fonte de SQ GL QM Fo Variação Tratamentos SQTrat k −1 QM Trat QM Trat QM E Blocos SQBlo cos b −1 QM Blo cos QM Blo cos QM E Erros SQ E ( k −1)(b −1) QM E Total SQT N − 1 = kb − 1 QM Blo cos A estatística F= , aparece como teste para o efeito dos blocos. A QM Evalidade dessa razão como uma estatística de teste para a hipótese nula de nenhumefeito do bloco é duvidosa, uma vez que os blocos representam uma restrição àaleatoriedade, ou seja, usamos a aleatoridade apenas dentro dos blocos. Podemosconsiderar, se os blocos forem realizados em uma ordem aleatória, que um valor grandepara F dá indicativos para efeitos significativos dos blocos, mas não podemos afirmaresses resultados como para o teste do efeito dos tratamentos.4.3-Análise de Resíduos (Verificação da Adequação do Modelo)Da mesma forma, no caso dos planejamentos em blocos completamente aleatorizadosdeve ser verificada a validade das suposições de normalidade dos erros, igualdade devariância das observações nos tratamentos, nos blocos e ausência da interaçãotratamento-bloco. A análise de resíduo é a principal ferramenta utilizada para estaverificação. Para os planejamentos em blocos completamente aleatorizados os resíduossão definidos por ε ij = y ij − y ij = y ij − y i. − y. j + y.. (4.8) ˆAs verificações serão feitas por meio do estudo dos gráficos de resíduos como: Gráficosde resíduos X Valores Ajustados; Gráficos de Resíduos x Tratamentos; Resíduos xBlocos e Gráfico de probabilidade Normal. Aqui pode-se também usar o teste deBarllets para testar a igualdade de variâncias e o teste de ShapiroWilk para Normalidadedos resíduos.4.4- Comparações Múltiplas.Da mesma forma pode-se utilizar o teste de Tukey, considerando agora uma pequenaalteração no grau de liberdade do QM E , que agora possui ( k −1)(b −1) graus deliberdade e substituir o número n de réplicas pelo número de blocos b. 27
  28. 28. 4.5 – Aplicação do Software R na analise de dados para o planejamento deexperimento aleatorizado em blocos completos.Para ilustrarmos a aplicação desse modelo, utilizamos outro problema proposto emWerkema & Aguiar, (1996) descrito abaixo:Com o objetivo de reduzir o tempo de reação de um processo químico, uma indústriaresolve realizar um experimento com quatro tipos de catalisadores (A,B,C e D). Noentanto os técnicos perceberam que a matéria-prima utilizada na reação não eratotalmente homogênea e representava uma fonte de variabilidade que afetava odesempenho do processo. Uma maneira de contornar este problema consistia emselecionar vários lotes de matéria-prima e comparar os quatro catalisadores nascondições relativamente homogêneas dentro de cada lote. Dessa forma, a equipe decidiuusar cinco lotes disponíveis no estoque da industria e para cada lote extrair quatroporções de matéria-prima, de modo que cada porção fosse suficiente para fabricar umabatelada de produto, e alocar aleatoriamente a cada uma destas porções um doscatalisadores considerados no estudo. Estabeleceu-se a aleatorização da ordem derealização dos ensaios. Neste caso, cada ensaio corresponde à produção de uma bateladada substância química utilizando uma das combinações porção de matéria-prima/catalisador. Portanto estamos diante de um experimento aleatorizado em blocoscompletos.Cada bloco corresponde a um lote de matéria prima e os tratamentos ou níveis do fatorcorrespondem aos tipos de catalisador. Dentro de um bloco, a associação dostratamentos às unidades experimentais e a ordem de realização dos ensaios sãodeterminadas ao acaso.Os dados desse experimento estão ilustrados abaixo: Tabela 4.2: Dados do experimento com Catalisadores Lotes Catalisador 1 2 3 4 5 A 41 34 40 39 33 B 43 37 45 42 40 C 45 38 48 43 38 D 43 41 45 46 404.5.1 - Entrada de dados e análise descritiva usando o Software R.Aqui a matriz de planejamento será montada da seguinte forma:Repostas:y<- scan() : Depois do comando o próximo passo é entrar com os dados da resposta.Montando a variável Bloco e Tratamento:b<-rep(1:5,each=4) : no caso temos 5 blocos com 4 repetições.tr<-rep(1:5,4) : no caso temos 4 tratamentos com 5 repetições. 28
  29. 29. Uma opção mais completa pode ser definida por:b<-factor(rep(1:5,each=4),labels=c("Lote1","Lote2","Lote3","Lote4","Lote5"))tr<- factor(rep(1:4,5),labels=c("A","B","C","D"))Montando o Data.framedecab<-data.frame(resp=y,trat=tr,bloco=b)> decab resp trat bloco1 41 A Lote12 43 B Lote1 * * *19 38 C Lote520 40 D Lote5Da mesma forma utilizando o comando attach() e tapply(), a um resumo descritivoconsiderando os fatores.attach(decab)> tapply(resp,trat,summary)$A Min. 1st Qu. Median Mean 3rd Qu. Max. 33.0 34.0 39.0 37.4 40.0 41.0$B Min. 1st Qu. Median Mean 3rd Qu. Max. 37.0 40.0 42.0 41.4 43.0 45.0$C Min. 1st Qu. Median Mean 3rd Qu. Max. 38.0 38.0 43.0 42.4 45.0 48.0$D Min. 1st Qu. Median Mean 3rd Qu. Max. 40 41 43 43 45 46> tapply(resp,bloco,summary)$Lote1 Min. 1st Qu. Median Mean 3rd Qu. Max. 41.0 42.5 43.0 43.0 43.5 45.0$Lote2 Min. 1st Qu. Median Mean 3rd Qu. Max. 34.00 36.25 37.50 37.50 38.75 41.00$Lote3 Min. 1st Qu. Median Mean 3rd Qu. Max. 40.00 43.75 45.00 44.50 45.75 48.00$Lote4 Min. 1st Qu. Median Mean 3rd Qu. Max. 29
  30. 30. 39.00 41.25 42.50 42.50 43.75 46.00$Lote5 Min. 1st Qu. Median Mean 3rd Qu. Max. 33.00 36.75 39.00 37.75 40.00 40.00Uma inspeção gráfica, pode ser obtida pelos comandos:par(mfrow=c(2,1))plot(trat,resp,xlab="Tratamento",ylab="Respostas")plot(bloco,resp,xlab="Bloco",ylab="Respostas") Figura 4.1: Box-Plot para os tempos de reação segundo tratamento (catalisador) e bloco (lotes de matéria-prima). Pela Figura 4.1 e medidas descritivas acima, pode-se observar que parece haver umadiferença entre os tempos, sendo que o menor tempo de reação parece estar associadoao catalisador A.> coplot(resp~trat|bloco,panel=panel.smooth,rows=1,xlab=c("Medidas porCatalisador", paste("Bloco")),ylab="Tempo de Reação") 30
  31. 31. O problema agora é verificar se essas diferenças de fato são significativas ou podem serde origem aleatória. Para constatarmos se de fato as diferenças são significativasutilizaremos à análise de variância.> eb.av<-aov(resp~trat+bloco)> anova(eb.av)Analysis of Variance TableResponse: resp Df Sum Sq Mean Sq F value Pr(>F)trat 3 95.350 31.783 13.430 0.0003839 ***bloco 4 165.200 41.300 17.451 6.098e-05 ***Residuals 12 28.400 2.367---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 31
  32. 32. Pelo quadro da anova acima, verifica-se que existe diferença entre tratamentos, comrelação aos blocos tem-se uma indicação de que apresentaram efeito significativo, sendodessa forma seu uso indispensável neste experimento.Detectado a diferença entre tratamentos o próximo passo e identificar de fato qual dostratamentos esta diferindo do outro. Nesta etapa vamos utilizar o teste de Tukey.Comando:>TukeyHSD(eb.av) Tukey multiple comparisons of means 95% family-wise confidence levelFit: aov(formula = resp ~ trat + bloco)$trat diff lwr uprB-A 4.0 1.111354 6.888646C-A 5.0 2.111354 7.888646D-A 5.6 2.711354 8.488646C-B 1.0 -1.888646 3.888646D-B 1.6 -1.288646 4.488646D-C 0.6 -2.288646 3.488646$bloco diff lwr uprLote2-Lote1 -5.50 -8.967325 -2.032675Lote3-Lote1 1.50 -1.967325 4.967325Lote4-Lote1 -0.50 -3.967325 2.967325Lote5-Lote1 -5.25 -8.717325 -1.782675Lote3-Lote2 7.00 3.532675 10.467325Lote4-Lote2 5.00 1.532675 8.467325Lote5-Lote2 0.25 -3.217325 3.717325Lote4-Lote3 -2.00 -5.467325 1.467325Lote5-Lote3 -6.75 -10.217325 -3.282675Lote5-Lote4 -4.75 -8.217325 -1.282675Percebe-se, através do teste paras diferenças entre tratamentos e o intervalo deconfiança para as diferenças, que o catalisador A proporciona menor tempo de reaçãocomparado com todos os tratamentos.Para este modelo devem-se construir os gráficos de resíduos contra valores ajustados;gráfico de resíduos contra tratamentos; gráfico de resíduos contra blocos e gráfico de 32
  33. 33. probabilidade normal. Da mesma forma, podem-se utilizar alguns testes para verificaras hipóteses de variância constante e normalidade dos dados.Na Figura abaixo contém os gráficos descritos acima, para a análise de resíduos. Figura 4.2: Gráficos para Análise de Resíduo do modelo de planejamento de experimentos em blocos completos.A seqüência dos comandos para a análise de resíduos da Figura 4.2, é descrita abaixo:> par(mfrow=c(2,2))> plot(eb.av$fit,eb.av$res,xlab="Valores Ajustados",ylab="Resíduos",col="blue")> plot(trat,eb.av$res,xlab="Tratamentos",ylab="Resíduos",col="blue")> plot(bloco,eb.av$res,xlab="Blocos",ylab="Resíduos",col="blue")> qqnorm(eb.av$res,xlab="Quantil da Normal",ylab="Resíduos",col="blue")> qqline(eb.av$res)Pela Figura 4.2, parece não existir nenhuma violação grave na suposição do modelo.Aplicando os testes de normalidade e homogeneidade de variâncias tem-se os seguintesresultados:Para o teste da Normalidade dos Resíduos temos:> shapiro.test(eb.av$res) Shapiro-Wilk normality test 33
  34. 34. data: eb.av$resW = 0.9217, p-value = 0.1066Para testar a homogeneidade das variâncias temos:> bartlett.test(eb.av$res,trat) Bartlett test of homogeneity of variancesdata: eb.av$res and tratBartletts K-squared = 0.8093, df = 3, p-value = 0.8472>bartlett.test(eb.av$res,bloco) Bartlett test of homogeneity of variancesdata: eb.av$res and blocoBartletts K-squared = 0.5292, df = 4, p-value = 0.9706Como a suposições de normalidade e nem de variância constante foram rejeitadas,pode-se considerar o modelo como válido e a análise encerrada.4.6- Conclusões Finais • Existe diferença entre o tempo médio de reação entre os tratamentos, sendo que o Catalisador A apresenta menor tempo de reação. • O modelo utilizado na análise se mostrou apropriado, sem apresentar violações. • Dessa forma recomenda-se a utilização do Catalisador A na produção, pois irá aumentar a produtividade do processo.4.7- Exercícios do Capítulo 1- Um experimento foi conduzido a fim de investigar o escapamento de corrente elétrica em um aparelho SOS MOSFETS. A finalidade do experimento foi investigar como o escapamento de corrente varia com o comprimento do canal. Quatro comprimentos diferentes foram selecionados. Para cada comprimento do canal, cinco larguras diferentes foram também usadas. A largura deve ser considerada como fator pertubador. Eis os dados. Largura Comprimento do Canal 1 2 3 4 5 1 0,7 0,8 0,8 0,9 1 2 0,8 0,8 0,9 0,9 1 3 0,9 1 1,7 2 4 4 1 1,5 2 3 20 2- No artigo intitulado “O efeito do projeto do bocal na estabilidade e desempenho de jatos turbulentos de água”, na revista Fire Safety Journal,Vol.4,agosto de 1981,C.Theobald descreve um Velocidade do Jato deuma medida da forma foi experimento em que Saída (m/s) Tipo de Bocal 11,73 14,37 16,59 20,43 23,46 28,74 1 0,78 0,8 0,81 0,75 0,77 0,78 2 0,85 0,85 0,92 0,86 0,81 0,83 34 3 0,93 0,92 0,95 0,89 0,89 0,83 4 1,14 0,97 0,98 0,88 0,86 0,83 5 0,97 0,86 0,78 0,76 0,76 0,75
  35. 35. determinada para vários tipos diferentes de bocais, com níveis diferentes de velocidade do jato de saída. O interesse nesse experimento está principalmente no tipo de bocal, sendo a velocidade um fator que provoca distúrbio. Os dados são apresentados a seguir. • O tipo de bocal afeta a medida da forma? Compare os bocais, usando os diagramas de caixa e a análise de variância. • Compare as diferenças entre os bocais utilizando o gráfico box-plot. • Faça a análise de resíduos para o modelo. 3- Um experimento foi realizado para determinar o efeito de quatro tipos diferentes de ponteiras em um teste de dureza de uma liga metálica. Quatro corpos de prova da liga foram obtidos e cada ponteira foi testada uma vez em cada corpo de prova, produzindo os seguintes dados: Corpo de Prova Tipo de Ponteira 1 2 3 4 1 9,3 9,4 9,6 10 2 9,4 9,3 9,8 9,9 3 9,2 9,4 9,5 9,7 4 9,7 9,6 10 10,2 • Faça uma análise de variância completa para checar se existe diferença nas medidas de dureza entre as ponteiras. Capítulo 5 – Planejamentos Fatorias Em muitas situações práticas podemos ter interesse em estudar o efeito de dois ou mais fatores, nestas situações um experimento fatorial deve ser utilizado. Nos experimentos fatorias, os fatores variam de forma simultânea, especificamente, queremos dizer que em cada tentativa completa ou replicação do experimento, são investigadas todas as combinações dos níveis dos fatores. Por exemplo, se há dois fatores A e B, com a níveis para o fator A e b níveis para o fator B, então cada replicação contém todas as ab combinações possíveis. O efeito de um fator é definido como a mudança na resposta produzida por uma mudança no nível do fator. Isso é chamado efeito principal, porque se refere aos fatores principais no estudo.35 Se a diferença na resposta entre os níveis de um 25 fator não é a mesma em todos os níveis30 dos outros fatores, então esse efeito é chamado de interação. Abaixo apresentamos 2025 exemplos gráficos de planejamentos com dois fatores com e sem interação. 1520 B(+) B(+)15 B(-) 10 B(-)10 5 5 0 0 35 - + - + Fator A Fator A
  36. 36. Figura 5.1: Sem Interação Figura 5.2: Presença de Interação5.1- Planejamento Fatorial com dois fatores.Vamos considerar neste caso o planejamento com dois fatores. Aqui consideramos A eB, com a e b níveis respectivamente. Se o experimento é replicado n vezes, adisposição dos dados pode ser ilustrada na tabela abaixo:Tabela 5.1: Disposição dos dados para um experimento fatorial com dois fatores Fator B Fator A 1 2 … b 1 y111 , y112 , y121 , y122 , y1b1 , y1b 2 , ..., y11n ..., y12 n … ..., y1bn 2 y211 , y212 , y221, y222 , y2 b1 , y2 b 2 , ..., y21n ..., y22 n … ..., y2 bn      ya11 , ya12 , ya 21 , ya 22 , yab1 , yab 2 , a ..., ya1n ..., ya 2 n … ..., yabnEm geral, a observação na ij-ésima cela na k-ésima repetição é yijk . Aqui, na coleta dedados, as abn observações devem ser feitas em ordem aleatória. O planejamentofatorial com dois fatores é um planejamento completamente aleatorizado. Vamos supor,inicialmente, que ambos os fatores tenham efeitos fixos.O modelo matemático para observações de um experimento fatorial com dois fatores édado por  i = 1,2,..., a  yijk = µ + τ i + β j + (τβ ) ij + ε ijk ;  j = 1,2,..., b (5.1)  k = 1,2,..., n onde:µ : é o efeito médio geralτi : é o efeito do i-ésimo nível do fator A.βj : é o efeito do j-ésimo nível do fator B. 36
  37. 37. (τβ)ij : é o efeito da interação entre A e B.εijk : é o erro aleatório. Da mesma forma, vamos considerar que εijk ~ N (0;σ 2 ).Ambos os fatores são considerados fixos, e o efeito dos tratamentos são definidos comodesvios da média geral, dessa forma ∑i =1τ i = 0 e ∑j =1 β j = 0 . a bSimilarmente os efeitos da interação são considerados fixos e são definidos de formaque ∑i =1 (τi β j ) = ∑j =1 (τi β j ) = 0 . Como existirão n réplicas no experimento, tem- a bse um total de abn observações.No experimento fatorial com dois fatores, tem-se interesse em testar o efeito dos doisfatores. Especificamente, estamos interessados em testes de hipóteses sobre a igualdadedo efeito do tratamento das linhas (Fator A) H 0 : τ1 = τ 2 = ... = τ a = 0 (5.2) H1 : τi ≠ 0, para pelo menos um iE a igualdade de efeito do tratamento das colunas (Fator B). H 0 : β1 = β2 = ... = βb = 0 (5.3) H1 : β j ≠ 0; para pelo menos um j.Também, tem-se interesse em se testar o efeito da interação entre linhas e colunas, ouseja, H 0 : (τβ)ij = 0, para todo i, j. (5.4) H1 : (τβ)ij ≠ 0, para pelo menos um para (i, j ).5.1.1- Análise Estatística para o modelo de efeitos fixos.Sejam yi .. o total das observações no i-ésimo nível do fator A, y . j . o total dasobservações no j-ésimo nível do fator B, y ij . o total das observações na ij-ésima celada Tabela 1, e y i .. , y. j . , y ij . e y... como as correspondentes médias de linha, coluna,cela e total. Isto é, y i.. y i .. = ∑j =1 ∑ =1 y ijk b n k y i.. = ; i =1,2,..., a bn y. j . y. j . = ∑i =1 ∑k =1 y ijk a n y. j . = ; j =1,2,..., b an 37
  38. 38. y ij .  i = 1,2,..., a y ij . = ∑k =1 y ijk ; n y ij . =  j = 1,2,..., b n y... y... = ∑=1 ∑j =1 ∑ =1 y ijk a b n i k y... = abnA análise de variância decompõe a soma de quadrados total a b n SQT = ∑∑∑( y ijk − y... ) 2 (5.5) i =1 j =1 k =1Da seguinte forma: a b n a b ∑∑∑( yijk − y... ) 2 = bn∑( yi.. − y... ) 2 + an∑( y. j. − y... ) 2 i =1 j =1 k =1 i =1 j =1 a b + n∑∑ ( y ij . − y i .. − y. j . + y... ) 2 i =1 j =1 a b n + ∑∑∑( y ijk − y ij . ) 2 . i =1 j =1 k =1Ou, simbolicamente, SQT = SQ A + SQB + SQ AB + SQE (5.6)A decomposição dos graus de liberdade é ilustrada na tabela abaixo: Tabela 5.2 – Decomposição dos graus de liberdade. Efeito Graus de Liberdade A a −1 B b −1 Interação AB ( a −1)(b −1) Erro ab( n −1) Total abn −1 38
  39. 39. Cada soma de quadrados dividido pelos respectivos graus de liberdade formam osquadrados médios. Assim SQ A QM A = : Quadrado médio do tratamento A. a −1 SQ B QM B = : Quadrado médio do tratamento B. b −1 SQ AB QM AB = : Quadrado médio da Interação. ( a −1)(b −1) SQ E QM E = : Quadrado médio dos Erros. ab(n − 1)Os valores esperados dos quadrados médios são: bn∑i =1τ i2 a  SQ A  E (QM A ) = E   =σ + 2 (5.7)  a −1 a −1 an ∑ j =1 β j b 2  SQB  (5.8) E (QM B ) = E   =σ + 2  b −1  b −1 n∑i =1 ∑ j =1 (τβ ) ij a b 2  SQ AB   (a − 1)(b − 1)  = σ + (a − 1)(b − 1) E (QM AB ) = E  (5.9) 2     SQE   ab(n − 1)  = σ E (QM E ) = E  2  (5.10)  Note que se as hipóteses nulas sobre o efeito das linhas A, efeitos das colunas B e dainteração AB são verdadeiras então QM A , QM B , QM AB e QM E são todosestimativas de σ 2 .Dessa forma, se existe diferenças entre os efeitos dos tratamentos em A, então QM Aserá maior que QM E . Similarmente, se existe diferenças nos efeitos dos tratamentosem B, ou na interação AB, então a correspondente média quadrática será maior queQM E . Portanto o teste de significância de ambos os efeitos e interações, ésimplesmente usar a razão entre as médias quadráticas e o quadrado médio dos resíduosQM E . 39
  40. 40. Se for assumido que o modelo da equação 5.1 é adequado e que os ε ij k sãoindependentes e identicamente distribuídos de forma normal com variância constante QM A QM B QM ABσ 2 , então cada razão de quadrados médios , e é distribuído QM E QM E QM Ecomo uma F com (a −1) , (b −1) e ( a −1)(b −1) graus de liberdade donumerador respectivamente e ab( n −1) graus de liberdade do denominador. A regiãocritica para um teste com nível de significância α , será valores da razão de quadradosque exceder o quantil da F com um nível α e respectivos graus de liberdade.O procedimento é resumido na tabela de Análise de Variância abaixo: Tabela 5.3 – Quadro da ANOVA Fonte de Soma de Graus de Quadrado Médio Variação Quadrados Liberdade F0 SQ A QM A A SQ A a −1 QM A = a −1 QM E SQB QM B B SQ B b −1 QM B = b −1 QM E SQ AB QM AB ( a −1)(b −1) QM AB = Interação SQ AB ( a −1)(b −1) QM E SQ E ab( n −1) QM E = Erro SQ E ab(n − 1) Total SQT abn −15.1.2- Análise de Resíduo para o Modelo Fatorial com 2 fatores fixos.Do mesmo modo que nos experimentos com um fator, discutidos anteriormente, osresíduos de um experimento fatorial desempenham papel importante na garantia deadequação do modelo. Os resíduos de um experimento fatorial de dois fatores são ε ijk = y ijk − y ijk = y ijk − y ij . ˆ (5.11) Isto é, os resíduos são, simplesmente, a diferença entre as observações e as médias dascelas correspondentes (ver Montgomery, 2001). Da mesma forma a utilização degráficos e testes para checar a adequação das suposições serão de grande importância.Para o modelo fatorial de dois fatores A e B, destacamos os seguintes gráficos e testes. 1. Gráfico da probabilidade normal. Usado com os resíduos, checa se os mesmos seguem uma distribuição normal. Aqui também utiliza-se o teste de normalidade como por exemplo Shapiro-Wilky. 40
  41. 41. 2. Gráfico de resíduos X níveis do fator A. Checa a homogeneidade da variância nos níveis de A. 3. Gráfico de resíduos X níveis do fator B. Checa a homogeneidade da variância nos níveis de B. ˆ 4. Gráfico de resíduos X valores preditos y ijk . Checa a homogeneidade da variância de forma geral. Para testar a homogeneidade da variância pode-se usar o teste de Bartey. 5. Gráfico de resíduos X Ordem de coleta. Checa a suposição de independência entre as observações.Se forem observadas evidências de fortes violações na suposição do modelo, esse deveser invalidado ou deve-se proceder a transformações dos dados originais (verMontgomery, 2001).5.1.3- Comparações MúltiplasIdentificado o efeito significativo nos níveis dos fatores, deve-se utilizar um teste decomparações múltiplas, para a identificação das diferenças específicas. Novamente seráutilizado nesta fase o teste de comparações múltiplas de Tukey.Vale ressaltar que quando a interação é significativa, a comparação entre médias de ummesmo fator pode ser mascarada pelo efeito da interação. Uma alternativa para essasituação é por exemplo fixar o fator B em um nível específico e aplicar o teste Tukeypara as médias do fator A neste nível fixado.5.2- O Modelo de Planejamento Fatorial GeralOs resultados do experimento fatorial com dois fatores podem ser facilmente estendidospara o caso geral onde existem a níveis do fator A, b níveis do fator B, c níveis dofator C, e assim por diante. No geral, existirão abc...n observações totais para nréplicas completas do experimento. Aqui, deve-se ter no mínimo duas réplicas ( n ≥ 2 )para determinar as somas de quadrados envolvidas no modelo.Se todos os fatores no experimento são fixos, pode-se facilmente formular e testarhipóteses sobre os efeitos principais e interações. Neste caso, testes estatísticos paracada efeito principal e interação podem ser construídos pela divisão da correspondentemédia de quadrados dos efeitos ou interação pela média quadrática dos erros. Todos sãotestes F , unilaterais a direita. O número de graus de liberdade para os efeitosprincipais é o número de níveis do fator menos um e o número de graus de liberdadepara interação é o produto do número de graus de liberdade associado com oscomponentes individuais da interação. Por exemplo, considerando o modelo com trêsfatores temos: 41
  42. 42.  i = 1,2,..., a  j = 1,2,..., b  y ijkl = µ + τ i + β j + γ k + (τβ ) ij + (τγ ) ik + ( βγ ) jk + (τβγ ) ijk + ε ijkl , com   k = 1,2,..., c  l = 1,2,..., n (5.12)Assumindo que A,B e C são fixados, a tabela resumo da análise de variância, incluindoa esperança dos quadrados médios é dada abaixo. Tabela 5.4 – Quadro da Anova (Modelo Fatorial com Três Fatores)Fonte de Soma de Graus de Quadrado Esperança da Média FoVariação Quadrados Liberdade Médio Quadrática A SQ A a −1 QM A bcn∑τ i2 QM A σ2 + a −1 QM E B SQ B b −1 QM B acn∑ β 2 QM B σ2 + b −1 QM E C SQC c −1 QM C abn∑ γ k2 QM C σ2 + c −1 QM E AB SQ AB ( a −1)(b −1) QM AB cn∑∑(τβ ) ij 2 QM AB σ2 + ( a − 1)(b − 1) QM E AC SQ AC (a − 1)(c − 1) QM AC bn∑∑(τγ ) ik 2 QM AC σ2 + (a − 1)(c − 1) QM E BC SQBC (b −1)(c −1) QM BC an∑∑( βγ ) 2jk QM BC σ2 + (b − 1)(c − 1) QM E ABC SQ ABC ( a −1)(b −1)(c −1) n∑∑∑(τβγ ) ijk 2 QM ABC QM ABC σ + 2 (a −1)(b −1)(c −1) QM E Erro SQ E abc( n − 1) QM E σ2 Total SQT abcn −1A soma de quadrados total é encontrada da mesma forma anterior, sendo dada por 2 y.... SQT = ∑i =1 ∑j =1 ∑k =1 ∑l =1 y a b c n 2 ijkl − (5.13) abcnAs somas de quadrados dos efeitos principais são encontradas a partir dos totais dosfatores A ( y i ... ) , B ( y. j .. ) e C ( y..k . ) como segue 42

×