Analise de agrupamentos uem

672 visualizações

Publicada em

Projecto Apresentado como Requisito para a Obtenção do Grau de Licenciado em Estatística Pela Universidade Eduardo Mondlane.

Publicada em: Ciências
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
672
No SlideShare
0
A partir de incorporações
0
Número de incorporações
7
Ações
Compartilhamentos
0
Downloads
53
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Analise de agrupamentos uem

  1. 1. UNIVERSIDADE EDUARDO MONDLANE FACULDADE DE CIÊNCIAS DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA Trabalho de Licenciatura em Estatística CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM MOÇAMBIQUE Autor: Frederico Machado Almeida Maputo, Abril de 2014
  2. 2. UNIVERSIDADE EDUARDO MONDLANE FACULDADE DE CIÊNCIAS DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA Trabalho de Licenciatura em Estatística CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM MOÇAMBIQUE Autor: Supervisor: Frederico Machado Almeida Dr. Osvaldo Francisco Loquiha Maputo, Abril de 2014
  3. 3. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 iii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Em memória de: Zeferino António Sócrates e Anatol António Sócrates
  4. 4. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 iv Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM “A coisa mais bela que o homem pode experimentar é o mistério. É essa emoção que está na raiz de toda ciência e toda a arte”. Albert Einsten, físico Alemão (1879-1955)
  5. 5. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 v Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM AGRADECIMENTOS Esta foi uma das partes mais difíceis deste trabalho, pois, não é fácil enumerar ou listar em poucas linhas, todos quanto directa ou indirectamente contribuíram para a formação do homem que hoje sou e, consciente que o anónimo também tem o seu lugar reservado no fundo do meu coração. Deste modo, agradeço em primeiro lugar à Deus que sempre me guiou e estendeu suas mãos nos momentos difíceis, me dando força, coragem e saúde para vencer os obstáculos. Ao meu supervisor, o Dr. Osvaldo Loquiha, expresso toda a minha gratidão pela confiança irrestrita, pelo seu apoio e incentivos que foram fundamentais para a construção de um ambiente que permitiu o desenvolvimento deste trabalho. Ao Eng. agrónomo Aurélio Mathe, vai o meu agradecimento pela compreensão, paciência e, pela ajuda tanto na obtenção da base de dados como pelas referências bibliográficas por ele recomendadas. Expresso também, todo o meu agradecimento aos meus pais Machado Almeida e Matilde Marcelino, pela minha formação moral e educacional, e que por vezes privaram-se materialmente em prol da minha formação. A toda a minha família no geral e, em especial aos meus irmãos, Ereneu M. Almeida, Sónia A. Sócrates, aos meus sobrinhos Fausio, Zeferino António Jr. e José Machado Jr. Ao meu irmão José Machado Almeida vai um agradecimento especial por tudo o que fez em prol da minha formação, pelos conselhos que me tornaram na pessoa que hoje sou, pelo apoio financeiro e moral, em fim, por ter acreditado no meu potencial. A todos os docentes do Departamento de Matemática e Informática, em especial ao MSc. Alberto Mulenga a Drª. Ida Alvarinho, a Drª. Rafica, ao Prof. Dr. Manuel Alves, ao dr. Jonas Nassabe e ao dr. Rachid Muleia vai um agradecimento especial pelos conhecimentos transmitido. Aos meus colegas do curso e do departamento, em especial ao Mabjaia, Lucasse, Cristóvão Tinga, Cumbe, Aly e, aos drs. Mauro Langa, Alberto Chauque, Zacarias Mutombene e Américo Tamele, um agradecimento pelo crescimento que obtivemos em conjunto.
  6. 6. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 vi Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM DECLARAÇÃO DE HONRA Declaro que este trabalho é resultado da minha própria investigação, que não foi submetido para outro grau que não seja o indicado-Licenciatura em Estatística, da Universidade Eduardo Mondlane. Maputo, aos 01 de Abril de 2014 O estudante _____________________________________ (Frederico Machado Almeida)
  7. 7. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 vii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM RESUMO A agricultura constitui uma importante fonte de rendimento e de auto-sustento para maior parte da população africana no geral e a moçambicana em particular. Em Moçambique, o sector agrário tem beneficiado de recursos do estado bastante reduzidos, embora a maior parte da população se dedique a agricultura. Com o objectivo de encontrar segmentos de distritos com semelhantes níveis na produção de cereais, foram usados os métodos de análise de Agrupamentos, que com base nas medidas de similaridade ou dissimilaridade permite segmentar sujeitos ou casos em grupos homogéneos relativamente a uma ou mais características em comum. A população do presente trabalho é o total dos 128 distritos existentes em Moçambique no período em análise, destes, foram seleccionados 94 distritos abrangidos pelo Trabalho de Inquéritos Agrícolas. Com base no coeficiente de correlação cofenética, conclui-se que o critério de ligação completa apresentou bons resultados em relação ao método de Ward. Uma aplicação da MANOVA mostrou que as duas variáveis respostas usadas são potências em diferenciar os vectores de média entre dos grupos, sendo, a variável estimativa do orçamento total a mais poderosa em diferenciar os grupos segundo os intervalos simultâneos de Bonferroni. Uma análise conjunta das potencialidades dos distritos mostrou que no geral, distritos com altas precipitações e/ou altas temperaturas, tendem a ser por vezes potenciais produtores de arroz, feijão nhemba e feijão manteiga. Palavras-chaves: Agricultura, Análise de Agrupamentos, ligação completa, distância euclidiana e Manova.
  8. 8. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 viii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM LISTA DE ABREVIATURAS AA Análise de Agrupamentos ANOVA Análise Univariada de Variância COF Coeficiente de Correlação Cofénetica DUAT Direito de Uso e Aproveitamento de Terra EM Estatística Multivariada FAO Food and Agriculture Organization INAM Instituto Nacional de Meteorologia INE Instituto Nacional de Estatística MANOVA Análise Multivariada de Variância MINAG Ministério de Agricultura PDA Programa de Desenvolvimento da Agricultura PIB Produto Interno Bruto ERV Estratégia Revolução Verde SPSS Statistic Package for the Social Sciences SQPC Soma dos Quadrados e Produtos Cruzado Tª Min Temperatura Mínima Tª Max Temperatura Máxima TIA Trabalhos de Inquéritos Agrícolas UPA´s Unidades de Amostragens Primarias
  9. 9. ÍNDICE PÁGINAS CAPÍTLO I: INTRODUÇÃO .............................................................................................. 1 1.1 OBJECTIVOS ................................................................................................................... 3 1.1.1 Objectivo geral ........................................................................................................... 3 1.1.2 Objectivos Específicos ............................................................................................... 3 CAPÍTULO II: REVISÃO DA LITERATURA ................................................................. 4 2.1 A politica agrária em Moçambique ................................................................................... 4 2.2 Algumas considerações e conceitos importantes .............................................................. 6 CAPÍTULO III: MATERIAL E MÉTODOS ..................................................................... 9 3.1 Material .............................................................................................................................. 9 3.2 Métodos ........................................................................... Error! Bookmark not defined. 3.2.1 Técnicas Estatísticas ................................................. Error! Bookmark not defined. 3.2.2 Análise de Agrupamentos ......................................... Error! Bookmark not defined. 3.2.3 Etapas para a realização da AA ................................ Error! Bookmark not defined. 3.2.4 Medidas de Semelhanças e Distância ....................... Error! Bookmark not defined. 3.2.4.1 Medidas de Similaridade para Variáveis QuantitativasError! Bookmark not defined. 3.2.4.2 Medidas de Semelhança para variáveis qualitativasError! Bookmark not defined. 3.2.4.3 Coeficientes Combinados ................................................................................ 14 3.2.5 Métodos de Agrupamentos ....................................... Error! Bookmark not defined. 3.2.5.1 Métodos hierárquicos ...................................... Error! Bookmark not defined. 3.2.5.2 Métodos não-hierárquicos ............................................................................... 18 3.3 Critérios para a determinação do número de grpos à reter .............................................. 19
  10. 10. 3.4 Formação dos Agrupamentos .......................................... Error! Bookmark not defined. 3.5 Suposições em Análise de Agrupamentos ....................... Error! Bookmark not defined. 3.6 Métodos de validação dos agrupamentos ........................ Error! Bookmark not defined. 3.6.1 Coeficiente de Correlação Cofenética ..................... Error! Bookmark not defined. 3.6.2 Testes de Singnificancia entre os agrupamentos (MANOVA) ................................ 24 3.6.2.1 Suposições em Manova ................................................................................... 27 3.6.2.2 Comparações Múltiplas ................................................................................... 29 CAPÍTULO IV: RESULTADOS E DISCUSSÃO ............ Error! Bookmark not defined. 4.1 Caracterização da amostra ............................................... Error! Bookmark not defined. 4.2 Verificação das suposições em Análise de AgrupamentosError! Bookmark not defined. 4.3 Determinação do número de grupos à reter ..................... Error! Bookmark not defined. 4.4 Análise Hierárquica ......................................................... Error! Bookmark not defined. 4.4.1 Aplicação do método de Ward .................................. Error! Bookmark not defined. 4.4.2 Aplicação do método de ligação completa ................ Error! Bookmark not defined. 4.5 Interpretação dos Agrupamentos ..................................................................................... 37 4.6 Validação dos Agrupamentos .......................................................................................... 39 CAPÍTULO V: CONCLUSÕES E RECOMENDAÇÕES .............................................. 45 5.1 Conclusões ....................................................................................................................... 45 5.2 Recomendações ............................................................................................................... 46 5.3 Referências Bibliográficas .............................................................................................. 47 ANEXOS
  11. 11. ÍNDICE DE TABELAS PÁGINAS Tabela 3.1 Descrição das variáveis usadas no estudo ............................................................. 9 Tabela 3.2 Tabela de contingência ........................................ Error! Bookmark not defined. Tabela 3.3 Critérios de ligação entre as observações ............................................................ 17 Tabela 3.4 Quadro da Manova para a comparação dos vectores de médiaError! Bookmark not defined. Tabela 3.5 Distribuições aproximadas dos testes multivariados ........................................... 27 Tabela 4.1 Estatísticas descritivas das variáveis Climáticas ................................................. 31 Tabela 4.2 Estatísticas descritivas dos Cereais ...................... Error! Bookmark not defined. Tabela 4.3 Análise da Influencia dos outliers nas estatísticas descritivasError! Bookmark not defined. Tabela 4.4 Ilustração dos valores do R2 ................................ Error! Bookmark not defined. Tabela 4.5 Comparação do tamanho dos agrupamentos ....................................................... 38 Tabela 4.6 Identificação da melhor estrutura dos agrupamentos .......................................... 39 Tabela 4.7 Testes de Normalidade Univariada ...................................................................... 39 Tabela 4.8 Teste de Levene para igualdade de variâncias Univariadas ................................ 40 Tabela 4.9 Teste M de Box para igualdade de matrizes de variâncias-covariancias............. 40 Tabela 4.10 Teste de esfericidade de Bartltett ....................................................................... 40 Tabela 4.11 Testes Multivariados ......................................................................................... 41 Tabela 4.12 Média das variáveis nos agrupamentos formado Error! Bookmark not defined. Tabela 4.13 Matriz das distâncias entre os centoide dos agrupamentosError! Bookmark not defined. INDÍCE DE FIGURAS E GRÁFICOS Gráfico 3.1 Relação entre os métodos aglomerativos e divisivosError! Bookmark not defined. Figura 4.1 Representação Espacial dos Agrupamentos ......................................................... 44
  12. 12. CAPÍTULO I: INTRODUÇÃO Em África, a agricultura desempenha um papel preponderante na economia, tanto como fonte de emprego da população e, como fonte de receitas através de exportação de produtos agrários para maior parte dos países africanos. Moçambique não está alheia a essa realidade, a pobreza é um fenómeno generalizado com mais predominância nas zonas rurais, onde mais da metade da população vive na pobreza1. O baixo nível de desenvolvimento da agricultura é uma das principais causas da pobreza e, os rendimentos familiares são geralmente baixos e distribuídos de forma desigual (MINAG, 2010). Problemas como a fome e a pobreza afectam o desenvolvimento do país, como resultado da baixa produtividade agrícola a qual é motivada pela debilidade dos solos e a fraca utilização de tecnologias modernas, incluindo as sementes melhoradas, fertilizantes e a mecanização. O sector de agricultura é de extrema importância para o desenvolvimento do país, pois, além de contribuir significativamente no Produto Interno Bruto, constitui uma fonte de emprego para cerca de 90% da força laboral feminina e 70% da força laboral masculina e, possui um grande potencial para tirar muitas pessoas da pobreza (INE, 2011). Consciente na importância da agricultura, em 1998, o Governo em colaboração com os principais parceiros desenhou o Programa de Desenvolvimento da Agricultura, com o objectivo de melhorar a coordenação das intervenções públicas na agricultura e orientar de forma adequada o investimento em diversas áreas do sector. No contexto do Programa de Desenvolvimento Agrário, o Conselho de Ministros aprovou em 2007 a Estratégia Revolução Verde2, com principal objectivo de promover o aumento da produção e produtividade especialmente nos pequenos produtores, para uma maior oferta de alimentos de forma competitiva e sustentável (MINAG,2010). A implementação do programa de desenvolvimento da agricultura e a estratégia revolução verde exigiu a utilização de novas tecnologias, o que requer a alocação de recursos financeiros adicionais e muita formação técnica dos agricultores. 1 Define-se como sendo o estado em que o nível de consumo ou da renda das pessoas é inferior a um valor mínimo de subsistência determinado para cada local e/ou a nível global, que geralmente é inferior em relação a média. 2 Define-se como sendo a incorporação de avanços científicos no melhoramento de plantas com pacotes tecnológicos que tem permitido a realização do potencial dos cultivos (FAO, 1996).
  13. 13. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 3 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM A escolha deste tema justifica-se pela própria relevância da agricultara em Moçambique, portanto, com o objectivo de encontrar semelhantes características entre os distritos, utilizar-se-á as técnicas de AA, que através dos critérios de similaridade ou dissimilaridade e algoritmos matemáticos, permite reunir objectos em grupos a partir de uma série de variáveis seleccionadas à priori. Assim, pode-se colocar a seguinte questão de investigação: Pode a análise de agrupamentos contribuir de forma significativa na identificação de segmentos de distritos potenciais produtores de cereais em Moçambique?
  14. 14. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 4 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM 1.1 OBJECTIVOS 1.1.1 OBJECTIVO GERAL Aplicar a análise de agrupamentos para encontrar segmentos de distritos potenciais produtores de cereais em Moçambique. 1.1.2 OBJECTIVOS ESPECÍFICOS  Descrever as características dos cereais usados no processo de agrupamento dos distritos;  Encontrar o melhor critério de agrupamento dos distritos tendo em conta as características das variáveis de agrupamento;  Aplicar os testes da MANOVA para validar os agrupamentos formados,  Classificar os grupos formados e identificar o grupo de distritos com elevado potencial na produção de um dado cereal;  Identificar geograficamente a região com maior potencialidade na produção de cereais.
  15. 15. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 5 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM CAPÍTULO II: REVISÃO DA LITERATURA O combate a pobreza absoluta assente num crescimento económico sustentável e abrangente, constitui a principal finalidade do Governo Moçambicano na actualidade, esta tarefa está a ser implementada tanto nas áreas urbanas como nas áreas rurais de Moçambique. A experiência histórica de Moçambique demonstra que a batalha pelo desenvolvimento humano só será sustentável e viável se, a longo prazo, a generalidade do território e da população forem integrados de forma eficiente e equitativa no processo de crescimento e do desenvolvimento económico do país. Conforme Sitoe (2010), a maior parte do território Moçambicano é predominantemente rural. Não obstante, o processo de urbanização acelerado nas décadas passadas, a maior parte da população Moçambicana continua a nascer, residir e depender das áreas rurais. Consciente da experiência histórica e dos enormes desafios que o país terá de enfrentar no futuro, o Governo tem vindo a repensar e equacionar uma estratégia de desenvolvimento especificamente para as áreas rurais. Esta estratégia ou visão estratégica invocada pelo Governo não é por acaso, nem simples retórica, mais sim tem-se em vista uma diferença substancial na planificação por um lado e, a estratégia ou pensamento estratégico, por outro lado. 2.1 A POLÍTICA AGRÁRIA EM MOÇAMBIQUE Em Moçambique o sector agrário tem beneficiado de recursos do Estado bastante reduzidos, embora a maior parte da população se dedique a agricultura. Paralelamente a este aspecto, a componente de recursos humanos qualificados, o fraco acesso à tecnologia são alguns dos constrangimentos que afectam com certa severidade o sector agrário. Assim, para a erradicação da pobreza e o combate a fome por meio do aumento da produtividade agrícola requer uma política deliberada, orientada para maiores investimentos3 públicos e privados no sector agrário. A análise dos sistemas agrícolas de um determinado lugar parte do pressuposto de que analisar e especificar um objecto, é também estudar a sua dinâmica da evolução através do tempo, e as 3 Refere-se aos investimentos em infra-estruturas de rega, mecanização agrícola e o acesso a créditos bancários.
  16. 16. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 6 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM relações que esse sistema mantém com o resto do mundo nos seus diferentes estágios de evolução. Com o objectivo de estimular a produtividade induzindo o crescimento e a equidade nos pequenos agricultores, o Governo implementou em 2007 a Estratégia Revolução Verde. Cujo a ideia mais vulgarizada desta Revolução está relacionada com à transformação tecnológica da agricultura principalmente na Ásia entre 1950-1960 com a introdução e utilização de variedades altamente produtivas de arroz e trigo, fertilizantes inorgânicos, pesticidas e irrigação (Sitoe, 2010). Em Moçambique, apesar da Revolução Verde contribuir significativamente no aumento dos níveis de produtividades, ela tem sido criticada por vários investigadores desta área. Conforme Uaiene e Arndt (2007) a Revolução Verde que se advoca centra-se na provisão de sementes melhoradas, uso de fertilizantes e pesticidas, irrigação e mecanização agrícola. A mera provisão destes importantes insumos não garante, contudo, o seu uso eficiente para que se possa atingir a máxima produção possível. Uma melhor gestão, informação e utilização dos recursos são igualmente importantes e devem ser enfatizados. Langa (2010), citado por Lopes e Magalhães (2010), afirma que na agricultura moderna, a produtividade é assegurada pelo recurso a insumos agrícolas e a investigação científica. Na Revolução Verde de Moçambique, apenas 5% dos produtores das 3.3 milhões de explorações agrícolas existentes no país usa sementes melhoradas e fertilizantes. Sendo que a maior parte dos agricultores continuam a fazer a agricultura com enxada de cabo curto e com preces para poder ajudar na colheita. A extensão agrária é uma das componentes mais importantes para promover a produtividade agrária no país e tem uma desoladora abrangência de menos de 5% dos produtores, o que quer dizer que a maioria dos agricultores nunca viu um extensionista na sua machamba. O mesmo autor citado anteriormente acrescentou que apenas a Estratégia RV não é suficiente para resolver os problemas que o sector agrário enfrenta, pois, existem outros factores que influenciam nos níveis de produtividade, entre os quais se destacam:
  17. 17. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 7 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM a) A rotação de culturas que consiste em fazer uma alternância nas culturas de forma a evitar o empobrecimento do solo em substâncias minerais e orgânicas. b) A adubação verde é o segundo factor que tem como objectivo melhorar a fertilidade do solo e aumentar a sua capacidade produtiva. c) O uso de fertilizantes que servem para acelerar o crescimento das plantas e aumentar o rendimento das culturas. Os fertilizantes podem ser orgânicos ou químicos4. d) A irrigação é uma técnica utilizada na agricultura e tem por objectivo o fornecimento de água às plantas em quantidade suficiente. e) O capital ou a renda é um factor muito importante para a produção agrícola, pois, o sector agrário é dependente de equipamentos mais modernos, e para isso, é necessários que se façam grandes investimentos. Principalmente no que diz respeito o acesso ao crédito bancário por parte dos pequenos agricultores. f) Acesso à terra, segundo a Constituição da República (2007), a terra e os recursos naturais situados no solo e no subsolo, nas águas territoriais e na plataforma continental são propriedade do estado e portanto não devem ser vendidos. Quando se diz que a terra é propriedade do Estado significa que os particulares apenas podem ter Direito de Uso e Aproveitamento da Terra (DUAT). 2.2 ALGUMAS CONSIDERAÇÕES E CONCEITOS IMPORTANTES Nesta secção são apresentados alguns conceitos imprescindíveis para a realização deste trabalho. 2.2.1 Potencialidade Agrícola A potencialidade agrícola é definida como sendo a capacidade que uma região tem na produção de um determinado bem de consumo (produto). 4 Os fertilizantes orgânicos provêm de produtos animais ou vegetais, enquanto os fertilizantes químicos são produtos obtidos através de processos industriais e que contem os nutrientes essenciais às plantas.
  18. 18. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 8 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Conforme MINAG (2010), esta potencialidade pode ser definida pelos níveis de precipitação, temperatura e o tipo de solo que cada distrito apresenta. Contudo, maior parte dos distritos das zonas Norte e Centro do país possuem um bom potencial agrícola, por apresentar várias bacias hidrográficas com um regime de escoamento mais permanente que os da zona Sul, que são caracterizados por solos arenosos e por um regime de precipitação irregular, condições não favoráveis para a agricultura, assim, a presença de barragens e sistemas de regadio nestas zonas potenciam a agricultura regada. 2.2.2 Agricultura Segundo a FAO (1996), o conceito de agricultura, é vista como sendo toda a actividade feita pelo homem com relação a terra de uma forma metódica e sistemática, tendo como principal objectivo a produção de alimentos. 2.2.3 Conceito de distrito Normalmente o termo distrito é usado para indicar uma certa subdivisão territorial dentro de um país e/ou província. Esta divisão pode ter natureza puramente administrativa, ordem política, judicial, entre outras. Neste trabalho dar-se-á menção ao termo distrito aplicado a divisões rurais, ou seja, distritos que se localizam principalmente nas zonas rurais e outras áreas similares. As técnicas de AA têm sido amplamente usada em diversas áreas de investigação. Um exemplo de aplicação desta técnica foi apresentado por Vicini (2005), onde propõem uma abordagem alternativa para o agrupamento de algumas regiões estaduais do Brasil com semelhantes características nos níveis de produção de grão no sector agro-industrial no período de 1990 à 2002. Neste estudo, a autora concluiu que as diferenças encontradas entre a classificação convencional e a obtida era significativa, apesar de existirem grupos com alguns estados mal classificados, ou seja, no mesmo grupo encontrar-se dois estados, sendo um, potencial produtor de um dado grão, e o outro não. Oliveira e Padovani (2008) aplicaram a AA com objectivo de caracterizar o perfil produtivo e climatológico no Sudeste do Estado de Mato Grosso segundo microrregiões semelhantes a partir das suas características observadas nas medidas de produtividade e climática. Neste estudo, os
  19. 19. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 9 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM autores concluíram que as regiões com baixas temperaturas são as potenciais produtoras de milho e feijão, enquanto, nas regiões com altas temperaturas correspondem a menor produtividade de arroz. Concluíram ainda que as regiões com maiores índices pluviométricos tendem a apresentar baixas produtividades de arroz e banana. No país, estudos de natureza ainda não foram conduzidos na sua generalidade, mas, o Governo classificou os distritos como potenciais produtores de cereais usando apenas a informação referente ao tipo de solo, níveis de precipitação e a temperatura registada em cada um dos distritos (MINAG, 2010). Portanto, este tipo de classificação não garante a definição de grupos consistentes, visto que os mesmos foram agrupados de forma aleatória. Sendo que, com a aplicação da AA neste trabalho, poder-se-á garantir com uma certa margem que os grupos formados apresentam uma alta homogeneidade dentro e alta heterogeneidade entre os grupos. CAPÍTULO III: MATERIAL E MÉTODOS 3.1 MATERIAL
  20. 20. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 10 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Os dados para a realização deste trabalho foram fornecidos pelo Ministério de Agricultura em uma base de dados secundária contendo observações de 94 distritos e um total de 11 tipos de cereais colectados entre 2006 à 2009. Dos quais apenas 5 farão parte da variável estatística de agrupamento por serem os mais cultivados um pouco por todo país. Os indicadores climáticos como a média da temperatura mínima anual, a média da temperatura máxima anual e o nível de precipitação média anual para cada distrito foram fornecidos pelo INAM em uma base de dados secundária, contendo observações dos 94 distritos usados no estudo. A população do presente trabalho é o total dos 128 distritos existentes em Moçambique5. No que diz respeito a amostra, serão considerados os 94 distritos abrangidos pelo Trabalho de Inquéritos Agrícolas (TIA), este inquérito foi realizado em 658 Unidades Primárias de Amostragem seleccionadas (UPA’s). Tabela 3.1 Descrição das variáveis usadas no estudo Variáveis Descrição da variável Unidade de Medida Precipitação Precipitação Média registada Mm Temperatura Mínima Média da Tª Mínima registada ˚ C Temperatura Máxima Média da Tª Máxima registada ˚ C Milho Quantidade total de Milho produzido Mil toneladas Arroz Quantidade total de Arroz produzido Mil toneladas Feijão Nhemba Quantidade total de F. Nhemba produzido Mil toneladas Feijão Manteiga Quantidade total de F. Manteiga produzido Mil toneladas Feijão Bóer Quantidade total de F. Bóer produzido Mil toneladas Orçamento Estimativa do Orçamento Total Mil Meticais Área de cultiva Estimativa do Total de Área cultivada Mil Hectares Os dados foram processados nos seguintes Softwares estatísticos:  SPSS versão 17.0; 5 No período considerado em Moçambique havia cerca de 128 distritos.
  21. 21. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 11 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM  MINITAB versão 14.0;  R, Versão 2.8.1 e  ARCGIS, Versão 10.1 E, foi usado 5% como nível de significância durante o processamento e análise dos resultados obtidos. 3.2 MÉTODOS 3.2.1 Técnicas Estatísticas As técnicas estatísticas podem ser classificadas em técnicas de dependência e interdependência. A principal diferença entre elas reside no facto das técnicas de dependência serem aplicáveis para avaliar as relações entre uma ou mais variáveis. Enquanto as técnicas de interdependência são úteis nos casos em que as variáveis ou observações estiverem relacionadas de modo não capturadas pelas relações de dependência. Ou seja, as técnicas de interdependência ajudam a avaliar a estrutura dos dados (Hair, et al. 2005). Fazem parte das técnicas de interdependência: a análise factorial, análise de agrupamentos e o escalonamento multidimensional. 3.2.2 ANÁLISE DE AGRUPAMENTOS A AA é conforme Hair, et al. (2005), Maroco (2007) e Reis (2001) uma técnica exploratória de análise multivariada que permite agrupar sujeitos ou variáveis em grupos homogéneos relativamente a uma ou mais características comuns. Cada observação pertencente a um determinado grupo é similar a todas as outras pertencentes a esse grupo, e diferente das observações pertencentes aos outros grupos. Ou seja, a ideia chave é que os grupos tenham significado e sejam interpretáveis. Para uma mesma amostra, a análise de agrupamentos pode portanto conduzir a vários conjuntos (de grupos) sendo que, alguns deles poderão ser solução. Algumas limitações deste tipo de análise devem-se ao facto de:
  22. 22. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 12 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM  Não detectar o número óptimo de grupos existentes (por natureza) na amostra;  Não identificar a melhor solução;  Nem sempre criar grupos facilmente identificáveis e de igual dimensão;  Não tomar em consideração as relações existentes entre as variáveis. Uma noção fundamental em AA é a de semelhanças e/ ou de dissemelhanças entre os objectos a agrupar, pois pretende-se que os elementos de um mesmo grupo sejam o mais semelhante possível (homogeneidade intra-grupos) e que os elementos de dois grupos distintos sejam o mais dissemelhante possível (heterogeneidade inter-grupos). 3.2.3 Etapas para a realização de AA Para a aplicação da técnica multivariada de AA é necessário:  Definir os objectivos da AA, obtenção dos dados e tratamento dos mesmos;  Escolher a técnica de Agrupamentos e da medida de distância a ser usada;  Formar os grupos a partir das definições efectuadas;  Validar, avaliar e interpretar os resultados obtidos. 3.2.4 Medidas de Semelhanças e Distância Segundo Reis (2001) e Hãrdle e Simar (2007), a análise teórica das relações de semelhança tem sido denominada pelos modelos geométricos. Estes modelos representam as observações como ponto em qualquer espaço de coordenadas de forma que as dissemelhanças observadas entre objectos correspondam a distâncias métricas entre os respectivos pontos. Hair, et al. (2005) defende que a similaridade é uma medida de correspondência ou semelhança entre objectos a serem agrupados. E podem se destacar as medidas de correlação, associação e as medidas de distância. Estas medidas de classificação exigem que os índices de semelhança ou dissemelhança respeitem as propriedades das métricas que são:
  23. 23. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 13 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM  Simetria: U V U V U V d d ( , ) ( , ) ,   0,  Desigualdade triangular: ( , ) ( , ) ( , ) U, V e W    U W U W W V d d d .  Diferenciabilidade de não idênticos: U V U V d   0,  ( , ) .  Indiferenciabilidade de idênticos: ' ' 0, (U,U ) U U d    . 3.2.4.1 Medidas de Similaridade e Dissimilaridade para Variáveis Quantitativas Para iniciar com o processo de agrupamento dos objectos, é necessário definir uma medida de similaridade ou dissimilaridade e, com base nessa medida os objectos similares são agrupados e os demais são colocados em grupos separados. As medidas de distância têm um papel central nos algoritmos de agrupamento. Através delas são definidos critérios para avaliar se dois pontos estão próximos e, se podem ou fazer parte de um mesmo grupo, caso contrário os dois pontos estarão em grupos diferentes. Para medir esta dissemelhança, várias medidas de distância foram propostas para agrupar os objectos de uma matriz de dados (tabela 1 anexo IV). A distância City-Block substitui a soma dos quadrados das diferenças pela soma das diferenças absolutas em cada par de indivíduos ao longo da variável estatística de agrupamentos. Esta distância é apropriada nos casos em que as variáveis que compõem a variável estatística de agrupamentos não estão correlacionadas, caso contrário os agrupamentos são considerados inválidos Hair, et al, (2005). A distância de Mahalonobis para além de ser uma generalização da distância Euclideana, ela contém por si só um procedimento de padronização sobre os dados e soma a variância-covariância acumulada dentro dos grupos ajustando assim as inter-correlações entre as variáveis. Para certos valores do factor de ponderação S, a distância Euclideana ponderada assume as seguintes características:
  24. 24. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 14 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM  S=1nxn, a ponderação é a matriz identidade, portanto, obter-se-á a Euclideana distância usual;  2 2 1 2 2 1 .( , ,.............., )  p S diag s s s , Obter-se-á a distância de variáveis padronizadas;  1 S   , Onde 1  é a inversa da matriz de covariância, tem-se então a distância de Mahalanobis. 3.2.4.2 Medidas de Semelhança para variáveis qualitativas As medidas de similaridade por associação são geralmente usadas para comparar objectos cujas características são medidas em termos não métricos (medida nominal ou ordinal). Estas medidas representam a similaridades pela percentagem de concordâncias nos respondentes ao longo da variável estatística de agrupamento, sendo, pelas simultâneas presenças ou ausências de determinadas características nos objectos, nos quais, objectos similares têm mais característica em comum do que indivíduos não similares Hair, et al. (2005). Considerando os seguintes objectos i e j caracterizados por p-variáveis binárias poder-se-á construir a seguinte tabela de contingência: Tabela 3.2 Tabela de contingência 1 0 Totais 1 a 1 a 2 a 1 + a 2 0 a 3 a 4 a 3 +a 4 Totais a 1 +a 3 a 2 + a4 p=a 1 +a 2 +a 3 +a 4 Objecto j Objecto i Onde: a1- Representa o número de presenças simultâneas de características (1-1) entre os objectos i e j no total de p-variáveis. a2- Representa o número de ausências de características no objecto i e presença de características no objecto j (0-1).
  25. 25. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 15 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM a3- Representa o número de presença de características no objecto i e ausência de características no objecto j (1-0). a4- Representa o número de ausências simultâneas de características (0-0) entre os objectos i e j. Com base na tabela de contingência definida anteriormente, Hãrdle e Simar (2007), definiram a seguinte medida de semelhança: ( ) 1 4 2 3 1 4 a a a a a a Sij         , com 0  1 ij S (1) Onde:  e  são factores de ponderação. Assim, para diferentes valores de  e  ter-se-á os coeficientes de similaridade da tabela 2 (Anexo IV). 3.2.4.3 Coeficientes Combinado Os coeficientes de aglomerações combinadas são úteis, quando se tem um conjunto misto de variáveis, ou seja, variáveis de naturezas diferentes. Quando isso acontece, é necessário definir uma matriz de similaridade e/ou dissimilaridade, que será a combinação linear de duais ou mais matrizes, dependendo da natureza de cada variável existente. Para casos em que houver variáveis de natureza qualitativa e quantitativa, as matrizes combinadas serão calculadas pela seguinte fórmula (Barroso e Artes, 2003): nxn n n o o q q S  N * S  N * S  N * S e nxn n n o o q q D  N *D  N *D  N *D (2) Onde: Nn: Representa o número de variáveis nominais existente No: Representa o número de variáveis ordinais existente Nq: Representa o número de variáveis quantitativas existente, por sua vez, Sn e Dn: Representam as matrizes de similaridade e dissimilaridade geradas com base nas variáveis nominais; So e Do: Representam as matrizes de similaridade e dissimilaridade geradas com base nas variáveis ordinais;
  26. 26. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 16 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Sq e Dq: Representam as matrizes de similaridade e dissimilaridade geradas com base nas variáveis quantitativas. 3.2.5 MÉTODOS DE AGRUPAMENTOS O método de agrupamentos depende da natureza dos dados e do objectivo inicial, uma vez que a AA é uma técnica descritiva e exploratória, ao contrário dos testes estatísticos que tem um objectivo inferencial e confirmatório, é necessário na AA testar nos mesmos dados vários algoritmos. Dadas as diferentes soluções obtidas cabe ao investigador reter a melhor solução com base na interpretação dos resultados e do conhecimento a prior do caso em estudo. Existem dois métodos de agrupamentos, os métodos hierárquicos e os métodos por partição (métodos não-hierárquicos6). 3.2.5.1 Métodos hierárquicos Os métodos hierárquicos envolvem a construção de hierarquia em uma estrutura do tipo árvore. Ou seja, são métodos baseados em uma série de sucessivas junções (métodos aglomerativos) ou uma série de sucessivas divisões (métodos divisivos). Nos métodos hierárquicos aglomerativos, cada elemento inicia-se representando um grupo, e a cada passo, um grupo ou elemento é ligado ao outro de acordo com a sua similaridade, até o último passo onde é formado um grupo único com todos os elementos. Os métodos hierárquicos divisivos começam com um só grupo constituído por todas as observações existentes. Em passos sucessivos, os objectos mais diferentes entre si são separados e transformados em agrupamentos menores. Esse processo continua até que cada objecto seja um agrupamento por si mesmo. Fazem parte das limitações deste método, o facto de não serem tratáveis para analisar amostras muito grandes, ser fortemente influenciado pelas observações atípicas e, apresentar estrutura de agrupamentos inadequadas quando se incluir variáveis irrelevantes. 6 Abordagem mais aprofundada para os métodos não-hierárquicos pode ser encontrada em Reis (2001), Maroco (2007) e Hair, et al (2005)
  27. 27. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 17 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Gráfico 1: Relação entre os métodos aglomerativos e divisivos Fonte: Adaptado pelo autor Os resultados dos agrupamentos tanto de métodos divisivos como dos aglomerativos podem ser visualizados a partir de um digrama de dispersão (nos casos em que se tem apenas duas variáveis na variável estatística de agrupamento). Nos casos em que se tem mais de duas variáveis é comum o uso do dendograma, que é um gráfico bidimensional que ilustra as agregações ou divisões feitas em níveis sucessivos. O eixo horizontal representa a distância usada para unir os grupos e, o eixo vertical representa as observações agregadas. A leitura do dendograma nos métodos aglomerativos é feita da esquerda para a direita, enquanto nos métodos divisivos a leitura é feita de forma contrária. Nos métodos aglomerativos, os grupos são aglomerados de acordo com as semelhanças ou diferenças entre eles, assim, far-se-á menção a 6 critérios por serem os mais comummente usados.
  28. 28. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 18 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Tabela 3.3 Critérios de ligação entre as observações Critério de Ligação Expressão Matemática Critério do vizinho mais próximo   ij k i k j k d d d     min ; ( ) Critério do vizinho mais afastado   ij k i k j k d d d     max ; ( ) Critério de ligação mediana 2 4 ( ) UW VW UV UV W d d d d     Critério da média entre os grupos       ( ) ( ) 1 1 ( ) * 1 UV W N q N l ql UV W UV W d N N d Critério dos centroides ( ) 2 ( ) * * * * U V U V UV U V U UW V VW UV W N N N N d N N N d N d d      Critério de Ward      k l n j ij j j SQE Min X X 1 1 2 __ ( ) Fonte: Adaptado pelo autor com base em Hair, et al. (2005) e Albuquerque (2005) O critério de ligação simples é baseado em distância mínima. Ele encontra os dois objectos separados pela menor distância e coloca-os no mesmo agrupamento. Inversamente ao critério de ligação simples, no critério de ligação completa os objectos são agregados com base na distância máxima ou menor similaridade. Essa técnica tem sido comummente usada pelo facto de eliminar o problema de encadeamento identificado na ligação simples (Hair, et al., 2005). No critério de ligação média os objectos são agrupados com base na distância média de todos os objectos pertencente a um agrupamento ao demais em um outro. Esta técnica tem a vantagem de não depender de valores extremos como ocorre com ligação simples e completa. Conforme Reis (2001) e Hair, et al. (2005) abordagens de ligação média tendem a combinar agrupamentos com pequena variação interna, elas também tendem a produzir agregados com aproximadamente a mesma variância.
  29. 29. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 19 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM O critério dos centroides foi proposto com o objectivo de caracterizar os dados como pontos no espaço de Mahalanobis. Neste critério, a distância entre dois grupos é definida como a distância entre os seus centroides7. Uma das desvantagens na utilização deste método é que se os primeiros dois grupos formados forem muito diferentes em termo de dimensão, o centroide do novo grupo estará mais próximo daquele que tiver maior número de objectos e, as características do grupo menor tenderam a se perder (Albuquerque, 2005). O critério de Ward baseia-se na perda de informação resultante do agrupamento dos indivíduos e, é medida através da soma dos quadrados dos desvios das observações individuais relativamente às médias dos grupos em que são classificadas. No início do processo de agrupamento, cada individuo constitui um grupo cuja sua soma dos quadrados do erro é nula, em seguida são agrupados os dois indivíduos que provocam um aumento mínimo no valor da soma dos quadrados dos erros, passando a existir (n-1) grupos, assim por diante (Reis, 2001). 3.2.5.2 Métodos não-hierárquicos Os métodos não-hierárquicos destinam-se a agrupar objectos ou indivíduos (mas não variáveis) em um conjunto de grupos cujo número é definido a prior pelo analista. Estes métodos apresentam como principal vantagem, relativamente aos métodos hierárquicos, a facilidade com que são aplicados a matrizes de dados muito grandes, uma vez que não é preciso calcular e armazenar uma nova matriz de dissemelhança em cada passo do algoritmo (Maroco, 2007). Existem vários métodos não-hierárquicos, que diferem-se no modo como se desenrola a primeira agregação dos objectos nos grupos, e no modo como as novas distâncias entre os centroides dos grupos e os sujeitos são calculadas. De entre vários métodos, os mais usados são: 1. Critério k-médias: que consiste em transferir um objecto para um dado grupo cujo centroide se encontra a uma menor distância. Para tal, é necessário que se conheçam os centoides de cada grupo ou terão de ser calculados a partir dos dados originais. 7 Medias ou valores médios dos objectos contidos no agrupamento sobre cada variável usada no processo de agrupamento ou no processo de validação.
  30. 30. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 20 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM 2. Critério de referência sequencial: Este critério começa pela selecção de uma semente de agrupamento8 e inclui todos os objectos dentro de uma distância pré-especificada. Quando todos os objectos dentro de uma distância são incluídos, uma nova semente de agrupamento é seleccionada e todos os objectos dentro da distância pré-especificada são incluídos. Este processo continua até que todos os objectos sejam agrupados. 3. Critério de referência paralela: O critério de referências paralelas escolhe diversas sementes de agrupamento simultaneamente no começo e designa objectos dentro da distância de referência até a semente mais próxima. À medida que o processo se desenvolve, a distância de referência pode ser ajustada para incluir menos ou mais objectos nos agrupamentos. Ainda assim, em algumas variantes desse método, os objectos permanecem não agrupados se estiverem fora da distância de referência pré-especificada a partir de qualquer semente de agrupamentos (Hair, et. al, 2005). 3.3 CRITÉRIOS PARA A DETERMINAÇÃO DO NÚMERO DE GRUPOS A RETER Em AA, ainda não existe um procedimento padrão para a determinação do número de grupos a formar. Maroco (2007) sugere dois critérios que podem ajudar a identificar o número de grupos que justifique a estrutura dos dados. O critério de distância entre os agrupamentos e o critério do R2. a) Critério de distância entre os agrupamentos Neste critério, se a distância entre dois ou mais agrupamentos for a mínima possível, eles devem ser unidos. Caso contrário, estes agrupamentos devem manter-se separados e, esta distância é obtida com base na coluna de coeficientes de aglomeração obtida no output de AA. b) Critérios do R2 e da Variabilidade Ganha (G) O R2 mede o quão diferentes são os agrupamentos a cada passo do algoritmo. Ele mede a percentagem da variabilidade total que é retida em cada um dos agrupamentos. No caso em que 8 Centroides dos agrupamentos definidos a prior. Este centoide deixa de ser uma semente em estágios futuros quando um objecto é agrupado a ele.
  31. 31. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 21 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM houver apenas um único grupo, é óbvio que a variabilidade é nula e, caso existam tantos grupos quantos objectos, a variabilidade entre os grupos é igual a variabilidade total. Por sua vez, o critério da variabilidade ganha, mede a variabilidade ganha ao passar de k grupos para (k+1) O R2 e o G podem ser calculados pelas seguintes fórmulas:               p i k j ni l ijl p i k j ij ji i X X n X X SQT SQB R 1 1 1 2 __ 1 1 2 __ __ 2 ( ) ( ) (3) ( 1) ( ) ( 1)     SQW k SQW k SQW k G (4) Onde: SQB: É a Soma dos Quadrados entre os agrupamentos, SQW (k): É a soma dos Quadrados do Erro, quando há k grupos SQW (k+1): É a soma dos Quadrados do Erro, quando há k+1 grupos SQT: É a Soma dos Quadrados dos Totais. 3.4 FORMAÇÃO DOS AGRUPAMENTOS Para a formação dos agrupamentos, foram aplicados os procedimentos hierárquicos, com os métodos aglomerativos. Pois, para além de serem rápidos e não dependerem das habilidades do pesquisador, eles são apropriados quando temos amostras inferiores a 250 objectos como sugerido por Hair, et. al (2005) e Prearo (2008). Foi usada a distância Euclideana como medida de dissimilaridade entre os objectos, pois:  A variável estatística de agrupamentos é composta por um conjunto de variáveis métricas.  Tem sido uma das medidas de dissimilaridade mais utilizadas, sendo que muitas outras são variantes desta.
  32. 32. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 22 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Como critério de ligação entre os objectos, foram usados os critérios de ligação completa e, o critério de Ward, com a retenção de 3 a 5 agrupamentos, sendo este, o número de grupos que justifica a estrutura dos dados disponíveis. No fim foi calculado o COF(C, F) para a escolher da melhor estrutura de agrupamentos. A razão que justifica o uso do critério de ligação completa é aquela ressaltada por Hair, et. al, (2005) segundo a qual este critério elimina o problema de encadeamento9 ou correntes prolongadas identificado na ligação individual. Em decorrência disso, as chances de encontrar grupos mais equilibrados e menos dissimilares aumentam. O critério de Ward tem a vantagem de basear-se na perda mínima de informação e, gerar grupos com alta homogeneidade tanto para as distâncias Euclidianas quanto para outras distâncias como sugerido por Prearo (2008). 3.5 SUPOSIÇÕES EM ANÁLISE DE AGRUPAMENTOS Como foi mencionado anteriormente, a AA é uma técnica exploratória pois não tem bases para a inferência estatística portanto, a representatividade da amostra e a multicolinearidade são as questões mais críticas nestas técnicas. Para tal, ao aplicar a AA é sempre bom estar confiante de que as variáveis que compõem a variável estatística de agrupamentos não estão fortemente correlacionadas uma da outra e, estar ciente que a amostra é representativa da população. Pois, em alguns casos as observações atípicas podem realmente ser apenas uma subamostra de grupos divergente que, quando descartadas, introduzem um viés na estimação da estrutura (Hair et. al, 2005). A padronização de variáveis é aplicável quando estas apresentam diferentes escalas de medidas. Em geral, variáveis com maior dispersão têm maior impacto sobre as medidas de distâncias. Mas o processo de padronização não pode ser tomado como uma solução ideal para todos os casos, porque muitas vezes este processo anula a influência natural de uma dada variável no processo de agrupamentos, estabelecendo assim um mesmo peso para todas as variáveis. 9 Encadeamento é um termo que descreve a situação onde há um primeiro grupo de um ou mais elementos que passa a incorporar em cada interacção um grupo unitário. Assim, é formada uma longa cadeia onde torna-se difícil definir um nível de corte para classificar os elementos em grupos.
  33. 33. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 23 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Outro ponto que merece uma grande atenção está relacionado com a presença de observações atípicas, pois, apesar de ser uma técnica exploratória, a AA é muito sensível a observações atípicas. Isto porque, pode se tratar de valores absurdos que não são representativos da população geral ou, uma subamostra de grupos reais na população que provoca uma sub-representação da população na amostra. De um modo geral, as observações atípicas destorcem a verdadeira estrutura dos agrupamentos tornando-os não representativos da verdadeira estrutura da população. 3.6 MÉTODOS DE VALIDAÇÃO DOS AGRUPAMENTOS ENCONTRADOS A validação inclui tentativas de garantir que a solução de agrupamentos seja representativa da população geral, e assim seja generalizável para outros objectos e, estável com o passar do tempo (Hair, et. al, 2005). A validação dos agrupamentos formados pode ser feita usando diversos métodos, entre os quais destacam-se:  Partição da amostra em análise;  Selecção de variáveis não usadas na análise (validação preditiva);  Gráficos de perfil dos agrupamentos;  Gráficos de radar;  Coeficiente de correlação cofenética,  Aplicação da MANOVA. 3.6.1 Coeficiente de Correlação Cofenética O coeficiente de correlação cofenética foi usado como medida para a escolha da melhor partição de entre as obtidas com base nos dois critérios de aglomeração usado. Este coeficiente pode ser calculado através dos valores de duas matrizes, a matriz de distâncias originais (matriz fenética F) e a matriz reconstituída com base no dendograma (matriz cofenética C).
  34. 34. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 24 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Segundo Vicini (2005), este coeficiente permite medir o grau de associação linear entre essas duas matrizes. Ele equivale ao coeficiente de correlação de Pearson e, foi proposto como uma medida de concordância entre os agrupamentos obtidos e a matriz de distância original. A matriz cofenética é construída substituindo os valores da matriz de distância (reduzida) pelos valores correspondentes a distância que ocorreu na junção real entre dois objectos, utilizando por isso os mesmos valores que permitiram a construção do dendograma. Assim, o coeficiente de correlação cofenética entre as matrizes F (matriz de distância reduzida) e C (a matriz relativa a F), é dado por:                        1 1 1 2 1 __ 1 1 2 _ 1 1 1 __ __ ( ) ( ) ( )( ) ( , ) n j n i j ji n j n i j ji n j n i j ji ji c c f f c c f f COF C F , Com _____ i  1,n e _____ j  1,n 1 (5) Onde __ c e __ f são as médias aritméticas, definidas por:         1 1 1 __ ( 1) 2 n j n i j ij c n n c e         1 1 1 __ ( 1) 2 n j n i j ij f n n f Sendo: n o número de elementos que compõem a matriz C, cada i c corresponde a uma observação da matriz Cofenética e, cada fi corresponde a uma observação da matriz fenética. Geralmente um valor de COF(C,F)  0.7 , indica que a matriz cofenética gerada a partir do dendograma representou uma boa simplificação da matriz de distância ou fenética e, portanto, a AA efectuada forneceu grupos puramente homogéneos. 3.6.2 Testes de Significância entre os Agrupamentos (MANOVA) Uma vez formado os agrupamentos, é preciso verificar o quão heterogéneo são esses grupos em relação a uma ou mais características não usada no processo de agrupamento. Para testar a existência ou não de diferenças estatisticamente significativas entre os grupos, recorrer-se-á aos testes estatísticos multivariados da MANOVA, que é uma extensão da análise de variância simples (ANOVA).
  35. 35. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 25 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM A principal diferença entre as duas técnicas, reside no facto da ANOVA avaliar as diferenças para uma única variável critério yi, enquanto na MANOVA, se procede a comparação de vectores de médias para diversas variáveis critério simultaneamente. O modelo da MANOVA a um factor e p-variáveis dependentes é dado por :        ijr r jr ijr Y    , _____ 1, j i  n , _____ j  1, g , r 1,2,3,..........p (6) Com a seguinte suposição: ~ (0,)  ijr p  N e restrição:     0 1 j g j j n  Com este modelo, pretende-se testar a significância dos vectores de média dos k grupos existentes, com nas seguintes hipóteses:       k H :  .......  0 1 2      a i j H : (i, j) com i j, tal que   Seja W a matriz da SQPC intra-grupos, e B a matriz da SQPC inter-grupos a matriz da SSCP do total, será dada por: T=B+W, onde as matrizes B e W, podem ser obtidas com base nas seguintes fórmulas (Rincher, 2002):                                        T k i T i i T i k i i Y Y k Y Y n B n Y Y Y Y .. .. 1 . . __ . .. 1 __ . ,, * 1 * 1 (6.1) T ij i ij i T ij ij T ij i k i nk j ij i Y Y n W Y Y Y Y Y Y                                     . __ . 1 1 __ , * 1 * (6.2) Tabela 3.4 Quadro da Manova para a comparação dos vectores de média dos k grupos
  36. 36. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 26 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Fonte de Variação Graus de liberdade Matriz da SQPC Grupos Total Corrigido Erro v  g 1 H          T k i T i i Y Y k Y Y n B .. .. 1 . . * 1 * 1 v v n g g k k W k    1 T ij i ij i T ij ij Y Y n W Y Y       . * 1 * 1 1   g k k n T  BW Definida as matrizes, passa-se a descrever resumidamente alguns destes testes cujas deduções matemáticas podem ser encontradas em Reis (2001) e Rencher (2002). a) Teste Lamba de Wilks Teste Lambda de Wilks, resulta do quociente entre os determinantes da matriz da soma dos quadrados e produtos cruzados dentro dos grupos e do total, também pode ser obtido a partir dos valores próprios da matriz da W-1T, αi, isto é:         S i i B W W 1 1 1  O determinante de W é uma medida de variabilidade dentro dos grupos, enquanto o determinante de T, fornece a medida de variabilidade total. Assim, quanto maior for a semelhança entre os determinantes, menor serão as diferenças entre os grupos B, e mais próximo de 1 estará a estatística  . Pelo contrário, se a diferença entre os grupos forem elevadas quando comparadas com a variabilidade dentro dos grupos, o valor de  tenderá a aproximar-se de zero. b) Traço de Hotelling-Lowley Este teste resulta do quociente entre os determinantes das matrizes da soma dos quadrados e produtos cruzados entre os grupos B e dentro dos grupos W, ou através dos valores próprios da matriz W-1B, αi, isto é:    S i i W B T 1  , Assim, quanto maior for o valor de T, maior será a diferença entre os grupos.
  37. 37. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 27 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM c) Traço de Pilai O traço de Pilai resulta no quociente entre os determinantes das matrizes da soma dos quadrados e produtos cruzados entre os grupos e do total, ou através dos valores próprios da matriz T-1B, αi, isto é:              S i i i B W B V 1 1   , Maiores valores de V indicam a existência de diferenças estatisticamente significativas entre os grupos. d) Maior raiz característica de Roy Este teste baseia-se no primeiro valor próprio da matriz T-1B, αi, isto é: Max Max      1 , Sendo αmax o maior valor próprio da matriz T-1B. Maiores valores de  indicam existência de diferenças entre os grupos. Tabela 3.5 Distribuições aproximadas dos testes multivariados10 Teste Fórmula Distribuição amostral aproximada Wilks         S i i B W W 1 1 1      1 ( ( 1));  1 2  1 1 1 1 * ( 1) 1 2 1 1             p k rt p k t t F p k rt p k Hotelling-Lowlay    S i i W B T 1   (2 1);(2( 1))  0 2 * (2 1) 2( 1)        S M S SN T F S M S SN Pilai              S i i i B W B V 1 1   10 Maiores detalhes das distribuições aproximadas dos testes multivariados e as respectivas deduções podem ser encontrados em Reis (2001) e Rencher, (2002).
  38. 38. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 28 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM  (2 1); (2 1))  0 * 2 1) 2 1           S M S S N S F S V V M S N S Roy Max Max      1 , 1 0 max * 1      d v d H H F d v d  Sendo: ( ) 2 1 r  n 1 p  k ; 5 4 2 2 2 2     H H p v p v t ; 2  1  v p M H e 2  1  v p N E p = representa o número de variáveis; n = o número de indivíduos; k = o número de grupos e s = min (p, vH), representa o número de autovalores não nulo de cada uma das matrizes que geram os autovalores VH = Graus de liberdade da matriz hipótese B (VH=k-1) VE = Graus de liberdade da matriz do erro W (VE=n-k) d = max(p, vH). 3.6.2.1 Suposições em Manova Diferentemente das técnicas de AA, para a que os procedimentos dos testes multivariados da MANOVA sejam validos, três suposições devem ser atendidas, a saber: a) Independência das observações Quando a distribuição do vector aleatório Y é normal p-variada, é possível construir testes de hipóteses para a avaliação da matriz das correlações. O teste usualmente usado para testar a independência das p-variáveis respostas é o teste de Bartlett (Sartório, 2008). Assim, supondo a existência de uma amostra aleatória de tamanho n, do vector alectório Y, podem ser construída as seguintes hipóteses: H : R  I 0
  39. 39. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 29 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM H R I a :  Onde: I representa a matriz identidade das p-variáveis e, R representa a matriz das correlações teóricas das p-variáveis. A Ho, equivale dizer que as p-variáveis são independentes, ou que a matriz das covariâncias S de Y, é diagonal. Sob a imposição da Ho, a estatística de teste é definida por:   ( 1) 2 2 1 1 2 11 ln( ) ~ 6 1                p p p i i X n p X , para n>30 (6.3) b) Igualdade de matrizes de variância e covariâncias A suposição das matrizes de variância e covariância nos grupos serem igual, é de maior importância na MANOVA. O teste estatístico clássico para verificar esta suposição, foi proposto por Box, como uma generalização do teste univariado de Bartlett para a verificação de igualdade de variâncias. As hipóteses a testar são: g H :    ...............   0 1 2 a i j H :(i, j), i  j    O teste M de Box é dados por: k g k k M (n g) ln S v ln S 1     (6.4) Com n g W S   ,  1 k k v n , são os graus de liberdade associados ao grupo e, k S é o determinante da matriz de variância e covariancia do k-gésimo grupo. A aproximação à X2 é indicada quando o número de dimensões dos grupos é superior a 20 e, um número de variáveis e grupos inferior a 6, esta aproximação é dada por: ~ ( 1)( 1) 2 2 1   g p p X MC , Onde                  g k k p g v n g p p C 1 2 1 1 6( 1)( 1) 2 3 1 1 (6.5)
  40. 40. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 30 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM A aproximação à F é indicada para todas as outras situações e, esta aproximação é dada por (Sartório, 2008): ( , ) 0 1 ~ 1 v vo F v v v a M           (6.6) Onde 2 (  2)( 1)  p p g v , 1 2 2 0 2 a a v v    , a 1C 1 e,  2 1 2 2 1 1 6( 1) ( 1)( 2) g v n g p p a g k k                c) Normalidade das p-variáveis A normalidade multivariada considera que o efeito conjunto de duas ou mais variáveis é distribuído normalmente. Hair, et.al (2005), acrescenta que a violação da suposição de normalidade, cria problemas na aplicação do teste M de Box, para a homogeneidade das matrizes de variância e co-variâncias. A não existência de testes directos para a normalidade multivariada, obriga o uso dos testes univariados para a normalidade, como os testes de Kolmogorov-Smirnov e de Shapiro-Wilks. 3.6.2.2 Comparações Múltiplas De igual forma como acontece na ANOVA, a rejeição da hipótese nula H0 não indica quais grupos ou tratamentos são diferentes entre si. Esta rejeição pode ocorrer devido a existência de diferenças entre grupos em uma dada variável, mas também, pode ser devido a existência de diferenças entre os grupos ligados a certa combinação linear de variáveis. De entre os diversos métodos de comparação múltipla existentes, utilizou-se os intervalos simultâneos de Bonferroni. Quando a H0 é rejeitada, aqueles vectores que levam a rejeição desta hipótese são de interesse e, pode-se identificar quais os pares de vectores de médias são diferentes entre si. A aproximação de Bonferroni pode ser usada para construir intervalos de confiança simultâneos para as diferenças de médias nos grupos k l   .
  41. 41. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 31 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Sejam   g k k n n 1 e, kj  o j-ésimo componente (da variável j), e k  a média associada ao grupo k, como k  é estimado por __ __ y y k  , tem-se que ^ __ __ y y k k    e                  ^ ^ __ __ kj l kj lj   y y que é a diferença entre duais medias independentes. Logo, para o modelo MANOVA descrito em (6), a (1-α)% de confiança, Bonferroni definiu o seguinte IC para a diferença de médias:                             k l jj pg g n g kj lj n g n n w y y t 1 1 ( 1) __ __  , ______ j  1, p , ____ l  k 1, j e jj w é o (j, j)-ésimo elemento da matriz W.
  42. 42. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 32 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM CAPÍTULO IV: RESULTADOS E DISCUSSÃO 4.1 CARACTERIZAÇÃO DA AMOSTRA EM ESTUDO 4.1.1 CARACTERIZAÇÃO DAS VARIÁVEIS CLIMÁTICAS Tabela 4.1 Estatísticas descritivas das variáveis Climáticas Variáveis Mínimo Máximo Desvio Padrão Media aparada a 5% Média Erro Padrão da Média Coeficientes Assim/E. Padrão Curtose/E. Padrão Assimetria Curtose Precipitação 101.8 168.3 13.66 145.2 144.5 1.41 -0,72 0.58 -2,9 1.18 Tª Mínima 10.31 22.45 2.92 15.8 15.84 0.3 0.18 -0,6 0.72 -1,2 Tª Máxima 20.98 33.98 2.88 26.58 26.62 0.3 0.02 -0,7 0.08 -1,4 4.1.1.1 Precipitação Da tabela 4.1, observa-se que: O valor médio (da Precipitação Média Anual) registado nos 94 distritos durante o período em análise foi aproximadamente igual a 144,5mm e, esta associada a um erro padrão de 1,41mm, no mesmo período em análise, a precipitação média anual variou entre 101,8mm e 168,3mm. Excluindo 5% dos valores extremos desta variável obtêm-se a média aparada que é igual a 145,2mm. O quociente entre o coeficiente de assimetria pelo seu erro11 padrão a um nível de 5% de significância leva a concluir que a variável Precipitação Média Anual é assimétrica negativa, ou enviesada a esquerda, visto que este valor esta fora do intervalo simétrico de 1,96 desvios. A mesma conclusão pode ser tirada observando o comportamento da curva de Gauss no 11 Os erros padrão dos coeficientes de assimetria e curtose são iguais a 0,249 e 0,493, respectivamente.
  43. 43. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 33 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM histograma das variáveis climáticas da figura1 ou pelo gráfico1 de caule e folhas (anexo I), quanto ao achatamento da curva de distribuição normal, a variável é.mesocurtica. O gráfico de caule e folhas (grafico1, do anexo I) identificou duas observações atípicas que são as observações 58 e 59 (figura3 do anexo I), ou seja, no período em análise as precipitações médias anuais registadas nos distritos de Alto Molôcue e Chinde são considerados valores atípicos. 4.1.1.2 Temperaturas Mínima e Máxima Quanto as Temperaturas, observou-se que: Os valores médios registados nos 94 distritos foram iguais a 15,84 ºC e 26,62 ºC ambos associados a um erro padrão de 0,30 ºC. As variabilidades médias anuais registadas para as duas temperaturas foram de 8,29 ºC2 e 8,53 ºC2 no mesmo período em análise, as temperaturas registaram uma variações na ordem dos 10,31 ºC à 22,45 ºC para a Temperatura Mínima e 20,98º C à 33,09 ºC, respectivamente. Excluindo 5% dos valores extremos em ambas as variáveis obtêm-se as seguintes médias aparadas 15.80 ºC e 26.58 ºC, ambas estão abaixo das médias calculadas com base no total das observações. As duas variáveis são simétricas e, mesocurticas quanto à curtose. Tanto os gráfico2 e 3 de caule e folhas como os boxplots apresentado no histograma da figura1 (em anexo I) nenhum deles detectou a presença de valores atípicos para estas variáveis. Os percentis da tabela1 no (anexo I) mostram que 25% dos distritos registaram uma precipitação de 120mm e, 156mm é a precipitação registada por 75% dos distritos. De igual modo, 21,73 ºC é a Temperatura Máxima registada por cerca de 25% dos distritos e, 28.58 ºC foi a Temperatura Máxima registada por cerca de 75% dos distritos.
  44. 44. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 34 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM 4.1.2 CARACTERIZAÇÃO DOS CEREAIS Tabela 4.2 Estatísticas descritivas dos Cereais Variáveis Mínimo Máximo Desvio Padrão Media aparada a 5% Média Erro Padrão da Média Coeficientes Assim/E. Padrão Curtose/E. Padrão Assimetria Curtose Milho 1.19 2.92 0.23 2.05 2.07 0.03 0.94 4.15 3.78 8.42 Arroz 0.39 2.09 0.4 1.01 1.02 0.04 0.42 -0,6 1.69 -1,22 Feijão Nhemba 0.09 1.48 0.32 0.5 0.53 0.03 1.07 0.67 4.31 1.36 Feijão Manteiga 0.06 1.83 0.38 0.58 0.61 0.04 0.91 0.18 3.65 0,37 Feijão Bóer 0.13 2.22 0.41 0.82 0.84 0.05 0.47 0.3 1.89 0,61 4.1.2.1 Análise Descritiva dos Cereais De acordo com os resultados da tabela 4.2, observa-se que: No geral a média aparada a 5% registou um ligeiro decréscimo em todos os cereais, comparando com a média obtida com base nas 94 observações e, a quantidade total de Feijão Bóer mostrou-se ser a mais dispersa comparando com os restantes cereais. Quanto a assimetria e curtose, constatou-se que cereais como o Feijão Nhemba e Manteiga são ambas assimétricas positiva e, mesocurtica respectivamente. Por sua vez, a quantidade total de Milho produzida é assimétrica positiva e leptocurtica quanto ao curtose ao nível de significância considerado nestas análises. Da tabela2 no (anexo I), observa-se que 25% dos distritos produziram até 1,83 mil toneladas de Milho, 0.306 mil toneladas de Feijão Nhemba, 0.138 mil toneladas de Feijão Bóer, 0.74 mil toneladas de Feijão Manteiga e 0.472 mil toneladas de Arroz, respectivamente. De igual modo, observa-se que 75% dos distritos produziram cerca de 2.15 mil toneladas de Milho, 0.684 mil toneladas de Feijão Nhemba, 0.898 mil toneladas de Feijão Bóer, 1.087 mil toneladas de Feijão Manteiga e, 1.313 mil toneladas de Arroz, respectivamente.
  45. 45. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 35 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM 4.1.3 IMPACTO DOS VALORES ATÍPICOS NAS ESTATÍSTICAS DESCRITIVAS Tabela 4.3 Análise da Influencia dos valores atípicos nas estatísticas descritivas Variáveis Estatísticas (Com Outliers) Estatística (Sem Outliers) Média Desvio- Padrão Média aparada a 5% Média Desvio- Padrão Média aparada a 5% Precipitação 144.52 13.665 145.23 145.436 12.295 145.76 Milho 2.067 0.234 2.051 2.024 0.129 2.021 Feijão Nhemba 0.526 0.318 0.504 0.489 0.269 0.473 Feijão Manteiga 0.836 0.411 0.819 0.822 0.387 0.821 Feijão Bóer 0.608 0.381 0.584 0.595 0.369 0.575 Arroz 0.84 0.41 0.82 0.84 0.41 0.82 Tª. Mínima 15.84 2.92 15.8 15.84 2.92 15.8 Tª. Máxima 26.62 2.88 26.58 26.62 2.88 26.58 Com base nos resultados da tabela 4.3, observa-se que: De uma forma geral, o impacto dos valores atípicos nas estatísticas descritivas foi moderado, sendo que a média aparada a 5% variou de forma não significativa, como é óbvio para o seu cálculo são excluídos 5% das observações superiores e inferiores. Sendo que alguns destes são potenciais valores atípicos. 4.2 VERIFICAÇÃO DAS SUPOSIÇÕES EM AA Como foi descrito nos itens anteriores, em AA duas questões são críticas para a condução desta técnica, que são a representatividade da amostra e a multicolinearidade. Portanto, a amostra para a realização deste trabalho é considerada representativa da população extraída, visto que o conjunto de distritos seleccionados produz cada um dos cereais. Quanto a questão de multicolinearidade, procura-se verificar a existência ou não de variáveis altamente correlacionadas, analisando a matriz de coeficientes de correlação de Pearson entre as variáveis. Neste contexto, pode-se observar no gráfico8 do anexo I, que os níveis de correlações são em geral baixos ou aceitáveis, com excepção das correlações apresentada pelas variáveis
  46. 46. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 36 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM (Temperatura Mínima, Temperatura Máxima); (Feijão Manteiga, Feijão Bóer) e, (Feijão Bóer, Milho) que apesar de estarem correlacionadas de forma moderada e significativa, nenhuma delas será excluída no estudo. 4.3 DETERMINAÇÃO DO NÚMERO DE GRUPOS À RETER Para a determinação do número de grupos a reter, foram usados os critérios do R_quadrado,e o da variabilidade entre os agrupamentos (fórmula (3) e (4)), onde as somas dos quadrados dos totais e, dos tratamentos, estão apresentados na tabela 3 (Anexo I) Tabela 4.4 Ilustração dos valores do R2 Número de Grupos 1 2 3 4 5 6 7 8 9 R_Quadrado 0 0,598 0,717 0,794 0,859 0,877 0,899 0,906 0,916 Ganho da Variabilidade 0,598 0,119 0,077 0,065 0,018 0,022 0,007 1E-04 ------ Uma solução aceitável do número de grupos que justifica a estrutura dos dados reside entre 3 a 5 grupos, pois, o ganho das variabilidades retidas é relativamente pequena quando comparada com a evolução verificada entre 1 a 3, sendo o ponto referente a definição de 4 grupos onde a variabilidade reduziu significativamente segundo o gráfico 10 (Anexo I), sugerindo portanto a definição de uma estrutura com 4 agrupamentos. 4.4 ANÁLISE HIERÁRQUICA 4.4.1 APLICAÇÃO DO MÉTODO DE WARD Uma vez que os métodos aglomerativos iniciam com tantos grupos quanto objectos, os mais similares são agrupados nas primeiras interacções, enquanto os mais dissimilares são agrupados nas últimas interacções. Em cada uma destas interacções é calculado o coeficiente de aglomeração que reflecte a distância entre os casos a serem agrupados, ou seja, quanto mais dissimilares forem os casos a agrupar, maior será o valor do coeficiente de aglomeração, sendo que para casos similares este coeficiente tende a zero. Nesse contexto, com base nos resultados da tabela1 do anexo II, observa-se que o primeiro agrupamento a ser definido é composto pelos distritos de Machanga (44) e Mavago (75), pelo
  47. 47. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 37 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM facto de estes apresentarem um menor valor do coeficiente de aglomeração (0,648). De seguida, o distrito de Cheringoma (41) junta-se aos distritos de Machanga e Mavago na 12ª interação e, Homoine (80) na 15ª interação, assim sucessivamente. Uma análise crítica do coeficiente de aglomeração mostrou que, por exemplo da interacção 88 para 89 (o que corresponde a aglomeração de 6 para 5 grupos), aumentou em 458.193 unidades (passando de 2244.048 para 2702.241). Da interacção 89 para 90 (o que corresponde a aglomeração de 5 para 4 grupos), o coeficiente aumentou em 958.21 unidades (passando de 2702.241para 3660.451). Da interacção 90 para 91 (o que corresponde a aglomeração de 4 para 3 grupos), o coeficiente aumentou em 1319.512 unidades (passando de 3660.451 para 4979.963). Da interacção 91 para 92 (o que corresponde a aglomeração de 3 para 2 grupos), o coeficiente aumentou em 2650.344 unidades (passando de 4979.963para 7630.307). E finalmente, da interacção 92 para 93 (o que corresponde a aglomeração de 2 para 1 grupo), o coeficiente aumentou em 11357.294 unidades (passando de 7630.307 para 18987,511). A AA forneceu o dendograma apresentado na figura1 do anexo II, onde constatou-se a definição de 3 agrupamentos distintos para um nível de corte de aproximadamente igual a 4,5 unidades de medida. A tabela2 do anexo II mostra a distribuição dos distritos em cada um dos 3 agrupamentos, onde pode-se observar que o tamanho de cada agrupamento em função do número de agrupamentos por definir. 4.4.2 APLICAÇÃO DO MÉTODO DE LIGAÇÃO COMPLETA Uma análise geral da tabela1 anexo III, mostrou que não há variações significativas no processo de agregação dos objectos comparando com os do método de Ward. A única diferença esta relacionada com as interacções segundo os quais os objectos foram agregados aos respectivos grupos.
  48. 48. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 38 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM A tabela1 do anexo III mostra que o primeiro agrupamento a ser definido é composto pelos distritos de Machanga (44) e Mavago (75), pelo facto de estes apresentarem um menor valor do coeficiente de aglomeração. De seguida, o distrito de Cheringoma (41) junta-se aos distritos de Machanga e Mavago na 12ª interacção e, Homoine (80) na 15ª interacção, assim sucessivamente. Nas primeiras 88 interacções, o coeficiente de aglomeração registou pequenas variações. Da 89ª para a 90ª interacção (o que corresponde a aglomeração de 5 para 4 grupos) o coeficiente aumentou em 298.097 unidades (passando de 618.899 para 322.802). Da interacção 90 para 91 (o que corresponde a aglomeração de 4 para 3 grupos), o coeficiente aumentou em 118.41 unidades (passando de 618.899 para 737.309). Da interacção 91 para 92 (o que corresponde a aglomeração de 3 para 2 grupos), o coeficiente aumentou em 1157.603 unidades (passando de 737.309 para 1894.912). Da interacção 92 para 93 (o que corresponde a aglomeração de 2 para 1 grupos), o coeficiente aumentou em 2554.264 unidades (passando de 1894.912 para 4449.176). 4.5 Interpretação dos agrupamentos Os resultados da aplicação de AA usando os critérios de ligação completa e, o critério de Ward para a definição de 3, 4 e 5 agrupamentos estão ilustradas na tabela 3 (anexo III). Onde, o método de Ward mostrou tendências em formar grupos estáveis em relação a variação do tamanho dos agrupamentos, ou seja, agrupamentos com uma dimensão aproximadamente igual, tal como foi reiterado pela literatura segundo a qual o método de Ward tende a produzir grupos com aproximadamente o mesmo número de elementos. Contrariamente aos agrupamentos definidos com base no método de Ward, o critério de ligação completa, mostrou uma elevada variabilidade em relação a dimensão dos agrupamentos, principalmente na estrutura com três agrupamentos. Este método identificou os distritos de Alto- Molócue, Chinde e Namacurra como potenciais valores atípicos por ter agregado nas últimas interacções nas 3 estruturas de agrupamentos. O dendograma apresentado na figura1 do anexo III foi obtido com base no método de ligação completa, onde foram identificados 4 agrupamentos distintos para um nível de corte de
  49. 49. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 39 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM aproximadamente igual a 4,5 unidades de medida, no qual um dos agrupamentos é composto por apenas 3 distritos e, um outro agrupamento com um maior número de distritos. Da tabela 4.5, observa-se que aplicando o método de Ward, maior parte dos distritos que apresentam uma similaridade na variável estatística de agrupamentos pertencem ao 1º grupo o que corresponde a 31% do total de distritos em estudo. Por sua vez, com a aplicação do método de ligação completa maior percentagem dos distritos com similaridade na variável estatística de agrupamentos fazem parte do 2º agrupamento com cerca de 53% do total dos distritos em análise e, o 4º grupo passou de 20 distritos (método de Ward) para 3 distritos (com base no método de ligação completa). Tabela 4.5 Comparação do tamanho dos agrupamentos Grupos Método de Ward Método de Ligação Completa Nº de Casos % de Casos Nº de Casos % de Casos 1 29 31 28 30 2 25 27 50 53 3 20 21 13 14 4 20 21 3 3 Total 94 100 94 100  Identificação da melhor estrutura dos agrupamentos Por definição, um valor de COF(C,F)  0.7 , indica que a matriz cofenética gerada a partir do dendograma representou uma boa simplificação da matriz de distância ou fenética e, portanto, a AA efectuada forneceu grupos puramente homogéneos. Tabela 4.6 Identificação da melhor estrutura dos agrupamentos Critério de Ligação Número de Grupos COF (F, C)
  50. 50. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 40 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Ward 4 0.788 Ligação Completa 4 0.859 Com base no valor do COF(C,F) apresentado na tabela 4.6, conclui-se que os dois métodos usados na definição dos agrupamentos forneceram grupos homogéneos, visto que ambos apresentaram um valor do COF(C,F) superior a 0.7, mas a matriz cofenetica gerada com base no dendograma d o método de ligação completa mostrou uma melhor simplificação da matriz fenética. Portanto, passar-se-á a considerar os agrupamentos obtido com base no método de ligação completa. 4.6 VALIDAÇÃO DOS AGRUPAMENTOS Antes de aplicar os testes multivariados, foram avaliadas em primeiro lugar as três suposições descritas anteriormente. Tabela 4.7 Testes de Normalidade Univariada Variáveis Grupos Kolmogorov-Smirnova Shapiro-Wilk Estatística gl Sig. Estatística Gl Sig. Estimativa do total de área cultivada 1 0,157 28 0,073 0,958 28 0,318 2 0,086 50 0,20 0,963 50 0,113 3 0,171 13 0,20 0,976 13 0,95 4 0,321 3 . 0,883 3 0,332 Estimativa do Orçamento Total 1 0,141 28 0,161 0,945 28 0,147 2 0,097 50 0,20 0,976 50 0,395 3 0,153 13 0,20 0,925 13 0,291 4 0,254 3 . 0,963 3 0,632 a Significância corregida por Lilliefors A primeira suposição avaliada foi a de normalidade nas variáveis respostas e, com base no teste de Kolmogorov-Smirnov apresentado na tabela 4.7 conclui-se que as duas variáveis dependentes
  51. 51. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 41 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM estão normalmente distribuídas nos 4 grupos, visto que em todos os casos a probabilidade associada a esta estatística é superior a 0,05. Tabela 4.8 Teste de igualdade de variâncias Tabela 4.9 Teste M de Box O teste de Levene para a igualdade de variâncias (tabela 4.8), mostrou que as duas variáveis respostas apresentam variâncias idênticas nos 4 grupos. De igual modo, o teste M de Box (tabela 4.9), mostrou que analisando as duas variáveis de forma conjunta, as matrizes de variância e covariância nos quatro grupos são idêntica, pois, o valor_p é maior que 0,05. Como as duas variáveis resposta estão normalmente distribuídas, conclui-se que os resultados deste teste são confiáveis. Tabela 4.10 Teste de esfericidade de Bartltetta Razão de Verosimilhança ,000 Estatística de Bartlett 183,970 Graus de liberdade 2 Intercorrelação entre as duas variáveis respostas 0.499 Significância ,000 a Modelo: Intercepto + Grupos A última suposição a ser verificada, esta relacionada com a independência entre as variáveis resposta. O teste de Bartlett está associado a um valor_p inferior a 0,05 o que leva a rejeição da hipótese de independência entre as duas variáveis respostas. Uma avaliação do coeficiente de correlação de Pearson mostrou que as duas variáveis estão correlacionadas de forma moderada, portanto, tendo em conta o nível de correlação das variáveis e, levando em consideração o facto de o valor_p estar muito próximo de 0,05 vai-se prosseguir com a MANOVA. Box's M 10,102 F ,921 gl1 9 gl2 318,931 Sig. ,507 Variáveis F gl1 gl2 Sig. Estimativa do total de área cultivada ,508 3 90 ,678 Estimativa do Orçamento Total ,925 3 90 ,432
  52. 52. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 42 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM Analisadas as suposições inerentes a aplicação MANOVA, vai-se prosseguir com a avaliação de significância dos vectores de média dos 4 grupos. Uma avaliação dos resultados da tabela 4.11, leva a rejeição da hipótese nula (à de igualdade dos vectores de medias nos 4 grupos) nas duas variáveis respostas, ou seja, existem pelo menos dois grupos com vectores de médias diferentes, estas conclusões também podem ser tiradas com base no quadro da MANOVA da tabela 3 (anexo III). Tabela 4.11 Testes Multivariados b Efeitos Valor F gl grupo gl do erro Sig. Poder do Teste Intercepto Traço de Pillai 0,84 237,25a 2 89 0.00 1.0 Lambda de Wilk 0,16 237,25a 2 89 0.00 1.0 Traço de Hotelling 5,33 237,25a 2 89 0.00 1.0 Maior raiz característica de Roy 5,33 237,25a 2 89 0.00 1.0 Grupos Traço de Pillai 0,27 4,6 6 180 0.00 0,986 Lambda de Wilk 0,74 4,92a 6 178 0.00 0,991 Traço de Hotelling 0,36 5,24 6 176 0.00 0,994 Maior raiz característica de Roy 0,35 10,51 3 90 0.00 0,998 a Estatística exacta b Modelo: Intercepto+Grupos Após detectar a existência de diferenças significativas entre os vectores de média, é altura de identificar o par (ou pares) de grupos que apresentam diferenças nos vectores de média com base nos intervalos simultâneos de Bonferroni. Assim, como há 4 grupos e 2 variáveis respostas então obter-se-á 6 2 4          pares de médias. Com base nos resultados da tabela 4 (anexo III), observa-se que a variável Estimativa de total da área cultivada tem pouco puder em diferenciar os vectores de média, visto que nesta variável, tem-se apenas dois grupos com vectores de média diferente (grupo 2 e grupo 3), contrariamente a isso, a
  53. 53. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 43 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM variável estimativa do orçamento total, é altamente poderoso em diferenciar os vectores de média, com excepção dos pares (4-3) e (1-3). Tabela 4.12 Média das variáveis nos 4 agrupamentos formado Variáveis Grupos Grande Centroide Grupo 1 Grupo 2 Grupo 3 Grupo 4 Precipitação 138,789 154,827 126,033 106,417 144,523 Temperatura Mínima 15,156 16,053 15,910 18,400 15,841 Temperatura Máxima 26,554 26,729 26,382 26,310 26,615 Milho 2,082 2,055 2,078 2,064 2,067 Arroz 1,012 1,009 1,107 0,909 1,021 Feijão Nhemba ,521 0,531 0,594 0,204 0,526 Feijão Bóer ,533 0,661 0,549 0,678 0,608 Feijão Manteiga ,866 0,768 1,006 0,965 0,836 A descrição a seguir compara os perfis de cada grupo com os demais criados. Para facilitar a sua compreensão é recomendado a observação dos gráficos2 e 2A em anexo ou com base na tabela 4.12, que contêm as médias das variáveis que compõem a variável estatística de agrupamentos, onde constatou-se que: O grupo1 é composto pelos distritos que apresentam em média, baixo potencial na produção do feijão bóer, valores intermediários de precipitação e temperaturas máximas, um potencial intermediário na produção do arroz e, alto potencial na produção de milho. O grupo2 é composto pelos distritos que apresentam em média, baixo potencial na produção do milho e feijão manteiga, um potencial intermediário na produção de arroz, feijão nhemba e feijão bóer, valores intermediários de temperaturas mínimas e, altos valores de precipitação e temperaturas máximas.
  54. 54. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 44 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM O grupo3 é caracterizado pelos distritos que apresentam em média, baixo potencial na produção do feijão bóer, valores intermediários de precipitação, temperaturas mínimas e máximas, produção do milho e, alto potencial na produção de arroz, feijão nhemba e, feijão manteiga. Finalmente observa-se que o 4º agrupamento é caracterizado pelos distritos que apresentam em média baixo potencial na produção de arroz, feijão nhemba, baixos valores de precipitação e temperaturas máximas, um potencial intermediários na produção de milho e feijão manteiga, altos valores de temperaturas mínimas e, alto potencial na produção do feijão bóer. Tabela 4.13 Matriz das distâncias entre os centroide dos agrupamentos Grupos Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 1 0 16,065 12,781 32,538 Grupo 2 16,065 0 28,798 48,471 Grupo 3 12,781 28,798 0 19,779 Grupo 4 32,538 48,471 19,779 0 Da matriz de distância entre os centroide dos agrupamentos (tabela 4.13), constatou-se que os agrupamentos 4 e 2 estão muito distantes um do outro, ou seja, são os mais heterogéneos e, os agrupamentos 1 e 3 estão muito mais próximos um do outro, sendo os menos heterogéneos. A representação geométrica dos agrupamentos (mapa da figura 4.1), mostra claramente que maior parte dos distritos que fazem parte do primeiro e segundo grupo são maioritariamente da região norte do país. E, foi identificada como sendo a região com elevadas precipitações e alta potencialidade na produção de cereais, o que faz com que esta região seja altamente representativa em relação as estruturas de agrupamentos obtidos. A zona centro, foi classificada como sendo a segunda região mais representativa na estrutura dos agrupamentos, pelo facto de apresentar um número considerável de distritos como potências produtores de cereais, e com um nível moderado do índice pluviométrico. Por fim, a zona sul foi classificada como sendo a região com baixa potencialidade na produção de cereais e, baixos índices pluviométricos de entre as três regiões. Figura 4.1 Representação Geométrica dos Agrupamentos
  55. 55. Contribuição da Análise de Agrupamentos na Identificação de Segmentos de Distritos Potenciais Produtores de Cereais em Moçambique 2014 45 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

×