SlideShare uma empresa Scribd logo
1 de 5
Baixar para ler offline
Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.



              ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE
                        COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS


           Fábio Abrantes Diniz1, Fabiano Rosemberg de Moura Silva2, Roberto Douglas da Costa3, Thiago Reis
                           da Silva4, Íthalo Bruno Grigório de Moura5, Angélica Felix Castro6
                         1
                           Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, fabio.abrantes.diniz@gmail.com
                       2
                        Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, fabiano.rosemberg.silva@gmail.com
                            3
                              Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, robertodcosta@gmail.com
                                4
                                  Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, trsilva.si@gmail.com
                              5
                                Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, ithalobgm @gmail.com
                      6
                        Professora Doutora do Departamento de Informática da UFERSA, Mossoró – RN, angelicafcastro@ gmail.com



          RESUMO: O Rio Grande do Norte (RN) é um estado rico em recursos naturais, apresenta um
          desenvolvimento educacional concentrado em algumas regiões. Diante dessa realidade, este trabalho
          descreve a distribuição da educação na população do RN, mostrando a sua disparidade entre seus
          municípios. Logo, foram utilizados alguns indicadores da educação do Instituto Brasileiro de
          Geografia e Estatística (IBGE), juntamente com o Sistema de Informação Geográfico (SIG)
          TerraView para a elaboração de mapas, utilizando técnicas do geoprocessamento e da estatística.
          Além disto, também foram utilizadas técnicas de Mineração de Dados (MD) para identificar padrões
          que ajudam a caracterizar a qualidade do sistema educacional do RN, mostrando assim, a desigualdade
          entre seus municípios e evidenciando um desenvolvimento educacional concentrado em algumas
          regiões. Por fim, os resultados mostram que a maioria dos municípios do RN apresenta qualidade
          educacional abaixo da meta e que a situação é pior em regiões do estado que possuem pequenas
          atividades econômicas.

          PALAVRAS-CHAVE: Sistema de informação geográfico, Mineração de dados, Árvore de decisão.

          INTRODUÇÃO: O RN é composto por 167 municípios, que se agrupam em quatro mesorregiões e
          19 microrregiões (IBGE 2012). De acordo com a Secretaria de Estadual de Educação e Cultura
          (SEEC), o RN possui 16 Diretorias Regionais de Educação (DIRED) que direcionam as instituições
          educacionais e mantêm uma rede de 3.175 escolas do Ensino Fundamental das quais 620 são
          estaduais, 2 084 são municipais, 470 são particulares e uma federal. O ensino médio foi ministrado em
          420 estabelecimentos, com a matrícula de 152.326 alunos. Dos 152.326 discentes, 133.369 estavam
          nas escolas públicas e 18.957 nas particulares (SEEC, 2012).

          Diante dessa realidade, este artigo tem por objetivo analisar as características do sistema educacional
          do RN, que enfatizam as diferenças sociais e econômicas entre as regiões mais ricas e as menos
          desenvolvidas do estado. Para realizar este trabalho foram utilizados os indicadores demográficos e
          educacionais do RN obtidos através do IBGE, tais como: população em idade escolar, número de
          matrículas, taxa de escolaridade, aprovação, abandono, reprovação e os índices de desenvolvimento de
          educação básica (IDEB). Alguns desses indicadores são utilizados na elaboração de algumas análises
          espaciais, a fim de mostrar a qualidade e a equidade da educação nas redes públicas e privadas em
          todo o estado do RN.

          A mineração de dados é definida como um processo de descoberta de padrões nos dados (Fayyad,
          1996). Desta forma, sua utilização neste trabalho visa encontrar um padrão comportamental de
          variáveis que descrevem a distribuição da educação na população do RN. Portanto, para a realização
          desse estudo aplicou o uso de técnicas de Mineração de Dados (MD) para estimar alguns resultados
          que demonstram relações significativas entre a educação e o desenvolvimento local. Juntamente,
          utilizou-se uso das técnicas e ferramentas de geoprocessamento, contida no Sistema de informação
          Geográfica (SIG) TerraView. Nesta ferramenta foram utilizados os recursos de visualização dos dados
          espaciais para dar subsídios em tomadas de decisões no setor educativo. A fim de ajudar o Governo
Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.



          em decisões para cumprir e otimizar as metas e objetivos na melhoria do serviço de educação do
          estado do RN.

          MATERIAS E MÉTODOS: A área de estudo é o Estado do Rio Grande do Norte, com uma área de
          aproximadamente 53.000 km2, dividido politicamente em 167 municípios, com mais de três milhões
          de habitantes (IBGE, 2012).

          Foram utilizadas 167 amostras (número de municípios do RN), com seus respectivos dados de
          educacionais, como o conjunto de treinamento para geração da árvore de decisão. Através da árvore
          selecionada foi possível extrapolar a estimativa da distribuição da qualidade da educação. Cada
          amostra possui atributos que trazem informações políticos, sociais e educacionais, referentes ao Estado
          do RN.

          As informações referentes ao Estado do RN tais como área, municípios, micro e mesorregiões,
          população, Índice de Desenvolvimento Humano (IDH), renda domiciliar per capita, entre outras,
          foram obtidas do Censo Demográfico 2010, através da página do IBGE na Internet.         Os atributos
          utilizados, referentes à educação, foram: as taxas de abandono escolar, aprovação, desempenho médio,
          o Índice de Desenvolvimento da Educação Básica (IDEB), entre outros, todos obtidos da página da
          SEEC na Internet e do Censo Escolar 2010. Também foram obtidos, da página do IBGE, os mapas nos
          quais foram utilizadas técnicas de agrupamento - quantil (equipartição de amostras em 5,4 e 3
          intervalos, com dos valores da amostra em cada intervalo).

          Neste estudo, foram utilizadas técnicas de geoprocessamento (BRETERNITZ, 2010) através do
          software TerraView 4.1.0 e dados disponibilizados pelo IBGE e pela SEEC sobre o Estado do RN
          (SEEC, 2012). O TerraView é um SIG desenvolvido pelo Instituto Nacional de Pesquisas Espaciais
          (INPE) sobre a biblioteca de geoprocessamento do TerraLib, também desenvolvida pelo INPE e tem
          como seus principais objetivos oferecer à comunidade um fácil visualizador de dados geográficos com
          recursos de consulta e análise de dados (INPE 2012).

          As árvores de decisão são um dos modelos mais simples e mais usados em inferência indutiva. Estas
          árvores são treinadas de acordo com um conjunto de dados de treinamento previamente classificadas e
          posteriormente, usa essa árvore para classificar a exatidão do classificador num conjunto de teste.
          Existem vários algoritmos de classificação que utilizam árvores de decisão. Dependendo do problema,
          um algoritmo pode ser mais eficiente do que o outro. Dentre os algoritmos, os mais usados são: o ID3,
          ASSISTANT, C4.5 e CART (Classification and Regression Trees) (DINIZ et. al. 2011).

          Nesse trabalho foi utilizado o algoritmo C4.5, pois trabalha com valores indisponíveis, com valores
          contínuos, poda árvores de decisão e não depende de suposições sobre a distribuição dos valores das
          variáveis ou da independência entre si das variáveis (FAYYAD; PIATESKY-SHAPIRO; SMYTH,
          1996). Características cruciais quando se usa dados de SIG juntamente com dados de imagem.

          A ferramenta utilizada para aplicar a técnica de mineração de dados foi o denominado Weka (Waikato
          Environment for Knowledge Analysis), da Universidade de Waikato, Nova Zelândia. O pacote Weka
          possui uma suíte que contém diversas técnicas de mineração de dados, totalmente gratuito por ser um
          software livre (WEKA, 2012). O Weka usa arquivos de dados de treinamento onde devem ser
          explicitadas quais variáveis são permitidas para uma relação específica, bem como o tipo de dado de
          cada variável (isto é, nominal ou valor numérico). O Weka pode detectar padrões em dados que podem
          ser explorados mediante regras. Das técnicas disponíveis, foi utilizado o algoritmo de indução de
          árvore de decisão C4.5 desenvolvido por (Quilan 1993) e implementado em sua versão para
          linguagem Java, no Weka, com o nome J4.8, para gerar árvores de decisão (WEKA, 2012).

          Para a utilização do conjunto de dados, foi feito um pré-processamento nos dados a fim de torná-los
          compatíveis com o formato da ferramenta utilizada. O algoritmo de classificação do Weka necessita
          de atributos preditivos para representar os padrões a serem classificados. Foram utilizados quatro
Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.



          atributos para a descoberta do modelo nesse trabalho, tais como: o IDH, a renda domiciliar per capita,
          a taxa de abandono escolar e o IDEB. Todos são atributos preditivos que influenciam direta e
          indiretamente na qualidade da educação em uma determinada região.

          Além disso, o algoritmo de classificação do Weka precisa de uma variável nominal denominada
          atributo-classe que classificam os dados. Portanto, foi criado, a partir dos valores dos atributos
          preditivos, o atributo-classe MetaqualEd (Meta da qualidade da Educação) o qual possui três
          categorias de valores (acima, media, abaixo) que classifica o nível da meta da qualidade educacional
          do RN. Caracterizando as instâncias da base de dados como acima, abaixo ou na média da meta
          nacional, estipulada pelo governo do RN para o nível da qualidade da educação para o ano de 2010.

          RESULTADOS E DISCUSSÃO: Como mencionado, a ferramenta Weka foi utilizada como apoio
          durante a execução da etapa de MD. As classificações com pequeno número de instâncias (167)
          evidenciadas na base de dados, a árvore de decisão alcançou 87,5% das instâncias classificadas
          corretamente. Uma estimativa válida que pode não ter sido a melhor devido ao número reduzido de
          informação, além do fato de existirem poucas instâncias com prevalência muito alta em relação às
          outras classes. O classificador foi testado utilizando-se o método de validação cruzada 10- Fold-Cross-
          Validation para obtenção da proporção de acertos (acurácia).

          Com a Mineração de Dados, foi possível analisar as diferenças no padrão do conjunto de reações das
          variáveis em relação à melhora da meta da qualidade da educação nos municípios do RN. Para
          avaliação das classificações foi utilizada a estatística de Kappa que é um método estatístico que serve
          para medir a concordância entre diferentes medidas (LANDIS; KOCH, 1977), sendo muito usada para
          avaliação da precisão, determinada por uma matriz de confusão. Sua grande vantagem é que para o seu
          cálculo não se incluem somente os elementos da diagonal principal e sim todos os elementos da matriz
          de erro (MOREIRA, 2001). A classificação desse trabalho gerou um índice de Kappa de
          aproximadamente 73%.

          O algoritmo J4.8 possui regras decisão e uma matriz de confusão. Nesse trabalho foi elaborada uma
          matriz de confusão durante os treinamentos e testes das instâncias (Tabela 1). Analisando a matriz,
          foram detectados possíveis problemas na classificação e também na separabilidade entre as classes.

                                                Tabela 1. Matriz de confusão.
                                                             Classe Prevista
                                                  Classe = acima     Classe = media                Classe = abaixo
                      Classe        Acima (28)          22                  5                             1
                       Real         Media (23)           4                 13                             6
                                   Abaixo (116)          1                  4                            111

          Observa-se também na Tab. 2 que das 167 instâncias, 146 (111+22+13) são classificadas
          corretamente, sendo que 21 (4+1+4+5+6+1) instâncias são classificadas incorretamente, 19 (4+4+5+6)
          foram classificadas com um erro de classe e 2 (1+1) classificada com dois erros. Para um total de 28
          instâncias com classe real rotulada como acima, tiveram 22 instâncias (78,9%) classificadas
          corretamente, 5 instâncias (17,9%) foram classificadas como media e somente 1 (3,5%) foi
          classificada como abaixo. Esse resultado pode ser considerado satisfatório, uma vez que os recursos
          para o melhoramento da educação de uma região são pequenos, e com essa classificação pode
          transferir boa parte dos recursos da educação destinados a municípios que tiveram uma qualidade da
          educação acima da meta estipulada para municípios que estão com uma qualidade educacional abaixo
          do esperado.

          Já com as instâncias com classe real média, um pouco a mais da metade (56,5%) delas são
          classificadas corretamente. Esse resultado mostra que mesmo que essas áreas estejam alcançando a
          média de qualidade da educação, ainda precisam de atenção na melhora do seu sistema educacional,
          pois podem sofrer baixas se não tiverem o investimento necessário. Já para a classe de prevalência
Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.



          abaixo, foram classificadas corretamente 111 das 116 amostras (96%), sendo que 4 amostras (3,4%)
          foram classificas como media e apenas 1 amostra (0,6%) de prevalência foi classificada como acima.
          Esse resultado evidencia a comprovação do padrão, mostrando que o RN precisa melhorar tanto a
          qualidade do ensino e a infraestrutura da educação como a diminuição da desigualdade social,
          provando que melhorando a qualidade da educação melhora a qualidade de vida.

          O algoritmo J4.8 determina a variável com maior quantidade de informação e a coloca na raiz da
          árvore de decisão. Em cada nó da árvore, foi feita a divisão em conjuntos cada vez mais homogêneos.
          A variável colocada na raiz da árvore foi IDEBEFfin09 (Índice de Educação Básica do Ensino Funda
          mental final de 2009), correspondendo à divisão em dois grupos: para valores desta variável menores
          ou iguais a 3.2 e maiores que 3.2. A Figura 1 mostra a árvore de decisão (obtida a partir do algoritmo
          J4.8 do Weka) para a prevalência da meta da qualidade da educação em relação a algumas variáveis
          preditivas que foram selecionadas pelo Weka por conterem maior quantidade de informação. Foram
          ainda selecionado outras variáveis tais como: índices de desenvolvimento humano (IDH2000), renda
          domiciliar (renda) e taxa de abandono (TAbanEMed10).




                            Figura 1: Árvore de decisão obtida a partir do algoritmo J4.8 do Weka.

          O resultado da classificação gerado pela árvore de decisão, acima, pode ser considerado coerente em
          relação à realidade. Pela análise da árvore vemos a qualidade da educação do Estado do RN esta
          abaixo da média estabelecida. Dos 167 municípios 115 estão com a qualidade abaixo da média.
          Seguindo o ramo da árvore até a folha que apresenta o maior número de classes abaixo, os 115
          municípios se caracterizam com um IDEB menor que 3.2, IDH menor que 0.7 e taxa de abandono
          maior que 11.1%. Contrario as metas estabelecidas os quais são possuir um IDEB maior que 3.2, taxa
          de abandono menor que 10% e IDH na média da nacional que é 0.78. É apresentado na Figura 2, os
          dados classificados através das regras da árvore de decisão espacializados num mapa temático
          utilizando o aplicativo TerraView.




                       Figura 2: Meta da qualidade da educação estimada através da árvore de decisão.
Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.



          Logo, podemos ver que as vantagens de árvore de decisão incluem a capacidade de lidar com dados
          que estão em diferentes escalas de medidas, não serem necessárias suposições sobre as distribuições
          de frequência dos dados em cada uma das classes, a flexibilidade e a capacidade de lidar com relações
          não lineares entre variáveis e classes. E a simplicidade para encontrar os padrões torna essa técnica
          muito útil nesse trabalho.

          CONCLUSÕES E TRABALHOS FUTUROS: Esse trabalho demonstrou que o uso de árvore de
          decisão é fundamental na descoberta de padrões, pois lida com dados de diferentes escalas de medidas
          e têm a flexibilidade e a capacidade de trabalhar com relações não lineares entre variáveis e classes.
          Foi possível constatar que a maioria dos municípios Estado do RN apresenta qualidade educacional
          abaixo da meta e que a situação é pior em regiões do Estado que possuem pequenas atividades
          econômicas, pois esses municípios apresentam as mais baixas rendas familiares e IDH, além dos
          investimentos educacionais serem baixos.       Como trabalho futuro propõe-se integrar as técnicas
          de geoprocessamento com a exploração desta base de dados utilizando outras técnicas de mineração de
          dados, tais como: Clusterização e Máquinas de Vetores de Suporte (SVM). A fim de identificar novos
          padrões ou tendências de desenvolvimento e deficiências educacionais dos municípios do Estado do
          RN, e melhorar a precisão dos resultados.

          AGRADECIMENTOS: Os autores agradecem a CAPES pela concessão das bolsas de pesquisa.

          REFERÊNCIAS:
          Breternitz, V. J. Sistemas de informações geográficas: uma visão para administradores e
          profissionais de tecnologia da informação. 2010.
          IBGE.      Instituto     Brasileiro      de     Geografia        e    Estatística.   Disponível   em:
          <http://www.ibge.gov.br/home>. Acesso em: ago. 2012.
          INPE. Manual do Sistema de Processamento de Informações Georreferenciados versão 4.3
          (SPRING-4.3). Divisão de Processamento de Imagens, INPE- São José dos Campos. Disponível em:
          <http://www.dpi.inpe.br/cursos>. Acesso em: jul. 2012.
          Diniz, F. A.; Costa, R. D.; Silva, F. R. M.; Castro, A. F.; Silva, M. P. S. O Uso do Geoprocessamento
          na Análise dos Índices Educacionais do Rio Grande Norte. In: Escola Potiguar de Computação e
          Suas Aplicações – EPOCA 2011. Natal – RN.
          Fayyad, U.; Piatesky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge Discovery: An
          Overview. Cambridge: AAAI Press,1996.
          Landis, J. R.; Koch, G. G. The measurement of observer agreement for categorical data in
          Biometrics. v. 33, p. 159 –174, 1977.
          Moreira, M. A. Fundamentos de Sensoriamento Remoto. Instituto Brasileiro de Pesquisas Espaciais,
          São Paulo: São José dos Campos, 2001.
          Quinlan, J. R. C4.5: Programs For Machine Learning. Morgan Kaufmann, Los Altos, 1993.
          SEEC. Secretaria de Estado da Educação e da Cultura. Disponível em:
          <http://www.educacao.rn.gov.br/contentproducao/aplicacao/seec/principal/enviados/index.asp>,
          Acesso em: jul. 2012.
          WEKA.        Waikato       Environment        for      Knowledge         Analysis.   Disponível   em:
          <http://www.cs.waikato.ac.nz/ml/weka/>, Acesso em: jul. 2012.
          .

Mais conteúdo relacionado

Semelhante a ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...Thiago Reis da Silva
 
Principais resultados do_censo_ppt
Principais resultados do_censo_pptPrincipais resultados do_censo_ppt
Principais resultados do_censo_pptleandrobermudes
 
059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...
059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...
059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...Giorgia Barreto Lima Parrião
 
Sistema de coleta online do censo escolar da educação básica - Educacenso
Sistema de coleta online do censo escolar da educação básica - EducacensoSistema de coleta online do censo escolar da educação básica - Educacenso
Sistema de coleta online do censo escolar da educação básica - EducacensoGiorgia Barreto Lima Parrião
 
Dissertacao 2010-rosane-de-barros-alves-gilson
Dissertacao 2010-rosane-de-barros-alves-gilsonDissertacao 2010-rosane-de-barros-alves-gilson
Dissertacao 2010-rosane-de-barros-alves-gilsonSimone Pinto
 
Apres qualificação Patricia Olimpio.pptx
Apres qualificação Patricia Olimpio.pptxApres qualificação Patricia Olimpio.pptx
Apres qualificação Patricia Olimpio.pptxPatriciaOlimpio2
 
RE(VCSS)78752248291EXXII_21_07_2021.docx
RE(VCSS)78752248291EXXII_21_07_2021.docxRE(VCSS)78752248291EXXII_21_07_2021.docx
RE(VCSS)78752248291EXXII_21_07_2021.docxVanessa Cardoso
 
Perfil dos docentes do Ensino Médio no Rio de Janeiro
Perfil dos docentes do Ensino Médio no Rio de JaneiroPerfil dos docentes do Ensino Médio no Rio de Janeiro
Perfil dos docentes do Ensino Médio no Rio de JaneiroRafaela da Silva Melo
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open dataLiber UFPE
 
Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...
Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...
Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...Thiago Reis da Silva
 
Livreto saeb-online
Livreto saeb-onlineLivreto saeb-online
Livreto saeb-onlinemoborba
 
Programa Parana Digital.pdf
Programa Parana Digital.pdfPrograma Parana Digital.pdf
Programa Parana Digital.pdfAngelaYoshitoni
 
Ebook-DadosEducacionais.pdf
Ebook-DadosEducacionais.pdfEbook-DadosEducacionais.pdf
Ebook-DadosEducacionais.pdfssuserb174cd
 
Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4Benedito Medeiros Neto
 

Semelhante a ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS (20)

ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEO...
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEO...
 
Programa olimpiadas mat
Programa olimpiadas matPrograma olimpiadas mat
Programa olimpiadas mat
 
Principais resultados do_censo_ppt
Principais resultados do_censo_pptPrincipais resultados do_censo_ppt
Principais resultados do_censo_ppt
 
059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...
059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...
059 - Sistema de coleta on-line do Censo Escolar da Educação Básica - Educace...
 
Sistema de coleta online do censo escolar da educação básica - Educacenso
Sistema de coleta online do censo escolar da educação básica - EducacensoSistema de coleta online do censo escolar da educação básica - Educacenso
Sistema de coleta online do censo escolar da educação básica - Educacenso
 
Seminarios pe419 2013
Seminarios pe419 2013Seminarios pe419 2013
Seminarios pe419 2013
 
Seminarios pe419 2013
Seminarios pe419 2013Seminarios pe419 2013
Seminarios pe419 2013
 
Livreto saeb ciencias
Livreto saeb cienciasLivreto saeb ciencias
Livreto saeb ciencias
 
Dissertacao 2010-rosane-de-barros-alves-gilson
Dissertacao 2010-rosane-de-barros-alves-gilsonDissertacao 2010-rosane-de-barros-alves-gilson
Dissertacao 2010-rosane-de-barros-alves-gilson
 
Apres qualificação Patricia Olimpio.pptx
Apres qualificação Patricia Olimpio.pptxApres qualificação Patricia Olimpio.pptx
Apres qualificação Patricia Olimpio.pptx
 
RE(VCSS)78752248291EXXII_21_07_2021.docx
RE(VCSS)78752248291EXXII_21_07_2021.docxRE(VCSS)78752248291EXXII_21_07_2021.docx
RE(VCSS)78752248291EXXII_21_07_2021.docx
 
Perfil dos docentes do Ensino Médio no Rio de Janeiro
Perfil dos docentes do Ensino Médio no Rio de JaneiroPerfil dos docentes do Ensino Médio no Rio de Janeiro
Perfil dos docentes do Ensino Médio no Rio de Janeiro
 
Gestão de dados de pesquisa
Gestão de dados de pesquisaGestão de dados de pesquisa
Gestão de dados de pesquisa
 
Sem ese viseu16_3_2013
Sem ese viseu16_3_2013Sem ese viseu16_3_2013
Sem ese viseu16_3_2013
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open data
 
Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...
Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...
Análise quantitativa do uso das ferramentas avaliativas dos Ambientes Virtuai...
 
Livreto saeb-online
Livreto saeb-onlineLivreto saeb-online
Livreto saeb-online
 
Programa Parana Digital.pdf
Programa Parana Digital.pdfPrograma Parana Digital.pdf
Programa Parana Digital.pdf
 
Ebook-DadosEducacionais.pdf
Ebook-DadosEducacionais.pdfEbook-DadosEducacionais.pdf
Ebook-DadosEducacionais.pdf
 
Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4Cedep literacias via dispositivos & info basica-30ago2014-v4
Cedep literacias via dispositivos & info basica-30ago2014-v4
 

Mais de Thiago Reis da Silva

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoThiago Reis da Silva
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThiago Reis da Silva
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloThiago Reis da Silva
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Thiago Reis da Silva
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemThiago Reis da Silva
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemThiago Reis da Silva
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Thiago Reis da Silva
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleThiago Reis da Silva
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...Thiago Reis da Silva
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...Thiago Reis da Silva
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Thiago Reis da Silva
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaThiago Reis da Silva
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...Thiago Reis da Silva
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Thiago Reis da Silva
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareThiago Reis da Silva
 
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...Thiago Reis da Silva
 

Mais de Thiago Reis da Silva (20)

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a Programação
 
Introdução a Programação
Introdução a ProgramaçãoIntrodução a Programação
Introdução a Programação
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic review
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de módulo
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
 
Survey e Análise Estatística
Survey e Análise Estatística Survey e Análise Estatística
Survey e Análise Estatística
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e ginga
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
 
Minicurso SCRUM
Minicurso SCRUMMinicurso SCRUM
Minicurso SCRUM
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
 
Artigo
ArtigoArtigo
Artigo
 
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
 

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

  • 1. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS Fábio Abrantes Diniz1, Fabiano Rosemberg de Moura Silva2, Roberto Douglas da Costa3, Thiago Reis da Silva4, Íthalo Bruno Grigório de Moura5, Angélica Felix Castro6 1 Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, fabio.abrantes.diniz@gmail.com 2 Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, fabiano.rosemberg.silva@gmail.com 3 Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, robertodcosta@gmail.com 4 Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, trsilva.si@gmail.com 5 Mestrando em Ciência da Computação, UERN/UFERSA, Mossoró - RN, ithalobgm @gmail.com 6 Professora Doutora do Departamento de Informática da UFERSA, Mossoró – RN, angelicafcastro@ gmail.com RESUMO: O Rio Grande do Norte (RN) é um estado rico em recursos naturais, apresenta um desenvolvimento educacional concentrado em algumas regiões. Diante dessa realidade, este trabalho descreve a distribuição da educação na população do RN, mostrando a sua disparidade entre seus municípios. Logo, foram utilizados alguns indicadores da educação do Instituto Brasileiro de Geografia e Estatística (IBGE), juntamente com o Sistema de Informação Geográfico (SIG) TerraView para a elaboração de mapas, utilizando técnicas do geoprocessamento e da estatística. Além disto, também foram utilizadas técnicas de Mineração de Dados (MD) para identificar padrões que ajudam a caracterizar a qualidade do sistema educacional do RN, mostrando assim, a desigualdade entre seus municípios e evidenciando um desenvolvimento educacional concentrado em algumas regiões. Por fim, os resultados mostram que a maioria dos municípios do RN apresenta qualidade educacional abaixo da meta e que a situação é pior em regiões do estado que possuem pequenas atividades econômicas. PALAVRAS-CHAVE: Sistema de informação geográfico, Mineração de dados, Árvore de decisão. INTRODUÇÃO: O RN é composto por 167 municípios, que se agrupam em quatro mesorregiões e 19 microrregiões (IBGE 2012). De acordo com a Secretaria de Estadual de Educação e Cultura (SEEC), o RN possui 16 Diretorias Regionais de Educação (DIRED) que direcionam as instituições educacionais e mantêm uma rede de 3.175 escolas do Ensino Fundamental das quais 620 são estaduais, 2 084 são municipais, 470 são particulares e uma federal. O ensino médio foi ministrado em 420 estabelecimentos, com a matrícula de 152.326 alunos. Dos 152.326 discentes, 133.369 estavam nas escolas públicas e 18.957 nas particulares (SEEC, 2012). Diante dessa realidade, este artigo tem por objetivo analisar as características do sistema educacional do RN, que enfatizam as diferenças sociais e econômicas entre as regiões mais ricas e as menos desenvolvidas do estado. Para realizar este trabalho foram utilizados os indicadores demográficos e educacionais do RN obtidos através do IBGE, tais como: população em idade escolar, número de matrículas, taxa de escolaridade, aprovação, abandono, reprovação e os índices de desenvolvimento de educação básica (IDEB). Alguns desses indicadores são utilizados na elaboração de algumas análises espaciais, a fim de mostrar a qualidade e a equidade da educação nas redes públicas e privadas em todo o estado do RN. A mineração de dados é definida como um processo de descoberta de padrões nos dados (Fayyad, 1996). Desta forma, sua utilização neste trabalho visa encontrar um padrão comportamental de variáveis que descrevem a distribuição da educação na população do RN. Portanto, para a realização desse estudo aplicou o uso de técnicas de Mineração de Dados (MD) para estimar alguns resultados que demonstram relações significativas entre a educação e o desenvolvimento local. Juntamente, utilizou-se uso das técnicas e ferramentas de geoprocessamento, contida no Sistema de informação Geográfica (SIG) TerraView. Nesta ferramenta foram utilizados os recursos de visualização dos dados espaciais para dar subsídios em tomadas de decisões no setor educativo. A fim de ajudar o Governo
  • 2. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. em decisões para cumprir e otimizar as metas e objetivos na melhoria do serviço de educação do estado do RN. MATERIAS E MÉTODOS: A área de estudo é o Estado do Rio Grande do Norte, com uma área de aproximadamente 53.000 km2, dividido politicamente em 167 municípios, com mais de três milhões de habitantes (IBGE, 2012). Foram utilizadas 167 amostras (número de municípios do RN), com seus respectivos dados de educacionais, como o conjunto de treinamento para geração da árvore de decisão. Através da árvore selecionada foi possível extrapolar a estimativa da distribuição da qualidade da educação. Cada amostra possui atributos que trazem informações políticos, sociais e educacionais, referentes ao Estado do RN. As informações referentes ao Estado do RN tais como área, municípios, micro e mesorregiões, população, Índice de Desenvolvimento Humano (IDH), renda domiciliar per capita, entre outras, foram obtidas do Censo Demográfico 2010, através da página do IBGE na Internet. Os atributos utilizados, referentes à educação, foram: as taxas de abandono escolar, aprovação, desempenho médio, o Índice de Desenvolvimento da Educação Básica (IDEB), entre outros, todos obtidos da página da SEEC na Internet e do Censo Escolar 2010. Também foram obtidos, da página do IBGE, os mapas nos quais foram utilizadas técnicas de agrupamento - quantil (equipartição de amostras em 5,4 e 3 intervalos, com dos valores da amostra em cada intervalo). Neste estudo, foram utilizadas técnicas de geoprocessamento (BRETERNITZ, 2010) através do software TerraView 4.1.0 e dados disponibilizados pelo IBGE e pela SEEC sobre o Estado do RN (SEEC, 2012). O TerraView é um SIG desenvolvido pelo Instituto Nacional de Pesquisas Espaciais (INPE) sobre a biblioteca de geoprocessamento do TerraLib, também desenvolvida pelo INPE e tem como seus principais objetivos oferecer à comunidade um fácil visualizador de dados geográficos com recursos de consulta e análise de dados (INPE 2012). As árvores de decisão são um dos modelos mais simples e mais usados em inferência indutiva. Estas árvores são treinadas de acordo com um conjunto de dados de treinamento previamente classificadas e posteriormente, usa essa árvore para classificar a exatidão do classificador num conjunto de teste. Existem vários algoritmos de classificação que utilizam árvores de decisão. Dependendo do problema, um algoritmo pode ser mais eficiente do que o outro. Dentre os algoritmos, os mais usados são: o ID3, ASSISTANT, C4.5 e CART (Classification and Regression Trees) (DINIZ et. al. 2011). Nesse trabalho foi utilizado o algoritmo C4.5, pois trabalha com valores indisponíveis, com valores contínuos, poda árvores de decisão e não depende de suposições sobre a distribuição dos valores das variáveis ou da independência entre si das variáveis (FAYYAD; PIATESKY-SHAPIRO; SMYTH, 1996). Características cruciais quando se usa dados de SIG juntamente com dados de imagem. A ferramenta utilizada para aplicar a técnica de mineração de dados foi o denominado Weka (Waikato Environment for Knowledge Analysis), da Universidade de Waikato, Nova Zelândia. O pacote Weka possui uma suíte que contém diversas técnicas de mineração de dados, totalmente gratuito por ser um software livre (WEKA, 2012). O Weka usa arquivos de dados de treinamento onde devem ser explicitadas quais variáveis são permitidas para uma relação específica, bem como o tipo de dado de cada variável (isto é, nominal ou valor numérico). O Weka pode detectar padrões em dados que podem ser explorados mediante regras. Das técnicas disponíveis, foi utilizado o algoritmo de indução de árvore de decisão C4.5 desenvolvido por (Quilan 1993) e implementado em sua versão para linguagem Java, no Weka, com o nome J4.8, para gerar árvores de decisão (WEKA, 2012). Para a utilização do conjunto de dados, foi feito um pré-processamento nos dados a fim de torná-los compatíveis com o formato da ferramenta utilizada. O algoritmo de classificação do Weka necessita de atributos preditivos para representar os padrões a serem classificados. Foram utilizados quatro
  • 3. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. atributos para a descoberta do modelo nesse trabalho, tais como: o IDH, a renda domiciliar per capita, a taxa de abandono escolar e o IDEB. Todos são atributos preditivos que influenciam direta e indiretamente na qualidade da educação em uma determinada região. Além disso, o algoritmo de classificação do Weka precisa de uma variável nominal denominada atributo-classe que classificam os dados. Portanto, foi criado, a partir dos valores dos atributos preditivos, o atributo-classe MetaqualEd (Meta da qualidade da Educação) o qual possui três categorias de valores (acima, media, abaixo) que classifica o nível da meta da qualidade educacional do RN. Caracterizando as instâncias da base de dados como acima, abaixo ou na média da meta nacional, estipulada pelo governo do RN para o nível da qualidade da educação para o ano de 2010. RESULTADOS E DISCUSSÃO: Como mencionado, a ferramenta Weka foi utilizada como apoio durante a execução da etapa de MD. As classificações com pequeno número de instâncias (167) evidenciadas na base de dados, a árvore de decisão alcançou 87,5% das instâncias classificadas corretamente. Uma estimativa válida que pode não ter sido a melhor devido ao número reduzido de informação, além do fato de existirem poucas instâncias com prevalência muito alta em relação às outras classes. O classificador foi testado utilizando-se o método de validação cruzada 10- Fold-Cross- Validation para obtenção da proporção de acertos (acurácia). Com a Mineração de Dados, foi possível analisar as diferenças no padrão do conjunto de reações das variáveis em relação à melhora da meta da qualidade da educação nos municípios do RN. Para avaliação das classificações foi utilizada a estatística de Kappa que é um método estatístico que serve para medir a concordância entre diferentes medidas (LANDIS; KOCH, 1977), sendo muito usada para avaliação da precisão, determinada por uma matriz de confusão. Sua grande vantagem é que para o seu cálculo não se incluem somente os elementos da diagonal principal e sim todos os elementos da matriz de erro (MOREIRA, 2001). A classificação desse trabalho gerou um índice de Kappa de aproximadamente 73%. O algoritmo J4.8 possui regras decisão e uma matriz de confusão. Nesse trabalho foi elaborada uma matriz de confusão durante os treinamentos e testes das instâncias (Tabela 1). Analisando a matriz, foram detectados possíveis problemas na classificação e também na separabilidade entre as classes. Tabela 1. Matriz de confusão. Classe Prevista Classe = acima Classe = media Classe = abaixo Classe Acima (28) 22 5 1 Real Media (23) 4 13 6 Abaixo (116) 1 4 111 Observa-se também na Tab. 2 que das 167 instâncias, 146 (111+22+13) são classificadas corretamente, sendo que 21 (4+1+4+5+6+1) instâncias são classificadas incorretamente, 19 (4+4+5+6) foram classificadas com um erro de classe e 2 (1+1) classificada com dois erros. Para um total de 28 instâncias com classe real rotulada como acima, tiveram 22 instâncias (78,9%) classificadas corretamente, 5 instâncias (17,9%) foram classificadas como media e somente 1 (3,5%) foi classificada como abaixo. Esse resultado pode ser considerado satisfatório, uma vez que os recursos para o melhoramento da educação de uma região são pequenos, e com essa classificação pode transferir boa parte dos recursos da educação destinados a municípios que tiveram uma qualidade da educação acima da meta estipulada para municípios que estão com uma qualidade educacional abaixo do esperado. Já com as instâncias com classe real média, um pouco a mais da metade (56,5%) delas são classificadas corretamente. Esse resultado mostra que mesmo que essas áreas estejam alcançando a média de qualidade da educação, ainda precisam de atenção na melhora do seu sistema educacional, pois podem sofrer baixas se não tiverem o investimento necessário. Já para a classe de prevalência
  • 4. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. abaixo, foram classificadas corretamente 111 das 116 amostras (96%), sendo que 4 amostras (3,4%) foram classificas como media e apenas 1 amostra (0,6%) de prevalência foi classificada como acima. Esse resultado evidencia a comprovação do padrão, mostrando que o RN precisa melhorar tanto a qualidade do ensino e a infraestrutura da educação como a diminuição da desigualdade social, provando que melhorando a qualidade da educação melhora a qualidade de vida. O algoritmo J4.8 determina a variável com maior quantidade de informação e a coloca na raiz da árvore de decisão. Em cada nó da árvore, foi feita a divisão em conjuntos cada vez mais homogêneos. A variável colocada na raiz da árvore foi IDEBEFfin09 (Índice de Educação Básica do Ensino Funda mental final de 2009), correspondendo à divisão em dois grupos: para valores desta variável menores ou iguais a 3.2 e maiores que 3.2. A Figura 1 mostra a árvore de decisão (obtida a partir do algoritmo J4.8 do Weka) para a prevalência da meta da qualidade da educação em relação a algumas variáveis preditivas que foram selecionadas pelo Weka por conterem maior quantidade de informação. Foram ainda selecionado outras variáveis tais como: índices de desenvolvimento humano (IDH2000), renda domiciliar (renda) e taxa de abandono (TAbanEMed10). Figura 1: Árvore de decisão obtida a partir do algoritmo J4.8 do Weka. O resultado da classificação gerado pela árvore de decisão, acima, pode ser considerado coerente em relação à realidade. Pela análise da árvore vemos a qualidade da educação do Estado do RN esta abaixo da média estabelecida. Dos 167 municípios 115 estão com a qualidade abaixo da média. Seguindo o ramo da árvore até a folha que apresenta o maior número de classes abaixo, os 115 municípios se caracterizam com um IDEB menor que 3.2, IDH menor que 0.7 e taxa de abandono maior que 11.1%. Contrario as metas estabelecidas os quais são possuir um IDEB maior que 3.2, taxa de abandono menor que 10% e IDH na média da nacional que é 0.78. É apresentado na Figura 2, os dados classificados através das regras da árvore de decisão espacializados num mapa temático utilizando o aplicativo TerraView. Figura 2: Meta da qualidade da educação estimada através da árvore de decisão.
  • 5. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. Logo, podemos ver que as vantagens de árvore de decisão incluem a capacidade de lidar com dados que estão em diferentes escalas de medidas, não serem necessárias suposições sobre as distribuições de frequência dos dados em cada uma das classes, a flexibilidade e a capacidade de lidar com relações não lineares entre variáveis e classes. E a simplicidade para encontrar os padrões torna essa técnica muito útil nesse trabalho. CONCLUSÕES E TRABALHOS FUTUROS: Esse trabalho demonstrou que o uso de árvore de decisão é fundamental na descoberta de padrões, pois lida com dados de diferentes escalas de medidas e têm a flexibilidade e a capacidade de trabalhar com relações não lineares entre variáveis e classes. Foi possível constatar que a maioria dos municípios Estado do RN apresenta qualidade educacional abaixo da meta e que a situação é pior em regiões do Estado que possuem pequenas atividades econômicas, pois esses municípios apresentam as mais baixas rendas familiares e IDH, além dos investimentos educacionais serem baixos. Como trabalho futuro propõe-se integrar as técnicas de geoprocessamento com a exploração desta base de dados utilizando outras técnicas de mineração de dados, tais como: Clusterização e Máquinas de Vetores de Suporte (SVM). A fim de identificar novos padrões ou tendências de desenvolvimento e deficiências educacionais dos municípios do Estado do RN, e melhorar a precisão dos resultados. AGRADECIMENTOS: Os autores agradecem a CAPES pela concessão das bolsas de pesquisa. REFERÊNCIAS: Breternitz, V. J. Sistemas de informações geográficas: uma visão para administradores e profissionais de tecnologia da informação. 2010. IBGE. Instituto Brasileiro de Geografia e Estatística. Disponível em: <http://www.ibge.gov.br/home>. Acesso em: ago. 2012. INPE. Manual do Sistema de Processamento de Informações Georreferenciados versão 4.3 (SPRING-4.3). Divisão de Processamento de Imagens, INPE- São José dos Campos. Disponível em: <http://www.dpi.inpe.br/cursos>. Acesso em: jul. 2012. Diniz, F. A.; Costa, R. D.; Silva, F. R. M.; Castro, A. F.; Silva, M. P. S. O Uso do Geoprocessamento na Análise dos Índices Educacionais do Rio Grande Norte. In: Escola Potiguar de Computação e Suas Aplicações – EPOCA 2011. Natal – RN. Fayyad, U.; Piatesky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge Discovery: An Overview. Cambridge: AAAI Press,1996. Landis, J. R.; Koch, G. G. The measurement of observer agreement for categorical data in Biometrics. v. 33, p. 159 –174, 1977. Moreira, M. A. Fundamentos de Sensoriamento Remoto. Instituto Brasileiro de Pesquisas Espaciais, São Paulo: São José dos Campos, 2001. Quinlan, J. R. C4.5: Programs For Machine Learning. Morgan Kaufmann, Los Altos, 1993. SEEC. Secretaria de Estado da Educação e da Cultura. Disponível em: <http://www.educacao.rn.gov.br/contentproducao/aplicacao/seec/principal/enviados/index.asp>, Acesso em: jul. 2012. WEKA. Waikato Environment for Knowledge Analysis. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/>, Acesso em: jul. 2012. .