1) O documento faz uma análise do perfil dos estudantes do campus Floriano do Instituto Federal do Piauí usando técnicas de mineração de dados e sistemas de informação geográficos.
2) Foram analisados dados de 4348 estudantes entre 1998-2010, incluindo sexo, idade, renda familiar e curso.
3) A análise mostrou a distribuição geográfica dos estudantes dentro e fora do estado do Piauí, assim como padrões encontrados nas técnicas de classificação e associação aplicadas
Aplicação de uma técnica de visualização de dados baseado em árvores para aux...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados
1. Análise Espacial do Perfil dos Alunos do IFPI – Campus
Floriano usando Técnicas de Mineração de Dados
Thiago Reis da Silva1, Diego Grosmann1, Artur Luiz T de Oliveira1, Angélica Félix
de Castro1, Marcelino Pereira dos Santos Silva1
1
Programa de Pós-Graduação em Ciência da Computação – MCC
Universidade do Estado do Rio Grande do Norte – UERN/
Universidade Federal Rural do Semi-Árido – UFERSA
BR 110 – Km 46 – Bairro Costa e Silva – Campus Central
59.625-620 Mossoró – RN, Brasil
{trsilva.si, diegogrosmann}@gmail.com, tuca_jampa@hotmail.com,
angelica@ufersa.edu.br, marcelinopereira@uern.br
Abstract: The economy of Piauí is characterized by its fragility, as evidenced
by the behavior of some of its indicators. The IFPI - the Federal Institute of
Piauí assume social responsibilities in the face of dire need to develop
knowledge and technologies for exploitation and value adding. In this context
the present article is a study on the profile of students in the IFPI - Campus
Floriano. For this we used data mining techniques and geographic
information systems.
Resumo: A economia do Piauí caracteriza-se por sua fragilidade, evidenciada
pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal
do Piauí assume responsabilidades sociais diante da extrema necessidade de
desenvolver conhecimentos e tecnologias de aproveitamento e agregação de
valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos
estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de
mineração de dados e sistemas de informação geográficos.
1. Introdução
Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que
produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para
formação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo
para o progresso socioeconômico local, regional e nacional. A implantação dos campi,
no interior do Estado, atende a meta do Programa de Expansão da Rede Federal de
Educação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciência
e Tecnologia, no que diz respeito à descentralização de qualificação profissional,
levando em conta as necessidades socioeconômicas de cada região. Com isso, pretende-
se evitar o êxodo de jovens estudantes para a capital.
O Instituto Federal de Educação Ciência e Tecnologia do Piauí (IFPI) é uma
instituição com atuação no Estado do Piauí, detentora de autonomia administrativa,
patrimonial, financeira, didático-pedagógica e disciplinar. É instituição pública de
Educação Superior, Básica e Profissional, pluricurricular e multicampi, está presente em
dez municípios do estado, especializada na oferta de Educação Profissional e
2. Tecnológica, em diferentes modalidades de ensino, conjugando os conhecimentos
humanos, técnicos e tecnológicos com as suas práticas pedagógicas, nos termos da Lei
(PDI, 2009).
Nesse contexto, o IFPI assume responsabilidades sociais, diante da extrema
necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação
de valores, de nível tecnológico, de produtos e subprodutos, oriundos das vocações do
estado, a exemplo da carnaúba, do caju, da castanha do caju e do mel, dentre outros
(PDI, 2009). Assim, o presente trabalho faz uma avaliação da base de dados do controle
acadêmico do IFPI – Campus Floriano a fim de identificar o padrão dos estudantes da
instituição.
Neste contexto, este artigo encontra-se organizado da seguinte forma: a seção 2
apresenta uma revisão de literatura, abordando em subseções os Sistemas de Informação
Geográficos, Descoberta do Conhecimento em Banco de Dados, Técnicas de Mineração
e Mineração de Dados Geográficos. É apresentada na seção 3 a Metodologia utilizada.
A seção 4 apresenta os Resultados e as Conclusões Finais e Trabalhos Futuros são
apresentados na seção 5.
2. Revisão de Literatura
A seguir apresentamos uma revisão de literatura sobre os conceitos e técnicas utilizados
para o desenvolvimento deste trabalho.
2.1. Sistema de Informação Geográfico
O Sistema de Informação Geográfico (SIG) é um tipo especial de sistema de
informações. Por definição pode-se dizer que um SIG é um sistema de informação
baseado em computador que permite capturar, modelar, manipular, recuperar, consultar,
analisar e apresentar dados geograficamente referenciados (CÂMARA; CASANOVA,
1995). A tecnologia de SIG pode trazer enormes benefícios devido à sua capacidade de
manipular a informação espacial de forma precisa, rápida e sofisticada (WRIGHT,
1997).
Um SIG integra dados espaciais com outros tipos de dados em único sistema.
Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancos
de dados. O processo de converter mapas e outros tipos de informações espaciais numa
forma digital via SIG, torna possíveis métodos novos e inovadores para a manipulação e
exibição de dados geográficos (BRETRNITZ, 2010).
2.2. Descoberta do Conhecimento em Banco de Dados
A Descoberta do Conhecimento em Banco de Dados, do inglês, Knowledge Discovery
in Databases (KDD) é o processo, não trivial, de extração de informações implícitas,
previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em
um banco de dados (FAYYAD et al, 1996). O termo “não trivial” torna clara a
existência de alguma técnica de busca ou inferência. “Previamente desconhecidas”
indica que a informação deve ser nova para o sistema e de preferência também para o
usuário. E, por último, “potencialmente úteis”, deixa claro que esta informação deve
trazer consigo algum benefício, em outras palavras, deverá possibilitar ao usuário algum
ganho.
3. O processo de KDD contém uma série de passos, tais como: Seleção, Pré-
processamento e Limpeza, Transformação, Mineração de Dados (datamining) e
Interpretação/Avaliação (MILLER; HAN, 2001). Como se pode ver, o processo
compreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ou
informação. O processo em si possui duas características relevantes: é interativo e
iterativo. Interativo, pois o usuário pode intervir e controlar o curso das atividades.
Iterativo, por ser uma sequência finita de operações onde o resultado de cada uma é
dependente dos resultados das que a precedem.
Dentre estas, a mineração de dados se destaca bastante, pois é a fase responsável
pela transformação de dados em informações. A mineração de dados está relacionada
com a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos e
não apenas consultas complexas e elaboradas com a finalidade de confirmar uma
hipótese em função dos relacionamentos existentes. A mineração de dados, portanto, é
uma descoberta eficiente de informações válidas e não óbvias de uma grande coleção de
dados (OLIVEIRA et al, 2011).
2.3. Técnicas de Mineração
Segundo Prass (2004), as técnicas de mineração consistem na especificação de métodos
que nos garantam descobrir os padrões que nos interessam. Para cada técnica utilizada,
uma série de algoritmos estão disponíveis na literatura. Nas subseções a seguir são
descritas as técnicas utilizadas neste trabalho.
2.3.1 Classificação e Predição
Segundo Amo (2004), classificação é o processo de buscar modelos (funções) que
descrevem e distinguem classes ou conceitos, com o propósito de utilizar os modelos
para predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados de
amostragem ou de treinamento. No caso da predição, o objetivo é inferir valores no
conjunto de dados.
2.3.2 Associação
As regras de associação consistem em padrões do tipo A → B, onde A e B são
conjuntos de valores antecedentes e consequentes. Consideremos um exemplo de
supermercado. O padrão “Cliente que compra pão também compra leite” representa um
padrão de comportamento dos clientes do supermercado. Essa organização pode ser
válida na organização dos produtos na prateleira visando o aumento das vendas.
3. Metodologia
Para o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula do
IFPI – Campus Floriano, que contem dados dos estudantes matriculados entre o ano de
1998 e o ano de 2010, totalizando 4348 registros. Para a extração do conhecimento
foram seguidos os passos do KDD: Seleção dos dados, Pré-Processamento,
Transformação, Mineração de Dados, e interpretação/avaliação.
Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco de
dados MySql Server v5.0 e sua Interface Gráfica do Usuário v1.2, o software de
Mineração de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql,
TerraView e o Weka GNU possui licença GNU/GPL (General Public License).
4. 3.1 Seleção de dados
A base de dados do IFPI é formada por 53 campos e está salva no formato de arquivo
Excel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade do
nascimento, estado do nascimento, estado civil, renda familiar, financiamento da
instituição de origem, curso e período de ingresso.
3.2 Pré-processamento
Como citado anteriormente à base de dados estava no formato de arquivo Excel, para
facilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivo
csv e posteriormente importados no banco de dados MySql. Para a importação primeiro
criou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv.
Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valores
ausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeira
técnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridos
manualmente utilizando o campo nome como base, o campo estado de origem também
utilizou essa mesma técnica usando como base a cidade de origem. Para os demais
campos, foi utilizada a segunda técnica (b), realizando um processo de adequação dos
dados retirando espaços em branco antes e depois dos dados e caracteres inválidos e
como tratamento das linhas sem dados simplesmente às ignoramos.
3.3 Transformação dos dados
Nesta fase foram gerados dados a partir dos dados existentes. Tendo a data de
nascimento como base, geramos o campo idade. Já a renda foi dividida para refletir as
classes sociais, a criação das classes se deu de acordo com as regras propostas pela
consultoria Target (2011), que dividiu as classes em: A1: inclui as famílias com renda
mensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2:
maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$
600; E: maior que R$ 400; F: menor que R$ 200.
Para simplificar a consulta, as classes proposta pela Target sofreram algumas
alterações. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe E
e F foram juntos na classe E.
3.4 Mineração de Dados
Algumas ferramentas foram analisadas e o Weka (Waikato Environment for Knowledge
Analysis) foi à escolhida para a tarefa de Mineração de Dados. A escolha se deu pelo
fato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelo
poder de exposição dos resultados da mineração com clareza. Para a manipulação dos
dados pelo Weka primeiro devemos colocá-los em um formato aceito pelo mesmo, esse
formato é o ARFF (Attribute-Relation File Forma).
Para gerar o arquivo arff primeiro exportamos os dados do banco de dados
utilizando separação por vírgula, e posteriormente inserimos o cabeçalho com os meta-
dados referentes às colunas.
Com o objetivo de uma análise precisa dos dados, os mesmos foram submetidos
a duas de técnicas de mineração de dados. Eles foram submetidos à classificação através
dos algoritmos RandomTree, J48 e REPTree e associação pelo algoritmo JRIPA.
5. 3.5 Interpretação/Avaliação
Nesta fase os dados foram analisados e os padrões e as características foram
identificados, sendo apresentados os resultados na próxima seção.
Para uma melhor apresentação dos dados em forma de mapas utilizamos o
software TerraView e as malhas digitais municipais e estaduais disponíveis no site do
IBGE (IBGE, 2011).
4. Área de Estudo
O presente trabalho faz uma avaliação dos dados dos alunos que estudam e estudaram
no IFPI – Campus Floriano. O Instituto Federal do Piauí foi criado mediante
transformação do Centro Federal de Educação Tecnológica do Piauí (CEFET/PI). Sua
Reitoria está instalada em Teresina – PI.
O Piauí está localizado a noroeste da região Nordeste do Brasil ocupa uma área
de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Sua
capital é a cidade de Teresina (IBGE, 2011). A economia do estado é baseada no setor
de serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja,
algodão, arroz, cana-de-açúcar, mandioca) e na pecuária extensiva.
A Figura 1 ilustra a localização da área de estudos (município de Floriano) em
relação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano faz
parte. O município de Floriano situa-se na Zona do Médio Parnaíba, à margem direita
desse mesmo Rio, em frente à cidade de Barão de Grajaú, Maranhão. A cidade fica a
253 km da capital do Estado do Piauí, Teresina. Tem uma população de 57.690 e ocupa
uma área de 3.409 km2 (IBGE, 2011). O município possui um IDH de 0,711 que é
considerado médio (HDR, 2011).
Figura 1 - Localização da área de estudos em relação ao território do Brasil.
4. 1. Resultados
Nesta seção serão apresentadas as informações obtidas na fase de análise de dados do
KDD. A Figura 2 apresenta a distribuição dos estudantes no território nacional e em
relação ao estado do Piauí. Notamos que das 27 unidades distritais (contando com o
Distrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra a
importância do mesmo no contesto nacional. Já no contexto do estado do Piauí sua
6. atuação ficou limitada a região sul e sudoeste. A Figura 2 ainda ilustra que a maioria dos
alunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti,
Oeiras, Amarante e Teresina.
Figura 2. A esquerda temos a distribuição dos alunos em cada estado do Brasil
e a direita temos a distribuição dentro do estado do Piauí.
Com a intenção de avaliar se a renda dos estudantes tem uma influência direta na
distribuição geográfica, foi gerado o mapa apresentado na Figura 3, nesse mapa
apresentamos a classe social predominante dos discentes por estado e por cidade. Nela
podemos constatar que estudantes de regiões mais distantes do polo educacional
apresentam uma classe social mais elevada que os nascidos na microrregião de Floriano.
Isso pode se dar devido à dificuldade que pessoas de classe social mais baixa têm de se
transportar até lugares mais distantes e de sustentar-se.
Figura 3. Mapa com a distribuição das classes sociais dos alunos por estado e
por cidade.
Tendo como base o contexto social em nosso país, no qual afrodescendentes
ainda são muito discriminados, utilizamos o algoritmo de classificação RandomTree
para avaliar a influência da cor da pele na classe social e obtivemos a árvore apresentada
7. na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam a
mesma classe social, todos enquadrados na classe E, assim não constatamos uma
desigualdade gerada pela cor da pele.
Figura 4. Árvore gerada pelo RandomTree comparando a classe social com a
cor da pele.
Avaliamos também que a classe social e a cor da pele têm influencia direta sobre
a instituição de origem dos alunos (privada, pública ou filantrópica). Identificamos que a
cor da pele em nada influência a instituição de origem sendo que para todas as etnias a
maioria dos alunos foi proveniente de escola pública. Já a classe social C1 apresentou
uma predominância em instituições filantrópicas, para as instituições públicas e privadas
a predominância continua sendo de alunos da classe E.
A classe social apresentou relação direta com o curso escolhido. Identificamos
após classificação realizada pelo algoritmo RandomTree que alunos de classe social
mais altas dão preferência a cursos na área de técnico em edificações e informática, e
concomitante em edificações. Com o algoritmo J48 identificamos também que a classe
social tem relação direta com a idade dos alunos. Alunos com idade inferior a 21
pertencem a classes sociais mais altas.
Através da análise da árvore gerada pelo algoritmo REPTree identificamos que
os alunos que ingressaram até o ano de 1999 eram provenientes de escola privada já nos
anos posteriores, o número alunos de escola pública superaram o número de alunos de
escola privada.
Com o uso do algoritmo JRIP que identifica as regras pressentes na base de
dados identificamos cinco regras predominantes. Das quais as três seguintes se
destacam.
1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos,
escolheram o curso de Matemática, são locais, têm classe social C1 e são da
etnia negra;
2. Os alunos que ingressaram depois de 2008 vindos de escola particular
escolheram o curso de Análise e Desenvolvimento de Sistemas e tem etnia
branca;
3. O curso de Biologia até o ano de 2005 foi mais escolhido por mulheres de classe
social C1 e etnia branca;
5. Conclusões e Trabalhos Futuros
Através da pesquisa acima apresentada concluímos que a mineração de dados é um
processo de fundamental importância para a obtenção de informações de grandes bases
8. de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de inclusão social,
pois não apresentou uma disparidade em seus alunos referentes à classe e a etnia.
Como trabalho futuro propõe-se a exploração desta base de dados utilizando
outras técnicas de mineração de dados como a Clusterização e a utilização de outras
ferramentas de mineração.
Agradecimentos
Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI –
Campus Floriano pela disponibilização da base de dados.
Referências Bibliográficas
Amo, S. A. (2004) “Técnicas de Mineração de Dados”. In: Sociedade Brasileira de
Computação, UFBA. Jornadas de Atualização em Informática. Salvador – BA,
Universidade Federal da Bahia, 2004, v.2, p195-236.
Breternitz, V. J. (2010) “Sistemas de informações geográficas: uma visão para
administradores e profissionais de tecnologia da informação,” 2010.
Câmara, G.; Casanova, M. A. (1995) “Fields and objects algebras for gis operations
operations.” vol. 1, pp. 407 – 420, 1995.
Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) “From data mining to knowledge
discovery: An overview”, AI Magazine pp. 37–54, 1996.
HDR (2011). Human Development Report. Disponível em: <http://hdr.undp.org/en/>.
Acesso em set. 2011.
IBGE (2011). Instituto Brasileiro de Geografia e Estatísticas. Disponível em:
<http://ibge.gov.br>. Acesso em set. 2011.
Miller, H. J.; Han, J. (2001) “Geographic data mining and knowledge discovery: An
overview”. London: Taylor and Francis, in press, B., 2001.
Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011)
“Spatial analysis of the student profile of federal techical school of piaui”. In: ISTI:
Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. V II,
p. 368-373.
Prass, F. S. (2004) “Kdd: Processo de descoberta de conhecimento em bancos de dados”
vol. 1, pp. 10 – 14, 2004.
PDI (2009) “Plano de Desenvolvimento Institucional”. Disponível em: <
http://www.ifpi.edu.br/arquivos/PDI_IFPI_PROPOSTA_FINAL.pdf>. Acesso em
set. 2011.
Target (2011) Disponível em: <http://www.target.com.br/portal_new/Home.aspx>.
Acesso em set. 2011.
Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) “Demystifying the persistent
ambiguity of gis as Tool Versus Science” The Annals of the Association of American
Geographes, 87(2): 346-362, 1997.