SlideShare uma empresa Scribd logo
1 de 59
Baixar para ler offline
UNIVERSIDADE ESTADUAL DE GOIÁS
UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
BRUNO ALISSON ELISEU DE ALMEIDA
Mineração de Dados:
Conceitos e Aplicações
Anápolis
Novembro, 2011
UNIVERSIDADE ESTADUAL DE GOIÁS
UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
BRUNO ALISSON ELISEU DE ALMEIDA
Mineração de Dados:
Conceitos e Aplicações
Trabalho de Conclusão de Curso apresentado ao Departamento de Sistemas de Informação da
Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade Estadual de Goiás,
como requisito parcial para obtenção do grau de Bacharel em Sistemas de Informação.
Orientador: Prof. Esp. Ronaldo de Castro Del Fiaco
Anápolis
Novembro, 2011
FICHA CATALOGRÁFICA
ALMEIDA, Bruno Alisson Eliseu de.
Mineração de Dados: Conceitos e Aplicações. Anápolis, 2011.
(UEG / UnUCET, Bacharelado em Sistemas de Informação, 2011).
Monografia.Universidade Estadual de Goiás, Unidade Universitária de Ciências Exatas e
Tecnológicas. Departamento de Sistemas de Informação.
1. Mineração de Dados 2. Data Mining
REFERÊNCIA BIBLIOGRÁFICA
ALMEIDA, Bruno Alisson Eliseu de. Mineração de Dados: Conceitos e Aplicações.
Anápolis, 2011. 59 p. Monografia – Curso de Sistemas de Informação, UnUCET,
Universidade Estadual de Goiás.
CESSÃO DE DIREITOS
NOME DO AUTOR: Bruno Alisson Eliseu de Almeida
TÍTULO DO TRABALHO: Mineração de Dados: Conceitos e Aplicações
GRAU/ANO: Graduação /2011.
É concedida à Universidade Estadual de Goiás permissão para reproduzir cópias deste
trabalho, emprestar ou vender tais cópias para propósitos acadêmicos e científicos. O autor
reserva outros direitos de publicação e nenhuma parte deste trabalho pode ser reproduzida
sem a autorização por escrito do autor.
Bruno Alisson Eliseu de Almeida
Rua T-65 N 360 Alta Vista Residencial Apto. 1403 Setor Bela Vista
CEP 74823-370 – Goiânia – GO – Brasil
Dedico esse trabalho à minha mãe e meus irmãos que
sempre me apoiaram e seguraram uma barra para que eu
pudesse chegar até aqui.
Dedico também esse trabalho em memória do meu pai
que não me deixou desistir.
AGRADECIMENTOS
Ao meu orientador Prof. Ronaldo, pelo constante apoio, incentivo, dedicação e
amizade essenciais para o desenvolvimento deste trabalho e para o meu desenvolvimento
como pesquisador.
Aos meus colegas de turma pelo incentivo.
Aos meus pais e irmãos por nunca me deixarem desistir e sem os quais não teria
chegado até aqui.
A todos, os meus sinceros agradecimentos.
LISTA DE ILUSTRAÇÕES
Figura 1 - Pirâmide Mineração de Dados...................................................................................4
Figura 2 - Áreas Envolvidas na Mineração de Dados ................................................................6
Figura 3 - Mineração de Dados ..................................................................................................6
Figura 4 - Árvore de Decisão .....................................................................................................9
Figura 5 - Redes Neurais Artificiais.........................................................................................10
Figura 6 - Clusterização............................................................................................................11
Figura 7 - Fases KDD...............................................................................................................13
Figura 8 - Matriz Curricular do Curso de Sistemas de Informação..........................................19
Figura 9 – WEKA – Tela Inicial ..............................................................................................28
Figura 10 – WEKA – Tela Explorer.........................................................................................28
Figura 11 - WEKA - Arquivo ARFF Aberto............................................................................29
Figura 12 - WEKA – Tela de Classificação .............................................................................30
Figura 13 - WEKA - Escolha do Algorítmo.............................................................................31
Figura 14 - WEKA - Execução do Algorítmo..........................................................................32
Figura 15 - Resultado WEKA ..................................................................................................33
Figura 16 - Estrutura Árvore Weka..........................................................................................34
Figura 17 - Árvore WEKA.......................................................................................................35
Figura 18 - Pôster Mineração de Dados: Conceitos e Aplicações............................................46
LISTA DE TABELAS
Tabela 1 - tb_weka ...................................................................................................................21
Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Conclusão de Curso44
LISTA DE ABREVIATURAS E SIGLAS
Siglas Descrição
UEG Universidade Estadual de Goiás
UnUCET Unidade Universitária de Ciências Exatas e Tecnológicas
DM Data Mining
KDD Knowledge Discovery in Databases
SGBD Sistema Gerenciador de Bancos de Dados
SQL Structure Query Language
ODBC Open Data Base Connectivity
OLAP On-Line Analytical Processing
FAPESP Fundação de Amparo à Pesquiso do Estado de São Paulo
USP Universidade de São Paulo
ICMC Instituto de Ciências Matemáticas e de Computação
MIRVIsIM Sigla em inglês para “Mineração, indexação, recuperação e
visualização de dados em sistemas de arquivamento de imagens
médicas”
SI Sistemas de Informação
JVM Java Virtual Machine
RESUMO
A quantidade e de dados gerados no mundo atualmente é muito grande, até
mesmo dentro das empresas esses dados chegam a formar grandes bases de dados. A
velocidade com que a informação circula, principalmente na Internet, também é muito grande.
Apenas armazenar esses dados e utilizá-los em buscas simples não representa uma vantagem
para as empresas. A Mineração de Dados surge então como solução para esse problema,
possibilitando que sejam encontrados padrões nos dados que possibilitem que sejam tomadas
novas ações que favoreçam a empresa.
O trabalho descrito nesse projeto visa produzir material teórico necessário para
que sejam compreendidos os conceitos de Mineração de Dados, suas técnicas e as vantagens
que pode trazer para a organização.
Palavras-chave: Mineração de Dados, KDD, dados, informação, conhecimento.
ABSTRACT
The amount of data generated and the world today is very large, even within
companies that data come to form large databases. The quickness with which information
circulates, especially on the Internet, is also very large. Only store data and use them in simple
searches do not represent an advantage for companies. Data Mining then arises as a solution
to this problem, allowing them to be found in the data standards that enable new actions are
taken to promote the company.
The work described in this project aims at producing theoretical material needed
to be understood that the concepts of Data Mining, its techniques and the advantages it can
bring to the organization.
Keywords: Data Mining, KDD, data, information, knowledge.
SUMÁRIO
INTRODUÇÃO..........................................................................................................................1
CAPÍTULO 1 – REFERENCIAL TEÓRICO............................................................................4
1.1 Mineração de Dados.........................................................................................................4
1.1.1 Histórico ....................................................................................................................4
1.1.2 Definição ...................................................................................................................5
1.1.3 Tarefas Desempenhadas ............................................................................................7
1.1.4 Técnicas.....................................................................................................................8
1.2 KDD ...............................................................................................................................12
1.2.1 Definição .................................................................................................................12
1.2.2 Fases do KDD..........................................................................................................13
1.3 APLICABILIDADE DA MINERAÇÃO DE DADOS..................................................15
1.3.1 Wal-Mart .................................................................................................................15
1.3.2 Vestibular PUC-RJ ..................................................................................................15
1.3.3 Bank of America......................................................................................................16
1.3.4 A.C. Milan...............................................................................................................16
1.3.5 FAPESP...................................................................................................................16
CAPÍTULO 2 – RELAÇÃO ENTRE A MÉDIA FINAL OBTIDAS NAS DISCIPLINAS DO
CURSO DE SI DA UEG E O DESEMPENHO ACADÊMICO .............................................18
2.1 O Curso de Sistemas de Informação...............................................................................18
2.2 Base de Dados ................................................................................................................20
2.3 Proposta ..........................................................................................................................20
2.4 Etapas .............................................................................................................................21
2.4.1 Seleção dos Dados...................................................................................................21
2.4.2 Limpeza ...................................................................................................................21
2.4.3. Transformação........................................................................................................21
2.4.4 Mineração de Dados................................................................................................24
2.4.4.1 O formato de arquivo ARFF ..................................................................... 24
2.4.4.2 Escolha do Algorítmo................................................................................ 27
2.4.4.3 Utilizando o WEKA .................................................................................. 27
2.4.5 Interpretação ............................................................................................................33
CONCLUSÃO / RECOMENDAÇÕES...................................................................................38
REFERÊNCIAS .......................................................................................................................40
APÊNDICE I – CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSÃO
DE CURSO ..............................................................................................................................44
APÊNDICE II - PÔSTER APRESENTADO NO III SIMPÓSIO DE TECNOLOGIA DA
INFORMAÇÃO E III SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE
SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2011.........................................................46
1
INTRODUÇÃO
Atualmente, o volume de dados gerados em qualquer ambiente, seja ele
corporativo, governamental, científico ou até mesmo na própria Internet é incrivelmente
grande. A tendência é que esse volume de dados continue a crescer, principalmente pelo
crescimento da utilização de dispositivos móveis e da automação cada vez maior das
atividades das empresas.
As organizações vêm constantemente buscando formas de agregar valor aos seus
negócios e alcançar diferenciais com relação aos seus concorrentes em um mercado que se
mostra cada vez mais competitivo. Nesse contexto, tanto os dados gerados internamente pela
organização quanto os dados oriundos de fontes externas podem ajudar a promover essa
vantagem competitiva que a organização busca.
Nesse cenário, a Mineração de Dados pode representar um importante papel para
a organização. A Mineração de Dados busca encontrar padrões ou tendências dentro de uma
coleção de dados. Assim sendo, a Mineração de Dados pode identificar nos dados da
organização padrões que dificilmente seriam observados de outra maneira.
A Mineração de Dados pode encontrar padrões e tendências na base de dados da
organização ajudando a identificar padrões no comportamento dos clientes, tendências de
mercado, comportamento fraudulento e etc., informações essas que permitem às organizações
a tomada de decisões estratégicas que podem representar uma vantagem competitiva para a
instituição.
A Mineração de Dados encontra padrões em bases de dados por meio da aplicação
de algorítmos, a escolha do algorítmo depende do tipo dos dados que irão ser analisados e do
resultado que se espera. Os dados também precisam ser trabalhados antes da aplicação dos
algorítmos. As diferentes técnicas que podem ser aplicadas na Mineração de Dados serão
descritas no decorrer deste trabalho.
Mas a Mineração de Dados não pode ser tratada como um processo completo e
isolado, na realidade, trata-se de uma etapa de um processo maior, o KDD (Knowledge
Discovery In Databases, em português, Descoberta de Conhecimento em Bancos de Dados),
2
onde são executadas etapas antes e depois da Mineração de Dados para que possa ser extraída
informação de interesse da organização.
A Mineração de Dados corresponde à principal etapa do KDD, onde o algorítmo
escolhido é aplicado na base de dados, mas existem etapas que devem ser executadas antes
que o algorítmo possa ser aplicado e essas etapas fazem parte do KDD. Os dados onde a
mineração de dados será aplicada precisam ser tratados para que o algorítmo possa ser
aplicado.
Mesmo não sendo o alvo de estudo deste trabalho, a ligação existente entre
Mineração de Dados e KDD não permite que seja tratado de um ser mencionar o outro.
Assim, as etapas que compreendem o KDD também serão tratados durante o projeto mas sem
que haja um aprofundamento muito grande.
Para a demonstração da Mineração de Dados será utilizado o WEKA (Waikato
Environment Knowledge Analysis, em português, Ambiente Waikato de Análise de
Conhecimento), software que começou a ser desenvolvido em 1993 usando Java, na
Universidade de Waikato na Nova Zelândia. O WEKA consiste em uma coleção de
algorítmos da área de Inteligência Artificial dedicada ao aprendizado de máquinas.
A justificativa em cima da qual esse trabalho se baseia é o fato de que toda
organização deseja agregar cada vez mais valor ao seu negócio e assim adquirir uma
vantagem sobre a concorrência, e que toda organização, independente do porte, possui uma
quantidade de dados razoável armazenados que podem ser explorados e transformados em
informação valiosa para a empresa.
O principal objetivo do trabalho é fornecer uma material teórico sobre Mineração
de Dados, expondo das técnicas utilizadas, as formas como os dados podem ser transformados
e os tipos de resultados que podem ser obtidos.
Para que o trabalho não fique apenas na parte teórica e a aplicação da Mineração
de Dados possa ser melhor observado, será realizado um estudo de caso para que possam ser
demonstrados todos os passos que compreendem a Mineração de Dados e que são necessários
para transformar dados em informação.
Entre os passos que serão demonstrados no estudo de caso serão feitos passos do
KDD, uma vez que a Mineração de Dados só compreende a aplicação dos algorítmos e não os
3
passos que precedem a execução dos algorítmos, etapas que são feitas no KDD e que são de
extrema importância e que influenciam diretamente nos resultados da Mineração de Dados.
Em nenhum momento deste trabalho será dito que uma técnica é melhor ou mais
eficiente que outra, visto que o objetivo não é avaliar as técnicas e sim expos quais as técnicas
disponíveis e quais resultados podem ser obtidos com cada uma delas.
4
CAPÍTULO 1 – REFERENCIAL TEÓRICO
Neste capítulo será exposto a Mineração de Dados, as técnicas de Mineração de
Dados, o KDD e as técnicas de KDD. As vantagens que a utilização da Mineração de Dados
pode proporcionar às organizações também serão apresentadas nesse capítulo. O objetivo
deste é fornecer uma base de conhecimento sobre o assunto que será abordado durante todo o
projeto, para que o objeto do estudo e os resultados da pesquisa possam ser comprendidos.
1.1 Mineração de Dados
Figura 1 - Pirâmide Mineração de Dados
Fonte: HALFEN, 2010
1.1.1 Histórico
O termo Mineração de Dados não é novo, começou a ser utilizado por volta de
1960, onde seu objetivo principal era a coleção de dados em computadores, feitos em fitas e
discos fornecidos pela IBM e CDC. Esses dados eram armazenados para que posteriormente
fosse possível fazer a restrospectiva e a distribuição estática dos dados.
5
Na década de 1980, com a aprimoramento das tecnologias de acesso dinâmico aos
dados, como os SGBD’s (Sistema Gerenciador de Bancos de Dados), SQL (Structure Query
Language, em português, Linguagem de Consulta Estruturada), ODBC (Open Data Base
Connectivity, em português, Conectividade de Banco de Dados Livre) e bancos de dados
relacionais, fornecidos principalmente por Oracle, Sybase, Infomix, IBM e Microsoft, a
Mineração de Dados passou a ter como principal característica a retrospectiva e a distribuição
dinâmica dos dados a nível de registro.
Com o surgimento do data warehousing e do suporte à decisão, OLAP (On-Line
Analytical Processing, ou em português, Processamento Analítico Online) e bancos de dados
multidimensionais na década de 1990, tendo como principais fornecedores Pilot, Comshare,
Arbor, Cognos e Microstrategy, possibilitaram uma nova evolução para a Mineração de
Dados que passou a permitir a retrospectiva e a distribuição dinâmica dos dados em múltiplos
níveis.
Atualmente a Mineração de Dados é utilizada comercialmente na tentativa de
prever resultados futuros através da análise dos dados, dispondo de algorítmos avançados,
computadores multiprocessados e banco de dados massivos, a Mineração de Dados tem como
principal objetivo a prospectiva e a distribuição de informação ativa. Os principais
fornecedores são Pilot, Lockheed, IBM e SGI.
1.1.2 Definição
Mineração de Dados é o termo usado para generalizar um conjunto de técnicas
utilizadas para analisar e extrair informações de bases de dados, encontrando padrões nos
dados que possam ser úteis para a organização.
Praticamente não existe nenhuma área de conhecimento em que as técnicas de
Mineração de Dados não possam ser aplicadas. A Mineração de Dados traz consigo uma série
de idéias e técnicas para uma grande variedade de campos. A diferença entre as áreas de
conhecimento está nos termos utilizados, mas todas usam diferentes técnicas para chegar ao
mesmo resultado, a informação.
6
Figura 2 - Áreas Envolvidas na Mineração de Dados
Fonte: (VIANA)
Figura 3 - Mineração de Dados
Fonte: O autor, adaptada de (MARTIN).
O aumento das transações comerciais por meio eletrônico, em especial as feitas
pela Internet, possibilitou às empresas armazenarem em suas bases de dados registros
contendo preciosos dados sobre seus clientes. Os produtos adquiridos, e até mesmo os que
foram apenas consultados, aliados aos dados exigidos no momento do cadastro formam o
perfil do cliente.
7
O conhecimento do perfil do cliente possibilita oferecer um serviço mais
personalizado. Os diversos sites de compra online se utilizam de técnicas de Mineração de
Dados, por exemplo, no momento do cadastro o cliente determina suas áreas de interesse, a
partir desse instante os emails enviados a esse cliente passam a conter apenas ofertas voltadas
para suas áreas de interesse. Outro exemplo acontece durante a própria navegação no site, ao
buscar um produto são mostradas sugestões de produtos que também foram adquiridos por
compradores anteriores juntamente com o produto buscado.
Mesmo dispondo de ferramentas para automatizar o processo de Mineração de
Dados, a participação de um profissional é indispensável uma vez que algumas das tarefas
devem ser feitas manualmente, como a seleção dos dados ou a criação das regras, podendo
influenciar nos resultados obtidos.
1.1.3 Tarefas Desempenhadas
De acordo com a necessidade a Mineração de Dados pode realizar diferentes
tarefas sobre os dados com a finalidade de melhor organizá-los.
 Associação: Consiste em determinar quais fatos ou objetos tendem a
ocorrer num mesmo evento ou nume mesma transação. Exemplo: quais
produtos costumam ser adquiridos numa mesma compra, sistomas
parecidos entre pacientes.
 Classificação: Consiste em construir um modelo que possa ser
aplicado a dados não classificados visando categorizar os objetos em
classes. Exemplo: classificar pedidos de crédito; tratamento de pacientes.
 Predição/Previsão: A predição é usada para definir um provável
valor para uma ou mais variáveis. A previsão é utilizada quando se tem
séries temporais (dados organizados cronologicamente). Exemplo: estimar
o tempo de vida de um paciente; estimar a renda total de uma família;
demanda de consumidores para um novo produto.
 Agrupamentos ou Clusterização: É um processo de partição, que
visa dividir uma população em subgrupos mais homogêneos entre si,
8
tornando a visualização por parte do usuário mais simples e
compreensível. É diferente da tarefa de classificação, pois não existem
classes predefinidas, os objetos são agrupados de acordo com a
similaridade. Exemplo: agrupar clientes por região; agrupar clientes com
comportamento de compra similar.
1.1.4 Técnicas
Não existe uma técnica que resolva todos os problemas de Mineração de Dados.
Existem diferentes técnicas para diferentes propósitos, a escolha da técnica a ser empregada
está relacionada com o tipo de dado no que será aplicada.
Árvores de Decisão
Um problema complexo é dividido em problemas mais simples de serem
resolvidos. É um modelo preditivo, visualizado em forma de árvore. Cada ramo da árvore é
visto como um problema mais simples enquanto cada nó é visto como um subconjunto dos
dados que resolvem esse problema.
9
Figura 4 - Árvore de Decisão
Fonte: O autor, adaptada de (CARACIOLO, 2009).
No exemplo acima, é mostrada uma árvore de decisão propícia a uma ação de
marketing, baseando-se na idade, na renda e no estado civil do cliente é determinado se ele
compraria ou não o produto.
A partir de uma árvore de decisão é possível derivar regras que podem aplicadas
aos dados. No caso do exemplo da Figura 4, é possível derivar a seguinte regra: caso o cliente
tenha idade entre 18 e 35 anos ele não compra o produto, por outro lado, se ele tiver idade
entre 36 e 55 anos e for solteiro ele comprará o produto.
Regras de Indução
A técnica de regras de indução é altamente automatizada e, possivelmente, é a
melhor técnica de Mineração de Dados para expor todas as possibilidades de padrões
existentes em um banco de dados (BERSON et. al., 1999).
A regra de indução consiste em uma expressão condicional do tipo:
se <condição> então <consequência>
10
Após a formação das regras, constrói-se uma tabela com o percentual de precisão
(frequência com que a regra está correta) e cobertura (com que frequência pode ser usada).
Quanto maior o percentual, melhor a regra.
Redes Neurais Artificiais
As redes neurais artificiais são técnicas que procuram reproduzir de maneira
simplificada as conexões do sitema biológico neural. Estruturalmente, consistem em um
conjunto de elementos interconectados, chamados neurônios, organizados em camadas que
aprendem pela modificação de suas conexões. Tipicamente, tem-se uma camada de entrada
ligada a uma ou mais camadas intermediárias que são ligadas a uma camada de saída
(BERRY e LINOFF, 1997).
A partir de um conjunto de treinamento, procura-se aprender padrões gerais que
possam ser aplicados à classificação ou predição de dados. A função de cada neurônio é
avaliar valores de entrada, calcular o total para valores de entrada combinados, comparar com
um total limiar e determinar o valor de saída.
Figura 5 - Redes Neurais Artificiais
Fonte: (CARVALHO)
11
Uma rede neural é formada por uma ou mais camadas de entrada, n camadas
intermediárias(dependendo da complexidade do problema e ser resolvido) e apenas uma
camada de saída. A função básica de cada neurônio é avaliar os dados de entrada e calcular
um valor para saída. As operações realizadas por cada neurônio são bastante simples, mas a
conexão entre os neurônios é capaz de criar procedimentos complexos.
Análise de Regressão
Busca explicar uma ou várias variáveis de interesse em função de outras. Depois
de ser construído o modelo (que é uma equação matemática), ele pode ser usado para realizar
predições ou calcular probabilidades.
Possui quatro passos: seleção das variáveis, diagnóstico para verificar se o modelo
é adequado, aplicação de medidas remediadoras para quando as condições do modelo não são
satisfeitas e validação do modelo.
Clusterização
Também chamada de segmentação dos dados ou análise de agrupamentos,
consistem em agrupar dados em subconjuntos, esses subconjuntos são chamados clusters. Os
objetos dentro de um mesmo cluster são mais semelhantes entre si do que qualquer objeto
dentro de outro cluster. O algorítmo de clusterização identifica as relações entre os dados e
gera uma série de clusters baseando-se nelas.
Figura 6 - Clusterização
Fonte: Microsoft
12
1.2 KDD
Falar sobre Mineração de Dados sem mencionar o KDD é impossível, uma vez
que estão intimamente ligados, a Mineração de Dados não é um processo isolado e é a
principal fase do KDD. A diferença entre os dois é bem sensível, sendo tratados em alguns
trabalhos como se fossem o mesmo processo, quando na verdade o KDD é um processo de
transformação dos dados em informação e a Mineração de Dados consiste em encontrar
padrões dentro de uma base de dados.
1.2.1 Definição
Segundo FAYYAD et. al., KDD é “o processo não trivial, de extração de
informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados
armazenados em um banco de dados”. Resumindo, KDD é o processo de extração de
informações de bases de dados que possam ser úteis aos usuários e que são mais difíceis de
obter sem que os dados armazenados sejam trabalhados.
O KDD compreende todo o ciclo que o dado percorre até virar conhecimento ou
informação. O processo é interativo e iterativo. Interativo porque o usuário pode intervir e
controlar o curso das atividades, iterativo por ser uma sequência finita de operações onde o
resultado de cada uma é dependente do resultado das que a precedem.
13
Figura 7 - Fases KDD
Fonte: O autor, adaptada de (FAYYAD et al. (1996)).
1.2.2 Fases do KDD
Seleção
Esta é a primeira fase do processo. É escolho do conjunto de dados, pertencentes a
um domínio, que farão partes da análise. A escolha dos dados fica a cargo de um especialista
do domínio. A complexidade do processo se dá pelo fato de os dados poderem vir de fontes
diferentes e em formatos diferentes. Possui impacto significante sobre a qualidade dos
resultados do processo, uma vez que toda a análise será feita sobre os dados selecionados
nesse passo.
Pré-Processamento e Limpeza
Nesta fase são realizadas tarefas que eliminem dados redundantes e inconsistentes,
recuperem dados incompletos e avaliem possíveis dados discrepantes ao domínio (outliners).
O auxílio do especialista do domínio é fundamental. São também utilizados métodos de
redução ou transformação para diminuir o número de variáveis envolvidas no processo,
visando melhorar o desempenho do algorítmo de análise.
 Dados Ausentes (Missing Values): Um problema comum nessa fase
é a ausência de valores para determinadas variáveis, ou seja, registros com
dados incompletos, seja por falha na seleção dos dados ou revisão. O
tratamento destes casos se faz necessário para que os resultados da
14
Mineração sejam confiáveis. Existem três alternativas de solução:
imputação, fazer a previsão dos dados ausentes e completá-los
individualmente; substituir o valor faltante pela média aritmética da
variável; excluir o registro.
 Dados Discrepantes (Outliners): São dados que possuem valores
extremos, atípicos ou com características muito distintas dos demais
registros. Normalmente são descartados da amostra, porém só deve ocorrer
quando o dado representar erro de observação de medida ou problema
similar. O dado deve ser analisado cuidadosamente antes da exclusão, pois
embora seja atípico, pode representar um valor verdadeiro, apontando um
comportamento não usual, uma tendência ou ação fraudulenta.
 Dados Derivados: Variáveis de uma população podem apresentar
relacionamentos entre si. Se houver a necessidade de dados que não
estejam disponíveis, é possivel obtê-los da transformação ou combinação
de outros.
Transformação
Os dados necessitam ser armazenados e formatados adequadamente para que os
algorítmos possam ser aplicados. É como encontrar computadores rodando diferentes SO’s
(Sistemas Operacionas) e diferentes SGBD’s. Estes dados devem ser agrupados em um único
repositório.
Mineração de Dados
Explicações detalhadas deste item se encontram no item 3.1 deste capítulo, uma
vez que este é o assunto principal deste trabalho.
Interpretação/Avaliação
Esta fase deve ser feita em conjunto com um ou mais especialistas no assunto. O
conhecimento adquirido através da Mineração de Dados deve ser interpretado e avaliado para
que o resultado final seja obtido.
15
Caso o resultado não seja satisfatório, o processo pode retornar a qualquer uma
das fases anteriores, o mais comum é modificar o conjunto de dados inicial ou trocar o
algorítmo de Mineração de Dados.
1.3 APLICABILIDADE DA MINERAÇÃO DE DADOS
Neste capítulo serão apresentados alguns exemplos reais da aplicação das técnicas
de Mineração de Dados em diferentes organizações e em diferentes áreas de conhecimento
para explicitando como a Mineração de Dados pode favorecer os negócios da empresa.
1.3.1 Wal-Mart
Este é um dos mais famosos exemplos de Mineração de Dados. A rede americana
de hipermercados Wal-Mart identificou que a venda de fraldas e cervejas aumentava nas
noites de sexta-feira e traçou um perfil dos clientes que possuiam esse comportamento.
Homens entre 25 e 30 anos, casados, que estavam voltando do trabalho na sexta-feira
passavam no supermercado para comprar fraldas e acabavam comprando cerveja também.
A ação tomada pela empresa foi relocar os produtos de modo que fraldas e
cervejas passassem a ficar mais próximas e o resultado disso foi um aumento de 30% nas
vendas.
1.3.2 Vestibular PUC-RJ
A PUC-RJ utilizou a Mineração de Dados para analisar os dados de seu vestibular
e encontrou a seguinte regra: se o candidato for do sexo feminino, trabalha e conseguiu boas
notas no vestibular ele não efetuava a matrícula
A justificativa encontrada para esse padrão de comportamento dos candidatos é
que se uma mulher em idade de vestibular trabalha é por necessidade e nesse caso
provavelmente fez inscrição em universidades públicas também. Se a candidata obteve boas
16
notas é também provável que tenho sido aprovada na instituição pública para a qual se
inscreveu e portanto não efetuará sua matrícula na PUC-RJ.
Com algumas excessões, como: candidatas que residiam próximo à unidade,
pessoas mais velhas, de alto poder executivo, que voltaram a estudar por outro motivo que
não seja obter uma profissão, etc., essa regra é obedecida pela maioria dos candidatos.
1.3.3 Bank of America
O Bank of America utilizou técnicas de Mineração de Dados para selecionar entre
seus clientes aqueles que apresentavam o menor risco de inadimplência em empréstimos. A
partir dos resultados encontrados enviou cartas oferencendo limites de crédito aos seus
clientes que possuiam filhos com idade entre 18 e 21 anos e que precisariam de dinheiro para
comprar uma casa, o primeiro carro ou financiar a faculdade dos filhos. Como resultado dessa
ação o banco teve um lucro de U$ 30 milhões em 3 anos.
1.3.4 A.C. Milan
O clube de futebol italiano, Milan, iniciou em 2002 um projeto piloto que
utilizava software para prever lesões em jogadores, uma vez que os jogadores representa o
maior investimento do clube poder evitar tais lesões ou reduzir a gravidade delas e,
consequentemente, tempo de recuperação dos atletas economizaria milhões de dólares aos
cofres do clube.
Através de um software desenvolvido pela Computer Associates, foram coletados
dados nos treinamentos da equipe durante um período de tempo, permitindo que fossem feitas
previsões médicas acumuladas de cada jogador possibilitando um melhor monitoramento do
risco de lesões dos atletas.
1.3.5 FAPESP
17
Um projeto de pesquisa apoiado pela FAPESP gerou o protótipo de uma
ferramenta de diagnósticos por imagem. O MIRVIsIM foi desenvolvido por um grupo
coordenado pela professora Agma Juci Machado Traina, do ICMC da USP, em São Carlos.
É comum o médico se lembrar de ter visto uma imagem parecida mas não se
lembrar do diagnóstico do caso e analisar casos anteriores levaria muito tempo. A função do
software é compara a imagem a ser analisada pelo radiologista com um banco de dados de
outras já laudadas. Cor, posição e formato dos elementos retratados são utilizados como
elementos a serem comparados. O especialista então recebe uma série de sugestões de
diagnósticos levantados através da comparação das imagens.
18
CAPÍTULO 2 – RELAÇÃO ENTRE A MÉDIA FINAL OBTIDAS
NAS DISCIPLINAS DO CURSO DE SI DA UEG E O
DESEMPENHO ACADÊMICO
Neste capítulo será apresentado um exemplo da utilização da Mineração de Dados
para obtenção de informação a partir de uma base de dados, descrevendos os passos utilizados
e o resultado final.
2.1 O Curso de Sistemas de Informação
O curso de Bacharelado em Sistemas de Informação começou a ser ofertado na
UnUCET em fevereiro de 2002, em substituição ao curso de Tecnologia em Processamento
de Dados, uma vez que o curso de Tecnologia em Processamento de Dados, criado em 1985,
necessitava de algumas alterações e atualizações e o Ministério da Educação já havia feito
orientações para que os cursos de natureza técnica fossem substituídos por outros da área de
Computação e Informática.
O objetivo do curso é formar profissionais para o desenvolvimento, implantação e
gestão de sistemas de informação visando atender as demandas das organizações e da
sociedade, utilizando as modernas técnicas da Tecnologia da Informação.
A matriz curricular original do curso, de 2002, foi alterada em 2009, mas para este
estudo ainda será utilizada a matriz curricular de 2002, visto que os dados utilizados
compreendem o período de 2002 a 2007 e a nova matriz curricular só começou a entrar em
vigar em 2009 e somente na 1ª série do curso.
19
Figura 8 - Matriz Curricular do Curso de Sistemas de Informação
Da acordo com a matriz curricular de 2002 e que será utilizada neste estudo, o
curso possui um tempo de integralização mínima de 4 e máximo de 7 anos, com um total de
3.280 horas/aula, divididas no período noturno e com aulas aos sábados pela manhã nos 3
primeiros anos. A forma de ingresso é anual e são oferecidas um total de 40 vagas.
Além das horas/aula que são cumpridas na universidade, o aluno também deve
cumprir um total de 150 horas de atividades complementares, que podem incluir palestras,
seminários, cursos, etc., como atividades para complementar e expandir os temas abordados
em sala de aula e 360 horas de estágio supervisionado como forma de observar e aprender
como é o dia a dia do profissional e como o conteúdo aprendido em sala pode ser aplicado na
realidade.
20
A média necessária para que o aluno seja considerado aprovado em qualquer
disciplina é 7 e o aluno também precisa ter o mínimo de 75% de presença na disciplina. A
média final de cada disciplina é obtida da média aritmérica das notas obtidas nos 4 bimestres
que compõem o ano letivo.
Média = (nota 1º bimestre + nota 2º bimestre + nota 3º bimestre + nota 4º bimestre) / 4
Caso a média obtida pelo aluno na disciplina seja maior ou igual a 7, ele está
aprovado na disciplina. Se o aluno obtiver média inferior a 3 na disciplina ele está reprovado.
Caso a nota seja inferior a 7 e maior ou igual a 3, o aluno faz mais uma prova para obtenção
de uma nova média.
Média final = (média obtida + nota prova final) / 2
Caso a média obtida na prova final seja superior a 5 o alunos está aprovado, caso
contrário o aluno está reprovado na disciplina. Em todos os casos o aluno precisa,
obrigatoriamente, ter frequentado um mínimo de 75% das horas/aula ministradas, caso
contrário estará reprovado independentemente da média que obtiver na disciplina.
2.2 Base de Dados
A base de dados a ser utilizada é corresponde ao dados dos alunos do curso de
Sistemas de Informação da UEG dos anos de 2002 a 2011.
2.3 Proposta
As propostas deste estudo de caso são estabelecer uma relação entre a média final
obtidas nas disciplinas que compõem a grade curricular do curso e o desempenho acadêmico
do aluno no decorrer do curso.
A proposta pretende descobrir se as notas obtidas pelos alunos em certas
disciplinas influencia no desempenho do aluno no decorrer do curso, ou seja, se esses alunos
conseguiram concluir o curso no tempo mínimo exigido (4 anos).
21
2.4 Etapas
2.4.1 Seleção dos Dados
Primeiro foi feita a seleção dos dados que serão trabalhados na Mineração de
Dados. Neste momento foi escolhida a base de dados de alunos do curso de SI dos anos de
2002 a 2007. A escolha da base de dados foi aleatória, já o período foi escolhido levando-se
em conta as turmas que a primeira turma que ingressou (2002) e a última turma que se formou
na universidade (2007), considerando-se que o curso possui 4 anos de duração mínima.
A base de dados se encontra no formato ACCDB do Microsoft Access 2007.
2.4.2 Limpeza
Nesta etapa foi feita a limpeza da base de dados, retirando registros que estejam
com dados ausentes.
2.4.3. Transformação
A base de dados precisa ser trabalhada antes que o algorítmo de mineração de
dados possa ser aplicado. Neste momento, foram retirados dados que não são interessentes
para a mineração de dados, como, endereço, cidade, estado, telefone, etc., e deixando apenas
os dados que seriam relevantes ao estudo: notas das disciplinas, se o aluno completou o curso
“pleno” (4 anos, sem reprovação em nenhuma disciplina). Os dados da base de dados também
precisaram ser formatados para que não houvesse inconsistência nos dados.
A base de dados em que será aplicada o algorítmo de Mineração de Dados ficou
com a seguinte estrutura:
22
Tabela 1 - tb_weka
Campo Tipo Descrição
D1 Numércico Média final da disciplina de “Álgebra”
D2 Numérico Média final da disciplina de “Análise de
Sistemas”
D3 Numérico Média final da disciplina de “Arquitetura
de Computadores”
D4 Numérico Média final da disciplina de “Banco de
Dados”
D5 Numérico Média final da disciplina de “Cálculo
Diferencial e Integral”
D6 Numérico Média final da disciplina de “Conceitos de
Inteligência Artificial”
D7 Numérico Média final da disciplina de
“Contabilidade e Economia para
Computação”
D8 Numérico Média final da disciplina de “Direito e
Ética em Informática”
D9 Numérico Média final da disciplina de “Eletricidade
e Lógica Digital”
D10 Numérico Média final da disciplina de
“Empreendedorismo em Informática”
D11 Numérico Média final da disciplina de “Engenharia
de Software”
D12 Numérico Média final da disciplina de “Inglês
Instrumental”
D13 Numérico Média final da disciplina de “Introdução à
Computação”
23
D14 Numérico Média final da disciplina de “Linguagem e
Técnicas de Programação”
D15 Numérico Média final da disciplina de “Metodologia
da Pesquisa Científica”
D16 Numérico Média final da disciplina de “Novas
Aplicações Em Sistemas de Informação”
D17 Numérico Média final da disciplina de “O
Profissional da Informática e a Sociedade”
D18 Numérico Média final da disciplina de “Organização,
Sistemas e Métodos”
D19 Numérico Média final da disciplina de “Planejamento
e Gestão de Sistemas de Informação”
D20 Numérico Média final da disciplina de “Princípios de
Sistemas de Informação e Teoria da
Computação”
D21 Numérico Média final da disciplina de
“Probabilidade e Estatística”
D22 Numérico Média final da disciplina de “Programação
I”
D23 Numérico Média final da disciplina de “Programação
II”
D24 Numérico Média final da disciplina de “Projeto de
Graduação I”
D25 Numérico Média final da disciplina de “Projeto de
Graduação II”
D26 Numérico Média final da disciplina de “Redes de
Computadores”
Pleno Texto, “S/N” Indica se o aluno concluiu a universidade
24
no tempo mínimo(4 anos, sem reprovação)
Fonte: O autor
2.4.4 Mineração de Dados
Como descrito anteriormente, para a demonstração do algorítmo de Mineração de
Dados será utilizado o WEKA, mas o WEKA não é capaz de aplicar o algorítmo diretamente
sobre uma base de dados do Microsoft Access, como é o caso da base que estamos utilizando.
Portanto a tabela “tb_weka” precisa ser exportada para um arquivo no formato ARFF para
que assim possa ser feita a leitura através do WEKA e o algorítmo seja aplicado.
2.4.4.1 O formato de arquivo ARFF
O formato de arquivo ARFF (Attribute-Relation File Format), desenvolvido pela
Machine Learning Project no Departamento de Ciência da Computação da Universidade de
Waikato (mesma desenvolvedora do WEKA) para uso no WEKA, é um arquivo de texto
ASCII que descreve uma lista de instâncias compartilhando um conjunto de atributos.
Por padrão, todo arquivo ARFF é dividido em 2 partes distintas, o cabeçalho e os
dados:
 Cabeçalho: o cabeçalho do arquivo ARFF contém o nome da relação e a
declaração dos atributos.
o O nome da relação é definido na primeira linha do arquivo através
da declaração “@relation”
o A declaração de atributos deve ser individualmente para cada
atributo através da declaração “@attribute” e define o nome e tipo
do atributo.
 Os tipos de dados suportados pelo WEKA são 4, numérico,
nominal, string e data:
 Numérico: os atributos podem ser numéros reais ou
inteiros
25
 Nominal: são definidos através de uma
especificação nominal dos valores que o atributo
pode assumir. Exemplo: {YES,NO}, {Y,N}, {A,B}
 String: são atributos que contém texto.
 Data: são atributos que representam uma data,
utilizado o padrão ISO-8601 de formato de data e
hora combinadas em uma string “yyyy-MM-
dd'T'HH:mm:ss”
 Os dados do arquivo são definidos através da declaração “@data”, onde
cada instância é representada em uma única linha e os atributos são
separados por vírgula. Os valores que estiverem ausentes serão
representados por um único ponto de interrogação (?).
Todos os valores de atributos que possuirem espaços devem estar entre aspas
duplas (“) e para colocar comentários no arquivos utiliza-se a caracter percentagem (%) no
início da linha.
Assim sendo, o arquivo ARFF gerado ficou da seguinte forma:
- Declaração da relação:
“@relation alunos”
- Declaração dos atributos:
@attribute D1 real
@attribute D2 real
@attribute D3 real
@attribute D4 real
@attribute D5 real
@attribute D6 real
@attribute D7 real
@attribute D8 real
@attribute D9 real
26
@attribute D10 real
@attribute D11 real
@attribute D12 real
@attribute D13 real
@attribute D14 real
@attribute D15 real
@attribute D16 real
@attribute D17 real
@attribute D18 real
@attribute D19 real
@attribute D20 real
@attribute D21 real
@attribute D22 real
@attribute D23 real
@attribute D24 real
@attribute D25 real
@attribute D26 real
@attribute Pleno {S,N}”
- Dados
“@data”
6.6,6.7,5.3,6.1,7.25,7.3,7.4,7.1,7,7.5,5.1,7,7.7,7.7,7.2,8.1,7.2,7.9,7.5,9,7,8.15,7.2,7
.2,8.1,7.7,S
...”
Este é o exemplo de uma das várias linhas que a declaração “@data” contém.
27
2.4.4.2 Escolha do Algorítmo
Para a análise do arquivo ARFF foi escolhido o método de classificação e o
algorítmo J48, em decorrência do escopo do trabalho e dos valores que compõem o arquivo
ARFF.
O método de classificação foi escolhido por atender as propostas feitas no início
deste capítulo, ou seja, com o método de classificação pode-se prever se as notas em
determinadas disciplinas influenciam podem dizer se o aluno concluirá o curso pleno ou não.
O algorítmo J48 foi escolhido devido ao tipo dos dados que serão analisados.
Segue abaixo uma explicação do funcionamento do algorítmo
O algorítmo J48 constroi uma árvore de decisão. A forma de construção da árvore
usa a abordagem “top-down”, em que o atibuto mais generalizado é considerado a raiz da
árvore. A seguir, o próximo nó da árvore será o segundo atributo mais generalizado, e assim
por diante até que seja encontrado o nó folha, que representa o atributo alvo.
2.4.4.3 Utilizando o WEKA
A última versão do WEKA pode ser obtida em
http://www.cs.waikato.ac.nz/ml/weka/, lembrando que por ter sido desenvolvido em Java, o
WEKA precisa da JVM (Java Virtual Machine) instalada no computador onde será instalado.
Atualmente o WEKA utiliza a JVM 1.6 e para evitar problemas durante a execução do
programa, sugiro que seja escolhido o download do instalador que já venha com a JVM.
28
Figura 9 – WEKA – Tela Inicial
Fonte: O autor
Escolha a opção “Explorer”, e será apresentada a seguinte tela:
Figura 10 – WEKA – Tela Explorer
29
Fonte: O autor
Selecione a opção “Open file...” e navegue até a pasta onde se encontra o arquivo
ARFF que deseja analisar. Após o arquivo ARFF ser aberto, algumas informações do arquivo
já poderão ser observadas, como a quantidade de instâncias, o número de atributos, e
informações sobre os próprios atributos individualmente como tipo de dado e os valores que
esses atributos assumem.
Figura 11 - WEKA - Arquivo ARFF Aberto
Fonte: O autor
A seguir clique na guia “Classify” e escolha o algorítmo que será aplicado, neste
caso o algorítmo escolhido foi o J48 que se encontra na guia “trees”.
30
Figura 12 - WEKA – Tela de Classificação
Fonte: O autor
31
Figura 13 - WEKA - Escolha do Algorítmo
Fonte: O autor
O passo seguinte é escolher a opção “Use training set” em “Test options”,
escolher qual o atributo será o nó folha da árvore e clicar em “Start” para que o WEKA
começa a análise do arquivo ARFF e crie a árvore.
32
Figura 14 - WEKA - Execução do Algorítmo
Fonte: O autor
33
2.4.5 Interpretação
Figura 15 - Resultado WEKA
Após a execução do algorítmo J48 no WEKA foi possível obter as seguintes
informações que são importantes para a proposta que foi feita no início do capítulo:
 Número total de instâncias: 133;
 Número de instâncias classificadas corretamente: 98 ou,
aproximadamente, 74%;
 Número de instâncias classificadas incorretamente: 35 ou,
aproximadamente, 26%;
34
 O fator de precisão para classe pleno (“S”) foi de 0,775 ou 77,5%; e o
fator de precisão para a classe não-pleno (“N”) foi re 0,679 ou 67,9%
 A Matriz de Confusão (Confusion Matrix):
o Apresentou 94 instâncias classificadas corretamente, sendo 62
classificadas como “S” (aluno pleno) e 36 como “N” (aluno com
reprovação em alguma disciplina);
o Apresentou 35 instâncias classificadas incorretamente, sendo 17
falsos positivos para “S” e 18 falsos positivos para “N”, ou seja, 17
instâncias foram classificadas com “S” quando deveriam ser “N” e
18 instâncias foram classificadas com “N” quando deveriam ser
“S”;
Figura 16 - Estrutura Árvore Weka
35
Figura 17 - Árvore WEKA
A árvore gerada após a execução do algorítmo possui 11 folhas, tamanho 21 e
teve como raiz a disciplina D2 (Análise de Sistemas). Ao fazer a análise da árvore gerada,
pudemos que os alunos que tiveram nota menor ou igual a 5,09 não concluíram o curso
plenos, onde 25 alunos foram classificados corretamente como “N” e 1 foi classificado
incorretamente.
Em D7 (Contabilidade e Economia para Computação), os alunos que obtiveram
nota menor ou igual a 6,7 e obtiveram nota menor ou igual a 8,35 na disciplina D8 (Direito e
Ética em Informática) não concluíram o curso plenos (11 alunos), enquanto os que obtiveram
nota menor ou igual a 6,7 em D7 e nota maior que 8,35 em D8 concluiram o curso pleno,
onde 3 alunos foram classificados corretamente como “S” e 1 foi classificado incorretamente.
Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7,
menor ou igual a 5,6 em D3 (Arquitetura de Computadores) e maior que 8,85 em D9
(Eletricidade e Lógica Digital) não concluíram o curso plenos (6 alunos); enquanto que os
alunos que obtiveram nota maior ou igual a 8,85 em D9 e maior ou igual a 7,8 em D4 (Banco
de Dados) concluíram o curso plenos (4 alunos) e os que tiveram nota menor que 7,8 em D4
não concluíram o curso plenos (2 alunos).
Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior
que 5,6 em D3, menor ou igual a 7,13 em D4 e menor ou igual a 7,7 em D16 (Novas
Aplicações em Sistemas de Informação) não concluíram o curso pleno (4 alunos), enquanto os
36
que tiveram nota maior que 7,7 em D16 concluíram o curso pleno, onde 5 alunos foram
classificados corretamente como “S” e 1 foi classificado incorretamente.
Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior
que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8 concluíram o curso plenos (50
alunos), os que tiveram nota menor ou igual a 8,4 em D8 e menor ou igual a que 9,23 em D3
também concluíram o curso plenos, onde 20 foram classificados como “S” e 2 foram
classificados incorretamente; enquanto os que obtiveram nota maior que 9,23 em D3 não
concluíram o curso plenos.
Resumindo, de acordo com a execução do algorítmo, para que o alunos conclua o
curso pleno ele deve atender umas das seguintes regras:
 Nota maior que 5,09 em D2, menor ou igual a 6,7 em D7 e maior que 8,35
em D8;
 Nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6
em D3, menor ou igual a 8,85 em D9 e menor ou igual a 7,8 em D4;
 Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3,
menor ou igual a 7,13 em D4 e maior que 7,7 em D16, neste caso houve 1
falso positivo;
 Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3,
maior que 7,13 em D4 e maior que 8,4 em D8;
 Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3,
maior que 7,13 em D4, menor ou igual a 8,4 em D8 e menor ou igual a
9,23 em D3, neste caso houveram 2 falsos positivos.
Houveram também 1 falsos negativos em:
 Nota menor ou igual a 5,09 em D2 apresentou 1 falso negativo;
Com a aplicação da Mineração de Dados foi possível identificar que as notas
obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluirá o
curso pleno ou não, enquanto as notas obtidas nas outras disciplinas não influem. Nenhuma
das disciplinas influencia diretamente se o alunos concluirá o curso pleno ou não, apenas a
nota da disciplina D2 influencia diretamente mas para dizer que o aluno não concluirá o curso
37
pleno, neste caso se ele obtiver uma nota menor ou igual a 5,09 e mesmo assim ainda
apresenta um falso negativo.
38
CONCLUSÃO / RECOMENDAÇÕES
O volume de dados gerados dentro das organizações atualmente é muito grande e
a tendência é que continue a crescer, tendo em vista a automação cada vez maior das tarefas
dentro das empresas. Esses dados podem representar uma vantagem competitiva para a
empresa, desde que eles sejam analisados de forma correta e transformados em informação
valiosa para a empresa.
A mineração de dados é uma ferramenta que a empresa pode utilizar para adquirir
informações que podem ser de grande utilidade na tomada de decisões táticas e estratégicas
possibilitando uma vantagem sobre seus concorrentes e agregar valor sobre seus negócios.
As técnicas da Mineração de Dados podem ser aplicadas a diferentes tipos de
dados, resultando em diferentes resultados, portanto cabe ao responsável escolher qual
técnicas se aplica melhor aos dados que ele possui e quais os resultados esperados para que
assim a técnicas que melhor resolva essas questões possa ser aplicada e os resultados sejam
satisfatórios.
A aplicação do KDD é imprescindível para o sucesso da Mineração de Dados,
uma vez que a Mineração de Dados é uma etapa do KDD e altamente dependente das etapas
que a precedem e que são fundamentais e influenciam diretamente o resultado da Mineração
de Dados.
Durante a aplicação das técnicas de Mineração de Dados na base utilizada no
estudo, foi possível perceber como a Mineração de Dados, através de cada uma de suas
etapas, vai transformando uma coleção de dados em informação útil.
Com a aplicação da Mineração de Dados foi possível identificar que as notas
obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluirá o
curso pleno ou não, enquanto as notas obtidas nas outras disciplinas não influem. Nenhuma
das disciplinas influencia diretamente se o alunos concluirá o curso pleno ou não, apenas a
nota da disciplina D2 influencia diretamente mas para dizer que o aluno não concluirá o curso
pleno.
Um grande problema encontrado durante o desenvolvimento do trabalho foi na
utilização do software WEKA no momento da aplicação do algorítmo no arquivo ARFF que
39
havia sido gerado, fazendo com que o resultado da execução do algorítmo não correspondesse
ao resultado esperado, foram necessários inúmeros testes e alterações nos tipos dados e na
quantidade de atributos para que o problema fosse resolvido.
Como sugestão para os próximos trabalhos sobre esse tema, é recomendado um
estudo mais aprofundado sobre o software WEKA e uma abrangência maior dos diferentes
algorítmos de mineração de dados e seus diferentes resultados.
40
REFERÊNCIAS
AMO, Sandra de. Técnicas de Mineração de Dados. Universidade Federal de Uberlândia,
Faculdade de Computação, 2004. Disponível em:
http://www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf. Acesso em: 25 mar. 2011.
Attribute-Relation File Format (ARFF). 2008. Disponível em:
http://www.cs.waikato.ac.nz/ml/weka/arff.html. Acesso em: 20 set. 2011.
BOZZA, Daniel; KONO, Frank; TAVARES, Claudio. Descoberta de Conhecimento
Aplicado a Dados Eleitorais. Revista Gestão e Conhecimento / Faculdade de Ciências
Sociais Aplicadas do Paraná e Faculdade de Ciência e Tecnologia do Paraná. Curitiba:
Faculdades Facet, 2007. 94 págs. Disponível em:
http://gc.facet.br/artigos/resumo.php?artigo=34. Acesso em: 20 set. 2011.
CARACIOLO, Marcel Pinheiro. [Artigo] Introdução a árvores de decisão para a
classificação e Mineração de Dados. 2009. Disponível em:
http://aimotion.blogspot.com/2009/04/artigo-introducao-arvores-de-decisao.html. Acesso em:
4 jul. 2011.
CARVALHO, André Ponce de Leon F. de. Redes Neurais Artificiais. Disponível em:
http://www.icmc.usp.br/~andre/research/neural/. Acesso em: 16 mai. 2011.
CHIU, Susan; TAVELLA, Domingo. Data Mining and Marketing Intelligence for
Optimal Marketing Returns. Elsevier; 2008. 295 p.
41
CÔRTES, Sérgio da Costa; LIFSCHITZ, Sérgio; PORCARO, Rosa Maria. Mineração de
Dados – Funcionalidades, Técnicas e Abordagens. PUC-Rio, 2002. Disponível em:
http://www.dbd.puc-rio.br/depto_informatica/02_10_cortes.pdf. Acesso em: 30 mar. 2011.
CPBR10 – Software Livre. Oficina: Data Mining WEKA. Disponível em:
http://www.youtube.com/watch?v=sDD8nsZ1fQo. Acesso em: 29 dez. 2010.
HALFEN, Idel. Mineração de Dados. 2010. Disponível em: http://halfen-
mktsport.blogspot.com/2010/11/mineracao-de-dados.html. Acesso em: 19 mai. 2011.
MARTIN, James R. What is Data Mining?. Disponível em:
http://maaw.info/DataMining.htm. Acesso em: 20 mai. 2011.
MICROSOFT. Algoritmo Microsoft Clustering. Disponível em:
http://technet.microsoft.com/pt-br/library/ms174879%28SQL.100%29.aspx. Acesso em: 15
mai. 2011.
NETO, Ary Fagundes Bressane; SILVA, Flávio Soares Corrêa da. Oficina Data Mining com
WEKA. 2010. Disponível em: http://www.slideshare.net/campuspartybrasil/campus-
party2010. Acesso em: 29 dez. 2010.
O que é Mineração de Dados?. GSI – Grupo de Sistemas Inteligentes – Mineração de
Dados, DIN – Departamento de Informática, UEM – Universidade Estadual de Maringá,
Maringá, 1998. Disponível em: http://www.din.uem.br/ia/mineracao/introducao/index.html.
Acesso em: 15 mai. 2011.
REYNOL, Fábio. Mineração de dados para diagnósticos médicos. 2010. Disponível em:
http://agencia.fapesp.br/11928. Acesso em: 12 jul. 2011.
42
SBARAI, Rafael. A Mineração de Dados em Redes Sociais. 2010. Disponível em:
http://derepente.com.br/2010/01/18/a-mineracao-de-dados-em-redes-sociais/. Acesso em: 18
mar. 2011.
PRASS, Fernando Sarturi. KDD: Processo de Descoberta em Banco de Dados. Grupo de
Interesse em Engenharia de Software, Florianópolis, 2004.
SILVA, Marcelino Pereira dos Santos. Mineração de Dados – Conceitos, Aplicações e
Experimentos com WEKA. Disponível em:
http://bibliotecadigital.sbc.org.br/download.php?paper=35. Acesso em: 30 dez. 2010.
SOLIEMAN, Osama K. Data Mining in Sports: A Research Overview. MIS Masters
Project. 2006. Disponível em:
http://www.google.com/url?sa=t&source=web&cd=2&ved=0CCMQFjAB&url=http%3A%2
F%2Fai.arizona.edu%2Fmis480%2Fsyllabus%2F6_Osama-
DM_in_Sports.pdf&rct=j&q=minera%C3%A7%C3%A3o%20de%20dados%20nba&ei=zqoc
TvDICcmtgQe32rDfCQ&usg=AFQjCNFZ_uG9HZxlMWoHhNWReVShd9zgZQ&sig2=Lwl
4fWhwGZqrmlX_m_wKHQ&cad=rja. Acesso em: 12 jul. 2011.
VIANA, Reinaldo. Mineração de Dados: Introdução e Aplicações. Disponível em:
http://www.sqlmagazine.com.br/Resumo_SQL10.asp. Acesso em: 20 mai. 2011.
WIKIPEDIA. Extração de Conhecimento. Disponível em:
http://pt.wikipedia.org/wiki/Extra%C3%A7%C3%A3o_de_conhecimento. Acesso em: 31 jan.
2011.
43
WIKIPEDIA. Mineração de Dados. Disponível em:
http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados. Acesso em: 30 dez.
2010.
ZANUSSO, Maria Bernadete. Data Mining. DCT, UFMS. Disponível em:
http://www.dct.ufms.br/~mzanusso/Data_Mining.htm. Acesso em: 18 mar. 2011.
44
APÊNDICE I – CRONOGRAMA DE ATIVIDADES DO
TRABALHO DE CONCLUSÃO DE CURSO
Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Conclusão de Curso
Atividades
2010
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª
Início das atividades
relacionadas ao Projeto
X
Tomada de decisões: Escolha
do tema
X
Pesquisa Bibliográfica X
Elaboração do problema da
pesquisa
X
Levantamento de recursos
disponíveis para elaboração
do pré-projeto
X
Elaboração dos tópicos
principais do pré-projeto
X
Revisão dos tópicos
principais do pré-projeto
X
Confecção do pré-projeto X
Entrega do pré-projeto ao
Orientador
X
Elaboração dos tópicos
principais da Monografia
X X X X
Possíveis correções do pré-
projeto
X X
Entrega do pré-projeto ao
Coordenador de PGII
X
Confecção da redação da
Monografia
X
Entrega da Monografia
parcial ao Orientador
X
Possíveis correções na
Monografia parcial
X
Entrega da Monografia
parcial ao Coordenador de
PGII
X
Apresentação da Monografia
parcial à Comissão de
Avaliação
X
Continuação da elaboração
da Monografia
X X X X X X X X X X X
Entrega da Monografia final
ao Orientador
X
Possíveis correções na
Monografia
X X
Confecção Pôster X
Entrega do Pôster X
Exposição Pôster X
Entrega do trabalho final ao X
45
Coordenador de PGII
Data de apresentação à
Comissão de Avaliação
X
Entrega das correções ao
Coordenador de PGII
X
Entrega da versão final X
46
APÊNDICE II - PÔSTER APRESENTADO NO III SIMPÓSIO
DE TECNOLOGIA DA INFORMAÇÃO E III SEMANA DE
INICIAÇÃO CIENTÍFICA DO CURSO DE SISTEMAS DE
INFORMAÇÃO UNUCET-UEG/2011
Figura 18 - Pôster Mineração de Dados: Conceitos e Aplicações

Mais conteúdo relacionado

Semelhante a Mineração de Dados: Conceitos e Aplicações

Livro ciência de dados e aprendizado de máquina fernando feltrin
Livro ciência de dados e aprendizado de máquina   fernando feltrinLivro ciência de dados e aprendizado de máquina   fernando feltrin
Livro ciência de dados e aprendizado de máquina fernando feltrinssuser648be2
 
Desenvolvimento de Produto para Automação Residencial com Sistema DroidLar
Desenvolvimento de Produto para Automação Residencial com Sistema DroidLarDesenvolvimento de Produto para Automação Residencial com Sistema DroidLar
Desenvolvimento de Produto para Automação Residencial com Sistema DroidLarBruno Silva
 
Impressora 3D no ensino de Física.pdf
Impressora 3D no ensino de Física.pdfImpressora 3D no ensino de Física.pdf
Impressora 3D no ensino de Física.pdfIgoHenrique1
 
Pasta pablo mota
Pasta pablo motaPasta pablo mota
Pasta pablo motaPablo Mota
 
Tcc Feliciana Gabriela Vf
Tcc Feliciana Gabriela VfTcc Feliciana Gabriela Vf
Tcc Feliciana Gabriela VfFeliciana
 
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURAESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURASabrina Mariana
 
Html course for_visually_impaired_persons
Html course for_visually_impaired_personsHtml course for_visually_impaired_persons
Html course for_visually_impaired_personsRicardo Schmidt
 
Relatório PAP Escrito - Curso Técnico de Sistemas de Informação Geográfica
Relatório PAP Escrito - Curso Técnico de Sistemas de Informação GeográficaRelatório PAP Escrito - Curso Técnico de Sistemas de Informação Geográfica
Relatório PAP Escrito - Curso Técnico de Sistemas de Informação GeográficaHugo Lima
 
Normas tecnicas edificacoes - livro web-rev02
Normas tecnicas   edificacoes - livro web-rev02Normas tecnicas   edificacoes - livro web-rev02
Normas tecnicas edificacoes - livro web-rev02Carlos Elson Cunha
 
TCC IMPRESSORA 3D
 TCC IMPRESSORA 3D TCC IMPRESSORA 3D
TCC IMPRESSORA 3Djamesfrk
 
Pos gestao de projetos pela FGV
Pos gestao de projetos pela FGVPos gestao de projetos pela FGV
Pos gestao de projetos pela FGVAndre Luiz Regis
 
Convergência para Práticas e Modelos na Gestão de TI
Convergência para Práticas e Modelos na Gestão de TIConvergência para Práticas e Modelos na Gestão de TI
Convergência para Práticas e Modelos na Gestão de TIJairo Bernardes
 
Relatorio Bic Schoolsenses@Internet
Relatorio Bic Schoolsenses@InternetRelatorio Bic Schoolsenses@Internet
Relatorio Bic Schoolsenses@InternetAntonio Nascimento
 
Detecção de intrusão em grades computacionais
Detecção de intrusão em grades computacionaisDetecção de intrusão em grades computacionais
Detecção de intrusão em grades computacionaisSoftD Abreu
 
38664419 artigo-data warehouse
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehousediochel
 
Monografia - Representação de Ambientes com recursos de Realidade Aumentada
Monografia - Representação de Ambientes com recursos de Realidade AumentadaMonografia - Representação de Ambientes com recursos de Realidade Aumentada
Monografia - Representação de Ambientes com recursos de Realidade AumentadaGil Ambrósio Lopes Júnior
 
Usabilidade e Arquitetura de Informação de Websites de Governos Municipais
Usabilidade e Arquitetura de Informação de Websites de Governos MunicipaisUsabilidade e Arquitetura de Informação de Websites de Governos Municipais
Usabilidade e Arquitetura de Informação de Websites de Governos MunicipaisMarcelo Ramos
 
Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-
Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-
Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-Raboni Santos
 

Semelhante a Mineração de Dados: Conceitos e Aplicações (20)

Livro ciência de dados e aprendizado de máquina fernando feltrin
Livro ciência de dados e aprendizado de máquina   fernando feltrinLivro ciência de dados e aprendizado de máquina   fernando feltrin
Livro ciência de dados e aprendizado de máquina fernando feltrin
 
Desenvolvimento de Produto para Automação Residencial com Sistema DroidLar
Desenvolvimento de Produto para Automação Residencial com Sistema DroidLarDesenvolvimento de Produto para Automação Residencial com Sistema DroidLar
Desenvolvimento de Produto para Automação Residencial com Sistema DroidLar
 
Impressora 3D no ensino de Física.pdf
Impressora 3D no ensino de Física.pdfImpressora 3D no ensino de Física.pdf
Impressora 3D no ensino de Física.pdf
 
Pasta pablo mota
Pasta pablo motaPasta pablo mota
Pasta pablo mota
 
Tcc Feliciana Gabriela Vf
Tcc Feliciana Gabriela VfTcc Feliciana Gabriela Vf
Tcc Feliciana Gabriela Vf
 
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURAESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
ESTRATÉGIA DE REAÇÃO EM CALL CENTER: UMA PROPOSTA DE ARQUITETURA
 
Html course for_visually_impaired_persons
Html course for_visually_impaired_personsHtml course for_visually_impaired_persons
Html course for_visually_impaired_persons
 
Relatório PAP Escrito - Curso Técnico de Sistemas de Informação Geográfica
Relatório PAP Escrito - Curso Técnico de Sistemas de Informação GeográficaRelatório PAP Escrito - Curso Técnico de Sistemas de Informação Geográfica
Relatório PAP Escrito - Curso Técnico de Sistemas de Informação Geográfica
 
Normas tecnicas edificacoes - livro web-rev02
Normas tecnicas   edificacoes - livro web-rev02Normas tecnicas   edificacoes - livro web-rev02
Normas tecnicas edificacoes - livro web-rev02
 
TCC IMPRESSORA 3D
 TCC IMPRESSORA 3D TCC IMPRESSORA 3D
TCC IMPRESSORA 3D
 
Pos gestao de projetos pela FGV
Pos gestao de projetos pela FGVPos gestao de projetos pela FGV
Pos gestao de projetos pela FGV
 
Convergência para Práticas e Modelos na Gestão de TI
Convergência para Práticas e Modelos na Gestão de TIConvergência para Práticas e Modelos na Gestão de TI
Convergência para Práticas e Modelos na Gestão de TI
 
PETIC Casa Civil 2009-2010
PETIC Casa Civil 2009-2010PETIC Casa Civil 2009-2010
PETIC Casa Civil 2009-2010
 
Relatorio Bic Schoolsenses@Internet
Relatorio Bic Schoolsenses@InternetRelatorio Bic Schoolsenses@Internet
Relatorio Bic Schoolsenses@Internet
 
Detecção de intrusão em grades computacionais
Detecção de intrusão em grades computacionaisDetecção de intrusão em grades computacionais
Detecção de intrusão em grades computacionais
 
livrov2.pdf
livrov2.pdflivrov2.pdf
livrov2.pdf
 
38664419 artigo-data warehouse
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehouse
 
Monografia - Representação de Ambientes com recursos de Realidade Aumentada
Monografia - Representação de Ambientes com recursos de Realidade AumentadaMonografia - Representação de Ambientes com recursos de Realidade Aumentada
Monografia - Representação de Ambientes com recursos de Realidade Aumentada
 
Usabilidade e Arquitetura de Informação de Websites de Governos Municipais
Usabilidade e Arquitetura de Informação de Websites de Governos MunicipaisUsabilidade e Arquitetura de Informação de Websites de Governos Municipais
Usabilidade e Arquitetura de Informação de Websites de Governos Municipais
 
Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-
Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-
Desenvolvimento seguro-de-aplicações-web-seguindo-a-metodologia-owasp-
 

Mineração de Dados: Conceitos e Aplicações

  • 1. UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO BRUNO ALISSON ELISEU DE ALMEIDA Mineração de Dados: Conceitos e Aplicações Anápolis Novembro, 2011
  • 2. UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO BRUNO ALISSON ELISEU DE ALMEIDA Mineração de Dados: Conceitos e Aplicações Trabalho de Conclusão de Curso apresentado ao Departamento de Sistemas de Informação da Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade Estadual de Goiás, como requisito parcial para obtenção do grau de Bacharel em Sistemas de Informação. Orientador: Prof. Esp. Ronaldo de Castro Del Fiaco Anápolis Novembro, 2011
  • 3.
  • 4.
  • 5. FICHA CATALOGRÁFICA ALMEIDA, Bruno Alisson Eliseu de. Mineração de Dados: Conceitos e Aplicações. Anápolis, 2011. (UEG / UnUCET, Bacharelado em Sistemas de Informação, 2011). Monografia.Universidade Estadual de Goiás, Unidade Universitária de Ciências Exatas e Tecnológicas. Departamento de Sistemas de Informação. 1. Mineração de Dados 2. Data Mining REFERÊNCIA BIBLIOGRÁFICA ALMEIDA, Bruno Alisson Eliseu de. Mineração de Dados: Conceitos e Aplicações. Anápolis, 2011. 59 p. Monografia – Curso de Sistemas de Informação, UnUCET, Universidade Estadual de Goiás. CESSÃO DE DIREITOS NOME DO AUTOR: Bruno Alisson Eliseu de Almeida TÍTULO DO TRABALHO: Mineração de Dados: Conceitos e Aplicações GRAU/ANO: Graduação /2011. É concedida à Universidade Estadual de Goiás permissão para reproduzir cópias deste trabalho, emprestar ou vender tais cópias para propósitos acadêmicos e científicos. O autor reserva outros direitos de publicação e nenhuma parte deste trabalho pode ser reproduzida sem a autorização por escrito do autor. Bruno Alisson Eliseu de Almeida Rua T-65 N 360 Alta Vista Residencial Apto. 1403 Setor Bela Vista CEP 74823-370 – Goiânia – GO – Brasil
  • 6. Dedico esse trabalho à minha mãe e meus irmãos que sempre me apoiaram e seguraram uma barra para que eu pudesse chegar até aqui. Dedico também esse trabalho em memória do meu pai que não me deixou desistir.
  • 7. AGRADECIMENTOS Ao meu orientador Prof. Ronaldo, pelo constante apoio, incentivo, dedicação e amizade essenciais para o desenvolvimento deste trabalho e para o meu desenvolvimento como pesquisador. Aos meus colegas de turma pelo incentivo. Aos meus pais e irmãos por nunca me deixarem desistir e sem os quais não teria chegado até aqui. A todos, os meus sinceros agradecimentos.
  • 8. LISTA DE ILUSTRAÇÕES Figura 1 - Pirâmide Mineração de Dados...................................................................................4 Figura 2 - Áreas Envolvidas na Mineração de Dados ................................................................6 Figura 3 - Mineração de Dados ..................................................................................................6 Figura 4 - Árvore de Decisão .....................................................................................................9 Figura 5 - Redes Neurais Artificiais.........................................................................................10 Figura 6 - Clusterização............................................................................................................11 Figura 7 - Fases KDD...............................................................................................................13 Figura 8 - Matriz Curricular do Curso de Sistemas de Informação..........................................19 Figura 9 – WEKA – Tela Inicial ..............................................................................................28 Figura 10 – WEKA – Tela Explorer.........................................................................................28 Figura 11 - WEKA - Arquivo ARFF Aberto............................................................................29 Figura 12 - WEKA – Tela de Classificação .............................................................................30 Figura 13 - WEKA - Escolha do Algorítmo.............................................................................31 Figura 14 - WEKA - Execução do Algorítmo..........................................................................32 Figura 15 - Resultado WEKA ..................................................................................................33 Figura 16 - Estrutura Árvore Weka..........................................................................................34 Figura 17 - Árvore WEKA.......................................................................................................35 Figura 18 - Pôster Mineração de Dados: Conceitos e Aplicações............................................46
  • 9. LISTA DE TABELAS Tabela 1 - tb_weka ...................................................................................................................21 Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Conclusão de Curso44
  • 10. LISTA DE ABREVIATURAS E SIGLAS Siglas Descrição UEG Universidade Estadual de Goiás UnUCET Unidade Universitária de Ciências Exatas e Tecnológicas DM Data Mining KDD Knowledge Discovery in Databases SGBD Sistema Gerenciador de Bancos de Dados SQL Structure Query Language ODBC Open Data Base Connectivity OLAP On-Line Analytical Processing FAPESP Fundação de Amparo à Pesquiso do Estado de São Paulo USP Universidade de São Paulo ICMC Instituto de Ciências Matemáticas e de Computação MIRVIsIM Sigla em inglês para “Mineração, indexação, recuperação e visualização de dados em sistemas de arquivamento de imagens médicas” SI Sistemas de Informação JVM Java Virtual Machine
  • 11. RESUMO A quantidade e de dados gerados no mundo atualmente é muito grande, até mesmo dentro das empresas esses dados chegam a formar grandes bases de dados. A velocidade com que a informação circula, principalmente na Internet, também é muito grande. Apenas armazenar esses dados e utilizá-los em buscas simples não representa uma vantagem para as empresas. A Mineração de Dados surge então como solução para esse problema, possibilitando que sejam encontrados padrões nos dados que possibilitem que sejam tomadas novas ações que favoreçam a empresa. O trabalho descrito nesse projeto visa produzir material teórico necessário para que sejam compreendidos os conceitos de Mineração de Dados, suas técnicas e as vantagens que pode trazer para a organização. Palavras-chave: Mineração de Dados, KDD, dados, informação, conhecimento.
  • 12. ABSTRACT The amount of data generated and the world today is very large, even within companies that data come to form large databases. The quickness with which information circulates, especially on the Internet, is also very large. Only store data and use them in simple searches do not represent an advantage for companies. Data Mining then arises as a solution to this problem, allowing them to be found in the data standards that enable new actions are taken to promote the company. The work described in this project aims at producing theoretical material needed to be understood that the concepts of Data Mining, its techniques and the advantages it can bring to the organization. Keywords: Data Mining, KDD, data, information, knowledge.
  • 13. SUMÁRIO INTRODUÇÃO..........................................................................................................................1 CAPÍTULO 1 – REFERENCIAL TEÓRICO............................................................................4 1.1 Mineração de Dados.........................................................................................................4 1.1.1 Histórico ....................................................................................................................4 1.1.2 Definição ...................................................................................................................5 1.1.3 Tarefas Desempenhadas ............................................................................................7 1.1.4 Técnicas.....................................................................................................................8 1.2 KDD ...............................................................................................................................12 1.2.1 Definição .................................................................................................................12 1.2.2 Fases do KDD..........................................................................................................13 1.3 APLICABILIDADE DA MINERAÇÃO DE DADOS..................................................15 1.3.1 Wal-Mart .................................................................................................................15 1.3.2 Vestibular PUC-RJ ..................................................................................................15 1.3.3 Bank of America......................................................................................................16 1.3.4 A.C. Milan...............................................................................................................16 1.3.5 FAPESP...................................................................................................................16 CAPÍTULO 2 – RELAÇÃO ENTRE A MÉDIA FINAL OBTIDAS NAS DISCIPLINAS DO CURSO DE SI DA UEG E O DESEMPENHO ACADÊMICO .............................................18 2.1 O Curso de Sistemas de Informação...............................................................................18 2.2 Base de Dados ................................................................................................................20 2.3 Proposta ..........................................................................................................................20 2.4 Etapas .............................................................................................................................21 2.4.1 Seleção dos Dados...................................................................................................21 2.4.2 Limpeza ...................................................................................................................21 2.4.3. Transformação........................................................................................................21 2.4.4 Mineração de Dados................................................................................................24 2.4.4.1 O formato de arquivo ARFF ..................................................................... 24 2.4.4.2 Escolha do Algorítmo................................................................................ 27 2.4.4.3 Utilizando o WEKA .................................................................................. 27 2.4.5 Interpretação ............................................................................................................33 CONCLUSÃO / RECOMENDAÇÕES...................................................................................38 REFERÊNCIAS .......................................................................................................................40 APÊNDICE I – CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSÃO DE CURSO ..............................................................................................................................44 APÊNDICE II - PÔSTER APRESENTADO NO III SIMPÓSIO DE TECNOLOGIA DA INFORMAÇÃO E III SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2011.........................................................46
  • 14. 1 INTRODUÇÃO Atualmente, o volume de dados gerados em qualquer ambiente, seja ele corporativo, governamental, científico ou até mesmo na própria Internet é incrivelmente grande. A tendência é que esse volume de dados continue a crescer, principalmente pelo crescimento da utilização de dispositivos móveis e da automação cada vez maior das atividades das empresas. As organizações vêm constantemente buscando formas de agregar valor aos seus negócios e alcançar diferenciais com relação aos seus concorrentes em um mercado que se mostra cada vez mais competitivo. Nesse contexto, tanto os dados gerados internamente pela organização quanto os dados oriundos de fontes externas podem ajudar a promover essa vantagem competitiva que a organização busca. Nesse cenário, a Mineração de Dados pode representar um importante papel para a organização. A Mineração de Dados busca encontrar padrões ou tendências dentro de uma coleção de dados. Assim sendo, a Mineração de Dados pode identificar nos dados da organização padrões que dificilmente seriam observados de outra maneira. A Mineração de Dados pode encontrar padrões e tendências na base de dados da organização ajudando a identificar padrões no comportamento dos clientes, tendências de mercado, comportamento fraudulento e etc., informações essas que permitem às organizações a tomada de decisões estratégicas que podem representar uma vantagem competitiva para a instituição. A Mineração de Dados encontra padrões em bases de dados por meio da aplicação de algorítmos, a escolha do algorítmo depende do tipo dos dados que irão ser analisados e do resultado que se espera. Os dados também precisam ser trabalhados antes da aplicação dos algorítmos. As diferentes técnicas que podem ser aplicadas na Mineração de Dados serão descritas no decorrer deste trabalho. Mas a Mineração de Dados não pode ser tratada como um processo completo e isolado, na realidade, trata-se de uma etapa de um processo maior, o KDD (Knowledge Discovery In Databases, em português, Descoberta de Conhecimento em Bancos de Dados),
  • 15. 2 onde são executadas etapas antes e depois da Mineração de Dados para que possa ser extraída informação de interesse da organização. A Mineração de Dados corresponde à principal etapa do KDD, onde o algorítmo escolhido é aplicado na base de dados, mas existem etapas que devem ser executadas antes que o algorítmo possa ser aplicado e essas etapas fazem parte do KDD. Os dados onde a mineração de dados será aplicada precisam ser tratados para que o algorítmo possa ser aplicado. Mesmo não sendo o alvo de estudo deste trabalho, a ligação existente entre Mineração de Dados e KDD não permite que seja tratado de um ser mencionar o outro. Assim, as etapas que compreendem o KDD também serão tratados durante o projeto mas sem que haja um aprofundamento muito grande. Para a demonstração da Mineração de Dados será utilizado o WEKA (Waikato Environment Knowledge Analysis, em português, Ambiente Waikato de Análise de Conhecimento), software que começou a ser desenvolvido em 1993 usando Java, na Universidade de Waikato na Nova Zelândia. O WEKA consiste em uma coleção de algorítmos da área de Inteligência Artificial dedicada ao aprendizado de máquinas. A justificativa em cima da qual esse trabalho se baseia é o fato de que toda organização deseja agregar cada vez mais valor ao seu negócio e assim adquirir uma vantagem sobre a concorrência, e que toda organização, independente do porte, possui uma quantidade de dados razoável armazenados que podem ser explorados e transformados em informação valiosa para a empresa. O principal objetivo do trabalho é fornecer uma material teórico sobre Mineração de Dados, expondo das técnicas utilizadas, as formas como os dados podem ser transformados e os tipos de resultados que podem ser obtidos. Para que o trabalho não fique apenas na parte teórica e a aplicação da Mineração de Dados possa ser melhor observado, será realizado um estudo de caso para que possam ser demonstrados todos os passos que compreendem a Mineração de Dados e que são necessários para transformar dados em informação. Entre os passos que serão demonstrados no estudo de caso serão feitos passos do KDD, uma vez que a Mineração de Dados só compreende a aplicação dos algorítmos e não os
  • 16. 3 passos que precedem a execução dos algorítmos, etapas que são feitas no KDD e que são de extrema importância e que influenciam diretamente nos resultados da Mineração de Dados. Em nenhum momento deste trabalho será dito que uma técnica é melhor ou mais eficiente que outra, visto que o objetivo não é avaliar as técnicas e sim expos quais as técnicas disponíveis e quais resultados podem ser obtidos com cada uma delas.
  • 17. 4 CAPÍTULO 1 – REFERENCIAL TEÓRICO Neste capítulo será exposto a Mineração de Dados, as técnicas de Mineração de Dados, o KDD e as técnicas de KDD. As vantagens que a utilização da Mineração de Dados pode proporcionar às organizações também serão apresentadas nesse capítulo. O objetivo deste é fornecer uma base de conhecimento sobre o assunto que será abordado durante todo o projeto, para que o objeto do estudo e os resultados da pesquisa possam ser comprendidos. 1.1 Mineração de Dados Figura 1 - Pirâmide Mineração de Dados Fonte: HALFEN, 2010 1.1.1 Histórico O termo Mineração de Dados não é novo, começou a ser utilizado por volta de 1960, onde seu objetivo principal era a coleção de dados em computadores, feitos em fitas e discos fornecidos pela IBM e CDC. Esses dados eram armazenados para que posteriormente fosse possível fazer a restrospectiva e a distribuição estática dos dados.
  • 18. 5 Na década de 1980, com a aprimoramento das tecnologias de acesso dinâmico aos dados, como os SGBD’s (Sistema Gerenciador de Bancos de Dados), SQL (Structure Query Language, em português, Linguagem de Consulta Estruturada), ODBC (Open Data Base Connectivity, em português, Conectividade de Banco de Dados Livre) e bancos de dados relacionais, fornecidos principalmente por Oracle, Sybase, Infomix, IBM e Microsoft, a Mineração de Dados passou a ter como principal característica a retrospectiva e a distribuição dinâmica dos dados a nível de registro. Com o surgimento do data warehousing e do suporte à decisão, OLAP (On-Line Analytical Processing, ou em português, Processamento Analítico Online) e bancos de dados multidimensionais na década de 1990, tendo como principais fornecedores Pilot, Comshare, Arbor, Cognos e Microstrategy, possibilitaram uma nova evolução para a Mineração de Dados que passou a permitir a retrospectiva e a distribuição dinâmica dos dados em múltiplos níveis. Atualmente a Mineração de Dados é utilizada comercialmente na tentativa de prever resultados futuros através da análise dos dados, dispondo de algorítmos avançados, computadores multiprocessados e banco de dados massivos, a Mineração de Dados tem como principal objetivo a prospectiva e a distribuição de informação ativa. Os principais fornecedores são Pilot, Lockheed, IBM e SGI. 1.1.2 Definição Mineração de Dados é o termo usado para generalizar um conjunto de técnicas utilizadas para analisar e extrair informações de bases de dados, encontrando padrões nos dados que possam ser úteis para a organização. Praticamente não existe nenhuma área de conhecimento em que as técnicas de Mineração de Dados não possam ser aplicadas. A Mineração de Dados traz consigo uma série de idéias e técnicas para uma grande variedade de campos. A diferença entre as áreas de conhecimento está nos termos utilizados, mas todas usam diferentes técnicas para chegar ao mesmo resultado, a informação.
  • 19. 6 Figura 2 - Áreas Envolvidas na Mineração de Dados Fonte: (VIANA) Figura 3 - Mineração de Dados Fonte: O autor, adaptada de (MARTIN). O aumento das transações comerciais por meio eletrônico, em especial as feitas pela Internet, possibilitou às empresas armazenarem em suas bases de dados registros contendo preciosos dados sobre seus clientes. Os produtos adquiridos, e até mesmo os que foram apenas consultados, aliados aos dados exigidos no momento do cadastro formam o perfil do cliente.
  • 20. 7 O conhecimento do perfil do cliente possibilita oferecer um serviço mais personalizado. Os diversos sites de compra online se utilizam de técnicas de Mineração de Dados, por exemplo, no momento do cadastro o cliente determina suas áreas de interesse, a partir desse instante os emails enviados a esse cliente passam a conter apenas ofertas voltadas para suas áreas de interesse. Outro exemplo acontece durante a própria navegação no site, ao buscar um produto são mostradas sugestões de produtos que também foram adquiridos por compradores anteriores juntamente com o produto buscado. Mesmo dispondo de ferramentas para automatizar o processo de Mineração de Dados, a participação de um profissional é indispensável uma vez que algumas das tarefas devem ser feitas manualmente, como a seleção dos dados ou a criação das regras, podendo influenciar nos resultados obtidos. 1.1.3 Tarefas Desempenhadas De acordo com a necessidade a Mineração de Dados pode realizar diferentes tarefas sobre os dados com a finalidade de melhor organizá-los.  Associação: Consiste em determinar quais fatos ou objetos tendem a ocorrer num mesmo evento ou nume mesma transação. Exemplo: quais produtos costumam ser adquiridos numa mesma compra, sistomas parecidos entre pacientes.  Classificação: Consiste em construir um modelo que possa ser aplicado a dados não classificados visando categorizar os objetos em classes. Exemplo: classificar pedidos de crédito; tratamento de pacientes.  Predição/Previsão: A predição é usada para definir um provável valor para uma ou mais variáveis. A previsão é utilizada quando se tem séries temporais (dados organizados cronologicamente). Exemplo: estimar o tempo de vida de um paciente; estimar a renda total de uma família; demanda de consumidores para um novo produto.  Agrupamentos ou Clusterização: É um processo de partição, que visa dividir uma população em subgrupos mais homogêneos entre si,
  • 21. 8 tornando a visualização por parte do usuário mais simples e compreensível. É diferente da tarefa de classificação, pois não existem classes predefinidas, os objetos são agrupados de acordo com a similaridade. Exemplo: agrupar clientes por região; agrupar clientes com comportamento de compra similar. 1.1.4 Técnicas Não existe uma técnica que resolva todos os problemas de Mineração de Dados. Existem diferentes técnicas para diferentes propósitos, a escolha da técnica a ser empregada está relacionada com o tipo de dado no que será aplicada. Árvores de Decisão Um problema complexo é dividido em problemas mais simples de serem resolvidos. É um modelo preditivo, visualizado em forma de árvore. Cada ramo da árvore é visto como um problema mais simples enquanto cada nó é visto como um subconjunto dos dados que resolvem esse problema.
  • 22. 9 Figura 4 - Árvore de Decisão Fonte: O autor, adaptada de (CARACIOLO, 2009). No exemplo acima, é mostrada uma árvore de decisão propícia a uma ação de marketing, baseando-se na idade, na renda e no estado civil do cliente é determinado se ele compraria ou não o produto. A partir de uma árvore de decisão é possível derivar regras que podem aplicadas aos dados. No caso do exemplo da Figura 4, é possível derivar a seguinte regra: caso o cliente tenha idade entre 18 e 35 anos ele não compra o produto, por outro lado, se ele tiver idade entre 36 e 55 anos e for solteiro ele comprará o produto. Regras de Indução A técnica de regras de indução é altamente automatizada e, possivelmente, é a melhor técnica de Mineração de Dados para expor todas as possibilidades de padrões existentes em um banco de dados (BERSON et. al., 1999). A regra de indução consiste em uma expressão condicional do tipo: se <condição> então <consequência>
  • 23. 10 Após a formação das regras, constrói-se uma tabela com o percentual de precisão (frequência com que a regra está correta) e cobertura (com que frequência pode ser usada). Quanto maior o percentual, melhor a regra. Redes Neurais Artificiais As redes neurais artificiais são técnicas que procuram reproduzir de maneira simplificada as conexões do sitema biológico neural. Estruturalmente, consistem em um conjunto de elementos interconectados, chamados neurônios, organizados em camadas que aprendem pela modificação de suas conexões. Tipicamente, tem-se uma camada de entrada ligada a uma ou mais camadas intermediárias que são ligadas a uma camada de saída (BERRY e LINOFF, 1997). A partir de um conjunto de treinamento, procura-se aprender padrões gerais que possam ser aplicados à classificação ou predição de dados. A função de cada neurônio é avaliar valores de entrada, calcular o total para valores de entrada combinados, comparar com um total limiar e determinar o valor de saída. Figura 5 - Redes Neurais Artificiais Fonte: (CARVALHO)
  • 24. 11 Uma rede neural é formada por uma ou mais camadas de entrada, n camadas intermediárias(dependendo da complexidade do problema e ser resolvido) e apenas uma camada de saída. A função básica de cada neurônio é avaliar os dados de entrada e calcular um valor para saída. As operações realizadas por cada neurônio são bastante simples, mas a conexão entre os neurônios é capaz de criar procedimentos complexos. Análise de Regressão Busca explicar uma ou várias variáveis de interesse em função de outras. Depois de ser construído o modelo (que é uma equação matemática), ele pode ser usado para realizar predições ou calcular probabilidades. Possui quatro passos: seleção das variáveis, diagnóstico para verificar se o modelo é adequado, aplicação de medidas remediadoras para quando as condições do modelo não são satisfeitas e validação do modelo. Clusterização Também chamada de segmentação dos dados ou análise de agrupamentos, consistem em agrupar dados em subconjuntos, esses subconjuntos são chamados clusters. Os objetos dentro de um mesmo cluster são mais semelhantes entre si do que qualquer objeto dentro de outro cluster. O algorítmo de clusterização identifica as relações entre os dados e gera uma série de clusters baseando-se nelas. Figura 6 - Clusterização Fonte: Microsoft
  • 25. 12 1.2 KDD Falar sobre Mineração de Dados sem mencionar o KDD é impossível, uma vez que estão intimamente ligados, a Mineração de Dados não é um processo isolado e é a principal fase do KDD. A diferença entre os dois é bem sensível, sendo tratados em alguns trabalhos como se fossem o mesmo processo, quando na verdade o KDD é um processo de transformação dos dados em informação e a Mineração de Dados consiste em encontrar padrões dentro de uma base de dados. 1.2.1 Definição Segundo FAYYAD et. al., KDD é “o processo não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados”. Resumindo, KDD é o processo de extração de informações de bases de dados que possam ser úteis aos usuários e que são mais difíceis de obter sem que os dados armazenados sejam trabalhados. O KDD compreende todo o ciclo que o dado percorre até virar conhecimento ou informação. O processo é interativo e iterativo. Interativo porque o usuário pode intervir e controlar o curso das atividades, iterativo por ser uma sequência finita de operações onde o resultado de cada uma é dependente do resultado das que a precedem.
  • 26. 13 Figura 7 - Fases KDD Fonte: O autor, adaptada de (FAYYAD et al. (1996)). 1.2.2 Fases do KDD Seleção Esta é a primeira fase do processo. É escolho do conjunto de dados, pertencentes a um domínio, que farão partes da análise. A escolha dos dados fica a cargo de um especialista do domínio. A complexidade do processo se dá pelo fato de os dados poderem vir de fontes diferentes e em formatos diferentes. Possui impacto significante sobre a qualidade dos resultados do processo, uma vez que toda a análise será feita sobre os dados selecionados nesse passo. Pré-Processamento e Limpeza Nesta fase são realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao domínio (outliners). O auxílio do especialista do domínio é fundamental. São também utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando melhorar o desempenho do algorítmo de análise.  Dados Ausentes (Missing Values): Um problema comum nessa fase é a ausência de valores para determinadas variáveis, ou seja, registros com dados incompletos, seja por falha na seleção dos dados ou revisão. O tratamento destes casos se faz necessário para que os resultados da
  • 27. 14 Mineração sejam confiáveis. Existem três alternativas de solução: imputação, fazer a previsão dos dados ausentes e completá-los individualmente; substituir o valor faltante pela média aritmética da variável; excluir o registro.  Dados Discrepantes (Outliners): São dados que possuem valores extremos, atípicos ou com características muito distintas dos demais registros. Normalmente são descartados da amostra, porém só deve ocorrer quando o dado representar erro de observação de medida ou problema similar. O dado deve ser analisado cuidadosamente antes da exclusão, pois embora seja atípico, pode representar um valor verdadeiro, apontando um comportamento não usual, uma tendência ou ação fraudulenta.  Dados Derivados: Variáveis de uma população podem apresentar relacionamentos entre si. Se houver a necessidade de dados que não estejam disponíveis, é possivel obtê-los da transformação ou combinação de outros. Transformação Os dados necessitam ser armazenados e formatados adequadamente para que os algorítmos possam ser aplicados. É como encontrar computadores rodando diferentes SO’s (Sistemas Operacionas) e diferentes SGBD’s. Estes dados devem ser agrupados em um único repositório. Mineração de Dados Explicações detalhadas deste item se encontram no item 3.1 deste capítulo, uma vez que este é o assunto principal deste trabalho. Interpretação/Avaliação Esta fase deve ser feita em conjunto com um ou mais especialistas no assunto. O conhecimento adquirido através da Mineração de Dados deve ser interpretado e avaliado para que o resultado final seja obtido.
  • 28. 15 Caso o resultado não seja satisfatório, o processo pode retornar a qualquer uma das fases anteriores, o mais comum é modificar o conjunto de dados inicial ou trocar o algorítmo de Mineração de Dados. 1.3 APLICABILIDADE DA MINERAÇÃO DE DADOS Neste capítulo serão apresentados alguns exemplos reais da aplicação das técnicas de Mineração de Dados em diferentes organizações e em diferentes áreas de conhecimento para explicitando como a Mineração de Dados pode favorecer os negócios da empresa. 1.3.1 Wal-Mart Este é um dos mais famosos exemplos de Mineração de Dados. A rede americana de hipermercados Wal-Mart identificou que a venda de fraldas e cervejas aumentava nas noites de sexta-feira e traçou um perfil dos clientes que possuiam esse comportamento. Homens entre 25 e 30 anos, casados, que estavam voltando do trabalho na sexta-feira passavam no supermercado para comprar fraldas e acabavam comprando cerveja também. A ação tomada pela empresa foi relocar os produtos de modo que fraldas e cervejas passassem a ficar mais próximas e o resultado disso foi um aumento de 30% nas vendas. 1.3.2 Vestibular PUC-RJ A PUC-RJ utilizou a Mineração de Dados para analisar os dados de seu vestibular e encontrou a seguinte regra: se o candidato for do sexo feminino, trabalha e conseguiu boas notas no vestibular ele não efetuava a matrícula A justificativa encontrada para esse padrão de comportamento dos candidatos é que se uma mulher em idade de vestibular trabalha é por necessidade e nesse caso provavelmente fez inscrição em universidades públicas também. Se a candidata obteve boas
  • 29. 16 notas é também provável que tenho sido aprovada na instituição pública para a qual se inscreveu e portanto não efetuará sua matrícula na PUC-RJ. Com algumas excessões, como: candidatas que residiam próximo à unidade, pessoas mais velhas, de alto poder executivo, que voltaram a estudar por outro motivo que não seja obter uma profissão, etc., essa regra é obedecida pela maioria dos candidatos. 1.3.3 Bank of America O Bank of America utilizou técnicas de Mineração de Dados para selecionar entre seus clientes aqueles que apresentavam o menor risco de inadimplência em empréstimos. A partir dos resultados encontrados enviou cartas oferencendo limites de crédito aos seus clientes que possuiam filhos com idade entre 18 e 21 anos e que precisariam de dinheiro para comprar uma casa, o primeiro carro ou financiar a faculdade dos filhos. Como resultado dessa ação o banco teve um lucro de U$ 30 milhões em 3 anos. 1.3.4 A.C. Milan O clube de futebol italiano, Milan, iniciou em 2002 um projeto piloto que utilizava software para prever lesões em jogadores, uma vez que os jogadores representa o maior investimento do clube poder evitar tais lesões ou reduzir a gravidade delas e, consequentemente, tempo de recuperação dos atletas economizaria milhões de dólares aos cofres do clube. Através de um software desenvolvido pela Computer Associates, foram coletados dados nos treinamentos da equipe durante um período de tempo, permitindo que fossem feitas previsões médicas acumuladas de cada jogador possibilitando um melhor monitoramento do risco de lesões dos atletas. 1.3.5 FAPESP
  • 30. 17 Um projeto de pesquisa apoiado pela FAPESP gerou o protótipo de uma ferramenta de diagnósticos por imagem. O MIRVIsIM foi desenvolvido por um grupo coordenado pela professora Agma Juci Machado Traina, do ICMC da USP, em São Carlos. É comum o médico se lembrar de ter visto uma imagem parecida mas não se lembrar do diagnóstico do caso e analisar casos anteriores levaria muito tempo. A função do software é compara a imagem a ser analisada pelo radiologista com um banco de dados de outras já laudadas. Cor, posição e formato dos elementos retratados são utilizados como elementos a serem comparados. O especialista então recebe uma série de sugestões de diagnósticos levantados através da comparação das imagens.
  • 31. 18 CAPÍTULO 2 – RELAÇÃO ENTRE A MÉDIA FINAL OBTIDAS NAS DISCIPLINAS DO CURSO DE SI DA UEG E O DESEMPENHO ACADÊMICO Neste capítulo será apresentado um exemplo da utilização da Mineração de Dados para obtenção de informação a partir de uma base de dados, descrevendos os passos utilizados e o resultado final. 2.1 O Curso de Sistemas de Informação O curso de Bacharelado em Sistemas de Informação começou a ser ofertado na UnUCET em fevereiro de 2002, em substituição ao curso de Tecnologia em Processamento de Dados, uma vez que o curso de Tecnologia em Processamento de Dados, criado em 1985, necessitava de algumas alterações e atualizações e o Ministério da Educação já havia feito orientações para que os cursos de natureza técnica fossem substituídos por outros da área de Computação e Informática. O objetivo do curso é formar profissionais para o desenvolvimento, implantação e gestão de sistemas de informação visando atender as demandas das organizações e da sociedade, utilizando as modernas técnicas da Tecnologia da Informação. A matriz curricular original do curso, de 2002, foi alterada em 2009, mas para este estudo ainda será utilizada a matriz curricular de 2002, visto que os dados utilizados compreendem o período de 2002 a 2007 e a nova matriz curricular só começou a entrar em vigar em 2009 e somente na 1ª série do curso.
  • 32. 19 Figura 8 - Matriz Curricular do Curso de Sistemas de Informação Da acordo com a matriz curricular de 2002 e que será utilizada neste estudo, o curso possui um tempo de integralização mínima de 4 e máximo de 7 anos, com um total de 3.280 horas/aula, divididas no período noturno e com aulas aos sábados pela manhã nos 3 primeiros anos. A forma de ingresso é anual e são oferecidas um total de 40 vagas. Além das horas/aula que são cumpridas na universidade, o aluno também deve cumprir um total de 150 horas de atividades complementares, que podem incluir palestras, seminários, cursos, etc., como atividades para complementar e expandir os temas abordados em sala de aula e 360 horas de estágio supervisionado como forma de observar e aprender como é o dia a dia do profissional e como o conteúdo aprendido em sala pode ser aplicado na realidade.
  • 33. 20 A média necessária para que o aluno seja considerado aprovado em qualquer disciplina é 7 e o aluno também precisa ter o mínimo de 75% de presença na disciplina. A média final de cada disciplina é obtida da média aritmérica das notas obtidas nos 4 bimestres que compõem o ano letivo. Média = (nota 1º bimestre + nota 2º bimestre + nota 3º bimestre + nota 4º bimestre) / 4 Caso a média obtida pelo aluno na disciplina seja maior ou igual a 7, ele está aprovado na disciplina. Se o aluno obtiver média inferior a 3 na disciplina ele está reprovado. Caso a nota seja inferior a 7 e maior ou igual a 3, o aluno faz mais uma prova para obtenção de uma nova média. Média final = (média obtida + nota prova final) / 2 Caso a média obtida na prova final seja superior a 5 o alunos está aprovado, caso contrário o aluno está reprovado na disciplina. Em todos os casos o aluno precisa, obrigatoriamente, ter frequentado um mínimo de 75% das horas/aula ministradas, caso contrário estará reprovado independentemente da média que obtiver na disciplina. 2.2 Base de Dados A base de dados a ser utilizada é corresponde ao dados dos alunos do curso de Sistemas de Informação da UEG dos anos de 2002 a 2011. 2.3 Proposta As propostas deste estudo de caso são estabelecer uma relação entre a média final obtidas nas disciplinas que compõem a grade curricular do curso e o desempenho acadêmico do aluno no decorrer do curso. A proposta pretende descobrir se as notas obtidas pelos alunos em certas disciplinas influencia no desempenho do aluno no decorrer do curso, ou seja, se esses alunos conseguiram concluir o curso no tempo mínimo exigido (4 anos).
  • 34. 21 2.4 Etapas 2.4.1 Seleção dos Dados Primeiro foi feita a seleção dos dados que serão trabalhados na Mineração de Dados. Neste momento foi escolhida a base de dados de alunos do curso de SI dos anos de 2002 a 2007. A escolha da base de dados foi aleatória, já o período foi escolhido levando-se em conta as turmas que a primeira turma que ingressou (2002) e a última turma que se formou na universidade (2007), considerando-se que o curso possui 4 anos de duração mínima. A base de dados se encontra no formato ACCDB do Microsoft Access 2007. 2.4.2 Limpeza Nesta etapa foi feita a limpeza da base de dados, retirando registros que estejam com dados ausentes. 2.4.3. Transformação A base de dados precisa ser trabalhada antes que o algorítmo de mineração de dados possa ser aplicado. Neste momento, foram retirados dados que não são interessentes para a mineração de dados, como, endereço, cidade, estado, telefone, etc., e deixando apenas os dados que seriam relevantes ao estudo: notas das disciplinas, se o aluno completou o curso “pleno” (4 anos, sem reprovação em nenhuma disciplina). Os dados da base de dados também precisaram ser formatados para que não houvesse inconsistência nos dados. A base de dados em que será aplicada o algorítmo de Mineração de Dados ficou com a seguinte estrutura:
  • 35. 22 Tabela 1 - tb_weka Campo Tipo Descrição D1 Numércico Média final da disciplina de “Álgebra” D2 Numérico Média final da disciplina de “Análise de Sistemas” D3 Numérico Média final da disciplina de “Arquitetura de Computadores” D4 Numérico Média final da disciplina de “Banco de Dados” D5 Numérico Média final da disciplina de “Cálculo Diferencial e Integral” D6 Numérico Média final da disciplina de “Conceitos de Inteligência Artificial” D7 Numérico Média final da disciplina de “Contabilidade e Economia para Computação” D8 Numérico Média final da disciplina de “Direito e Ética em Informática” D9 Numérico Média final da disciplina de “Eletricidade e Lógica Digital” D10 Numérico Média final da disciplina de “Empreendedorismo em Informática” D11 Numérico Média final da disciplina de “Engenharia de Software” D12 Numérico Média final da disciplina de “Inglês Instrumental” D13 Numérico Média final da disciplina de “Introdução à Computação”
  • 36. 23 D14 Numérico Média final da disciplina de “Linguagem e Técnicas de Programação” D15 Numérico Média final da disciplina de “Metodologia da Pesquisa Científica” D16 Numérico Média final da disciplina de “Novas Aplicações Em Sistemas de Informação” D17 Numérico Média final da disciplina de “O Profissional da Informática e a Sociedade” D18 Numérico Média final da disciplina de “Organização, Sistemas e Métodos” D19 Numérico Média final da disciplina de “Planejamento e Gestão de Sistemas de Informação” D20 Numérico Média final da disciplina de “Princípios de Sistemas de Informação e Teoria da Computação” D21 Numérico Média final da disciplina de “Probabilidade e Estatística” D22 Numérico Média final da disciplina de “Programação I” D23 Numérico Média final da disciplina de “Programação II” D24 Numérico Média final da disciplina de “Projeto de Graduação I” D25 Numérico Média final da disciplina de “Projeto de Graduação II” D26 Numérico Média final da disciplina de “Redes de Computadores” Pleno Texto, “S/N” Indica se o aluno concluiu a universidade
  • 37. 24 no tempo mínimo(4 anos, sem reprovação) Fonte: O autor 2.4.4 Mineração de Dados Como descrito anteriormente, para a demonstração do algorítmo de Mineração de Dados será utilizado o WEKA, mas o WEKA não é capaz de aplicar o algorítmo diretamente sobre uma base de dados do Microsoft Access, como é o caso da base que estamos utilizando. Portanto a tabela “tb_weka” precisa ser exportada para um arquivo no formato ARFF para que assim possa ser feita a leitura através do WEKA e o algorítmo seja aplicado. 2.4.4.1 O formato de arquivo ARFF O formato de arquivo ARFF (Attribute-Relation File Format), desenvolvido pela Machine Learning Project no Departamento de Ciência da Computação da Universidade de Waikato (mesma desenvolvedora do WEKA) para uso no WEKA, é um arquivo de texto ASCII que descreve uma lista de instâncias compartilhando um conjunto de atributos. Por padrão, todo arquivo ARFF é dividido em 2 partes distintas, o cabeçalho e os dados:  Cabeçalho: o cabeçalho do arquivo ARFF contém o nome da relação e a declaração dos atributos. o O nome da relação é definido na primeira linha do arquivo através da declaração “@relation” o A declaração de atributos deve ser individualmente para cada atributo através da declaração “@attribute” e define o nome e tipo do atributo.  Os tipos de dados suportados pelo WEKA são 4, numérico, nominal, string e data:  Numérico: os atributos podem ser numéros reais ou inteiros
  • 38. 25  Nominal: são definidos através de uma especificação nominal dos valores que o atributo pode assumir. Exemplo: {YES,NO}, {Y,N}, {A,B}  String: são atributos que contém texto.  Data: são atributos que representam uma data, utilizado o padrão ISO-8601 de formato de data e hora combinadas em uma string “yyyy-MM- dd'T'HH:mm:ss”  Os dados do arquivo são definidos através da declaração “@data”, onde cada instância é representada em uma única linha e os atributos são separados por vírgula. Os valores que estiverem ausentes serão representados por um único ponto de interrogação (?). Todos os valores de atributos que possuirem espaços devem estar entre aspas duplas (“) e para colocar comentários no arquivos utiliza-se a caracter percentagem (%) no início da linha. Assim sendo, o arquivo ARFF gerado ficou da seguinte forma: - Declaração da relação: “@relation alunos” - Declaração dos atributos: @attribute D1 real @attribute D2 real @attribute D3 real @attribute D4 real @attribute D5 real @attribute D6 real @attribute D7 real @attribute D8 real @attribute D9 real
  • 39. 26 @attribute D10 real @attribute D11 real @attribute D12 real @attribute D13 real @attribute D14 real @attribute D15 real @attribute D16 real @attribute D17 real @attribute D18 real @attribute D19 real @attribute D20 real @attribute D21 real @attribute D22 real @attribute D23 real @attribute D24 real @attribute D25 real @attribute D26 real @attribute Pleno {S,N}” - Dados “@data” 6.6,6.7,5.3,6.1,7.25,7.3,7.4,7.1,7,7.5,5.1,7,7.7,7.7,7.2,8.1,7.2,7.9,7.5,9,7,8.15,7.2,7 .2,8.1,7.7,S ...” Este é o exemplo de uma das várias linhas que a declaração “@data” contém.
  • 40. 27 2.4.4.2 Escolha do Algorítmo Para a análise do arquivo ARFF foi escolhido o método de classificação e o algorítmo J48, em decorrência do escopo do trabalho e dos valores que compõem o arquivo ARFF. O método de classificação foi escolhido por atender as propostas feitas no início deste capítulo, ou seja, com o método de classificação pode-se prever se as notas em determinadas disciplinas influenciam podem dizer se o aluno concluirá o curso pleno ou não. O algorítmo J48 foi escolhido devido ao tipo dos dados que serão analisados. Segue abaixo uma explicação do funcionamento do algorítmo O algorítmo J48 constroi uma árvore de decisão. A forma de construção da árvore usa a abordagem “top-down”, em que o atibuto mais generalizado é considerado a raiz da árvore. A seguir, o próximo nó da árvore será o segundo atributo mais generalizado, e assim por diante até que seja encontrado o nó folha, que representa o atributo alvo. 2.4.4.3 Utilizando o WEKA A última versão do WEKA pode ser obtida em http://www.cs.waikato.ac.nz/ml/weka/, lembrando que por ter sido desenvolvido em Java, o WEKA precisa da JVM (Java Virtual Machine) instalada no computador onde será instalado. Atualmente o WEKA utiliza a JVM 1.6 e para evitar problemas durante a execução do programa, sugiro que seja escolhido o download do instalador que já venha com a JVM.
  • 41. 28 Figura 9 – WEKA – Tela Inicial Fonte: O autor Escolha a opção “Explorer”, e será apresentada a seguinte tela: Figura 10 – WEKA – Tela Explorer
  • 42. 29 Fonte: O autor Selecione a opção “Open file...” e navegue até a pasta onde se encontra o arquivo ARFF que deseja analisar. Após o arquivo ARFF ser aberto, algumas informações do arquivo já poderão ser observadas, como a quantidade de instâncias, o número de atributos, e informações sobre os próprios atributos individualmente como tipo de dado e os valores que esses atributos assumem. Figura 11 - WEKA - Arquivo ARFF Aberto Fonte: O autor A seguir clique na guia “Classify” e escolha o algorítmo que será aplicado, neste caso o algorítmo escolhido foi o J48 que se encontra na guia “trees”.
  • 43. 30 Figura 12 - WEKA – Tela de Classificação Fonte: O autor
  • 44. 31 Figura 13 - WEKA - Escolha do Algorítmo Fonte: O autor O passo seguinte é escolher a opção “Use training set” em “Test options”, escolher qual o atributo será o nó folha da árvore e clicar em “Start” para que o WEKA começa a análise do arquivo ARFF e crie a árvore.
  • 45. 32 Figura 14 - WEKA - Execução do Algorítmo Fonte: O autor
  • 46. 33 2.4.5 Interpretação Figura 15 - Resultado WEKA Após a execução do algorítmo J48 no WEKA foi possível obter as seguintes informações que são importantes para a proposta que foi feita no início do capítulo:  Número total de instâncias: 133;  Número de instâncias classificadas corretamente: 98 ou, aproximadamente, 74%;  Número de instâncias classificadas incorretamente: 35 ou, aproximadamente, 26%;
  • 47. 34  O fator de precisão para classe pleno (“S”) foi de 0,775 ou 77,5%; e o fator de precisão para a classe não-pleno (“N”) foi re 0,679 ou 67,9%  A Matriz de Confusão (Confusion Matrix): o Apresentou 94 instâncias classificadas corretamente, sendo 62 classificadas como “S” (aluno pleno) e 36 como “N” (aluno com reprovação em alguma disciplina); o Apresentou 35 instâncias classificadas incorretamente, sendo 17 falsos positivos para “S” e 18 falsos positivos para “N”, ou seja, 17 instâncias foram classificadas com “S” quando deveriam ser “N” e 18 instâncias foram classificadas com “N” quando deveriam ser “S”; Figura 16 - Estrutura Árvore Weka
  • 48. 35 Figura 17 - Árvore WEKA A árvore gerada após a execução do algorítmo possui 11 folhas, tamanho 21 e teve como raiz a disciplina D2 (Análise de Sistemas). Ao fazer a análise da árvore gerada, pudemos que os alunos que tiveram nota menor ou igual a 5,09 não concluíram o curso plenos, onde 25 alunos foram classificados corretamente como “N” e 1 foi classificado incorretamente. Em D7 (Contabilidade e Economia para Computação), os alunos que obtiveram nota menor ou igual a 6,7 e obtiveram nota menor ou igual a 8,35 na disciplina D8 (Direito e Ética em Informática) não concluíram o curso plenos (11 alunos), enquanto os que obtiveram nota menor ou igual a 6,7 em D7 e nota maior que 8,35 em D8 concluiram o curso pleno, onde 3 alunos foram classificados corretamente como “S” e 1 foi classificado incorretamente. Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6 em D3 (Arquitetura de Computadores) e maior que 8,85 em D9 (Eletricidade e Lógica Digital) não concluíram o curso plenos (6 alunos); enquanto que os alunos que obtiveram nota maior ou igual a 8,85 em D9 e maior ou igual a 7,8 em D4 (Banco de Dados) concluíram o curso plenos (4 alunos) e os que tiveram nota menor que 7,8 em D4 não concluíram o curso plenos (2 alunos). Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, menor ou igual a 7,13 em D4 e menor ou igual a 7,7 em D16 (Novas Aplicações em Sistemas de Informação) não concluíram o curso pleno (4 alunos), enquanto os
  • 49. 36 que tiveram nota maior que 7,7 em D16 concluíram o curso pleno, onde 5 alunos foram classificados corretamente como “S” e 1 foi classificado incorretamente. Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8 concluíram o curso plenos (50 alunos), os que tiveram nota menor ou igual a 8,4 em D8 e menor ou igual a que 9,23 em D3 também concluíram o curso plenos, onde 20 foram classificados como “S” e 2 foram classificados incorretamente; enquanto os que obtiveram nota maior que 9,23 em D3 não concluíram o curso plenos. Resumindo, de acordo com a execução do algorítmo, para que o alunos conclua o curso pleno ele deve atender umas das seguintes regras:  Nota maior que 5,09 em D2, menor ou igual a 6,7 em D7 e maior que 8,35 em D8;  Nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6 em D3, menor ou igual a 8,85 em D9 e menor ou igual a 7,8 em D4;  Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, menor ou igual a 7,13 em D4 e maior que 7,7 em D16, neste caso houve 1 falso positivo;  Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8;  Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4, menor ou igual a 8,4 em D8 e menor ou igual a 9,23 em D3, neste caso houveram 2 falsos positivos. Houveram também 1 falsos negativos em:  Nota menor ou igual a 5,09 em D2 apresentou 1 falso negativo; Com a aplicação da Mineração de Dados foi possível identificar que as notas obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluirá o curso pleno ou não, enquanto as notas obtidas nas outras disciplinas não influem. Nenhuma das disciplinas influencia diretamente se o alunos concluirá o curso pleno ou não, apenas a nota da disciplina D2 influencia diretamente mas para dizer que o aluno não concluirá o curso
  • 50. 37 pleno, neste caso se ele obtiver uma nota menor ou igual a 5,09 e mesmo assim ainda apresenta um falso negativo.
  • 51. 38 CONCLUSÃO / RECOMENDAÇÕES O volume de dados gerados dentro das organizações atualmente é muito grande e a tendência é que continue a crescer, tendo em vista a automação cada vez maior das tarefas dentro das empresas. Esses dados podem representar uma vantagem competitiva para a empresa, desde que eles sejam analisados de forma correta e transformados em informação valiosa para a empresa. A mineração de dados é uma ferramenta que a empresa pode utilizar para adquirir informações que podem ser de grande utilidade na tomada de decisões táticas e estratégicas possibilitando uma vantagem sobre seus concorrentes e agregar valor sobre seus negócios. As técnicas da Mineração de Dados podem ser aplicadas a diferentes tipos de dados, resultando em diferentes resultados, portanto cabe ao responsável escolher qual técnicas se aplica melhor aos dados que ele possui e quais os resultados esperados para que assim a técnicas que melhor resolva essas questões possa ser aplicada e os resultados sejam satisfatórios. A aplicação do KDD é imprescindível para o sucesso da Mineração de Dados, uma vez que a Mineração de Dados é uma etapa do KDD e altamente dependente das etapas que a precedem e que são fundamentais e influenciam diretamente o resultado da Mineração de Dados. Durante a aplicação das técnicas de Mineração de Dados na base utilizada no estudo, foi possível perceber como a Mineração de Dados, através de cada uma de suas etapas, vai transformando uma coleção de dados em informação útil. Com a aplicação da Mineração de Dados foi possível identificar que as notas obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluirá o curso pleno ou não, enquanto as notas obtidas nas outras disciplinas não influem. Nenhuma das disciplinas influencia diretamente se o alunos concluirá o curso pleno ou não, apenas a nota da disciplina D2 influencia diretamente mas para dizer que o aluno não concluirá o curso pleno. Um grande problema encontrado durante o desenvolvimento do trabalho foi na utilização do software WEKA no momento da aplicação do algorítmo no arquivo ARFF que
  • 52. 39 havia sido gerado, fazendo com que o resultado da execução do algorítmo não correspondesse ao resultado esperado, foram necessários inúmeros testes e alterações nos tipos dados e na quantidade de atributos para que o problema fosse resolvido. Como sugestão para os próximos trabalhos sobre esse tema, é recomendado um estudo mais aprofundado sobre o software WEKA e uma abrangência maior dos diferentes algorítmos de mineração de dados e seus diferentes resultados.
  • 53. 40 REFERÊNCIAS AMO, Sandra de. Técnicas de Mineração de Dados. Universidade Federal de Uberlândia, Faculdade de Computação, 2004. Disponível em: http://www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf. Acesso em: 25 mar. 2011. Attribute-Relation File Format (ARFF). 2008. Disponível em: http://www.cs.waikato.ac.nz/ml/weka/arff.html. Acesso em: 20 set. 2011. BOZZA, Daniel; KONO, Frank; TAVARES, Claudio. Descoberta de Conhecimento Aplicado a Dados Eleitorais. Revista Gestão e Conhecimento / Faculdade de Ciências Sociais Aplicadas do Paraná e Faculdade de Ciência e Tecnologia do Paraná. Curitiba: Faculdades Facet, 2007. 94 págs. Disponível em: http://gc.facet.br/artigos/resumo.php?artigo=34. Acesso em: 20 set. 2011. CARACIOLO, Marcel Pinheiro. [Artigo] Introdução a árvores de decisão para a classificação e Mineração de Dados. 2009. Disponível em: http://aimotion.blogspot.com/2009/04/artigo-introducao-arvores-de-decisao.html. Acesso em: 4 jul. 2011. CARVALHO, André Ponce de Leon F. de. Redes Neurais Artificiais. Disponível em: http://www.icmc.usp.br/~andre/research/neural/. Acesso em: 16 mai. 2011. CHIU, Susan; TAVELLA, Domingo. Data Mining and Marketing Intelligence for Optimal Marketing Returns. Elsevier; 2008. 295 p.
  • 54. 41 CÔRTES, Sérgio da Costa; LIFSCHITZ, Sérgio; PORCARO, Rosa Maria. Mineração de Dados – Funcionalidades, Técnicas e Abordagens. PUC-Rio, 2002. Disponível em: http://www.dbd.puc-rio.br/depto_informatica/02_10_cortes.pdf. Acesso em: 30 mar. 2011. CPBR10 – Software Livre. Oficina: Data Mining WEKA. Disponível em: http://www.youtube.com/watch?v=sDD8nsZ1fQo. Acesso em: 29 dez. 2010. HALFEN, Idel. Mineração de Dados. 2010. Disponível em: http://halfen- mktsport.blogspot.com/2010/11/mineracao-de-dados.html. Acesso em: 19 mai. 2011. MARTIN, James R. What is Data Mining?. Disponível em: http://maaw.info/DataMining.htm. Acesso em: 20 mai. 2011. MICROSOFT. Algoritmo Microsoft Clustering. Disponível em: http://technet.microsoft.com/pt-br/library/ms174879%28SQL.100%29.aspx. Acesso em: 15 mai. 2011. NETO, Ary Fagundes Bressane; SILVA, Flávio Soares Corrêa da. Oficina Data Mining com WEKA. 2010. Disponível em: http://www.slideshare.net/campuspartybrasil/campus- party2010. Acesso em: 29 dez. 2010. O que é Mineração de Dados?. GSI – Grupo de Sistemas Inteligentes – Mineração de Dados, DIN – Departamento de Informática, UEM – Universidade Estadual de Maringá, Maringá, 1998. Disponível em: http://www.din.uem.br/ia/mineracao/introducao/index.html. Acesso em: 15 mai. 2011. REYNOL, Fábio. Mineração de dados para diagnósticos médicos. 2010. Disponível em: http://agencia.fapesp.br/11928. Acesso em: 12 jul. 2011.
  • 55. 42 SBARAI, Rafael. A Mineração de Dados em Redes Sociais. 2010. Disponível em: http://derepente.com.br/2010/01/18/a-mineracao-de-dados-em-redes-sociais/. Acesso em: 18 mar. 2011. PRASS, Fernando Sarturi. KDD: Processo de Descoberta em Banco de Dados. Grupo de Interesse em Engenharia de Software, Florianópolis, 2004. SILVA, Marcelino Pereira dos Santos. Mineração de Dados – Conceitos, Aplicações e Experimentos com WEKA. Disponível em: http://bibliotecadigital.sbc.org.br/download.php?paper=35. Acesso em: 30 dez. 2010. SOLIEMAN, Osama K. Data Mining in Sports: A Research Overview. MIS Masters Project. 2006. Disponível em: http://www.google.com/url?sa=t&source=web&cd=2&ved=0CCMQFjAB&url=http%3A%2 F%2Fai.arizona.edu%2Fmis480%2Fsyllabus%2F6_Osama- DM_in_Sports.pdf&rct=j&q=minera%C3%A7%C3%A3o%20de%20dados%20nba&ei=zqoc TvDICcmtgQe32rDfCQ&usg=AFQjCNFZ_uG9HZxlMWoHhNWReVShd9zgZQ&sig2=Lwl 4fWhwGZqrmlX_m_wKHQ&cad=rja. Acesso em: 12 jul. 2011. VIANA, Reinaldo. Mineração de Dados: Introdução e Aplicações. Disponível em: http://www.sqlmagazine.com.br/Resumo_SQL10.asp. Acesso em: 20 mai. 2011. WIKIPEDIA. Extração de Conhecimento. Disponível em: http://pt.wikipedia.org/wiki/Extra%C3%A7%C3%A3o_de_conhecimento. Acesso em: 31 jan. 2011.
  • 56. 43 WIKIPEDIA. Mineração de Dados. Disponível em: http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados. Acesso em: 30 dez. 2010. ZANUSSO, Maria Bernadete. Data Mining. DCT, UFMS. Disponível em: http://www.dct.ufms.br/~mzanusso/Data_Mining.htm. Acesso em: 18 mar. 2011.
  • 57. 44 APÊNDICE I – CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSÃO DE CURSO Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Conclusão de Curso Atividades 2010 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª 1ª 2ª Início das atividades relacionadas ao Projeto X Tomada de decisões: Escolha do tema X Pesquisa Bibliográfica X Elaboração do problema da pesquisa X Levantamento de recursos disponíveis para elaboração do pré-projeto X Elaboração dos tópicos principais do pré-projeto X Revisão dos tópicos principais do pré-projeto X Confecção do pré-projeto X Entrega do pré-projeto ao Orientador X Elaboração dos tópicos principais da Monografia X X X X Possíveis correções do pré- projeto X X Entrega do pré-projeto ao Coordenador de PGII X Confecção da redação da Monografia X Entrega da Monografia parcial ao Orientador X Possíveis correções na Monografia parcial X Entrega da Monografia parcial ao Coordenador de PGII X Apresentação da Monografia parcial à Comissão de Avaliação X Continuação da elaboração da Monografia X X X X X X X X X X X Entrega da Monografia final ao Orientador X Possíveis correções na Monografia X X Confecção Pôster X Entrega do Pôster X Exposição Pôster X Entrega do trabalho final ao X
  • 58. 45 Coordenador de PGII Data de apresentação à Comissão de Avaliação X Entrega das correções ao Coordenador de PGII X Entrega da versão final X
  • 59. 46 APÊNDICE II - PÔSTER APRESENTADO NO III SIMPÓSIO DE TECNOLOGIA DA INFORMAÇÃO E III SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2011 Figura 18 - Pôster Mineração de Dados: Conceitos e Aplicações