SlideShare uma empresa Scribd logo
1 de 7
Baixar para ler offline
Estudo de caso sobre data mining
Ana Carolina Dedavid Ferreira
Stefani Rovenia Miranda Kopp
Universidade Federal de Lavras (UFLA)
• Localizada ao sul do estado de Minas Gerais
• Oferece 10 cursos de graduação e 28 cursos de pós-graduação presenciais.
• Diretamente ligados às atividades de pesquisa da UFLA estão 302 professores,
2.342 estudantes de graduação e 786 pós-graduandos (PRP, 2004).
• O estudo foi realizado na área de desenvolvimento de pesquisa científica;
• Os dados foram disponibilizados pelo uso da ferramenta Lattes extrator, dos
currículos de pessoas ligadas, de forma direta e indireta, à pesquisa científica da
UFLA.
Objetivo
Extrair conhecimento referente à produção científica das pessoas envolvidas com a
UFLA.
Técnica
Foi implementado um programa para transformar os dados semi-estruturados
selecionados da plataforma Lattes num banco de dados estruturado criado no
Oracle.
A partir daí, foi desenvolvida uma ferramenta automática de descoberta de
conhecimento, utilizando a técnica de data mining.
Seleção dos dados:
• Por meio do Lattes extrator, foram selecionados e extraídos, inicialmente, mais de mil documentos, que continham os
registros de toda a produção científica dos docentes, de alunos, ex-alunos, mestrandos e doutorandos da UFLA, entre
outras pessoas.
Pré-processamento dos dados:
• A partir da eliminação de incongruências e/ou erros dos dados, foram selecionados 575 currículos que continham dados
específicos referentes às produções científica, tecnológica e bibliográfica.
• Filtrando-se essas informações, o banco de dados resultante passou a conter 28.389 linhas.
Transformação dos dados:
• Transformação dos documentos obtidos no formato XML (dados semi-estruturados) em documentos SQL (BD relacional),
contendo o código de inserção e os dados a serem inseridos no banco de dados.
• Execução desses códigos SQL no sistema gerenciador de bancos de dados (SGBD) da Oracle;
Data mining:
• Cruzamento e comparação de consultas e funções definidas na linguagem de programação PL/SQL, própria do SGBD
Oracle;
Interpretação:
• O principal relatório desenvolvido foi uma dissertação de mestrado apresentada ao Departamento de Administração e
Economia da Ufla.
Resultados
• Ao preencherem seus currículos na plataforma Lattes, dá-se maior prioridade às atividades
de ensino e pesquisa do que às demais.
• Com relação às publicações, a grande maioria delas pertence à grande área de ciências
agrárias;
Currículos
x
Publicações
• Pessoas que não estão atuando na UFLA publicam mais do que quando estão:
• O fato de não estar atuando pode significar que possa estar fazendo pós-graduação e, por
isso, tende a uma maior quantidade de produção e publicações
• Ao estarem atuando na UFLA em atividades de ensino e direção, as pessoas têm menor
disponibilidade de tempo para a produção de trabalhos em pesquisa.
Atuação na UFLA
X
Publicações
• A média de publicações no exterior por pessoa é maior para aquelas que cursaram pós-
graduação fora do Brasil;
• A maioria das publicações foi realizada enquanto as pessoas exerciam atividades de
pesquisa, seguidas pelas pessoas que exerciam atividades de ensino e, por fim, enquanto
exerciam atividades de direção.
Número de
Publicações
Conclusão
Gerar um banco de dados estruturado faz parte de um processo maior de desenvolvimento de indicadores de
ciência e tecnologia, para auxiliar na elaboração de novas políticas de gestão científica e tecnológica e
aperfeiçoamento do sistema de ensino superior brasileiro.
Apesar de ter sido aplicada em uma área específica, o trabalho demonstrou como é possível também utilizar
tecnologias da informação para auxiliar na gestão de conhecimento disponível nas instituições de ensino
superior.
O sistema desenvolvido poderá ser incrementado e utilizado em trabalhos futuros, como:
A. Estabelecer novos critérios de exploração dos dados, gerando descoberta de novas informações e novo
conhecimento, trazendo melhorias para a ferramenta desenvolvida;
B. Elaborar normas para o preenchimento e atualização dos currículos lattes das pessoas envolvidas com a
pesquisa científica na UFLA;
C. Criação de indicadores de CT&I para a UFLA, com o objetivo de auxiliar a elaboração de novas políticas de
gestão;

Mais conteúdo relacionado

Semelhante a Estudo de caso sobre data mining

15.03.26 gestão do conhecimento usando data mining
15.03.26   gestão do conhecimento usando data mining15.03.26   gestão do conhecimento usando data mining
15.03.26 gestão do conhecimento usando data miningTalita Lima
 
Gestão do conhecimento usando data mining
Gestão do conhecimento usando data miningGestão do conhecimento usando data mining
Gestão do conhecimento usando data miningTalita Lima
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicosElaine Naomi
 
Ofinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecasOfinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecasPedro Príncipe
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicosPortal de Periódicos UFSC
 
Workshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados CientíficosWorkshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados CientíficosPedro Príncipe
 
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...Allan Júlio Santos
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...Pedro Príncipe
 
Desafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilDesafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilCariniana Rede
 
Apresentação Teresinha das Graças Coletta - Parte 2
Apresentação Teresinha das Graças Coletta -  Parte 2Apresentação Teresinha das Graças Coletta -  Parte 2
Apresentação Teresinha das Graças Coletta - Parte 2bcoufscar
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em ComputaçãoLeandro de Castro
 
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJBiblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJDaniela Spudeit
 
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4edMetodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4edGlaucio Aranha
 

Semelhante a Estudo de caso sobre data mining (20)

15.03.26 gestão do conhecimento usando data mining
15.03.26   gestão do conhecimento usando data mining15.03.26   gestão do conhecimento usando data mining
15.03.26 gestão do conhecimento usando data mining
 
Gestão do conhecimento usando data mining
Gestão do conhecimento usando data miningGestão do conhecimento usando data mining
Gestão do conhecimento usando data mining
 
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
 
Digital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verdeDigital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verde
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
 
Ofinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecasOfinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecas
 
Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)
 
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecasOficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecas
 
Extrator Lattes CNPq
Extrator Lattes CNPqExtrator Lattes CNPq
Extrator Lattes CNPq
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicos
 
Workshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados CientíficosWorkshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados Científicos
 
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
 
Master Degree Presentation - PPGTIC UFSC
Master Degree Presentation - PPGTIC UFSCMaster Degree Presentation - PPGTIC UFSC
Master Degree Presentation - PPGTIC UFSC
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
 
Desafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilDesafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no Brasil
 
Apresentação Teresinha das Graças Coletta - Parte 2
Apresentação Teresinha das Graças Coletta -  Parte 2Apresentação Teresinha das Graças Coletta -  Parte 2
Apresentação Teresinha das Graças Coletta - Parte 2
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
 
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJBiblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
 
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
 
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4edMetodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
 

Estudo de caso sobre data mining

  • 1. Estudo de caso sobre data mining Ana Carolina Dedavid Ferreira Stefani Rovenia Miranda Kopp
  • 2.
  • 3. Universidade Federal de Lavras (UFLA) • Localizada ao sul do estado de Minas Gerais • Oferece 10 cursos de graduação e 28 cursos de pós-graduação presenciais. • Diretamente ligados às atividades de pesquisa da UFLA estão 302 professores, 2.342 estudantes de graduação e 786 pós-graduandos (PRP, 2004). • O estudo foi realizado na área de desenvolvimento de pesquisa científica; • Os dados foram disponibilizados pelo uso da ferramenta Lattes extrator, dos currículos de pessoas ligadas, de forma direta e indireta, à pesquisa científica da UFLA.
  • 4. Objetivo Extrair conhecimento referente à produção científica das pessoas envolvidas com a UFLA. Técnica Foi implementado um programa para transformar os dados semi-estruturados selecionados da plataforma Lattes num banco de dados estruturado criado no Oracle. A partir daí, foi desenvolvida uma ferramenta automática de descoberta de conhecimento, utilizando a técnica de data mining.
  • 5. Seleção dos dados: • Por meio do Lattes extrator, foram selecionados e extraídos, inicialmente, mais de mil documentos, que continham os registros de toda a produção científica dos docentes, de alunos, ex-alunos, mestrandos e doutorandos da UFLA, entre outras pessoas. Pré-processamento dos dados: • A partir da eliminação de incongruências e/ou erros dos dados, foram selecionados 575 currículos que continham dados específicos referentes às produções científica, tecnológica e bibliográfica. • Filtrando-se essas informações, o banco de dados resultante passou a conter 28.389 linhas. Transformação dos dados: • Transformação dos documentos obtidos no formato XML (dados semi-estruturados) em documentos SQL (BD relacional), contendo o código de inserção e os dados a serem inseridos no banco de dados. • Execução desses códigos SQL no sistema gerenciador de bancos de dados (SGBD) da Oracle; Data mining: • Cruzamento e comparação de consultas e funções definidas na linguagem de programação PL/SQL, própria do SGBD Oracle; Interpretação: • O principal relatório desenvolvido foi uma dissertação de mestrado apresentada ao Departamento de Administração e Economia da Ufla.
  • 6. Resultados • Ao preencherem seus currículos na plataforma Lattes, dá-se maior prioridade às atividades de ensino e pesquisa do que às demais. • Com relação às publicações, a grande maioria delas pertence à grande área de ciências agrárias; Currículos x Publicações • Pessoas que não estão atuando na UFLA publicam mais do que quando estão: • O fato de não estar atuando pode significar que possa estar fazendo pós-graduação e, por isso, tende a uma maior quantidade de produção e publicações • Ao estarem atuando na UFLA em atividades de ensino e direção, as pessoas têm menor disponibilidade de tempo para a produção de trabalhos em pesquisa. Atuação na UFLA X Publicações • A média de publicações no exterior por pessoa é maior para aquelas que cursaram pós- graduação fora do Brasil; • A maioria das publicações foi realizada enquanto as pessoas exerciam atividades de pesquisa, seguidas pelas pessoas que exerciam atividades de ensino e, por fim, enquanto exerciam atividades de direção. Número de Publicações
  • 7. Conclusão Gerar um banco de dados estruturado faz parte de um processo maior de desenvolvimento de indicadores de ciência e tecnologia, para auxiliar na elaboração de novas políticas de gestão científica e tecnológica e aperfeiçoamento do sistema de ensino superior brasileiro. Apesar de ter sido aplicada em uma área específica, o trabalho demonstrou como é possível também utilizar tecnologias da informação para auxiliar na gestão de conhecimento disponível nas instituições de ensino superior. O sistema desenvolvido poderá ser incrementado e utilizado em trabalhos futuros, como: A. Estabelecer novos critérios de exploração dos dados, gerando descoberta de novas informações e novo conhecimento, trazendo melhorias para a ferramenta desenvolvida; B. Elaborar normas para o preenchimento e atualização dos currículos lattes das pessoas envolvidas com a pesquisa científica na UFLA; C. Criação de indicadores de CT&I para a UFLA, com o objetivo de auxiliar a elaboração de novas políticas de gestão;