SlideShare uma empresa Scribd logo
Estudo de caso sobre data mining
Ana Carolina Dedavid Ferreira
Stefani Rovenia Miranda Kopp
Universidade Federal de Lavras (UFLA)
• Localizada ao sul do estado de Minas Gerais
• Oferece 10 cursos de graduação e 28 cursos de pós-graduação presenciais.
• Diretamente ligados às atividades de pesquisa da UFLA estão 302 professores,
2.342 estudantes de graduação e 786 pós-graduandos (PRP, 2004).
• O estudo foi realizado na área de desenvolvimento de pesquisa científica;
• Os dados foram disponibilizados pelo uso da ferramenta Lattes extrator, dos
currículos de pessoas ligadas, de forma direta e indireta, à pesquisa científica da
UFLA.
Objetivo
Extrair conhecimento referente à produção científica das pessoas envolvidas com a
UFLA.
Técnica
Foi implementado um programa para transformar os dados semi-estruturados
selecionados da plataforma Lattes num banco de dados estruturado criado no
Oracle.
A partir daí, foi desenvolvida uma ferramenta automática de descoberta de
conhecimento, utilizando a técnica de data mining.
Seleção dos dados:
• Por meio do Lattes extrator, foram selecionados e extraídos, inicialmente, mais de mil documentos, que continham os
registros de toda a produção científica dos docentes, de alunos, ex-alunos, mestrandos e doutorandos da UFLA, entre
outras pessoas.
Pré-processamento dos dados:
• A partir da eliminação de incongruências e/ou erros dos dados, foram selecionados 575 currículos que continham dados
específicos referentes às produções científica, tecnológica e bibliográfica.
• Filtrando-se essas informações, o banco de dados resultante passou a conter 28.389 linhas.
Transformação dos dados:
• Transformação dos documentos obtidos no formato XML (dados semi-estruturados) em documentos SQL (BD relacional),
contendo o código de inserção e os dados a serem inseridos no banco de dados.
• Execução desses códigos SQL no sistema gerenciador de bancos de dados (SGBD) da Oracle;
Data mining:
• Cruzamento e comparação de consultas e funções definidas na linguagem de programação PL/SQL, própria do SGBD
Oracle;
Interpretação:
• O principal relatório desenvolvido foi uma dissertação de mestrado apresentada ao Departamento de Administração e
Economia da Ufla.
Resultados
• Ao preencherem seus currículos na plataforma Lattes, dá-se maior prioridade às atividades
de ensino e pesquisa do que às demais.
• Com relação às publicações, a grande maioria delas pertence à grande área de ciências
agrárias;
Currículos
x
Publicações
• Pessoas que não estão atuando na UFLA publicam mais do que quando estão:
• O fato de não estar atuando pode significar que possa estar fazendo pós-graduação e, por
isso, tende a uma maior quantidade de produção e publicações
• Ao estarem atuando na UFLA em atividades de ensino e direção, as pessoas têm menor
disponibilidade de tempo para a produção de trabalhos em pesquisa.
Atuação na UFLA
X
Publicações
• A média de publicações no exterior por pessoa é maior para aquelas que cursaram pós-
graduação fora do Brasil;
• A maioria das publicações foi realizada enquanto as pessoas exerciam atividades de
pesquisa, seguidas pelas pessoas que exerciam atividades de ensino e, por fim, enquanto
exerciam atividades de direção.
Número de
Publicações
Conclusão
Gerar um banco de dados estruturado faz parte de um processo maior de desenvolvimento de indicadores de
ciência e tecnologia, para auxiliar na elaboração de novas políticas de gestão científica e tecnológica e
aperfeiçoamento do sistema de ensino superior brasileiro.
Apesar de ter sido aplicada em uma área específica, o trabalho demonstrou como é possível também utilizar
tecnologias da informação para auxiliar na gestão de conhecimento disponível nas instituições de ensino
superior.
O sistema desenvolvido poderá ser incrementado e utilizado em trabalhos futuros, como:
A. Estabelecer novos critérios de exploração dos dados, gerando descoberta de novas informações e novo
conhecimento, trazendo melhorias para a ferramenta desenvolvida;
B. Elaborar normas para o preenchimento e atualização dos currículos lattes das pessoas envolvidas com a
pesquisa científica na UFLA;
C. Criação de indicadores de CT&I para a UFLA, com o objetivo de auxiliar a elaboração de novas políticas de
gestão;

Mais conteúdo relacionado

Semelhante a Estudo de caso sobre data mining

Gestão do conhecimento usando data mining
Gestão do conhecimento usando data miningGestão do conhecimento usando data mining
Gestão do conhecimento usando data mining
Talita Lima
 
15.03.26 gestão do conhecimento usando data mining
15.03.26   gestão do conhecimento usando data mining15.03.26   gestão do conhecimento usando data mining
15.03.26 gestão do conhecimento usando data mining
Talita Lima
 
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Conferência Luso-Brasileira de Ciência Aberta
 
Digital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verdeDigital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verde
Conferência Luso-Brasileira de Ciência Aberta
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
Elaine Naomi
 
Ofinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecasOfinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecas
Pedro Príncipe
 
Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)
Lucas dos Santos Abreu
 
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecasOficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Conferência Luso-Brasileira de Ciência Aberta
 
Extrator Lattes CNPq
Extrator Lattes CNPqExtrator Lattes CNPq
Extrator Lattes CNPq
Lucas dos Santos Abreu
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicos
Portal de Periódicos UFSC
 
Workshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados CientíficosWorkshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados Científicos
Pedro Príncipe
 
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Allan Júlio Santos
 
Master Degree Presentation - PPGTIC UFSC
Master Degree Presentation - PPGTIC UFSCMaster Degree Presentation - PPGTIC UFSC
Master Degree Presentation - PPGTIC UFSC
Lucas Mellos Carlos, MSc
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
Pedro Príncipe
 
Desafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilDesafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no Brasil
Cariniana Rede
 
Apresentação Teresinha das Graças Coletta - Parte 2
Apresentação Teresinha das Graças Coletta -  Parte 2Apresentação Teresinha das Graças Coletta -  Parte 2
Apresentação Teresinha das Graças Coletta - Parte 2
bcoufscar
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
Leandro de Castro
 
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJBiblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
Daniela Spudeit
 
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Conferência Luso-Brasileira de Ciência Aberta
 
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4edMetodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Glaucio Aranha
 

Semelhante a Estudo de caso sobre data mining (20)

Gestão do conhecimento usando data mining
Gestão do conhecimento usando data miningGestão do conhecimento usando data mining
Gestão do conhecimento usando data mining
 
15.03.26 gestão do conhecimento usando data mining
15.03.26   gestão do conhecimento usando data mining15.03.26   gestão do conhecimento usando data mining
15.03.26 gestão do conhecimento usando data mining
 
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
Estudo sobre os Dados Científicos gerados no âmbito da investigação produzida...
 
Digital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verdeDigital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verde
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
 
Ofinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecasOfinia em Gestão de dados científicos: o papel das bibliotecas
Ofinia em Gestão de dados científicos: o papel das bibliotecas
 
Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)
 
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecasOficina 4 - Gestao de dados cientificos: o papel das bibliotecas
Oficina 4 - Gestao de dados cientificos: o papel das bibliotecas
 
Extrator Lattes CNPq
Extrator Lattes CNPqExtrator Lattes CNPq
Extrator Lattes CNPq
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicos
 
Workshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados CientíficosWorkshop APDIS sobre Gestão de Dados Científicos
Workshop APDIS sobre Gestão de Dados Científicos
 
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
Seminário: Ferramentas da Qualidade aplicadas à Gestão de Projetos de Naturez...
 
Master Degree Presentation - PPGTIC UFSC
Master Degree Presentation - PPGTIC UFSCMaster Degree Presentation - PPGTIC UFSC
Master Degree Presentation - PPGTIC UFSC
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
 
Desafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilDesafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no Brasil
 
Apresentação Teresinha das Graças Coletta - Parte 2
Apresentação Teresinha das Graças Coletta -  Parte 2Apresentação Teresinha das Graças Coletta -  Parte 2
Apresentação Teresinha das Graças Coletta - Parte 2
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
 
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJBiblioteca Central do CCS promovendo a competência em Informação na UFRJ
Biblioteca Central do CCS promovendo a competência em Informação na UFRJ
 
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasil...
 
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4edMetodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
Metodologia de pesquisa_e_elaboracao_de_teses_e_dissertacoes_4ed
 

Último

História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
Momento da Informática
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
Danilo Pinotti
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
Faga1939
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 

Último (8)

História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 

Estudo de caso sobre data mining

  • 1. Estudo de caso sobre data mining Ana Carolina Dedavid Ferreira Stefani Rovenia Miranda Kopp
  • 2.
  • 3. Universidade Federal de Lavras (UFLA) • Localizada ao sul do estado de Minas Gerais • Oferece 10 cursos de graduação e 28 cursos de pós-graduação presenciais. • Diretamente ligados às atividades de pesquisa da UFLA estão 302 professores, 2.342 estudantes de graduação e 786 pós-graduandos (PRP, 2004). • O estudo foi realizado na área de desenvolvimento de pesquisa científica; • Os dados foram disponibilizados pelo uso da ferramenta Lattes extrator, dos currículos de pessoas ligadas, de forma direta e indireta, à pesquisa científica da UFLA.
  • 4. Objetivo Extrair conhecimento referente à produção científica das pessoas envolvidas com a UFLA. Técnica Foi implementado um programa para transformar os dados semi-estruturados selecionados da plataforma Lattes num banco de dados estruturado criado no Oracle. A partir daí, foi desenvolvida uma ferramenta automática de descoberta de conhecimento, utilizando a técnica de data mining.
  • 5. Seleção dos dados: • Por meio do Lattes extrator, foram selecionados e extraídos, inicialmente, mais de mil documentos, que continham os registros de toda a produção científica dos docentes, de alunos, ex-alunos, mestrandos e doutorandos da UFLA, entre outras pessoas. Pré-processamento dos dados: • A partir da eliminação de incongruências e/ou erros dos dados, foram selecionados 575 currículos que continham dados específicos referentes às produções científica, tecnológica e bibliográfica. • Filtrando-se essas informações, o banco de dados resultante passou a conter 28.389 linhas. Transformação dos dados: • Transformação dos documentos obtidos no formato XML (dados semi-estruturados) em documentos SQL (BD relacional), contendo o código de inserção e os dados a serem inseridos no banco de dados. • Execução desses códigos SQL no sistema gerenciador de bancos de dados (SGBD) da Oracle; Data mining: • Cruzamento e comparação de consultas e funções definidas na linguagem de programação PL/SQL, própria do SGBD Oracle; Interpretação: • O principal relatório desenvolvido foi uma dissertação de mestrado apresentada ao Departamento de Administração e Economia da Ufla.
  • 6. Resultados • Ao preencherem seus currículos na plataforma Lattes, dá-se maior prioridade às atividades de ensino e pesquisa do que às demais. • Com relação às publicações, a grande maioria delas pertence à grande área de ciências agrárias; Currículos x Publicações • Pessoas que não estão atuando na UFLA publicam mais do que quando estão: • O fato de não estar atuando pode significar que possa estar fazendo pós-graduação e, por isso, tende a uma maior quantidade de produção e publicações • Ao estarem atuando na UFLA em atividades de ensino e direção, as pessoas têm menor disponibilidade de tempo para a produção de trabalhos em pesquisa. Atuação na UFLA X Publicações • A média de publicações no exterior por pessoa é maior para aquelas que cursaram pós- graduação fora do Brasil; • A maioria das publicações foi realizada enquanto as pessoas exerciam atividades de pesquisa, seguidas pelas pessoas que exerciam atividades de ensino e, por fim, enquanto exerciam atividades de direção. Número de Publicações
  • 7. Conclusão Gerar um banco de dados estruturado faz parte de um processo maior de desenvolvimento de indicadores de ciência e tecnologia, para auxiliar na elaboração de novas políticas de gestão científica e tecnológica e aperfeiçoamento do sistema de ensino superior brasileiro. Apesar de ter sido aplicada em uma área específica, o trabalho demonstrou como é possível também utilizar tecnologias da informação para auxiliar na gestão de conhecimento disponível nas instituições de ensino superior. O sistema desenvolvido poderá ser incrementado e utilizado em trabalhos futuros, como: A. Estabelecer novos critérios de exploração dos dados, gerando descoberta de novas informações e novo conhecimento, trazendo melhorias para a ferramenta desenvolvida; B. Elaborar normas para o preenchimento e atualização dos currículos lattes das pessoas envolvidas com a pesquisa científica na UFLA; C. Criação de indicadores de CT&I para a UFLA, com o objetivo de auxiliar a elaboração de novas políticas de gestão;