Panorama de Pesquisas em Análise de Dados na UFPB

460 visualizações

Publicada em

Uma panorama sobre as pesquisas que estamos desenvolvendo na área de Análise de Dados na UFPB

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
460
No SlideShare
0
A partir de incorporações
0
Número de incorporações
114
Ações
Compartilhamentos
0
Downloads
5
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Sensibilidade = proporção de previsões corretas entre os verdadeiramente bolsistas: TP / (TP + FN)
    Especificidade = proporção de previsões corretas entre os verdadeiramente não-bolsistas: TN / (TN + FP)
    VPP = proporção de previsões corretas entre os apontados como bolsistas: TP / (TP + FP)
    VPN = proporção de previsões corretas entre os apontados como não-bolsistas: TN / (TN + FN)
    Acurácia = previsões corretas entre as previsões realizadas : (TN + TP) / (TN + TP + FN + FP)
  • Observamos que em situações como escândalos políticos e manifestações populares geram discussões e dividem opiniões entre os parlamentares. No caso do mensalão, por exemplo, muitos parlamentares tentaram desassociar dos acusados para preservar seus nomes. Sabendo disso, e utilizando-se dos dados das votações nominais na Câmara, disponíveis na Internet, mas de difícil visualização, propomos desenvolver uma ferramenta de visualização de dados que tentasse identificar se tais eventos, de fato, influenciam na coesão parlamentar, e se seria possível descobrir isso apenas utilizando-se desses dados.
  • OnCase: Business Intelligence, Business Analisys - Pentaho
  • Panorama de Pesquisas em Análise de Dados na UFPB

    1. 1. Um Panorama das Pesquisas em Análise de Dados em Andamento na UFPB Alexandre Duarte alexandre[.@]ci.ufpb.br
    2. 2. Ciência Financiamento de Pesquisa e Mérito Científico Política Eleições, Eleitores e Eleitos
    3. 3. Financiamento de Pesquisa e Mérito Científico
    4. 4. Financiamento de Pesquisa e Mérito Científico: Edital Universal
    5. 5. Financiamento de Pesquisa e Mérito Científico: Edital Universal Fato #1: 10 dos 51 Comitês concentram 40% dos projetos aprovados Fato #2: O Comitê da Computação foi o 9º mais contemplado em 2014 (3,2%)
    6. 6. Financiamento de Pesquisa e Mérito Científico: Edital Universal
    7. 7. Financiamento de Pesquisa e Mérito Científico: Edital Universal Fato #3: 20 instituições concentram 52.7% de todos os projetos universais aprovados em 2014 Fato #4: 20 instituições concentram 72.7% de todos os projetos universais aprovados em 2014 na Computação
    8. 8. Financiamento de Pesquisa e Mérito Científico: Bolsas de Produtividade 7% 6% 5% 4% 3% 2% 1% 0% Percentual de Bolsas em Andamento Distribuição das Bolsas de Produtividade em Pesquisa por Área Área
    9. 9. Financiamento de Pesquisa e Mérito Científico: Bolsas de Produtividade 7% 6% 5% 4% 3% 2% 1% 0% Percentual de Bolsas em Andamento Distribuição das Bolsas de Produtividade em Pesquisa por Área Fato #5: 10 (das 105) áreas concentram 35% das bolsas de produtividade em pesquisa do CNPq Área 35%
    10. 10. 18.00% 16.00% 14.00% 12.00% 10.00% 8.00% 6.00% 4.00% 2.00% 0.00% Percentual de Bolsas em Andamento Financiamento de Pesquisa e Mérito Científico: Bolsas de Produtividade Distribuição das Bolsas de Produtividade em Pesquisa por Instituição Instituição
    11. 11. 18.00% 16.00% 14.00% 12.00% 10.00% 8.00% 6.00% 4.00% 2.00% 0.00% Percentual de Bolsas em Andamento Financiamento de Pesquisa e Mérito Científico: Bolsas de Produtividade Distribuição das Bolsas de Produtividade em Pesquisa por Instituição Fato #6: 10 (das 334) instituições contempladas concentram 52% dos bolsistas de produtividade em pesquisa do CNPq Instituição 52%
    12. 12. Financiamento de Pesquisa e Mérito Científico: Bolsas de Produtividade 12.0% 10.0% 8.0% 6.0% 4.0% 2.0% 0.0% Percentual de Bolsas em Andamento Distribuição das Bolsas de Produtividade em Pesquisa da área de Computação por Instituição Instituição
    13. 13. Financiamento de Pesquisa e Mérito Científico: Bolsas de Produtividade 12.0% 10.0% 8.0% 6.0% 4.0% 2.0% 0.0% Percentual de Bolsas em Andamento Distribuição das Bolsas de Produtividade em Pesquisa da área de Computação por Instituição Fato #7: 7 (das 63) instituições contempladas concentram 50% dos bolsistas de produtividade em pesquisa do CNPq na área da Computação Instituição 50%
    14. 14. Motivação COMO EXPLICAR QUANTITATIVAMENTE TAIS CONCENTRAÇÕES?
    15. 15. “Diz-me com quem andas e dir-te-ei quem és. Saiba eu com que te ocupas e saberei também no que te poderás tornar.” Goethe
    16. 16. Financiamento de Pesquisa e Mérito Científico: Redes de Colaboração Profundidade 1: 70 nós e 137 arestas
    17. 17. Financiamento de Pesquisa e Mérito Científico: Redes de Colaboração Profundidade 2: 982 nós e 2821 arestas
    18. 18. Financiamento de Pesquisa e Mérito Científico: Redes de Colaboração Profundidade 2: 7784 nós e 25797 arestas
    19. 19. Financiamento de Pesquisa e Mérito Científico: Projetos em Andamento • Predição do Sucesso Científico de Pesquisadores Através de Métricas de Análise de Redes Sociais (Ayslânya Wanderley) • Contando a História da Pós-Graduação no Brasil (Luiz Carlos) • Quem sou eu no Mundo Acadêmico: Um Sistema para Visualização Comparativa de Produção Científica (José Leandro)
    20. 20. Predição do Sucesso Científico de Pesquisadores Através de Métricas de Análise de Redes Sociais É POSSÍVEL PREVER O DESEMPENHO DE UM PESQUISADOR POR MEIO DE SUA INTERAÇÃO EM UMA REDE DE COLABORAÇÃO CIENTÍFICA?
    21. 21. Predição do Sucesso Científico de Pesquisadores Através de Métricas de Análise de Redes Sociais: Metodologia
    22. 22. Predição do Sucesso Científico de Pesquisadores Através de Métricas de Análise de Redes Sociais: Modelo Preditivo Estimativa Desvio Padrão Teste de Wald P-Valor Limite Inferior Limite Superior Intercepto 2,944618 0,763316674 3,857662275 0,0001 1,448544747 4,440691128 Authority -6,73936 2,407871902 -2,79888634 0,0051 -11,45870198 -2,020017567 Degree_Centrality 0,017243 0,007735031 2,229224744 0,0258 0,00208274 0,032403506 PageRank -4,83117 1,681259247 -2,873540896 0,0041 -8,126374773 -1,535959629 Clustering_Coefficient -4,29246 1,218407018 -3,523010611 0,0004 -6,680494725 -1,904426979 Matriz de Confusão a Observado Status_Pesquisador = 0 Status_Pesquisador = 1 Predito Status_Pesquisador = 0 193 (TN) 58 (FN) Status_Pesquisador = 1 74 (FP) 209 (TP) Desempenho % Sensibilidade 78,3 Especificidade 72,3 VPP 73,9 VPN 76,9 Acurácia 75,3 a O ponto de corte é 0,5
    23. 23. Contando a História da Pós-Graduação no Brasil COMO EVOLUÍRAM OS PROGRAMAS DE PÓS-GRADUAÇÃO NO BRASIL AO LONGO DOS ANOS?
    24. 24. Contando a História da Pós-Graduação no Brasil A network framework of cultural history Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, Dirk Helbing Science 1 August 2014: vol. 345 no. 6196 pp. 558-562 DOI: 10.1126/science.1240064
    25. 25. Contando a História da Pós-Graduação no Brasil • Caracterizar a evolução histórica da formação de pesquisadores e dos programas de pós-graduação no Brasil • Identificar os centros de influência nas diferentes área de pesquisa no País • Fazer uma análise da correlação entre o local/período de formação dos pesquisadores e o conceito dos programas de pós-graduação onde estes pesquisadores atuam • Status: • Baixamos o Lattes! (3.9 milhões de currículos em XML) • Começando a extração (e normalização) dos dados
    26. 26. Contando a História da Pós-Graduação no Brasil
    27. 27. Quem sou eu no Mundo Acadêmico UM SISTEMA PARA VISUALIZAÇÃO COMPARATIVA DE PRODUÇÃO CIENTÍFICA
    28. 28. Quem sou eu no mundo acadêmico? • Desenvolvimento de uma ferramenta para comparação visual de currículos lattes • Permitir diferentes tipos de análises (visuais) a partir de conjuntos de currículos lattes • Detecção de tendências • Detecção de outliers • Superposição de currículos • Possíveis sub-conjuntos de interesse • Bolsistas de Produtividade • Pesquisadores de uma determinada área/idade/instituição/programa de pós • Status • Começando a extração dos dados
    29. 29. Ciência Financiamento de Pesquisa e Mérito Científico Política Eleições, Eleitores e Eleitos
    30. 30. Eleições, Eleitores e Eleitos
    31. 31. Não vote nos Parentes Fonte: “Clãs políticos no Congresso Nacional“ - ONG Transparência Brasil
    32. 32. Não vote nos Parentes • Correlação = -0.34 (Pearson) Coeficiente de Correlação = -0.34 (pearson)
    33. 33. Não vote nos Parentes • Correlação = -0.62 (Pearson) Coeficiente de Correlação = -0.34 (pearson)
    34. 34. Não vote nos Parentes • Correlação = 0.77 (Pearson) Coeficiente de Correlação = -0.34 (pearson)
    35. 35. Não vote nos Parentes • Somos pobres, subdesenvolvidos e analfabetos porque alimentamos as oligarquias • Alimentamos as oligarquias porque somos pobres, subdesenvolvidos e analfabetos • Correlação não implica em causalidade
    36. 36. Quem são os nossos Candidatos?
    37. 37. Quem são os nossos Candidatos?
    38. 38. Quem são os nossos Candidatos?
    39. 39. Quem são os nossos Candidatos?
    40. 40. Quem são os nossos Candidatos?
    41. 41. Quem são os nossos Candidatos?
    42. 42. Quem são os nossos Candidatos?
    43. 43. Política + Religião = ?
    44. 44. Política + Religião = ?
    45. 45. Política + Religião = ?
    46. 46. Política + Religião = ?
    47. 47. Política + Religião = ? Se com um crescimento de 1.76% no número de candidatos líderes religiosos de 2006 para 2010 o número de eleitos nesta área aumentou em 91.7%, o que vai acontecer em 2014, com um contingente 34.73% maior de líderes religiosos disputando cargos eletivos ?
    48. 48. Política + Religião = ?
    49. 49. Eleições, Eleitores e Eleitos: Projetos em Andamento • Coesão Parlamentar: Uma ferramenta para analisar mudanças na coesão entre parlamentares em votações nominais (Vitor Baptista) • Infografia Interativa utilizando Dados Eleitorais (Lucas Lacerda, Filipe Araújo e Ed Porto) • Um Mapeamento da Genealogia Política no Brasil (Maria Clara)
    50. 50. Coesão Parlamentar: Uma ferramenta para analisar mudanças na coesão entre parlamentares em votações nominais É POSSÍVEL IDENTIFICAR EVENTOS POLÍTICOS SIGNIFICATIVOS ATRAVÉS DO MONITORAMENTO DA COESÃO PARLAMENTAR ?
    51. 51. Coesão Parlamentar: Questões de pesquisa • É possível identificar mudanças na coesão parlamentar baseando-se nos resultados das votações da Câmara? • Escândalos, manifestações populares e eventos históricos impactam, de alguma forma, a coesão parlamentar?
    52. 52. Coesão Parlamentar: Metodologia • Extração e mineração de dados através de uma API da página da Câmara dos Deputados • Criação de API própria para otimizar coleta de dados relevantes • Criação de um grafo não direcional com arestas ponderadas pelo Índice de Rice • Criação de uma ferramenta de visualização para os dados
    53. 53. Coesão Parlamentar: Estudo de caso - Mensalão
    54. 54. Coesão Parlamentar: Estudo de caso - Mensalão 2001
    55. 55. Coesão Parlamentar: Estudo de caso - Mensalão 2002
    56. 56. Coesão Parlamentar: Estudo de caso - Mensalão 2003
    57. 57. Infografia Interativa utilizando Dados Eleitorais INFORMAÇÃO É LEGAL! INFORMAÇÃO INTERATIVA É AINDA MAIS LEGAL!
    58. 58. Infografia Interativa utilizando Dados Eleitorais
    59. 59. Infografia Interativa utilizando Dados Eleitorais
    60. 60. Infografia Interativa utilizando Dados Eleitorais
    61. 61. Infografia Interativa utilizando Dados Eleitorais
    62. 62. Um Mapeamento da Genealogia Política no Brasil DESCOBRINDO A REDE GENEALÓGICA DOS POLÍTICOS BRASILEIROS
    63. 63. Um Mapeamento da Genealogia Política no Brasil ? Crowdsourcing!
    64. 64. Um Mapeamento da Genealogia Política no Brasil
    65. 65. LABORATÓRIO DE TRANSPARÊNCIA PÚBLICA E BUSINESS ANALYTICS
    66. 66. Laboratório de Transparência Pública e Business Analytics • LABTRANSP (Nome em construção!) – 21/11/2014 • Parceria da UFPB (Departamento de Tecnologia em Gestão, Departamento de Finanças e Contabilidade+ Centro de Informática) com a OnCase • Treinamento Pentaho e seleção de bolsistas em Dezembro/2014 e Janeiro/2015
    67. 67. Obrigado! alexandre@c i.ufpb.br

    ×