1
Data Analysis
Open Data
Professoras: Ceça e Roberta
Estudantes: Jonathan e Lisandra
Departamento de Estatística e Informática (DEINFO)
Universidade Federal Rural de Pernambuco (UFRPE)
ABCdas TIC
Analytics
ABCdas TIC
DaaS  Database as a Service
AaaS  Analytics as a Service
BD Relacional
Data Warehouse
OLAP e Data Mining: Inteligência da Empresa
Memória da
Empresa
BIG DATA
DATA
WAREHOUSE
DATA MINING
MACHINE
LEARNING
A mina de ouro dos bits!
Competência
Open Data
Big Data é um tsunami (ainda) em alto mar
Data Mining Lifecycle
Explosão de Dados
Source: International Data Corporation (IDC) - https://www.idc.com
Web 2.0 e IoT
10
20
30
40
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
2011  1,7 ZB
2017  14 ZB
2020  40 ZB
The measure of all digital data created, replicated and consumed
The Digital Universe
Fonte: IBM - http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html
15 petabytes de dados estruturados (10%) e
não estruturados (90%) são gerados todos os dias!
Big Data can be characterised as amount
of digital data that is uncomfortable to
store, transport or analyse.
Seleção
Pré-Processamento
Transformação
Estratificação
Discretização
Cenários
Mineração e
Interpretação dos
Resultados
BIG
DATAcharacterised using 4V’s
The amount of data
generated on planet earth
is growing exponentially
How much of the vast
amounts of data do we
analyse?
0,5%Just imagine the potential here!
Source: https://www.forbes.com/sites/bernardmarr
3% dos dados potencialmente úteis é identificado,
menos ainda é analisado.
Se você não está pagando
pelo produto/software,
você é o produto!Produto = dados que você gera
Deseja conhecer o perfil de clientes/estudantes/pacientes?
Deseja encontrar tendências úteis, tais como o comportamento dos
consumidores?
Pretende agregar valor (R$) com as técnicas de análise de dados?
Almeja tornar o marketing mais eficiente, fazendo sua instituição prosperar?
Quer descobrir do governo a fim de fiscalizar e cobrar a aplicação das
políticas públicas em benefício dos cidadãos?
Então, prepare-se para seus dados!
Previsão
Descrição
Aplicações Potenciais de DM
Áreas de
Aplicações
Vendas e
Marketing
Redes
Sociais
Bancos e
Finanças
Política
Saúde
Educação
(MDE)
Entre outras...
Exemplo clássico de DM
O que cerveja tem a ver com fraldas?
Suposições:
– Tem o mesmo número de letras?
– Cerveja no presente, fraldas no futuro?
– ???
• Constatou-se que muitos homens casados, entre 25 e 35 anos,
compravam fraldas e cervejas às sextas-feiras à tarde/noite
(provavelmente no caminho do trabalho para casa).
• Walmart otimizou as prateleiras nos pontos de vendas,
colocando as fraldas ao lado das cervejas.
• Resultado: o consumo cresceu ainda mais.
30%
Exemplo 2 (caso verídico em 2012)
Grande rede de varejo dos EUA descobre gravidez
de adolescente antes dos pais.
TARGET
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-
target-figured-out-a-teen-girl-was-pregnant-before-her-father-
did/
http://www.nytimes.com/2012/02/19/magazine/shopping-
habits.html?pagewanted=all&module=Search&mabReward=
relbias%3As&_r=0
Exemplo 2
Exemplo 3 - Banco Itaú
Enviava mais de 1 milhão de malas diretas, para
todos os correntistas.
– No máximo 2% deles respondiam às promoções.
Hoje, com a mineração dos dados, as cartas são enviadas apenas a
quem tem maior chance de responder.
– A taxa de retorno subiu para 30%.
– A conta do correio foi reduzida a 1/5.
Exemplo 4 - SERPRO
Investiu milhões no seu projeto de DW e DM, desenvolvido em
parceria com a Oracle.
Consolidou 5% de suas informações, mas atualmente já é possível
fazer em 5 minutos cruzamentos de dados que antes demandavam
dias de trabalho.
PROJETOS
Projeto de Pesquisa
Processo de Descoberta de Conhecimento em Ambientes Virtuais
de Aprendizagem da Educação a Distância (FACEPE/CNPq)
OBJETIVO: traçar perfil de estudantes e cursos da EaD (PE, PB e Nacional),
visando investigar obstáculos enfrentados pelos docentes, discentes e instituições
que ofertam cursos na modalidade a distância.
DADOS:
Sistemas de gestão acadêmica (SIG@ e SIGAA) de duas IES:
2007 a 2014
Projeto de Pesquisa
Processo de Descoberta de Conhecimento em Ambientes Virtuais
de Aprendizagem da Educação a Distância (FACEPE/CNPq)
Deu origem a dois novos projetos:
1. Data Mining em Ambientes Virtuais de Aprendizagem para Educação a
Distância (PIBITI/CNPq) – 2014 a 2015.
2. Mineração de Dados Educacionais em Ambientes B-learning de
Instituições Federais de Ensino Superior (PIBIC/PIC/UFRPE) – 2015 a 2016
Projeto de Pesquisa
Algoritmos do Aprendizado de Máquina Aplicados na Mineração de
Dados Educacionais Abertos do INEP
OBJETIVO: implementar um ambiente computacional analítico visando analisar o perfil
de estudantes e instituições brasileiras de ensino fundamental, médio e superior.
DADOS:
Censo Escolar
Censo da Educação Superior
2014 e 2015
Projeto de Pesquisa
Algoritmos do Aprendizado de Máquina Aplicados na Mineração de
Dados Educacionais Abertos do INEP
Deu origem a dois novos projetos:
1. Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados
Educacionais do INEP (PIBIC/CNPq) – 2017.
2. Técnicas de Classificação e Associação Aplicadas em Dados Abertos dos
Censos da Educação Básica e Superior (PIBITI/CNPq) – 2017.
Orientações TCCBacharelado em Sistemas de Informação
Orientações TCC
2014/2015
Comparação de Algoritmos do Aprendizado de
Máquina Aplicados na Mineração de Dados
Educacionais – Mirela.
Descoberta de Conhecimento Utilizando Mineração
de Dados Educacionais Abertos – Tancicleide.
Implementação de SIG e Mapas de Kernel visando
Acessibilidade na Educação Superior – Fernanda.
Orientações TCC
2016
Análise de desempenho de banco de dados não relacionais no
cenário de dados abertos educacionais – Felipe.
Processo de descoberta de conhecimento em Big Data
educacional para implementação de um Sistema de Informação
Geográfica – Rafaella.
Análise de modelos de dados não relacionais e
multidimensionais no contexto de Big Data – Maria Camila.
Um framework multiplataforma para análise e monitoramento
de dados governamentais – Geraldo.
Orientações TCC
2017 (em andamento...)
Processo KDD de Decretos e Convênios: Estudo de Caso
ALEPE – Gustavo.
Mapas de Kernel para Análise de Dados Minerados Do
Mercado – Anderson.
Pesquisas em Análises de Dados e Dados Abertos
Obtenção (e limpeza) dos dados!
Limitações
Big Data é um tsunami AINDA em alto mar
Data Analyst
Data Scientist
Portal Brasileiro de Dados Abertos
Dados Abertos do Recife
Convênios e Contratos da Administração Pública Federal
Portal de Transparência dos Recursos Públicos Federais
Portal de Transparência do Conselho Nacional de Justiça
Portal de Transparência do Ministério Público Federal
Portal de Transparência da Polícia Federal
Instituto Brasileiro de Geografia e Estatística (IBGE)
Dados Abertos Educacionais do INEP/MEC
UCI Repository of Machine Learning Databases
Kaggle Datasets
Dados abertos da NASA
Gapminder
Google Public Data e Google Finance
Freebase
DataViva
Bases de Dados Abertas (Diversos Domínios)
Fonte: http://youtu.be/tfaYKbbYnXU (vídeo)
Introdução ao Tema
Cap. 28 - Conceitos de Mineração de Dados
Cap. 29 - Visão Geral de Data Warehousing e OLAP
Cap. 20
Depósito e
Mineração de Dados
William H. Inmon
Ian H. Witten
Pang-Ning Tan
Jiawei Han; Micheline Kamber;
Jian Pei
Matthew A. Russell
Gordon S. Linoff
Michael J. A. Berry
Viktor Mayer-schonberger
Bibliografias Indicadas
Roland Bouman
53
Data Analysis
Open Data
Professoras: Ceça e Roberta
Estudantes: Jonathan e Lisandra
Departamento de Estatística e Informática (DEINFO)
Universidade Federal Rural de Pernambuco (UFRPE)

Data analysis open data

  • 1.
    1 Data Analysis Open Data Professoras:Ceça e Roberta Estudantes: Jonathan e Lisandra Departamento de Estatística e Informática (DEINFO) Universidade Federal Rural de Pernambuco (UFRPE)
  • 2.
  • 3.
    Analytics ABCdas TIC DaaS Database as a Service AaaS  Analytics as a Service
  • 4.
    BD Relacional Data Warehouse OLAPe Data Mining: Inteligência da Empresa Memória da Empresa
  • 5.
    BIG DATA DATA WAREHOUSE DATA MINING MACHINE LEARNING Amina de ouro dos bits! Competência
  • 6.
  • 7.
    Big Data éum tsunami (ainda) em alto mar Data Mining Lifecycle
  • 8.
    Explosão de Dados Source:International Data Corporation (IDC) - https://www.idc.com Web 2.0 e IoT 10 20 30 40 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2011  1,7 ZB 2017  14 ZB 2020  40 ZB The measure of all digital data created, replicated and consumed The Digital Universe
  • 9.
    Fonte: IBM -http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html 15 petabytes de dados estruturados (10%) e não estruturados (90%) são gerados todos os dias!
  • 11.
    Big Data canbe characterised as amount of digital data that is uncomfortable to store, transport or analyse.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 21.
    The amount ofdata generated on planet earth is growing exponentially
  • 22.
    How much ofthe vast amounts of data do we analyse?
  • 23.
    0,5%Just imagine thepotential here! Source: https://www.forbes.com/sites/bernardmarr
  • 24.
    3% dos dadospotencialmente úteis é identificado, menos ainda é analisado.
  • 26.
    Se você nãoestá pagando pelo produto/software, você é o produto!Produto = dados que você gera
  • 28.
    Deseja conhecer operfil de clientes/estudantes/pacientes? Deseja encontrar tendências úteis, tais como o comportamento dos consumidores? Pretende agregar valor (R$) com as técnicas de análise de dados? Almeja tornar o marketing mais eficiente, fazendo sua instituição prosperar? Quer descobrir do governo a fim de fiscalizar e cobrar a aplicação das políticas públicas em benefício dos cidadãos? Então, prepare-se para seus dados!
  • 29.
  • 30.
    Aplicações Potenciais deDM Áreas de Aplicações Vendas e Marketing Redes Sociais Bancos e Finanças Política Saúde Educação (MDE) Entre outras...
  • 31.
    Exemplo clássico deDM O que cerveja tem a ver com fraldas? Suposições: – Tem o mesmo número de letras? – Cerveja no presente, fraldas no futuro? – ???
  • 32.
    • Constatou-se quemuitos homens casados, entre 25 e 35 anos, compravam fraldas e cervejas às sextas-feiras à tarde/noite (provavelmente no caminho do trabalho para casa). • Walmart otimizou as prateleiras nos pontos de vendas, colocando as fraldas ao lado das cervejas. • Resultado: o consumo cresceu ainda mais. 30%
  • 33.
    Exemplo 2 (casoverídico em 2012) Grande rede de varejo dos EUA descobre gravidez de adolescente antes dos pais. TARGET
  • 34.
  • 35.
    Exemplo 3 -Banco Itaú Enviava mais de 1 milhão de malas diretas, para todos os correntistas. – No máximo 2% deles respondiam às promoções. Hoje, com a mineração dos dados, as cartas são enviadas apenas a quem tem maior chance de responder. – A taxa de retorno subiu para 30%. – A conta do correio foi reduzida a 1/5.
  • 36.
    Exemplo 4 -SERPRO Investiu milhões no seu projeto de DW e DM, desenvolvido em parceria com a Oracle. Consolidou 5% de suas informações, mas atualmente já é possível fazer em 5 minutos cruzamentos de dados que antes demandavam dias de trabalho.
  • 37.
  • 38.
    Projeto de Pesquisa Processode Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq) OBJETIVO: traçar perfil de estudantes e cursos da EaD (PE, PB e Nacional), visando investigar obstáculos enfrentados pelos docentes, discentes e instituições que ofertam cursos na modalidade a distância. DADOS: Sistemas de gestão acadêmica (SIG@ e SIGAA) de duas IES: 2007 a 2014
  • 39.
    Projeto de Pesquisa Processode Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq) Deu origem a dois novos projetos: 1. Data Mining em Ambientes Virtuais de Aprendizagem para Educação a Distância (PIBITI/CNPq) – 2014 a 2015. 2. Mineração de Dados Educacionais em Ambientes B-learning de Instituições Federais de Ensino Superior (PIBIC/PIC/UFRPE) – 2015 a 2016
  • 40.
    Projeto de Pesquisa Algoritmosdo Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP OBJETIVO: implementar um ambiente computacional analítico visando analisar o perfil de estudantes e instituições brasileiras de ensino fundamental, médio e superior. DADOS: Censo Escolar Censo da Educação Superior 2014 e 2015
  • 41.
    Projeto de Pesquisa Algoritmosdo Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP Deu origem a dois novos projetos: 1. Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais do INEP (PIBIC/CNPq) – 2017. 2. Técnicas de Classificação e Associação Aplicadas em Dados Abertos dos Censos da Educação Básica e Superior (PIBITI/CNPq) – 2017.
  • 42.
    Orientações TCCBacharelado emSistemas de Informação
  • 43.
    Orientações TCC 2014/2015 Comparação deAlgoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais – Mirela. Descoberta de Conhecimento Utilizando Mineração de Dados Educacionais Abertos – Tancicleide. Implementação de SIG e Mapas de Kernel visando Acessibilidade na Educação Superior – Fernanda.
  • 44.
    Orientações TCC 2016 Análise dedesempenho de banco de dados não relacionais no cenário de dados abertos educacionais – Felipe. Processo de descoberta de conhecimento em Big Data educacional para implementação de um Sistema de Informação Geográfica – Rafaella. Análise de modelos de dados não relacionais e multidimensionais no contexto de Big Data – Maria Camila. Um framework multiplataforma para análise e monitoramento de dados governamentais – Geraldo.
  • 45.
    Orientações TCC 2017 (emandamento...) Processo KDD de Decretos e Convênios: Estudo de Caso ALEPE – Gustavo. Mapas de Kernel para Análise de Dados Minerados Do Mercado – Anderson.
  • 46.
    Pesquisas em Análisesde Dados e Dados Abertos Obtenção (e limpeza) dos dados! Limitações
  • 48.
    Big Data éum tsunami AINDA em alto mar Data Analyst Data Scientist
  • 49.
    Portal Brasileiro deDados Abertos Dados Abertos do Recife Convênios e Contratos da Administração Pública Federal Portal de Transparência dos Recursos Públicos Federais Portal de Transparência do Conselho Nacional de Justiça Portal de Transparência do Ministério Público Federal Portal de Transparência da Polícia Federal Instituto Brasileiro de Geografia e Estatística (IBGE) Dados Abertos Educacionais do INEP/MEC UCI Repository of Machine Learning Databases Kaggle Datasets Dados abertos da NASA Gapminder Google Public Data e Google Finance Freebase DataViva Bases de Dados Abertas (Diversos Domínios)
  • 50.
  • 51.
    Introdução ao Tema Cap.28 - Conceitos de Mineração de Dados Cap. 29 - Visão Geral de Data Warehousing e OLAP Cap. 20 Depósito e Mineração de Dados
  • 52.
    William H. Inmon IanH. Witten Pang-Ning Tan Jiawei Han; Micheline Kamber; Jian Pei Matthew A. Russell Gordon S. Linoff Michael J. A. Berry Viktor Mayer-schonberger Bibliografias Indicadas Roland Bouman
  • 53.
    53 Data Analysis Open Data Professoras:Ceça e Roberta Estudantes: Jonathan e Lisandra Departamento de Estatística e Informática (DEINFO) Universidade Federal Rural de Pernambuco (UFRPE)