1. Big Data Analytics em
Governo
Seminário: Aplicação de Ciência de Dados e Big Data nas
Empresas
Sérgio M. Dias
29/04/17
2. Agenda
Big Data Analytics
Ciência de dados
• Cientista de dados
• Processo em ciência de dados
Governo e dados
• Algumas soluções de TI para governo
• Necessidades e tecnologias
3. Big Data Analytics!!!
Big Data
– Quando volume, velocidade ou variedade de dados
excede a capacidade de armazenamento e/ou
computação
– Big Data é relativo, não absoluto
Analytics
– Aprendizado de máquinas
– Mercado
• “Relatórios”, painéis, etc
4. Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por
dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
5. Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por
dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
Big Data X Big User
6. Como lidar com este “dilúvio” de dados?
A palavra mais importante no termo “ciência de dados” não é
“dados”, mas ciência.
Fonte (2010): http://www.economist.com/node/15579717
7. Ciência de Dados
A partir da necessidade de análise desse emaranhado de
dados surgiu uma “nova” área da ciência, a chamada ciência
de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em
menor escala em relação ao volume de dados, são bastante
antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
8. Ciência de Dados
A partir da necessidade de análise desse emaranhado de
dados surgiu uma “nova” área da ciência, a chamada ciência
de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em
menor escala em relação ao volume de dados, são bastante
antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados X Mineração de
Dados
12. O que os cientistas de dados fazem?
Definem hipóteses e perguntas
Definem os conjuntos de dados ideais
Determinam que dados podem ser acessados
Adquirem os dados
Preprocessam os dados
Realizam análise de dados exploratória
Realizam modelagem estatística dos dados
Interpretam resultados de análises
Escrevem relatórios sobre os resultados
Criam modelos/componentes/códigos reusáveis
Compartilham modelos e resultados com outras pessoas
Considerando:
● Processos
● Ambientes
● Projetos
13. O que os cientistas de dados fazem?
Informação com alto valor agregado!
14. Processo em ciência de dados
CRISP-DM (CRoss Industry Standard Process for Data
Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
18. Big Data Analytics em Governo!!!
Governo é um grande produtor e consumidor de dados
Existe um movimento global de governos e autoridades para
publicar dados
– O principal objetivo é aumentar a transparência,
democracia e proporcionar a criação de serviços públicos
19. Governo e Dados
Efeitos dos dados (aberto) governamentais sobre as
políticas públicas
– Inclusão: permite que qualquer cidadão utilize qualquer
ferramenta de software para adaptá-los às suas
necessidades
– Transparência: as partes interessadas podem usá-las da
maneira mais adequada ao seu propósito
– Responsabilidade: oferecer vários pontos de vista sobre
o desempenho do governo no cumprimento de suas
metas em políticas públicas
20. SERPRO e Governo
Serviço Federal de Processamento de Dados (SERPRO)
– Empresa pública de serviços de governo eletrônico
– Vinculada ao Ministério da Fazenda
– Criada em 1º de dezembro de 1964
– Sede em Brasília, conta com 11 Projeções Regionais
– Mais de 10 mil colaboradores
Fornece soluções de TI para o governo
21. Algumas Soluções de TI para Governo
Sistema Público de Escrituração Digital (SPED)
– NF-e
– EFD ICMS IPI
– E-Financeira
– Esocial
– CT-e
– ...
Receita Federal do Brasil
– Imposto de Renda
Certificação Digital
22. Algumas Soluções de TI para Governo
Sistema Público de Escrituração Digital (SPED)
– NF-e
– EFD ICMS IPI
– E-Financeira
– Esocial
– CT-e
– ...
Receita Federal do Brasil
– Imposto de Renda
Certificação Digital
23. Nota Fiscal Eletrônica (NFe)
Modelo nacional de documento fiscal eletrônico que substitui
a sistemática de emissão do documento fiscal em papel
Mais de 200 milhões de NFe por mês
Potencialidade para:
– Acompanhamento em tempo real do cenário econômico
nacional
– Adoção de medidas estratégicas de impacto imediato
24. Nota Fiscal Eletrônica (NFe)
XML
Mais de 400 tags
Complexo
Diferentes versões (estruturas)
26. Escrituração Fiscal Digital (EFD)
A Escrituração Fiscal Digital - EFD é um arquivo digital, que
se constitui de um conjunto de escriturações de documentos
fiscais e de outras informações de interesse dos fiscos das
unidades federadas e da Receita Federal do Brasil, bem
como de registros de apuração de impostos referentes às
operações e prestações praticadas pelo contribuinte.
27. Escrituração Fiscal Digital (EFD)
Mais de 100 mil escriturações por mês
Arquivos grandes - Gigas
Arquivo hierárquico
– Blocos: 0000, ..., C100, C170, … H010, …
Milhões de registros por arquivo
Regras de negócio incluídas na estrutura
Diferentes versões (estruturas)
29. Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
30. Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
…
Lago de dados (data lake): metafora para um repositório que
contém uma grande quantidade de dados brutos em formato
nativo
31. Tecnologias: Lago de Dados
Soluções baseadas no Ecossistema Apache
Soluções empacotadas
Grandes fornecedores
...
33. Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
…
Desenvolvimento massivamente paralelo
– Multi thread
– Multi máquina
34. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
35. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
XML em formato AVRO
36. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
Escriturações
– Desnormalizada
– Diferentes formatos
37. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
38. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
39. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
40. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Uma imagem vale mais do que mil palavras...
41. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
42. Análise de Dados
Aplicar algoritmos para:
– Descrição: Os dados utilizados em uma análise podem
descrever um comportamento ou tendência
– Classificação: A tarefa de classificação consiste em
determinar a classe de um registro
– Regressão: Predizer o valor númerico de um registro a
partir de um modelo gerado através de dados conhecidos
43. Análise de Dados
Aplicar algoritmos para:
– Agrupamento: Identificação de registros similares
– Associação: Identificar atributos relacionados
– Análise de Redes Sociais: Modelar relações por meio de
análise social e teória dos grafos.
– ...
49. Dúvidas? Perguntas?
Grato pela atenção!
Sérgio M. Dias | www.sergiomdias.com
– Pós-doutorando em Ciência de Dados | PUC Minas
• http://www.icei.pucminas.br/projetos/dsrgroup/
– Doutor em Ciência da Computação | UFMG
• www.dcc.ufmg.br
– Analista Sênior – Cientista de dados | SERPRO
• www.serpro.gov.br
Contato
– sergiomariano@gmail.com
– mariano@dcc.ufmg.br
– sergio.dias@serpro.gov.br