O documento discute ciência de dados em governo, descrevendo como o volume de dados gerados pelo governo cria necessidades de análise de dados. Apresenta o processo de ciência de dados e como ele é aplicado a soluções de TI do governo brasileiro, como a Nota Fiscal Eletrônica. Discute também as tecnologias necessárias para armazenar e analisar grandes volumes de dados governamentais.
2. Agenda
Big Data Analytics
Ciência de dados
• Cientista de dados
• Processo em ciência de dados
Governo e dados
• Algumas soluções de TI para governo
• Necessidades e tecnologias
3. Big Data Analytics!!!
Big Data
– Quando volume, velocidade ou variedade de dados excede a
capacidade de armazenamento e/ou computação
– Big Data é relativo, não absoluto
Analytics
– Aprendizado de máquinas
– Mercado
• “Relatórios”, painéis, etc
4. Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
5. Como lidar com este “dilúvio” de dados?
A palavra mais importante no termo “ciência de dados” não é
“dados”, mas ciência.
Fonte (2010): http://www.economist.com/node/15579717
6. Ciência de Dados
A partir da necessidade de análise desse emaranhado de dados
surgiu uma “nova” área da ciência, a chamada ciência de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em menor
escala em relação ao volume de dados, são bastante antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
7. Ciência de Dados
A partir da necessidade de análise desse emaranhado de dados
surgiu uma “nova” área da ciência, a chamada ciência de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em menor
escala em relação ao volume de dados, são bastante antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados X Mineração de Dados
11. O que os cientistas de dados fazem?
Definem hipóteses e perguntas
Definem os conjuntos de dados ideais
Determinam que dados podem ser acessados
Adquirem os dados
Preprocessam os dados
Realizam análise de dados exploratória
Realizam modelagem estatística dos dados
Interpretam resultados de análises
Escrevem relatórios sobre os resultados
Criam modelos/componentes/códigos reusáveis
Compartilham modelos e resultados com outras pessoas
Considerando:
●
Processos
●
Ambientes
●
Projetos
12. O que os cientistas de dados fazem?
Informação com alto valor agregado!
13. Processo em ciência de dados
CRISP-DM (CRoss Industry Standard Process for Data Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
16. Ciência de Dados em Governo!!!
Governo é um grande produtor e consumidor de dados
Existe um movimento global de governos e autoridades para
publicar dados
– O principal objetivo é aumentar a transparência,
democracia e proporcionar a criação de serviços públicos
17. Governo e Dados
Efeitos dos dados (aberto) governamentais sobre as políticas
públicas
– Inclusão: permite que qualquer cidadão utilize qualquer
ferramenta de software para adaptá-los às suas
necessidades
– Transparência: as partes interessadas podem usá-las da
maneira mais adequada ao seu propósito
– Responsabilidade: oferecer vários pontos de vista sobre o
desempenho do governo no cumprimento de suas metas em
políticas públicas
18. SERPRO e Governo
Serviço Federal de Processamento de Dados (SERPRO)
– Empresa pública de serviços de governo eletrônico
– Vinculada ao Ministério da Fazenda
– Criada em 1º de dezembro de 1964
– Sede em Brasília, conta com 11 Projeções Regionais
– Mais de 10 mil colaboradores
Fornece soluções de TI para o governo
19. Algumas Soluções de TI para Governo
Sistema Público de Escrituração Digital (SPED)
– NF-e
– EFD ICMS IPI
– E-Financeira
– Esocial
– CT-e
– ...
Receita Federal do Brasil
– Imposto de Renda
Certificação Digital
20. Algumas Soluções de TI para Governo
Sistema Público de Escrituração Digital (SPED)
– NF-e
– EFD ICMS IPI
– E-Financeira
– Esocial
– CT-e
– ...
Receita Federal do Brasil
– Imposto de Renda
Certificação Digital
21. Nota Fiscal Eletrônica (NFe)
Modelo nacional de documento fiscal eletrônico que substitui a
sistemática de emissão do documento fiscal em papel
Mais de 200 milhões de NFe por mês
Potencialidade para:
– Acompanhamento em tempo real do cenário econômico
nacional
– Adoção de medidas estratégicas de impacto imediato
22. Nota Fiscal Eletrônica (NFe)
XML
Mais de 400 tags
Complexo
Diferentes versões (estruturas)
24. Escrituração Fiscal Digital (EFD)
A Escrituração Fiscal Digital - EFD é um arquivo digital, que se
constitui de um conjunto de escriturações de documentos
fiscais e de outras informações de interesse dos fiscos das
unidades federadas e da Receita Federal do Brasil, bem como de
registros de apuração de impostos referentes às operações e
prestações praticadas pelo contribuinte.
25. Escrituração Fiscal Digital (EFD)
Mais de 100 mil escriturações por mês
Arquivos grandes - Gigas
Arquivo hierárquico
– Blocos: 0000, ..., C100, C170, … H010, …
Milhões de registros por arquivo
Regras de negócio incluídas na estrutura
Diferentes versões (estruturas)
27. Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
28. Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
…
Lago de dados (data lake): metáfora para um repositório que
contém uma grande quantidade de dados brutos em formato
nativo
29. Tecnologias: Lago de Dados
Soluções baseadas no Ecossistema Apache
Soluções empacotadas
Grandes fornecedores
...
30. Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
…
Desenvolvimento massivamente paralelo
– Multi thread
– Multi máquina
31. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
32. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
XML em formato AVRO
33. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
Escriturações
– Desnormalizada
– Diferentes formatos
34. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
35. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
36. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
37. Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiente (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
38. Análise de Dados
Aplicar algoritmos para:
– Descrição: Os dados utilizados em uma análise podem
descrever um comportamento ou tendência
– Classificação: A tarefa de classificação consiste em
determinar a classe de um registro
– Regressão: Predizer o valor númerico de um registro a
partir de um modelo gerado através de dados conhecidos
39. Análise de Dados
Aplicar algoritmos para:
– Agrupamento: Identificação de registros similares
– Associação: Identificar atributos relacionados
– Análise de Redes Sociais: Modelar relações por meio de
análise social e teoria dos grafos.
– ...
42. Análise de Dados: Tecnologias
Ciência de dadas não é ferramenta.
É ciência!
43. Dúvidas? Perguntas?
Grato pela atenção!
Sérgio M. Dias | www.sergiomdias.com
– Pós-doutorando em Ciência de Dados | PUC Minas
• http://www.icei.pucminas.br/projetos/dsrgroup/
– Doutor em Ciência da Computação | UFMG
• www.dcc.ufmg.br
– Analista Sênior – Cientista de dados | SERPRO
• www.serpro.gov.br
Contato
– sergiomariano@gmail.com
– mariano@dcc.ufmg.br
– sergio.dias@serpro.gov.br