SlideShare uma empresa Scribd logo
1 de 49
Baixar para ler offline
Big Data Analytics em
Governo
Seminário: Aplicação de Ciência de Dados e Big Data nas
Empresas
Sérgio M. Dias
29/04/17
Agenda
Big Data Analytics
Ciência de dados
• Cientista de dados
• Processo em ciência de dados
Governo e dados
• Algumas soluções de TI para governo
• Necessidades e tecnologias
Big Data Analytics!!!
Big Data
– Quando volume, velocidade ou variedade de dados
excede a capacidade de armazenamento e/ou
computação
– Big Data é relativo, não absoluto
Analytics
– Aprendizado de máquinas
– Mercado
• “Relatórios”, painéis, etc
Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por
dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por
dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
Big Data X Big User
Como lidar com este “dilúvio” de dados?
A palavra mais importante no termo “ciência de dados” não é
“dados”, mas ciência.
Fonte (2010): http://www.economist.com/node/15579717
Ciência de Dados
A partir da necessidade de análise desse emaranhado de
dados surgiu uma “nova” área da ciência, a chamada ciência
de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em
menor escala em relação ao volume de dados, são bastante
antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados
A partir da necessidade de análise desse emaranhado de
dados surgiu uma “nova” área da ciência, a chamada ciência
de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em
menor escala em relação ao volume de dados, são bastante
antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados X Mineração de
Dados
Cientista de Dados


–
–
Fonte (2014): https://www.wired.com/insights/2014/06/tell-kids-data-scientists-doctors/
Cientista de Dados
Cientista de Dados
O que os cientistas de dados fazem?
Definem hipóteses e perguntas
Definem os conjuntos de dados ideais
Determinam que dados podem ser acessados
Adquirem os dados
Preprocessam os dados
Realizam análise de dados exploratória
Realizam modelagem estatística dos dados
Interpretam resultados de análises
Escrevem relatórios sobre os resultados
Criam modelos/componentes/códigos reusáveis
Compartilham modelos e resultados com outras pessoas
Considerando:
● Processos
● Ambientes
● Projetos
O que os cientistas de dados fazem?
Informação com alto valor agregado!
Processo em ciência de dados
CRISP-DM (CRoss Industry Standard Process for Data
Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
Processo em ciência de dados
Processo em ciência de dados
Processo em ciência de dados
Big Data Analytics em Governo!!!
 Governo é um grande produtor e consumidor de dados
 Existe um movimento global de governos e autoridades para
publicar dados
– O principal objetivo é aumentar a transparência,
democracia e proporcionar a criação de serviços públicos
Governo e Dados
 Efeitos dos dados (aberto) governamentais sobre as
políticas públicas
– Inclusão: permite que qualquer cidadão utilize qualquer
ferramenta de software para adaptá-los às suas
necessidades
– Transparência: as partes interessadas podem usá-las da
maneira mais adequada ao seu propósito
– Responsabilidade: oferecer vários pontos de vista sobre
o desempenho do governo no cumprimento de suas
metas em políticas públicas
SERPRO e Governo
Serviço Federal de Processamento de Dados (SERPRO)
– Empresa pública de serviços de governo eletrônico
– Vinculada ao Ministério da Fazenda
– Criada em 1º de dezembro de 1964
– Sede em Brasília, conta com 11 Projeções Regionais
– Mais de 10 mil colaboradores
Fornece soluções de TI para o governo
Algumas Soluções de TI para Governo
Sistema Público de Escrituração Digital (SPED)
– NF-e
– EFD ICMS IPI
– E-Financeira
– Esocial
– CT-e
– ...
Receita Federal do Brasil
– Imposto de Renda
Certificação Digital
Algumas Soluções de TI para Governo
Sistema Público de Escrituração Digital (SPED)
– NF-e
– EFD ICMS IPI
– E-Financeira
– Esocial
– CT-e
– ...
Receita Federal do Brasil
– Imposto de Renda
Certificação Digital
Nota Fiscal Eletrônica (NFe)
Modelo nacional de documento fiscal eletrônico que substitui
a sistemática de emissão do documento fiscal em papel
Mais de 200 milhões de NFe por mês
Potencialidade para:
– Acompanhamento em tempo real do cenário econômico
nacional
– Adoção de medidas estratégicas de impacto imediato
Nota Fiscal Eletrônica (NFe)
XML
Mais de 400 tags
Complexo
Diferentes versões (estruturas)
Nota Fiscal Eletrônica (NFe)
Escrituração Fiscal Digital (EFD)
A Escrituração Fiscal Digital - EFD é um arquivo digital, que
se constitui de um conjunto de escriturações de documentos
fiscais e de outras informações de interesse dos fiscos das
unidades federadas e da Receita Federal do Brasil, bem
como de registros de apuração de impostos referentes às
operações e prestações praticadas pelo contribuinte.
Escrituração Fiscal Digital (EFD)
Mais de 100 mil escriturações por mês
Arquivos grandes - Gigas
 Arquivo hierárquico
– Blocos: 0000, ..., C100, C170, … H010, …
Milhões de registros por arquivo
Regras de negócio incluídas na estrutura
Diferentes versões (estruturas)
Alguns Exemplos de Sistemas Legados
Processamento batch e real time
Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
…
Lago de dados (data lake): metafora para um repositório que
contém uma grande quantidade de dados brutos em formato
nativo
Tecnologias: Lago de Dados
Soluções baseadas no Ecossistema Apache
Soluções empacotadas
Grandes fornecedores
 ...
Arquitetura Cloudera
Necessidades
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
…
Desenvolvimento massivamente paralelo
– Multi thread
– Multi máquina
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
XML em formato AVRO
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
Escriturações
– Desnormalizada
– Diferentes formatos
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Uma imagem vale mais do que mil palavras...
Tecnologias: Lago de Dados
Integração de grandes volumes de dados
Acesso e consulta eficiênte (sql)
Recuperação de informação
Relatórios gerenciais
Painéis
Análise de dados
...
Análise de Dados
Aplicar algoritmos para:
– Descrição: Os dados utilizados em uma análise podem
descrever um comportamento ou tendência
– Classificação: A tarefa de classificação consiste em
determinar a classe de um registro
– Regressão: Predizer o valor númerico de um registro a
partir de um modelo gerado através de dados conhecidos
Análise de Dados
Aplicar algoritmos para:
– Agrupamento: Identificação de registros similares
– Associação: Identificar atributos relacionados
– Análise de Redes Sociais: Modelar relações por meio de
análise social e teória dos grafos.
– ...
Análise de Dados: Arquiteturas
Análise de Dados: Arquiteturas
Análise de Dados: Tecnológias
Análise de Dados: Tecnológias
Ciência de dadas não é ferramenta.
É ciência!
Análise de Dados: Programação X Fluxo De
Dados
Dúvidas? Perguntas?
Grato pela atenção!
Sérgio M. Dias | www.sergiomdias.com
– Pós-doutorando em Ciência de Dados | PUC Minas
• http://www.icei.pucminas.br/projetos/dsrgroup/
– Doutor em Ciência da Computação | UFMG
• www.dcc.ufmg.br
– Analista Sênior – Cientista de dados | SERPRO
• www.serpro.gov.br
Contato
– sergiomariano@gmail.com
– mariano@dcc.ufmg.br
– sergio.dias@serpro.gov.br

Mais conteúdo relacionado

Mais procurados

Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGBig Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Petronio Candido
 

Mais procurados (8)

Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGBig Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Conhecendo mineração de dados
Conhecendo mineração de dadosConhecendo mineração de dados
Conhecendo mineração de dados
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
FGV - Data Science Day - Gabriela Queiroz
FGV - Data Science Day - Gabriela QueirozFGV - Data Science Day - Gabriela Queiroz
FGV - Data Science Day - Gabriela Queiroz
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Open datasets
Open datasetsOpen datasets
Open datasets
 

Semelhante a Big Data Analytics em Governo

05 curso ippuc-aula_01
05 curso ippuc-aula_0105 curso ippuc-aula_01
05 curso ippuc-aula_01
andressa bonn
 

Semelhante a Big Data Analytics em Governo (20)

Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...
 
Apresentacao geral opendata
Apresentacao geral opendataApresentacao geral opendata
Apresentacao geral opendata
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
 
Dados Abertos - Transparência e Inovação Governo Sociedade
Dados Abertos - Transparência e Inovação Governo SociedadeDados Abertos - Transparência e Inovação Governo Sociedade
Dados Abertos - Transparência e Inovação Governo Sociedade
 
Uma visão sobre a transparência, dados abertos e acesso a informação nas Inst...
Uma visão sobre a transparência, dados abertos e acesso a informação nas Inst...Uma visão sobre a transparência, dados abertos e acesso a informação nas Inst...
Uma visão sobre a transparência, dados abertos e acesso a informação nas Inst...
 
A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...
 
Fundamentos de SI
Fundamentos de SIFundamentos de SI
Fundamentos de SI
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
BIG DATA
BIG DATA BIG DATA
BIG DATA
 
Metodologia e Arquitetura e-Gov como propulsoras de cooperação internacional:...
Metodologia e Arquitetura e-Gov como propulsoras de cooperação internacional:...Metodologia e Arquitetura e-Gov como propulsoras de cooperação internacional:...
Metodologia e Arquitetura e-Gov como propulsoras de cooperação internacional:...
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdf
 
05 curso ippuc-aula_01
05 curso ippuc-aula_0105 curso ippuc-aula_01
05 curso ippuc-aula_01
 
Fundamentos em Tecnologia da Informação - Prof.ª Cristiane Fidelix
Fundamentos em Tecnologia da Informação - Prof.ª Cristiane FidelixFundamentos em Tecnologia da Informação - Prof.ª Cristiane Fidelix
Fundamentos em Tecnologia da Informação - Prof.ª Cristiane Fidelix
 
BigData
BigDataBigData
BigData
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de Informação
 
Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais
 
Apresentação Dados Abertos: cidadania ou oportunidades para empresas?
Apresentação Dados Abertos: cidadania ou oportunidades para empresas?Apresentação Dados Abertos: cidadania ou oportunidades para empresas?
Apresentação Dados Abertos: cidadania ou oportunidades para empresas?
 
Informação Pública 5.0 - Co-criação, Serviços públicos eficazes, Oportunidade...
Informação Pública 5.0 - Co-criação, Serviços públicos eficazes, Oportunidade...Informação Pública 5.0 - Co-criação, Serviços públicos eficazes, Oportunidade...
Informação Pública 5.0 - Co-criação, Serviços públicos eficazes, Oportunidade...
 

Mais de Sérgio Dias

Mais de Sérgio Dias (9)

Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
 
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
 
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
 
Proposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisProposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados Conceituais
 
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
 
Formal Concept Analysis applied to Professional Social Networks
Formal Concept Analysis applied to Professional Social NetworksFormal Concept Analysis applied to Professional Social Networks
Formal Concept Analysis applied to Professional Social Networks
 
Redução de Reticulados Conceituais
Redução de Reticulados ConceituaisRedução de Reticulados Conceituais
Redução de Reticulados Conceituais
 
Algoritmos para Geração de Reticulados Conceituais
Algoritmos para Geração de Reticulados ConceituaisAlgoritmos para Geração de Reticulados Conceituais
Algoritmos para Geração de Reticulados Conceituais
 
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
 

Último

1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
aulasgege
 
História concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdfHistória concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdf
GisellySobral
 
Aspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptxAspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptx
profbrunogeo95
 

Último (20)

QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
 
Nós Propomos! Sertã 2024 - Geografia C - 12º ano
Nós Propomos! Sertã 2024 - Geografia C - 12º anoNós Propomos! Sertã 2024 - Geografia C - 12º ano
Nós Propomos! Sertã 2024 - Geografia C - 12º ano
 
Atividades adaptada de matemática (Adição pop )
Atividades adaptada de matemática (Adição pop )Atividades adaptada de matemática (Adição pop )
Atividades adaptada de matemática (Adição pop )
 
UFCD_10659_Ficheiros de recursos educativos_índice .pdf
UFCD_10659_Ficheiros de recursos educativos_índice .pdfUFCD_10659_Ficheiros de recursos educativos_índice .pdf
UFCD_10659_Ficheiros de recursos educativos_índice .pdf
 
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
 
transcrição fonética para aulas de língua
transcrição fonética para aulas de línguatranscrição fonética para aulas de língua
transcrição fonética para aulas de língua
 
Poema - Maio Laranja
Poema - Maio Laranja Poema - Maio Laranja
Poema - Maio Laranja
 
662938.pdf aula digital de educação básica
662938.pdf aula digital de educação básica662938.pdf aula digital de educação básica
662938.pdf aula digital de educação básica
 
[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx
[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx
[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx
 
FUNDAMENTOS DA PSICOPEDAGOGIA - material
FUNDAMENTOS DA PSICOPEDAGOGIA - materialFUNDAMENTOS DA PSICOPEDAGOGIA - material
FUNDAMENTOS DA PSICOPEDAGOGIA - material
 
APRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
APRENDA COMO USAR CONJUNÇÕES COORDENATIVASAPRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
APRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
 
O que é literatura - Marisa Lajolo com.pdf
O que é literatura - Marisa Lajolo com.pdfO que é literatura - Marisa Lajolo com.pdf
O que é literatura - Marisa Lajolo com.pdf
 
Histogramas.pptx...............................
Histogramas.pptx...............................Histogramas.pptx...............................
Histogramas.pptx...............................
 
Dados espaciais em R - 2023 - UFABC - Geoprocessamento
Dados espaciais em R - 2023 - UFABC - GeoprocessamentoDados espaciais em R - 2023 - UFABC - Geoprocessamento
Dados espaciais em R - 2023 - UFABC - Geoprocessamento
 
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptxEB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
 
Maio Laranja - Combate à violência sexual contra crianças e adolescentes
Maio Laranja - Combate à violência sexual contra crianças e adolescentesMaio Laranja - Combate à violência sexual contra crianças e adolescentes
Maio Laranja - Combate à violência sexual contra crianças e adolescentes
 
Slides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptx
Slides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptxSlides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptx
Slides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptx
 
História concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdfHistória concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdf
 
Aspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptxAspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptx
 
425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf
425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf
425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf
 

Big Data Analytics em Governo

  • 1. Big Data Analytics em Governo Seminário: Aplicação de Ciência de Dados e Big Data nas Empresas Sérgio M. Dias 29/04/17
  • 2. Agenda Big Data Analytics Ciência de dados • Cientista de dados • Processo em ciência de dados Governo e dados • Algumas soluções de TI para governo • Necessidades e tecnologias
  • 3. Big Data Analytics!!! Big Data – Quando volume, velocidade ou variedade de dados excede a capacidade de armazenamento e/ou computação – Big Data é relativo, não absoluto Analytics – Aprendizado de máquinas – Mercado • “Relatórios”, painéis, etc
  • 4. Big Data A cada segundo1 : – 100.000 tweets circulam – 547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2 : – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
  • 5. Big Data A cada segundo1 : – 100.000 tweets circulam – 547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2 : – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/ Big Data X Big User
  • 6. Como lidar com este “dilúvio” de dados? A palavra mais importante no termo “ciência de dados” não é “dados”, mas ciência. Fonte (2010): http://www.economist.com/node/15579717
  • 7. Ciência de Dados A partir da necessidade de análise desse emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
  • 8. Ciência de Dados A partir da necessidade de análise desse emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/ Ciência de Dados X Mineração de Dados
  • 9. Cientista de Dados   – – Fonte (2014): https://www.wired.com/insights/2014/06/tell-kids-data-scientists-doctors/
  • 12. O que os cientistas de dados fazem? Definem hipóteses e perguntas Definem os conjuntos de dados ideais Determinam que dados podem ser acessados Adquirem os dados Preprocessam os dados Realizam análise de dados exploratória Realizam modelagem estatística dos dados Interpretam resultados de análises Escrevem relatórios sobre os resultados Criam modelos/componentes/códigos reusáveis Compartilham modelos e resultados com outras pessoas Considerando: ● Processos ● Ambientes ● Projetos
  • 13. O que os cientistas de dados fazem? Informação com alto valor agregado!
  • 14. Processo em ciência de dados CRISP-DM (CRoss Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)
  • 18. Big Data Analytics em Governo!!!  Governo é um grande produtor e consumidor de dados  Existe um movimento global de governos e autoridades para publicar dados – O principal objetivo é aumentar a transparência, democracia e proporcionar a criação de serviços públicos
  • 19. Governo e Dados  Efeitos dos dados (aberto) governamentais sobre as políticas públicas – Inclusão: permite que qualquer cidadão utilize qualquer ferramenta de software para adaptá-los às suas necessidades – Transparência: as partes interessadas podem usá-las da maneira mais adequada ao seu propósito – Responsabilidade: oferecer vários pontos de vista sobre o desempenho do governo no cumprimento de suas metas em políticas públicas
  • 20. SERPRO e Governo Serviço Federal de Processamento de Dados (SERPRO) – Empresa pública de serviços de governo eletrônico – Vinculada ao Ministério da Fazenda – Criada em 1º de dezembro de 1964 – Sede em Brasília, conta com 11 Projeções Regionais – Mais de 10 mil colaboradores Fornece soluções de TI para o governo
  • 21. Algumas Soluções de TI para Governo Sistema Público de Escrituração Digital (SPED) – NF-e – EFD ICMS IPI – E-Financeira – Esocial – CT-e – ... Receita Federal do Brasil – Imposto de Renda Certificação Digital
  • 22. Algumas Soluções de TI para Governo Sistema Público de Escrituração Digital (SPED) – NF-e – EFD ICMS IPI – E-Financeira – Esocial – CT-e – ... Receita Federal do Brasil – Imposto de Renda Certificação Digital
  • 23. Nota Fiscal Eletrônica (NFe) Modelo nacional de documento fiscal eletrônico que substitui a sistemática de emissão do documento fiscal em papel Mais de 200 milhões de NFe por mês Potencialidade para: – Acompanhamento em tempo real do cenário econômico nacional – Adoção de medidas estratégicas de impacto imediato
  • 24. Nota Fiscal Eletrônica (NFe) XML Mais de 400 tags Complexo Diferentes versões (estruturas)
  • 26. Escrituração Fiscal Digital (EFD) A Escrituração Fiscal Digital - EFD é um arquivo digital, que se constitui de um conjunto de escriturações de documentos fiscais e de outras informações de interesse dos fiscos das unidades federadas e da Receita Federal do Brasil, bem como de registros de apuração de impostos referentes às operações e prestações praticadas pelo contribuinte.
  • 27. Escrituração Fiscal Digital (EFD) Mais de 100 mil escriturações por mês Arquivos grandes - Gigas  Arquivo hierárquico – Blocos: 0000, ..., C100, C170, … H010, … Milhões de registros por arquivo Regras de negócio incluídas na estrutura Diferentes versões (estruturas)
  • 28. Alguns Exemplos de Sistemas Legados Processamento batch e real time
  • 29. Necessidades Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  • 30. Necessidades Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados … Lago de dados (data lake): metafora para um repositório que contém uma grande quantidade de dados brutos em formato nativo
  • 31. Tecnologias: Lago de Dados Soluções baseadas no Ecossistema Apache Soluções empacotadas Grandes fornecedores  ...
  • 33. Necessidades Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados … Desenvolvimento massivamente paralelo – Multi thread – Multi máquina
  • 34. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  • 35. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados XML em formato AVRO
  • 36. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados Escriturações – Desnormalizada – Diferentes formatos
  • 37. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  • 38. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  • 39. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  • 40. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ... Uma imagem vale mais do que mil palavras...
  • 41. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  • 42. Análise de Dados Aplicar algoritmos para: – Descrição: Os dados utilizados em uma análise podem descrever um comportamento ou tendência – Classificação: A tarefa de classificação consiste em determinar a classe de um registro – Regressão: Predizer o valor númerico de um registro a partir de um modelo gerado através de dados conhecidos
  • 43. Análise de Dados Aplicar algoritmos para: – Agrupamento: Identificação de registros similares – Associação: Identificar atributos relacionados – Análise de Redes Sociais: Modelar relações por meio de análise social e teória dos grafos. – ...
  • 44. Análise de Dados: Arquiteturas
  • 45. Análise de Dados: Arquiteturas
  • 46. Análise de Dados: Tecnológias
  • 47. Análise de Dados: Tecnológias Ciência de dadas não é ferramenta. É ciência!
  • 48. Análise de Dados: Programação X Fluxo De Dados
  • 49. Dúvidas? Perguntas? Grato pela atenção! Sérgio M. Dias | www.sergiomdias.com – Pós-doutorando em Ciência de Dados | PUC Minas • http://www.icei.pucminas.br/projetos/dsrgroup/ – Doutor em Ciência da Computação | UFMG • www.dcc.ufmg.br – Analista Sênior – Cientista de dados | SERPRO • www.serpro.gov.br Contato – sergiomariano@gmail.com – mariano@dcc.ufmg.br – sergio.dias@serpro.gov.br