SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
TRILHA BIG DATA E NOSQL
Segurança e Anonimização de Dados
em Larga Escala com Python
QUEM SOMOS
Cícero Moura Marco Nogueira
Engenheiro de Dados
Engenheiro de Dados
Tech Lead
Especialista em Big Data
e Machine Learning
AWS Community Builder Azure Certification
Graduado em Ciência
da Computação
3
Introdução
01
Técnicas de
anonimização
03
Microsoft Presidio
05
Objetivos
02 04
Dicas e Insights
06
Utilização em
Big Data
Sobre o que vamos conversar?
4
5
“Com a chegada da LGPD tem crescido a
preocupação com a segurança e privacidade de
dados pessoais.”
Segurança da Informação
6
Técnicas de Anonimização
7
8
● É possível encriptar e decriptar as dados através de chaves
criptográficas;
● Quanto mais dados, mais lento é encriptação e decriptação;
● Leitura dos dados tende a perder perfomance também.
Encriptação de dados
9
Encriptação com AWS KMS
● Serviço de gerenciamento de chaves criptográficas da AWS;
● Possui suporte para chave assimétricas;
Dado bruto
Dado encriptado
10
● Prós:
○ Fácil de implementação;
○ Diversidade de algoritmos diferentes;
● Contras:
○ Aumento do tamanho dos dados que são aplicados o Hash;
○ Queda de performance em consulta de agrupamento de dados (group by);
○ Há várias formas de quebrar a criptografia, exemplo:
■ combinação de dicionário ou a ferramenta Hashcat.
Anonimização com Hash
11
● Algoritmos para geração de Hash como MD ou SHA;
● Bibliotecas para identificar dados sensiveis, como regex e names-dataset.
Hash com Python
Dado bruto
Dado encriptado
12
● Técnica de substituir uma informação muito específica por outra mais
genérica;
● Impede a identificação mas possibilitando que ainda seja possível extrair
valor da informação.
● Essa técnica é irreversível e demanda a descoberta da informação que
substituiu a original, aumentando-se o tempo de processamento da
rotina.
Generalização
13
Generalização no AWS Glue Jobs
Dado bruto
Dado encriptado
Encriptação
14
● A técnica vai depender muito de quão os seus dados são sensíveis e as
regras que estão impostas a ele;
● Além dos dados em si, a volumetria e o tempo para análise devem ser
avaliados também;
● O ideal é utilizar frameworks para ferramentas escaláveis como o Spark,
atendendo assim necessidades do projeto em longo prazo.
Qual técnica utilizar em Big Data?
Microsoft Presidio
15
16
● Busca ajudar na segurança de dados confidenciais para que sejam
gerenciados e governados adequadamente.
● Fornece módulos de identificação e anonimização rápidos para
entidades privadas em texto e imagens:
○ números de cartão de crédito, nomes, localizações e outros dados
pessoais.
Microsoft Presidio
17
● Reconhecimento de PII (Personally Identifiable Information) predefinidos ou
personalizados;
● Opções para conectar a modelos externos de detecção de PII.
● Várias opções de uso, desde cargas de trabalho Python ou PySpark até
Docker e Kubernetes.
● Personalização na identificação e anonimização de PII.
Funcionalidades
18
● Analisador
Funcionamento do Presidio
19
● Anonimizador
Funcionamento do Presidio
20
Funcionamento do Presidio
21
● É possível adicionar novos módulos ao Presidio e estender a sua
funcionalidade para outras linguas.
Presidio na prática - Adicionando novas línguas
22
● É possível criar novos padrões
e regras para o Presídio.
● É possível adicionar regras:
○ através de uma lista;
○ através de um Regex;
○ através de regras lógicas.
Presidio na prática - Regras customizadas
23
● É possível utilizar o Presidio no
Spark.
Presidio na prática - Utilizando o Spark
Arquitetura de Big Data
com Presidio
24
25
Big Data com Presidio
Dicas e Insights
26
27
● O Microsoft Presidio tem algumas dificuldades em achar contexto das
palavras em PT-BR;
● Algumas técnicas como Supressão e Perturbação são rápidas
computacionalmente porém os dados perdem o valor análitico.
○ Alternativas como a generalização podem ajudar nesse sentido.
Dicas e Insights
28
https://github.com/Marcaoandradenogueira/anonimizacao
Código completo
29
● https://aws.amazon.com/pt/blogs/aws-brasil/como-anonimizar-seus-da
dos-usando-o-aws-glue/
● https://microsoft.github.io/presidio/getting_started/
● https://databricks.com/session_eu20/data-privacy-with-apache-spark-de
fensive-and-offensive-approaches
● https://www.linkana.com/blog/seguranca-informacao-compliance/
Referências
cicerojmm
/in/cicero-moura
@cicerojmm
cicerojmm
Cícero Moura Marco Nogueira
marcaoandradenogueira
/in/marco-antônio-andrad
e-nogueira-48b856129/
Marcaoandradenogueira
Obrigado pela presença!

Mais conteúdo relacionado

Mais procurados

TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comtdc-globalcode
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
MongoDB na Ingresse.com - TDC 2014
MongoDB na Ingresse.com - TDC 2014MongoDB na Ingresse.com - TDC 2014
MongoDB na Ingresse.com - TDC 2014Kelly Cristina
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigDataDiego Nogare
 
Bancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureBancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureJoel Rodrigues
 
Microsoft Connect(); Brasil Azure blockchain
Microsoft Connect(); Brasil Azure blockchainMicrosoft Connect(); Brasil Azure blockchain
Microsoft Connect(); Brasil Azure blockchainRogério Rodrigues
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big dataiseltech
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 

Mais procurados (20)

TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
MongoDB na Ingresse.com - TDC 2014
MongoDB na Ingresse.com - TDC 2014MongoDB na Ingresse.com - TDC 2014
MongoDB na Ingresse.com - TDC 2014
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
Bancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureBancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft Azure
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
TDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clustersTDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clusters
 
Microsoft Connect(); Brasil Azure blockchain
Microsoft Connect(); Brasil Azure blockchainMicrosoft Connect(); Brasil Azure blockchain
Microsoft Connect(); Brasil Azure blockchain
 
Big data
Big dataBig data
Big data
 
Streaming architecture with big data clusters
Streaming architecture with big data clustersStreaming architecture with big data clusters
Streaming architecture with big data clusters
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Big Data
Big DataBig Data
Big Data
 
BigData
BigDataBigData
BigData
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big data
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 

Semelhante a TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com Python.pdf

Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
Harvard Business Review - LGPD
Harvard Business Review - LGPDHarvard Business Review - LGPD
Harvard Business Review - LGPDThiago Santiago
 
LGPD - Webinar Cloudera e FIAP
LGPD - Webinar Cloudera e FIAPLGPD - Webinar Cloudera e FIAP
LGPD - Webinar Cloudera e FIAPThiago Santiago
 
Fornetix lgpd-whitepaper-portuguese (3)
Fornetix lgpd-whitepaper-portuguese (3)Fornetix lgpd-whitepaper-portuguese (3)
Fornetix lgpd-whitepaper-portuguese (3)Carlos Serrano
 
Desafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao umDesafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao umThiago Fortunato
 
3a Web Aula - Gestão de Tecnologia da Informação.pdf
3a Web Aula - Gestão de Tecnologia da Informação.pdf3a Web Aula - Gestão de Tecnologia da Informação.pdf
3a Web Aula - Gestão de Tecnologia da Informação.pdfDimas Francisco
 
Você está preparado para o GDPR?
Você está preparado para o GDPR?Você está preparado para o GDPR?
Você está preparado para o GDPR?Centus Consultoria
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricDenodo
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
Criando produtos de Data Science & AI: da proposta ao deploy
Criando produtos de Data Science & AI: da proposta ao deployCriando produtos de Data Science & AI: da proposta ao deploy
Criando produtos de Data Science & AI: da proposta ao deployDevCamp Campinas
 
DevCamp 2017 - Criando produtos de Data Science e Inteligência Artificial
DevCamp 2017 - Criando produtos de Data Science e Inteligência ArtificialDevCamp 2017 - Criando produtos de Data Science e Inteligência Artificial
DevCamp 2017 - Criando produtos de Data Science e Inteligência ArtificialWeslley Souza Patrocinio
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftRodrigo Crespi
 
Webinar be aware - como proteger sua informação no desaparecimento do perímetro
Webinar be aware -  como proteger sua informação no desaparecimento do perímetroWebinar be aware -  como proteger sua informação no desaparecimento do perímetro
Webinar be aware - como proteger sua informação no desaparecimento do perímetroSymantec Brasil
 
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Cicero Joasyo Mateus de Moura
 
Digital Summit Brasil 2016 - Tech Trends + Cyber Security
Digital Summit Brasil 2016 - Tech Trends + Cyber SecurityDigital Summit Brasil 2016 - Tech Trends + Cyber Security
Digital Summit Brasil 2016 - Tech Trends + Cyber SecurityGustavo de Boer
 
Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)
Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)
Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)MXMSistemas
 

Semelhante a TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com Python.pdf (20)

Smartcrypt 2017-v10
Smartcrypt 2017-v10Smartcrypt 2017-v10
Smartcrypt 2017-v10
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Harvard Business Review - LGPD
Harvard Business Review - LGPDHarvard Business Review - LGPD
Harvard Business Review - LGPD
 
LGPD - Webinar Cloudera e FIAP
LGPD - Webinar Cloudera e FIAPLGPD - Webinar Cloudera e FIAP
LGPD - Webinar Cloudera e FIAP
 
Fornetix lgpd-whitepaper-portuguese (3)
Fornetix lgpd-whitepaper-portuguese (3)Fornetix lgpd-whitepaper-portuguese (3)
Fornetix lgpd-whitepaper-portuguese (3)
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Desafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao umDesafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao um
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
3a Web Aula - Gestão de Tecnologia da Informação.pdf
3a Web Aula - Gestão de Tecnologia da Informação.pdf3a Web Aula - Gestão de Tecnologia da Informação.pdf
3a Web Aula - Gestão de Tecnologia da Informação.pdf
 
Você está preparado para o GDPR?
Você está preparado para o GDPR?Você está preparado para o GDPR?
Você está preparado para o GDPR?
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data Fabric
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Criando produtos de Data Science & AI: da proposta ao deploy
Criando produtos de Data Science & AI: da proposta ao deployCriando produtos de Data Science & AI: da proposta ao deploy
Criando produtos de Data Science & AI: da proposta ao deploy
 
DevCamp 2017 - Criando produtos de Data Science e Inteligência Artificial
DevCamp 2017 - Criando produtos de Data Science e Inteligência ArtificialDevCamp 2017 - Criando produtos de Data Science e Inteligência Artificial
DevCamp 2017 - Criando produtos de Data Science e Inteligência Artificial
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
 
Webinar be aware - como proteger sua informação no desaparecimento do perímetro
Webinar be aware -  como proteger sua informação no desaparecimento do perímetroWebinar be aware -  como proteger sua informação no desaparecimento do perímetro
Webinar be aware - como proteger sua informação no desaparecimento do perímetro
 
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
 
Digital Summit Brasil 2016 - Tech Trends + Cyber Security
Digital Summit Brasil 2016 - Tech Trends + Cyber SecurityDigital Summit Brasil 2016 - Tech Trends + Cyber Security
Digital Summit Brasil 2016 - Tech Trends + Cyber Security
 
Vença o jogo da rede
Vença o jogo da redeVença o jogo da rede
Vença o jogo da rede
 
Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)
Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)
Apresentação - Microsoft 365 (MXM Day 2018 na Autoglass)
 

Mais de Cicero Joasyo Mateus de Moura

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Cicero Joasyo Mateus de Moura
 
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsCicero Joasyo Mateus de Moura
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...Cicero Joasyo Mateus de Moura
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...Cicero Joasyo Mateus de Moura
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Cicero Joasyo Mateus de Moura
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Cicero Joasyo Mateus de Moura
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...Cicero Joasyo Mateus de Moura
 

Mais de Cicero Joasyo Mateus de Moura (10)

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
 
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
 
Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018
 
IoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTTIoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTT
 
PHP: Como não programar em POG
PHP: Como não programar em POGPHP: Como não programar em POG
PHP: Como não programar em POG
 

TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com Python.pdf

  • 1. TRILHA BIG DATA E NOSQL Segurança e Anonimização de Dados em Larga Escala com Python
  • 2. QUEM SOMOS Cícero Moura Marco Nogueira Engenheiro de Dados Engenheiro de Dados Tech Lead Especialista em Big Data e Machine Learning AWS Community Builder Azure Certification Graduado em Ciência da Computação
  • 3. 3 Introdução 01 Técnicas de anonimização 03 Microsoft Presidio 05 Objetivos 02 04 Dicas e Insights 06 Utilização em Big Data Sobre o que vamos conversar?
  • 4. 4
  • 5. 5 “Com a chegada da LGPD tem crescido a preocupação com a segurança e privacidade de dados pessoais.”
  • 8. 8 ● É possível encriptar e decriptar as dados através de chaves criptográficas; ● Quanto mais dados, mais lento é encriptação e decriptação; ● Leitura dos dados tende a perder perfomance também. Encriptação de dados
  • 9. 9 Encriptação com AWS KMS ● Serviço de gerenciamento de chaves criptográficas da AWS; ● Possui suporte para chave assimétricas; Dado bruto Dado encriptado
  • 10. 10 ● Prós: ○ Fácil de implementação; ○ Diversidade de algoritmos diferentes; ● Contras: ○ Aumento do tamanho dos dados que são aplicados o Hash; ○ Queda de performance em consulta de agrupamento de dados (group by); ○ Há várias formas de quebrar a criptografia, exemplo: ■ combinação de dicionário ou a ferramenta Hashcat. Anonimização com Hash
  • 11. 11 ● Algoritmos para geração de Hash como MD ou SHA; ● Bibliotecas para identificar dados sensiveis, como regex e names-dataset. Hash com Python Dado bruto Dado encriptado
  • 12. 12 ● Técnica de substituir uma informação muito específica por outra mais genérica; ● Impede a identificação mas possibilitando que ainda seja possível extrair valor da informação. ● Essa técnica é irreversível e demanda a descoberta da informação que substituiu a original, aumentando-se o tempo de processamento da rotina. Generalização
  • 13. 13 Generalização no AWS Glue Jobs Dado bruto Dado encriptado Encriptação
  • 14. 14 ● A técnica vai depender muito de quão os seus dados são sensíveis e as regras que estão impostas a ele; ● Além dos dados em si, a volumetria e o tempo para análise devem ser avaliados também; ● O ideal é utilizar frameworks para ferramentas escaláveis como o Spark, atendendo assim necessidades do projeto em longo prazo. Qual técnica utilizar em Big Data?
  • 16. 16 ● Busca ajudar na segurança de dados confidenciais para que sejam gerenciados e governados adequadamente. ● Fornece módulos de identificação e anonimização rápidos para entidades privadas em texto e imagens: ○ números de cartão de crédito, nomes, localizações e outros dados pessoais. Microsoft Presidio
  • 17. 17 ● Reconhecimento de PII (Personally Identifiable Information) predefinidos ou personalizados; ● Opções para conectar a modelos externos de detecção de PII. ● Várias opções de uso, desde cargas de trabalho Python ou PySpark até Docker e Kubernetes. ● Personalização na identificação e anonimização de PII. Funcionalidades
  • 21. 21 ● É possível adicionar novos módulos ao Presidio e estender a sua funcionalidade para outras linguas. Presidio na prática - Adicionando novas línguas
  • 22. 22 ● É possível criar novos padrões e regras para o Presídio. ● É possível adicionar regras: ○ através de uma lista; ○ através de um Regex; ○ através de regras lógicas. Presidio na prática - Regras customizadas
  • 23. 23 ● É possível utilizar o Presidio no Spark. Presidio na prática - Utilizando o Spark
  • 24. Arquitetura de Big Data com Presidio 24
  • 25. 25 Big Data com Presidio
  • 27. 27 ● O Microsoft Presidio tem algumas dificuldades em achar contexto das palavras em PT-BR; ● Algumas técnicas como Supressão e Perturbação são rápidas computacionalmente porém os dados perdem o valor análitico. ○ Alternativas como a generalização podem ajudar nesse sentido. Dicas e Insights
  • 29. 29 ● https://aws.amazon.com/pt/blogs/aws-brasil/como-anonimizar-seus-da dos-usando-o-aws-glue/ ● https://microsoft.github.io/presidio/getting_started/ ● https://databricks.com/session_eu20/data-privacy-with-apache-spark-de fensive-and-offensive-approaches ● https://www.linkana.com/blog/seguranca-informacao-compliance/ Referências
  • 30. cicerojmm /in/cicero-moura @cicerojmm cicerojmm Cícero Moura Marco Nogueira marcaoandradenogueira /in/marco-antônio-andrad e-nogueira-48b856129/ Marcaoandradenogueira Obrigado pela presença!