SlideShare uma empresa Scribd logo
1 de 23
Revisão de Dados Eletrônicos - Desafios
e Oportunidades
II Congresso Brasileiro de
Computação Forense - Mackenzie

14/11/2013

Osvaldo Aranha Neto
osvaldoaranha@live.com
2

Índice


Cenário



Introdução, Histórico e Desafios



Conceitos: E-discovery



Etapas (pre-processing, processing, hosting, review etc)



Soluções / Novas formas de análise:


Text Categorization, Deception Theory,...
3

1
4

Cenário

2
5

Cenário

3

5

4
6

Introdução e Histórico


E-Discovery





Foco em acesso e revisão de arquivos
Início EUA com lei específica (pós SOX)

Benefícios:


Maior agilidade e controle



Centralização e real-time



Suporte a grande volume de dados
7

Introdução e Histórico


Histórico no Brasil



Antes existia apenas a CF





Demanda recente

Adoção por consultorias

Desafios:


Pouca mão de obra especializada



Ferramentas inapropriadas para grandes volumes



Questão das palavras-chaves – “Segue propina”

6
8

Conceitos

Dados
Relevantes

Dados Revisados

Dados Coletados

Dados Disponíveis
9

eDiscovery Reference Model
Processamento

Preservação
Gerenciamento
da Informação

Identificação

Revisão

Produção

Apresentação

Coleta
Análise

Volume
Relevãncia

Fases do Electronic Discovery
10

Etapas
Fase I: Onde estão os dados?

Fase III: Preparação e Pré-Processamento

Fase II: Coleta e Preservação de dados

Fase IV: Importação de dados e Indexação
11

Etapas – Visão Geral


ALGUMAS PREMISSAS
Apresentação estruturada dos resultados filtrados;



Marcação de documentos com categorização (labels);



Filtragem de resultados pendentes de aprovação da 2ª.
revisão (2nd level review);



Ambiente User friendly



Trilha de auditoria / log de histórico.
PROBLEMAS



Custos



Prazos



Conhecimentos técnicos
Analytic Forensic Technology
12

Novas Formas: Early Case Assessment

Exemplo : Coleta de
10.000 emails

Filtro 1: Período de 2
semanas entre 1
Novembro e 14 de
Novembro e sem
duplicados: 1.000 emails

Filtro 2: Somente
emails com
@vendor.com
500 emails
Filtro 3:
Aplicação de
palavras
chaves
13

Novas Formas: Visualization Tools

7

8

9
14

Novas Formas: Dynamic Review / Text Categorization





Grupo de
Documentos



Humanos revisam
e criam rótulos para
uma pequena parte

Alguns pontos importantes:
 Validação
 Adequação à realidade
 Custos
 Prazo
 Necessidade de automação



Ferramentas
definem categorias
de rótulos para o
restante
15

Novas Formas: Predictive Coding / Analytics - Modelo atual
“Ensinando a base”
Bases
históricas de
e-mails
Bases de
dados
artificiais

Base de Dados
(Legado)

“Previsão ”

“Não revisados”

Comparação

Relevantes e
Falsos
Positivos
16

Novas Formas: Predictive Coding / Deception Theory – Nova proposta
”Treinamento”

Casos Positivos
Algoritmo

Casos Negativos

“Previsão (Scoring)”
E-mails do
mundo real.
“Não
revisados”

Modelo de
Classificação

Revisão e CQ

Previsões de
classificação
(Scores)
17

Predictive Coding / Deception Theory – Nova proposta

2 - Categorizar

1- Submeter

5 - Interagir

3 - Definir
Pontuação

4- Validar
18

Referências
EDRM

- http://www.edrm.net/

http://www.aceds.org/

http://www.gartner.com/technology/reprints.do?id=1-

1FYV205&ct=130610&st=sb
http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tau

sczik&Pennebaker2010.pdf
http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf

http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf

http://www.iula.upf.edu/materials/050603vazquez.pdf

http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
19

Conclusões


Ganhos de produtividade indiscutíveis



Novas
tecnologias
ainda
sendo
aprimoradas
(Linguística
computacional, “Spotting Substitution”) e
implantadas nas ferramentas







Novas funcionalidades sendo implantadas
(Contagem de vezes que uma palavra foi
digitada
ou
seguida
de
outra, tamanho, etc)
Dúvidas quanto a eficácia das novas
metodologias (Busca por “conceitos
utilizando taxonomias, ontologias,etc).
Ainda pouco utilizado com dados reais
(Enron)
Ainda muito custoso e pouco utilizado no
Brasil



Necessidade de combinação com outras
tecnologias. Ex. Deduplicação, análise de
redes sociais, etc



Dificuldade de explicar para C-level, na
corte e para o jurídico brasileiro



Necessidade de maior integração
campo acadêmico com empresas



Ainda não há um “produto de pratileira”.
Necessidade de customização



Grandes desafios com análises de
imagens e números. Ex Planilhas, e com
dados “na nuvem”



Ainda uma longa estrada pela frente....

Analytic Forensic Technology

do
20

Dúvidas???

10
21

Referências
EDRM

- http://www.edrm.net/

http://www.aceds.org/

http://www.gartner.com/technology/reprints.do?id=1-

1FYV205&ct=130610&st=sb
http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tau

sczik&Pennebaker2010.pdf
http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf

http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf

http://www.iula.upf.edu/materials/050603vazquez.pdf

http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
22

Figuras
1

- http://youpix.com.br/news/o-que-acontece-em-1-minuto-na-internet-vejaaqui-o-infografico-de-2013/
2 - http://www.datacenterknowledge.com/archives/2011/05/09/the-mobilecloud-what-it-is-why-it-matters/
3 - http://www.afterschoolafrica.com/6844/scholarships-for-african-developingdeadline-march/
4 - http://newhiteboard.com/2013/03/18/kip-steele-how-to-save-money-onyour-2013-startup/
5 - http://ncicl.org/article/716
6 - http://www.cartoonstock.com/directory/s/spam_email.asp
7 –
http://infosthetics.com/archives/2009/12/help_us_review_visualization_software
_and_tools.html
8 - http://www.toprankblog.com/2010/08/6-facebook-search-engine-datavisualization-tools/
9 - http://www.poynter.org/how-tos/digital-strategies/115906/how-to-use-fun-and-freedata-visualization-tools-for-online-storytelling/
10

- http://pamigarcia.com/wp-content/uploads/2012/10/duvidas.jpg
Obrigado!!!!

osvaldoaranha@live.com

Mais conteúdo relacionado

Destaque

El arte de no enfermarse
El arte de no enfermarseEl arte de no enfermarse
El arte de no enfermarseLeonThome
 
Innovating with Unified Communication Webinar Slides
Innovating with Unified Communication Webinar SlidesInnovating with Unified Communication Webinar Slides
Innovating with Unified Communication Webinar SlidesArrow Systems Integration
 
Decret application loi ppp senegal
Decret application loi ppp senegalDecret application loi ppp senegal
Decret application loi ppp senegalDFPPP
 
Exe catalogue forum sen ppp finance
Exe catalogue forum sen ppp financeExe catalogue forum sen ppp finance
Exe catalogue forum sen ppp financeDFPPP
 
Мікроклімат міста в контексті глобальної зміни клімату
Мікроклімат міста  в контексті глобальної зміни кліматуМікроклімат міста  в контексті глобальної зміни клімату
Мікроклімат міста в контексті глобальної зміни кліматуinfoclimateorg
 
Vulgarisation of Unified Communication
Vulgarisation of Unified CommunicationVulgarisation of Unified Communication
Vulgarisation of Unified CommunicationAndre Debilloez
 
ethority - Sweets Studie
ethority - Sweets Studieethority - Sweets Studie
ethority - Sweets Studieethority
 

Destaque (12)

20151106091843405
2015110609184340520151106091843405
20151106091843405
 
Diapositivas nancy t
Diapositivas nancy tDiapositivas nancy t
Diapositivas nancy t
 
Rose CUPCAKES
Rose CUPCAKESRose CUPCAKES
Rose CUPCAKES
 
C.Vyehia-islam
C.Vyehia-islam C.Vyehia-islam
C.Vyehia-islam
 
El arte de no enfermarse
El arte de no enfermarseEl arte de no enfermarse
El arte de no enfermarse
 
Innovating with Unified Communication Webinar Slides
Innovating with Unified Communication Webinar SlidesInnovating with Unified Communication Webinar Slides
Innovating with Unified Communication Webinar Slides
 
Decret application loi ppp senegal
Decret application loi ppp senegalDecret application loi ppp senegal
Decret application loi ppp senegal
 
Exe catalogue forum sen ppp finance
Exe catalogue forum sen ppp financeExe catalogue forum sen ppp finance
Exe catalogue forum sen ppp finance
 
Мікроклімат міста в контексті глобальної зміни клімату
Мікроклімат міста  в контексті глобальної зміни кліматуМікроклімат міста  в контексті глобальної зміни клімату
Мікроклімат міста в контексті глобальної зміни клімату
 
Vulgarisation of Unified Communication
Vulgarisation of Unified CommunicationVulgarisation of Unified Communication
Vulgarisation of Unified Communication
 
Security in 10 slides
Security in 10 slidesSecurity in 10 slides
Security in 10 slides
 
ethority - Sweets Studie
ethority - Sweets Studieethority - Sweets Studie
ethority - Sweets Studie
 

Semelhante a Congresso cf analise_de_dados vshare

The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science WorkflowRenzo Ziegler
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Engenharia Requisitos
Engenharia RequisitosEngenharia Requisitos
Engenharia Requisitoselliando dias
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Critical Factors in Agile Software Projects para o Agile Brazil (2015)
Critical Factors in Agile Software Projects para o Agile Brazil (2015)Critical Factors in Agile Software Projects para o Agile Brazil (2015)
Critical Factors in Agile Software Projects para o Agile Brazil (2015)Karla Silva
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceLuca Bastos
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Cristina 1º Semana Da Informtica Est SetúBal
Cristina   1º Semana Da Informtica   Est SetúBalCristina   1º Semana Da Informtica   Est SetúBal
Cristina 1º Semana Da Informtica Est SetúBalCristinaFreitas
 
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...tdc-globalcode
 
(Transformar 16) Planejamento Estratégico 2
(Transformar 16) Planejamento Estratégico 2(Transformar 16) Planejamento Estratégico 2
(Transformar 16) Planejamento Estratégico 2Ink_conteudos
 
Analise de riscos e contramedidas em cloud computing
Analise de riscos e contramedidas em cloud computing Analise de riscos e contramedidas em cloud computing
Analise de riscos e contramedidas em cloud computing Paulo Rodrigues
 
Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Luana da Silva
 
Aula10 TESI UFS Desenvolvimento de SI
Aula10  TESI  UFS  Desenvolvimento de SIAula10  TESI  UFS  Desenvolvimento de SI
Aula10 TESI UFS Desenvolvimento de SIguest8ae21d
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Modelagem dos Processos de Negócio para a Definição de Requisitos de Sistemas
Modelagem dos Processos de Negócio para a Definição de Requisitos de SistemasModelagem dos Processos de Negócio para a Definição de Requisitos de Sistemas
Modelagem dos Processos de Negócio para a Definição de Requisitos de SistemasImpacta Eventos
 

Semelhante a Congresso cf analise_de_dados vshare (20)

The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Engenharia Requisitos
Engenharia RequisitosEngenharia Requisitos
Engenharia Requisitos
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Critical Factors in Agile Software Projects para o Agile Brazil (2015)
Critical Factors in Agile Software Projects para o Agile Brazil (2015)Critical Factors in Agile Software Projects para o Agile Brazil (2015)
Critical Factors in Agile Software Projects para o Agile Brazil (2015)
 
Modelagem de dados
Modelagem de dadosModelagem de dados
Modelagem de dados
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ce
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Cristina 1º Semana Da Informtica Est SetúBal
Cristina   1º Semana Da Informtica   Est SetúBalCristina   1º Semana Da Informtica   Est SetúBal
Cristina 1º Semana Da Informtica Est SetúBal
 
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
 
Data mining
Data miningData mining
Data mining
 
(Transformar 16) Planejamento Estratégico 2
(Transformar 16) Planejamento Estratégico 2(Transformar 16) Planejamento Estratégico 2
(Transformar 16) Planejamento Estratégico 2
 
Analise de riscos e contramedidas em cloud computing
Analise de riscos e contramedidas em cloud computing Analise de riscos e contramedidas em cloud computing
Analise de riscos e contramedidas em cloud computing
 
Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819
 
Aula10 TESI UFS Desenvolvimento de SI
Aula10  TESI  UFS  Desenvolvimento de SIAula10  TESI  UFS  Desenvolvimento de SI
Aula10 TESI UFS Desenvolvimento de SI
 
Aula10 TESI UFS Desenvolvimento de SI
Aula10 TESI UFS  Desenvolvimento de SIAula10 TESI UFS  Desenvolvimento de SI
Aula10 TESI UFS Desenvolvimento de SI
 
Apresentação tcc faitec
Apresentação tcc faitecApresentação tcc faitec
Apresentação tcc faitec
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Modelagem dos Processos de Negócio para a Definição de Requisitos de Sistemas
Modelagem dos Processos de Negócio para a Definição de Requisitos de SistemasModelagem dos Processos de Negócio para a Definição de Requisitos de Sistemas
Modelagem dos Processos de Negócio para a Definição de Requisitos de Sistemas
 

Congresso cf analise_de_dados vshare