Revisão de Dados Eletrônicos - Desafios
e Oportunidades
II Congresso Brasileiro de
Computação Forense - Mackenzie

14/11/2013

Osvaldo Aranha Neto
osvaldoaranha@live.com
2

Índice


Cenário



Introdução, Histórico e Desafios



Conceitos: E-discovery



Etapas (pre-processing, processing, hosting, review etc)



Soluções / Novas formas de análise:


Text Categorization, Deception Theory,...
3

1
4

Cenário

2
5

Cenário

3

5

4
6

Introdução e Histórico


E-Discovery





Foco em acesso e revisão de arquivos
Início EUA com lei específica (pós SOX)

Benefícios:


Maior agilidade e controle



Centralização e real-time



Suporte a grande volume de dados
7

Introdução e Histórico


Histórico no Brasil



Antes existia apenas a CF





Demanda recente

Adoção por consultorias

Desafios:


Pouca mão de obra especializada



Ferramentas inapropriadas para grandes volumes



Questão das palavras-chaves – “Segue propina”

6
8

Conceitos

Dados
Relevantes

Dados Revisados

Dados Coletados

Dados Disponíveis
9

eDiscovery Reference Model
Processamento

Preservação
Gerenciamento
da Informação

Identificação

Revisão

Produção

Apresentação

Coleta
Análise

Volume
Relevãncia

Fases do Electronic Discovery
10

Etapas
Fase I: Onde estão os dados?

Fase III: Preparação e Pré-Processamento

Fase II: Coleta e Preservação de dados

Fase IV: Importação de dados e Indexação
11

Etapas – Visão Geral


ALGUMAS PREMISSAS
Apresentação estruturada dos resultados filtrados;



Marcação de documentos com categorização (labels);



Filtragem de resultados pendentes de aprovação da 2ª.
revisão (2nd level review);



Ambiente User friendly



Trilha de auditoria / log de histórico.
PROBLEMAS



Custos



Prazos



Conhecimentos técnicos
Analytic Forensic Technology
12

Novas Formas: Early Case Assessment

Exemplo : Coleta de
10.000 emails

Filtro 1: Período de 2
semanas entre 1
Novembro e 14 de
Novembro e sem
duplicados: 1.000 emails

Filtro 2: Somente
emails com
@vendor.com
500 emails
Filtro 3:
Aplicação de
palavras
chaves
13

Novas Formas: Visualization Tools

7

8

9
14

Novas Formas: Dynamic Review / Text Categorization





Grupo de
Documentos



Humanos revisam
e criam rótulos para
uma pequena parte

Alguns pontos importantes:
 Validação
 Adequação à realidade
 Custos
 Prazo
 Necessidade de automação



Ferramentas
definem categorias
de rótulos para o
restante
15

Novas Formas: Predictive Coding / Analytics - Modelo atual
“Ensinando a base”
Bases
históricas de
e-mails
Bases de
dados
artificiais

Base de Dados
(Legado)

“Previsão ”

“Não revisados”

Comparação

Relevantes e
Falsos
Positivos
16

Novas Formas: Predictive Coding / Deception Theory – Nova proposta
”Treinamento”

Casos Positivos
Algoritmo

Casos Negativos

“Previsão (Scoring)”
E-mails do
mundo real.
“Não
revisados”

Modelo de
Classificação

Revisão e CQ

Previsões de
classificação
(Scores)
17

Predictive Coding / Deception Theory – Nova proposta

2 - Categorizar

1- Submeter

5 - Interagir

3 - Definir
Pontuação

4- Validar
18

Referências
EDRM

- http://www.edrm.net/

http://www.aceds.org/

http://www.gartner.com/technology/reprints.do?id=1-

1FYV205&ct=130610&st=sb
http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tau

sczik&Pennebaker2010.pdf
http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf

http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf

http://www.iula.upf.edu/materials/050603vazquez.pdf

http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
19

Conclusões


Ganhos de produtividade indiscutíveis



Novas
tecnologias
ainda
sendo
aprimoradas
(Linguística
computacional, “Spotting Substitution”) e
implantadas nas ferramentas







Novas funcionalidades sendo implantadas
(Contagem de vezes que uma palavra foi
digitada
ou
seguida
de
outra, tamanho, etc)
Dúvidas quanto a eficácia das novas
metodologias (Busca por “conceitos
utilizando taxonomias, ontologias,etc).
Ainda pouco utilizado com dados reais
(Enron)
Ainda muito custoso e pouco utilizado no
Brasil



Necessidade de combinação com outras
tecnologias. Ex. Deduplicação, análise de
redes sociais, etc



Dificuldade de explicar para C-level, na
corte e para o jurídico brasileiro



Necessidade de maior integração
campo acadêmico com empresas



Ainda não há um “produto de pratileira”.
Necessidade de customização



Grandes desafios com análises de
imagens e números. Ex Planilhas, e com
dados “na nuvem”



Ainda uma longa estrada pela frente....

Analytic Forensic Technology

do
20

Dúvidas???

10
21

Referências
EDRM

- http://www.edrm.net/

http://www.aceds.org/

http://www.gartner.com/technology/reprints.do?id=1-

1FYV205&ct=130610&st=sb
http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tau

sczik&Pennebaker2010.pdf
http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf

http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf

http://www.iula.upf.edu/materials/050603vazquez.pdf

http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
22

Figuras
1

- http://youpix.com.br/news/o-que-acontece-em-1-minuto-na-internet-vejaaqui-o-infografico-de-2013/
2 - http://www.datacenterknowledge.com/archives/2011/05/09/the-mobilecloud-what-it-is-why-it-matters/
3 - http://www.afterschoolafrica.com/6844/scholarships-for-african-developingdeadline-march/
4 - http://newhiteboard.com/2013/03/18/kip-steele-how-to-save-money-onyour-2013-startup/
5 - http://ncicl.org/article/716
6 - http://www.cartoonstock.com/directory/s/spam_email.asp
7 –
http://infosthetics.com/archives/2009/12/help_us_review_visualization_software
_and_tools.html
8 - http://www.toprankblog.com/2010/08/6-facebook-search-engine-datavisualization-tools/
9 - http://www.poynter.org/how-tos/digital-strategies/115906/how-to-use-fun-and-freedata-visualization-tools-for-online-storytelling/
10

- http://pamigarcia.com/wp-content/uploads/2012/10/duvidas.jpg
Obrigado!!!!

osvaldoaranha@live.com

Congresso cf analise_de_dados vshare