Revisão de Dados Eletrônicos - Desafios
e Oportunidades
II Congresso Brasileiro de
Computação Forense - Mackenzie

14/11/...
2

Índice


Cenário



Introdução, Histórico e Desafios



Conceitos: E-discovery



Etapas (pre-processing, processin...
3

1
4

Cenário

2
5

Cenário

3

5

4
6

Introdução e Histórico


E-Discovery





Foco em acesso e revisão de arquivos
Início EUA com lei específica (pós S...
7

Introdução e Histórico


Histórico no Brasil



Antes existia apenas a CF





Demanda recente

Adoção por consult...
8

Conceitos

Dados
Relevantes

Dados Revisados

Dados Coletados

Dados Disponíveis
9

eDiscovery Reference Model
Processamento

Preservação
Gerenciamento
da Informação

Identificação

Revisão

Produção

Ap...
10

Etapas
Fase I: Onde estão os dados?

Fase III: Preparação e Pré-Processamento

Fase II: Coleta e Preservação de dados
...
11

Etapas – Visão Geral


ALGUMAS PREMISSAS
Apresentação estruturada dos resultados filtrados;



Marcação de documento...
12

Novas Formas: Early Case Assessment

Exemplo : Coleta de
10.000 emails

Filtro 1: Período de 2
semanas entre 1
Novembr...
13

Novas Formas: Visualization Tools

7

8

9
14

Novas Formas: Dynamic Review / Text Categorization





Grupo de
Documentos



Humanos revisam
e criam rótulos para...
15

Novas Formas: Predictive Coding / Analytics - Modelo atual
“Ensinando a base”
Bases
históricas de
e-mails
Bases de
dad...
16

Novas Formas: Predictive Coding / Deception Theory – Nova proposta
”Treinamento”

Casos Positivos
Algoritmo

Casos Neg...
17

Predictive Coding / Deception Theory – Nova proposta

2 - Categorizar

1- Submeter

5 - Interagir

3 - Definir
Pontuaç...
18

Referências
EDRM

- http://www.edrm.net/

http://www.aceds.org/

http://www.gartner.com/technology/reprints.do?id=1...
19

Conclusões


Ganhos de produtividade indiscutíveis



Novas
tecnologias
ainda
sendo
aprimoradas
(Linguística
computa...
20

Dúvidas???

10
21

Referências
EDRM

- http://www.edrm.net/

http://www.aceds.org/

http://www.gartner.com/technology/reprints.do?id=1...
22

Figuras
1

- http://youpix.com.br/news/o-que-acontece-em-1-minuto-na-internet-vejaaqui-o-infografico-de-2013/
2 - ht...
Obrigado!!!!

osvaldoaranha@live.com
Próximos SlideShares
Carregando em…5
×

Congresso cf analise_de_dados vshare

268 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
268
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Congresso cf analise_de_dados vshare

  1. 1. Revisão de Dados Eletrônicos - Desafios e Oportunidades II Congresso Brasileiro de Computação Forense - Mackenzie 14/11/2013 Osvaldo Aranha Neto osvaldoaranha@live.com
  2. 2. 2 Índice  Cenário  Introdução, Histórico e Desafios  Conceitos: E-discovery  Etapas (pre-processing, processing, hosting, review etc)  Soluções / Novas formas de análise:  Text Categorization, Deception Theory,...
  3. 3. 3 1
  4. 4. 4 Cenário 2
  5. 5. 5 Cenário 3 5 4
  6. 6. 6 Introdução e Histórico  E-Discovery    Foco em acesso e revisão de arquivos Início EUA com lei específica (pós SOX) Benefícios:  Maior agilidade e controle  Centralização e real-time  Suporte a grande volume de dados
  7. 7. 7 Introdução e Histórico  Histórico no Brasil   Antes existia apenas a CF   Demanda recente Adoção por consultorias Desafios:  Pouca mão de obra especializada  Ferramentas inapropriadas para grandes volumes  Questão das palavras-chaves – “Segue propina” 6
  8. 8. 8 Conceitos Dados Relevantes Dados Revisados Dados Coletados Dados Disponíveis
  9. 9. 9 eDiscovery Reference Model Processamento Preservação Gerenciamento da Informação Identificação Revisão Produção Apresentação Coleta Análise Volume Relevãncia Fases do Electronic Discovery
  10. 10. 10 Etapas Fase I: Onde estão os dados? Fase III: Preparação e Pré-Processamento Fase II: Coleta e Preservação de dados Fase IV: Importação de dados e Indexação
  11. 11. 11 Etapas – Visão Geral  ALGUMAS PREMISSAS Apresentação estruturada dos resultados filtrados;  Marcação de documentos com categorização (labels);  Filtragem de resultados pendentes de aprovação da 2ª. revisão (2nd level review);  Ambiente User friendly  Trilha de auditoria / log de histórico. PROBLEMAS  Custos  Prazos  Conhecimentos técnicos Analytic Forensic Technology
  12. 12. 12 Novas Formas: Early Case Assessment Exemplo : Coleta de 10.000 emails Filtro 1: Período de 2 semanas entre 1 Novembro e 14 de Novembro e sem duplicados: 1.000 emails Filtro 2: Somente emails com @vendor.com 500 emails Filtro 3: Aplicação de palavras chaves
  13. 13. 13 Novas Formas: Visualization Tools 7 8 9
  14. 14. 14 Novas Formas: Dynamic Review / Text Categorization   Grupo de Documentos  Humanos revisam e criam rótulos para uma pequena parte Alguns pontos importantes:  Validação  Adequação à realidade  Custos  Prazo  Necessidade de automação  Ferramentas definem categorias de rótulos para o restante
  15. 15. 15 Novas Formas: Predictive Coding / Analytics - Modelo atual “Ensinando a base” Bases históricas de e-mails Bases de dados artificiais Base de Dados (Legado) “Previsão ” “Não revisados” Comparação Relevantes e Falsos Positivos
  16. 16. 16 Novas Formas: Predictive Coding / Deception Theory – Nova proposta ”Treinamento” Casos Positivos Algoritmo Casos Negativos “Previsão (Scoring)” E-mails do mundo real. “Não revisados” Modelo de Classificação Revisão e CQ Previsões de classificação (Scores)
  17. 17. 17 Predictive Coding / Deception Theory – Nova proposta 2 - Categorizar 1- Submeter 5 - Interagir 3 - Definir Pontuação 4- Validar
  18. 18. 18 Referências EDRM - http://www.edrm.net/ http://www.aceds.org/ http://www.gartner.com/technology/reprints.do?id=1- 1FYV205&ct=130610&st=sb http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tau sczik&Pennebaker2010.pdf http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf http://www.iula.upf.edu/materials/050603vazquez.pdf http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
  19. 19. 19 Conclusões  Ganhos de produtividade indiscutíveis  Novas tecnologias ainda sendo aprimoradas (Linguística computacional, “Spotting Substitution”) e implantadas nas ferramentas    Novas funcionalidades sendo implantadas (Contagem de vezes que uma palavra foi digitada ou seguida de outra, tamanho, etc) Dúvidas quanto a eficácia das novas metodologias (Busca por “conceitos utilizando taxonomias, ontologias,etc). Ainda pouco utilizado com dados reais (Enron) Ainda muito custoso e pouco utilizado no Brasil  Necessidade de combinação com outras tecnologias. Ex. Deduplicação, análise de redes sociais, etc  Dificuldade de explicar para C-level, na corte e para o jurídico brasileiro  Necessidade de maior integração campo acadêmico com empresas  Ainda não há um “produto de pratileira”. Necessidade de customização  Grandes desafios com análises de imagens e números. Ex Planilhas, e com dados “na nuvem”  Ainda uma longa estrada pela frente.... Analytic Forensic Technology do
  20. 20. 20 Dúvidas??? 10
  21. 21. 21 Referências EDRM - http://www.edrm.net/ http://www.aceds.org/ http://www.gartner.com/technology/reprints.do?id=1- 1FYV205&ct=130610&st=sb http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tau sczik&Pennebaker2010.pdf http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf http://www.iula.upf.edu/materials/050603vazquez.pdf http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
  22. 22. 22 Figuras 1 - http://youpix.com.br/news/o-que-acontece-em-1-minuto-na-internet-vejaaqui-o-infografico-de-2013/ 2 - http://www.datacenterknowledge.com/archives/2011/05/09/the-mobilecloud-what-it-is-why-it-matters/ 3 - http://www.afterschoolafrica.com/6844/scholarships-for-african-developingdeadline-march/ 4 - http://newhiteboard.com/2013/03/18/kip-steele-how-to-save-money-onyour-2013-startup/ 5 - http://ncicl.org/article/716 6 - http://www.cartoonstock.com/directory/s/spam_email.asp 7 – http://infosthetics.com/archives/2009/12/help_us_review_visualization_software _and_tools.html 8 - http://www.toprankblog.com/2010/08/6-facebook-search-engine-datavisualization-tools/ 9 - http://www.poynter.org/how-tos/digital-strategies/115906/how-to-use-fun-and-freedata-visualization-tools-for-online-storytelling/ 10 - http://pamigarcia.com/wp-content/uploads/2012/10/duvidas.jpg
  23. 23. Obrigado!!!! osvaldoaranha@live.com

×