O documento fornece um resumo sobre os desafios e oportunidades da revisão de dados eletrônicos. Ele discute as etapas do processo de revisão, incluindo coleta, pré-processamento e análise, e apresenta novas formas de analisar grandes volumes de dados, como categorização de texto e codificação preditiva.
Modelagem dos Processos de Negócio para a Definição de Requisitos de Sistemas
Congresso cf analise_de_dados vshare
1. Revisão de Dados Eletrônicos - Desafios
e Oportunidades
II Congresso Brasileiro de
Computação Forense - Mackenzie
14/11/2013
Osvaldo Aranha Neto
osvaldoaranha@live.com
2. 2
Índice
Cenário
Introdução, Histórico e Desafios
Conceitos: E-discovery
Etapas (pre-processing, processing, hosting, review etc)
Soluções / Novas formas de análise:
Text Categorization, Deception Theory,...
6. 6
Introdução e Histórico
E-Discovery
Foco em acesso e revisão de arquivos
Início EUA com lei específica (pós SOX)
Benefícios:
Maior agilidade e controle
Centralização e real-time
Suporte a grande volume de dados
7. 7
Introdução e Histórico
Histórico no Brasil
Antes existia apenas a CF
Demanda recente
Adoção por consultorias
Desafios:
Pouca mão de obra especializada
Ferramentas inapropriadas para grandes volumes
Questão das palavras-chaves – “Segue propina”
6
10. 10
Etapas
Fase I: Onde estão os dados?
Fase III: Preparação e Pré-Processamento
Fase II: Coleta e Preservação de dados
Fase IV: Importação de dados e Indexação
11. 11
Etapas – Visão Geral
ALGUMAS PREMISSAS
Apresentação estruturada dos resultados filtrados;
Marcação de documentos com categorização (labels);
Filtragem de resultados pendentes de aprovação da 2ª.
revisão (2nd level review);
Ambiente User friendly
Trilha de auditoria / log de histórico.
PROBLEMAS
Custos
Prazos
Conhecimentos técnicos
Analytic Forensic Technology
12. 12
Novas Formas: Early Case Assessment
Exemplo : Coleta de
10.000 emails
Filtro 1: Período de 2
semanas entre 1
Novembro e 14 de
Novembro e sem
duplicados: 1.000 emails
Filtro 2: Somente
emails com
@vendor.com
500 emails
Filtro 3:
Aplicação de
palavras
chaves
14. 14
Novas Formas: Dynamic Review / Text Categorization
Grupo de
Documentos
Humanos revisam
e criam rótulos para
uma pequena parte
Alguns pontos importantes:
Validação
Adequação à realidade
Custos
Prazo
Necessidade de automação
Ferramentas
definem categorias
de rótulos para o
restante
15. 15
Novas Formas: Predictive Coding / Analytics - Modelo atual
“Ensinando a base”
Bases
históricas de
e-mails
Bases de
dados
artificiais
Base de Dados
(Legado)
“Previsão ”
“Não revisados”
Comparação
Relevantes e
Falsos
Positivos
16. 16
Novas Formas: Predictive Coding / Deception Theory – Nova proposta
”Treinamento”
Casos Positivos
Algoritmo
Casos Negativos
“Previsão (Scoring)”
E-mails do
mundo real.
“Não
revisados”
Modelo de
Classificação
Revisão e CQ
Previsões de
classificação
(Scores)
19. 19
Conclusões
Ganhos de produtividade indiscutíveis
Novas
tecnologias
ainda
sendo
aprimoradas
(Linguística
computacional, “Spotting Substitution”) e
implantadas nas ferramentas
Novas funcionalidades sendo implantadas
(Contagem de vezes que uma palavra foi
digitada
ou
seguida
de
outra, tamanho, etc)
Dúvidas quanto a eficácia das novas
metodologias (Busca por “conceitos
utilizando taxonomias, ontologias,etc).
Ainda pouco utilizado com dados reais
(Enron)
Ainda muito custoso e pouco utilizado no
Brasil
Necessidade de combinação com outras
tecnologias. Ex. Deduplicação, análise de
redes sociais, etc
Dificuldade de explicar para C-level, na
corte e para o jurídico brasileiro
Necessidade de maior integração
campo acadêmico com empresas
Ainda não há um “produto de pratileira”.
Necessidade de customização
Grandes desafios com análises de
imagens e números. Ex Planilhas, e com
dados “na nuvem”
Ainda uma longa estrada pela frente....
Analytic Forensic Technology
do