Este documento discute conceitos como hash, fuzzy hash e entropia e como eles são usados na análise forense digital. Ele explica que fuzzy hash descreve uma aplicação baseada em hash tradicionais para verificar se arquivos são semelhantes. Também explica que entropia mede desordem em sistemas e é usada na análise forense para comparar arquivos e verificar se são semelhantes. O documento descreve um algoritmo chamado Entropy Near-Match Analyzer que usa entropia e fuzzy hashing para comparar arquivos de forma rápida e
3. Hashing Algoritmos de Hash leem um número ilimitado de bytes de um arquivo para produzir um número de tamanho fixo, chamado de Hash. Se até mesmo um único byte de um arquivo muda, o valor do Hash é completamente alterado. Não importa o algoritmo utilizado: MD5, SHA1 ou SHA256, algoritmos de Hash são projetados para mudar cerca de 50% dos seus dígitos em resposta a cada byte alterado em um arquivo.
4. Hashing File01.txt - 70bc1de8a077e52493d9c41ffaa3c051 File02.txt - 8cbd72cbd9f5387818054ffa5ae241fb File02.txt Olá Mundo File01.txt Ola Mundo
5. Fuzzy-Hash Às vezes chamado de Context Triggered Piecewise Hashing (CTPH) , fuzzy hashing descreve uma aplicação baseada em processo de hash tradicionais. O processo envolve a análise de um arquivo em várias partes menores. A premissa é que uma pessoa poderia usar esses múltiplos valores de hash para verificar alguma probabilidade de que ele é semelhante à partes hash de outros arquivos. Esta probabilidade é geralmente expressa como uma porcentagem.
7. Entropy A origem do conceito de entropia vem da ciência da termodinâmica. Entropia é uma medida de quantidade de desordem em um sistema fechado. Por exemplo, um cubo de gelo é uma matriz ordenada de moléculas e tem relativamente baixa entropia. À medida que o gelo derrete, há um maior grau de liberdade entre as moléculas de água e, portanto, maior a entropia. Quando a água evapora, as moléculas estão livres para se mover no ar, a entropia é ainda maior.
8. Entropy A diferença fundamental entre a teoria da entropia termodinâmica e a teoria da entropia de informação é que, em termodinâmica, não é possível conhecer todos os estados possíveis da matéria, então para os métodos estatísticos são utilizados uma aproximação. Em teoria, a entropia de informação digital, o número de probabilidade de cada estado é conhecido com precisão, já que o conteúdo exato do arquivo é conhecido.
9. Entropy Na análise de informações, estamos preocupados com bytes de dados (cada um com 256 valores possíveis), e gostaríamos que os nossos resultados fossem expressos em bits por byte. Portanto o valor da entropia de um determinado arquivo virá a ser um valor entre 0 e 8, com os extremos valor expresso como:
11. Entropy Near-Match Analyzer Chamado de Entropy Near-Match Analyzer, a implementação do algorítimo de entropia da Guidance aproveita os melhores recursos da entropia e do fuzzy hashing, garantindo um resultado muito rápido e acertivo. Este algorítimo leva em consideração algumas características importantes, como o tamanho ou o tipo do arquivo (como regra geral, tipos de arquivo específico terão valores de entropia dentro das faixas de menor valor entre 0 e 8. Por exemplo, um arquivo de texto ASCII, normalmente tem um valor de entropia entre 2 e 4, onde os arquivos zip geralmente terá um valor entre 7 e 8).