O documento discute a detecção de documentos duplicados na web. Brevemente descreve que a web contém muito conteúdo duplicado e que a detecção de duplicatas exatas é rara, sendo mais comum encontrar quase-duplicatas. Explica que a similaridade sintática entre documentos pode ser usada para identificar quase-duplicatas, considerando documentos similares aqueles com similaridade acima de um certo limiar.