Count min sketch

Count Min Sketch
대충 이해하기
charsyam@naver.com

Count 를 위한 확률적 자료구조

IP가 100만개 정도 되는데
Count를 해야 한다면?

IP 개수에 따른 메모리 할당 양
개수 메모리(Redis 에서 계산)
10000 1.64MB
100000 8.69MB
1000000 77.49MB
2000000 123.64MB
IP 개수가 늘어날 수록
메모리 사용량도 늘어난다.

IP는 특정 IP 들이 많을까?
다들 동일한 횟수로 접근할까?

TOP(K)의 Count가 정확해야할 때
Count Min Sketch가 유리

근사한 Count 값을 구하는 것이 목적
계산 시간과 메모리를 적게 사용한다.

필요한 값
d = 몇 개의 hash 함수를 쓸 것인가?
w = 메모리 공간을 얼마나 쓸 것인가?

Count Min Sketch
0 1 2 3 4 5
Hash 1 0 0 0 0 0 0
Hash 2 0 0 0 0 0 0
Hash 3 0 0 0 0 0 0
Hash 4 0 0 0 0 0 0
w : 사용하고자 하는 메모리 공간
d
할당되는 메모리는
w * d * 변수크기
만큼 사용된다.

Hash 는 어떤 hash라도 가능
Hash % w 값으로 나오는 값을 사용

Example
1.1.1.1 2.2.2.2 3.3.3.3 4.4.4.4 5.5.5.5 6.6.6.6
Hash 1 1 2 1 3 5 4
Hash 2 5 4 3 5 1 3
Hash 3 2 4 5 1 0 2
Hash 4 1 2 2 3 0 4
다음과 같은 해시결과가 나온다고 하자.

Example
그리고 다음과 같은 데이터셋이 있다고 가정한다.
1.1.1.1
2.2.2.2
1.1.1.1
3.3.3.3
1.1.1.1

Example : 1.1.1.1
0 1 2 3 4 5
Hash 1 0 1 0 0 0 0
Hash 2 0 0 0 0 0 1
Hash 3 0 0 1 0 0 0
Hash 4 0 1 0 0 0 0
Hash1(1.1.1.1) = 1
Hash2(1.1.1.1) = 5
Hash3(1.1.1.1) = 2
Hash4(1.1.1.1) = 1
나온 해시 값의 자리를 1 증가시킨다.

Example : 2.2.2.2
0 1 2 3 4 5
Hash 1 0 1 1 0 0 0
Hash 2 0 0 0 0 1 1
Hash 3 0 0 1 0 1 0
Hash 4 0 1 1 0 0 0
Hash1(2.2.2.2) = 2
Hash2(2.2.2.2) = 4
Hash3(2.2.2.2) = 4
Hash4(2.2.2.2) = 2

Example : 1.1.1.1
0 1 2 3 4 5
Hash 1 0 2 1 0 0 0
Hash 2 0 0 0 0 1 2
Hash 3 0 0 2 0 1 0
Hash 4 0 2 1 0 0 0
Hash1(1.1.1.1) = 1
Hash2(1.1.1.1) = 5
Hash3(1.1.1.1) = 2
Hash4(1.1.1.1) = 1

Example : 3.3.3.3
0 1 2 3 4 5
Hash 1 0 3 1 0 0 0
Hash 2 0 0 0 1 1 2
Hash 3 0 0 2 0 1 1
Hash 4 0 2 2 0 0 0
Hash1(3.3.3.3) = 1
Hash2(3.3.3.3) = 3
Hash3(3.3.3.3) = 5
Hash4(3.3.3.3) = 2

Example : 1.1.1.1
0 1 2 3 4 5
Hash 1 0 4 1 0 0 0
Hash 2 0 0 0 1 1 3
Hash 3 0 0 3 0 1 1
Hash 4 0 3 2 0 0 0
Hash1(1.1.1.1) = 1
Hash2(1.1.1.1) = 5
Hash3(1.1.1.1) = 2
Hash4(1.1.1.1) = 1

이제 1.1.1.1 의 개수를 세어보자
0 1 2 3 4 5
Hash 1 0 4 1 0 0 0
Hash 2 0 0 0 1 1 3
Hash 3 0 0 3 0 1 1
Hash 4 0 3 2 0 0 0
Hash1(1.1.1.1) = 1
Hash2(1.1.1.1) = 5
Hash3(1.1.1.1) = 2
Hash4(1.1.1.1) = 1
각 자리의 값
(hash1, 1) = 4, (hash2, 5) = 3, (hash3, 2) = 3, (hash4, 1) = 3
즉 4, 3, 3, 3 중에서 가장 작은 MIN 값은 3 이므로 1.1.1.1의 개수는 3이 된다.

이제 3.3.3.3 의 개수를 세어보자
0 1 2 3 4 5
Hash 1 0 4 1 0 0 0
Hash 2 0 0 0 1 1 3
Hash 3 0 0 3 0 1 1
Hash 4 0 3 2 0 0 0
Hash1(3.3.3.3) = 1
Hash2(3.3.3.3) = 3
Hash3(3.3.3.3) = 5
Hash4(3.3.3.3) = 2
각 자리의 값
(hash1, 1) = 4, (hash2, 3) = 1, (hash3, 5) = 1, (hash4, 2) = 2
즉 4, 1, 1, 2 중에서 가장 작은 MIN 값은 1 이므로 3.3.3.3의 개수는 1이 된다.

W가 10000이고 d 가 4라면
4 * 10000 * 4 해서
160kb 정도만 메모리를 사용
160kb 와 77.49MB 중에 큰 것은?

Count Min Sketch 는 해시의 충돌을
감안하고 고정된 크기에서 특정 값의
개수를 근사치로 구하는 방법

Count Min Sketch
실제 값 <= 근사치 값
이 성립한다.
(해시 충돌이 일어나면
다른 것의 값이 더해질 수 있으므로)

w와 d를 늘리면 좀 더 충돌이 줄어드므로
에러 값이 줄어든다.

근사값이지만, 운이 나쁘면 튀는 값이
위의 원리로 나올 수도 있다.

여러 해시값 들 중에 가장 적은 값을 가지
고 있는 해시의 값이 자신의 근사값이 됨.

Count min sketch

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Mais de DaeMyung Kang

Mais de DaeMyung Kang (20)

Último

Último (6)

Count min sketch