2. Nội dung
Đặt vấn đề.
Những khó khăn.
Giải pháp.
Giải thuật hội tụ.
Xử lý dữ liệu.
APIs cho các hệ thống ngoài.
Kết quả.
3. Đặt vấn đề
VCC phục vụ lượng khách hàng lớn: 25M unique
visitors, khoảng 1.2B truy cập hàng tháng.
Người dùng có nhiều thông tin: IP, nhóm tuổi, giới
tính, vùng miền, thói quen,…
Càng “hiểu” người dùng có khả năng phục vụ tốt hơn.
Thông tin quan trọng cần quan tâm: IP và vùng
miền của khách hàng. IP <-> vùng miền.
4. Đặt vấn đề
Thông tin vùng miền:
Phân phối nội dung: cung cấp nội dung đúng với
vùng miền.
Định hướng quảng cáo: định hướng theo vùng
miền.
Phân phối quảng cáo như mong đợi: tăng tỉ lệ
CTR.
Chống gian lận trong TMĐT
Giúp thu thập các thông tin khác về khách hàng.
5. Những khó khăn
Không có thông tin chính xác về vùng miền của
khách hàng.
Chỉ có thông tin IP của khách hàng, nhưng thay đổi
liên tục.
Dữ liệu IP được cung cấp bởi ISP có chất lượng thấp,
sai nhiều, phân bố không đồng nhất.
Lượng dữ liệu cần khai thác lớn: 60 tỷ bản ghi log,
25TB dữ liệu.
Dữ liệu tăng theo hàng tháng nhanh chóng: 15 tỷ bản
ghi log, 6TB dữ liệu.
6. Giải pháp
Xây dựng giải thuật xác định vùng miền của IP, sử
dụng phương pháp hội tụ. Xác định miền bắc, trung,
nam đối với 1 IP
Xây dựng cơ chế lưu trữ, xử lý dữ liệu log thông tin
khách hàng, IP.
Xây dựng APIs cho các hệ thống ngoài có thể sử
dụng giải pháp.
7. Giải thuật hội tụ
User-1
User-2
User-3
User-4
User-n
IP-1
IP-2
IP-3
IP-4
IP-n
8. Giải thuật hội tụ
Xây dựng Web Graph để mapping giữa User và IP
User1 -> (IP1, IP2,…IPN)
IP1 -> (User1, User2,… UserN)
Xuất phát với bộ dữ liệu mẫu về IP và vùng miền (bao gồm cả dữ
liệu sai)
IP1 -> (ScoreB, ScoreT, ScoreN) -> vùng miền của IP1
Ưu điểm của giải thuật:
Tận dụng, xử lý được toàn bộ nguồn dữ liệu log của VC.
Sử dụng thuật toán hội tụ, nên tỉ lệ chính xác cao.
Thời gian tính toán không nhiều, tận dụng được kết quả các lần tính
toán trước.
9. Xử lý dữ liệu
Xử lý phân tán, sử dụng Hadoop, Map-Reduce,
HDFS.
Lưu trữ 60 tỷ bản ghi khách hàng, tổng cộng 25TB dữ
liệu.
Cập nhật dữ liệu theo tuần, mỗi tuần 4 tỷ bản ghi,
1.5TB dữ liệu, cập nhật lại toàn bộ dữ liệu.
10. APIs cho hệ thống ngoài
Đưa dữ liệu về IP và vùng miền cho các hệ thống sử
dụng.
Sử dụng Redis để chịu tải cho hệ thống phục vụ
phần lớn các yêu cầu đọc.
11. Kết quả
Tổng số IP hệ thống nhận diện được
vùng miền: 2,4 triệu.
Tỉ lệ nhận diện chính xác: trên 90%.
Đang được triển khai cho box nhà đất
của enbac, trên hệ thống muachung