SlideShare uma empresa Scribd logo
1 de 12
IP2LOCATION
Đơn vị: Adtech
Thành viên: Nguyễn Hùng Cường,
Đỗ Viết Dũng,
Trần Ngọc Trường,
Nguyễn Đức Trung,
Hoàng Anh Tuấn
Nội dung
 Đặt vấn đề.
 Những khó khăn.
 Giải pháp.
 Giải thuật hội tụ.
 Xử lý dữ liệu.
 APIs cho các hệ thống ngoài.
 Kết quả.
Đặt vấn đề
 VCC phục vụ lượng khách hàng lớn: 25M unique
visitors, khoảng 1.2B truy cập hàng tháng.
 Người dùng có nhiều thông tin: IP, nhóm tuổi, giới
tính, vùng miền, thói quen,…
 Càng “hiểu” người dùng có khả năng phục vụ tốt hơn.
 Thông tin quan trọng cần quan tâm: IP và vùng
miền của khách hàng. IP <-> vùng miền.
Đặt vấn đề
 Thông tin vùng miền:
 Phân phối nội dung: cung cấp nội dung đúng với
vùng miền.
 Định hướng quảng cáo: định hướng theo vùng
miền.
 Phân phối quảng cáo như mong đợi: tăng tỉ lệ
CTR.
 Chống gian lận trong TMĐT
 Giúp thu thập các thông tin khác về khách hàng.
Những khó khăn
 Không có thông tin chính xác về vùng miền của
khách hàng.
 Chỉ có thông tin IP của khách hàng, nhưng thay đổi
liên tục.
 Dữ liệu IP được cung cấp bởi ISP có chất lượng thấp,
sai nhiều, phân bố không đồng nhất.
 Lượng dữ liệu cần khai thác lớn: 60 tỷ bản ghi log,
25TB dữ liệu.
 Dữ liệu tăng theo hàng tháng nhanh chóng: 15 tỷ bản
ghi log, 6TB dữ liệu.
Giải pháp
 Xây dựng giải thuật xác định vùng miền của IP, sử
dụng phương pháp hội tụ. Xác định miền bắc, trung,
nam đối với 1 IP
 Xây dựng cơ chế lưu trữ, xử lý dữ liệu log thông tin
khách hàng, IP.
 Xây dựng APIs cho các hệ thống ngoài có thể sử
dụng giải pháp.
Giải thuật hội tụ
User-1
User-2
User-3
User-4
User-n
IP-1
IP-2
IP-3
IP-4
IP-n
Giải thuật hội tụ
 Xây dựng Web Graph để mapping giữa User và IP
 User1 -> (IP1, IP2,…IPN)
 IP1 -> (User1, User2,… UserN)
 Xuất phát với bộ dữ liệu mẫu về IP và vùng miền (bao gồm cả dữ
liệu sai)
 IP1 -> (ScoreB, ScoreT, ScoreN) -> vùng miền của IP1
 Ưu điểm của giải thuật:
 Tận dụng, xử lý được toàn bộ nguồn dữ liệu log của VC.
 Sử dụng thuật toán hội tụ, nên tỉ lệ chính xác cao.
 Thời gian tính toán không nhiều, tận dụng được kết quả các lần tính
toán trước.
Xử lý dữ liệu
 Xử lý phân tán, sử dụng Hadoop, Map-Reduce,
HDFS.
 Lưu trữ 60 tỷ bản ghi khách hàng, tổng cộng 25TB dữ
liệu.
 Cập nhật dữ liệu theo tuần, mỗi tuần 4 tỷ bản ghi,
1.5TB dữ liệu, cập nhật lại toàn bộ dữ liệu.
APIs cho hệ thống ngoài
 Đưa dữ liệu về IP và vùng miền cho các hệ thống sử
dụng.
 Sử dụng Redis để chịu tải cho hệ thống phục vụ
phần lớn các yêu cầu đọc.
Kết quả
 Tổng số IP hệ thống nhận diện được
vùng miền: 2,4 triệu.
 Tỉ lệ nhận diện chính xác: trên 90%.
 Đang được triển khai cho box nhà đất
của enbac, trên hệ thống muachung
CHÂN THÀNH CẢM
ƠN!

Mais conteúdo relacionado

Semelhante a Adtech ip2location

Bai ii khai quat ha tang co so
Bai ii   khai quat ha tang co soBai ii   khai quat ha tang co so
Bai ii khai quat ha tang co soGiang Nguyễn
 
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc TuyenHDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc TuyenHuu Phan
 
Thiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transportThiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transportHate To Love
 
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnGiới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnTrieu Nguyen
 
NHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptx
NHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptxNHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptx
NHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptxPhuongPhan826909
 
Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...
Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...
Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...nataliej4
 
Một vài khái niệm tin hoc
Một vài khái niệm  tin hocMột vài khái niệm  tin hoc
Một vài khái niệm tin hocTran Van Hoang
 
Csoft ce in_gioi thieu
Csoft ce in_gioi thieuCsoft ce in_gioi thieu
Csoft ce in_gioi thieuKhoa Liên Anh
 
OpenWIPS-ng report Vietnamese
OpenWIPS-ng report VietnameseOpenWIPS-ng report Vietnamese
OpenWIPS-ng report VietnameseHoàng Tuấn Lê
 
Báo cáo lương thưởng thị trường IT năm 2020
Báo cáo lương thưởng thị trường IT năm 2020Báo cáo lương thưởng thị trường IT năm 2020
Báo cáo lương thưởng thị trường IT năm 2020congtythietkemb
 
Multi Loyalty Solution (Quan ly khach hang than thiet)
Multi Loyalty Solution (Quan ly khach hang than thiet)Multi Loyalty Solution (Quan ly khach hang than thiet)
Multi Loyalty Solution (Quan ly khach hang than thiet)THANK Truong
 
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...nataliej4
 
baocaomoi.doc
baocaomoi.docbaocaomoi.doc
baocaomoi.docLcTn28
 
GIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦU
GIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦUGIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦU
GIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦUNHAT_NAM_COMPANY
 
chương 4 - TCP/IP - mạng máy tính
chương 4 - TCP/IP - mạng máy tínhchương 4 - TCP/IP - mạng máy tính
chương 4 - TCP/IP - mạng máy tínhQuyên Nguyễn Tố
 
De an-tttn-olap-slide
De an-tttn-olap-slideDe an-tttn-olap-slide
De an-tttn-olap-slideMan El
 

Semelhante a Adtech ip2location (20)

Bai ii khai quat ha tang co so
Bai ii   khai quat ha tang co soBai ii   khai quat ha tang co so
Bai ii khai quat ha tang co so
 
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc TuyenHDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
 
Thiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transportThiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transport
 
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnGiới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
 
Bc athena
Bc athenaBc athena
Bc athena
 
NHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptx
NHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptxNHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptx
NHÓM 1010_ĐỒ ÁN LẬP TRÌNH WEB .docx.pptx
 
Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...
Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...
Đồ án PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG QUẢN LÝ VÀ CHĂM SÓC KHÁCH HÀNG CỦA NHÀ C...
 
Một vài khái niệm tin hoc
Một vài khái niệm  tin hocMột vài khái niệm  tin hoc
Một vài khái niệm tin hoc
 
Csoft ce in_gioi thieu
Csoft ce in_gioi thieuCsoft ce in_gioi thieu
Csoft ce in_gioi thieu
 
Đề tài ứng dụng công nghệ quản lý các đại lý rất hay
Đề tài  ứng dụng công nghệ quản lý các đại lý rất hayĐề tài  ứng dụng công nghệ quản lý các đại lý rất hay
Đề tài ứng dụng công nghệ quản lý các đại lý rất hay
 
OpenWIPS-ng report Vietnamese
OpenWIPS-ng report VietnameseOpenWIPS-ng report Vietnamese
OpenWIPS-ng report Vietnamese
 
Báo cáo lương thưởng thị trường IT năm 2020
Báo cáo lương thưởng thị trường IT năm 2020Báo cáo lương thưởng thị trường IT năm 2020
Báo cáo lương thưởng thị trường IT năm 2020
 
Chuong 1.pptx
Chuong 1.pptxChuong 1.pptx
Chuong 1.pptx
 
Multi Loyalty Solution (Quan ly khach hang than thiet)
Multi Loyalty Solution (Quan ly khach hang than thiet)Multi Loyalty Solution (Quan ly khach hang than thiet)
Multi Loyalty Solution (Quan ly khach hang than thiet)
 
giai phap cham cong da chi nhanh
giai phap cham cong da chi nhanhgiai phap cham cong da chi nhanh
giai phap cham cong da chi nhanh
 
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
Bc thực tập nghiên cứu, phát triển xây dựng hệ thống giám sát mạng bằng phần ...
 
baocaomoi.doc
baocaomoi.docbaocaomoi.doc
baocaomoi.doc
 
GIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦU
GIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦUGIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦU
GIẢI PHÁP HỘI NGHỊ TRUYỀN HÌNH AVER 2 ĐIỂM CẦU
 
chương 4 - TCP/IP - mạng máy tính
chương 4 - TCP/IP - mạng máy tínhchương 4 - TCP/IP - mạng máy tính
chương 4 - TCP/IP - mạng máy tính
 
De an-tttn-olap-slide
De an-tttn-olap-slideDe an-tttn-olap-slide
De an-tttn-olap-slide
 

Adtech ip2location

  • 1. IP2LOCATION Đơn vị: Adtech Thành viên: Nguyễn Hùng Cường, Đỗ Viết Dũng, Trần Ngọc Trường, Nguyễn Đức Trung, Hoàng Anh Tuấn
  • 2. Nội dung  Đặt vấn đề.  Những khó khăn.  Giải pháp.  Giải thuật hội tụ.  Xử lý dữ liệu.  APIs cho các hệ thống ngoài.  Kết quả.
  • 3. Đặt vấn đề  VCC phục vụ lượng khách hàng lớn: 25M unique visitors, khoảng 1.2B truy cập hàng tháng.  Người dùng có nhiều thông tin: IP, nhóm tuổi, giới tính, vùng miền, thói quen,…  Càng “hiểu” người dùng có khả năng phục vụ tốt hơn.  Thông tin quan trọng cần quan tâm: IP và vùng miền của khách hàng. IP <-> vùng miền.
  • 4. Đặt vấn đề  Thông tin vùng miền:  Phân phối nội dung: cung cấp nội dung đúng với vùng miền.  Định hướng quảng cáo: định hướng theo vùng miền.  Phân phối quảng cáo như mong đợi: tăng tỉ lệ CTR.  Chống gian lận trong TMĐT  Giúp thu thập các thông tin khác về khách hàng.
  • 5. Những khó khăn  Không có thông tin chính xác về vùng miền của khách hàng.  Chỉ có thông tin IP của khách hàng, nhưng thay đổi liên tục.  Dữ liệu IP được cung cấp bởi ISP có chất lượng thấp, sai nhiều, phân bố không đồng nhất.  Lượng dữ liệu cần khai thác lớn: 60 tỷ bản ghi log, 25TB dữ liệu.  Dữ liệu tăng theo hàng tháng nhanh chóng: 15 tỷ bản ghi log, 6TB dữ liệu.
  • 6. Giải pháp  Xây dựng giải thuật xác định vùng miền của IP, sử dụng phương pháp hội tụ. Xác định miền bắc, trung, nam đối với 1 IP  Xây dựng cơ chế lưu trữ, xử lý dữ liệu log thông tin khách hàng, IP.  Xây dựng APIs cho các hệ thống ngoài có thể sử dụng giải pháp.
  • 7. Giải thuật hội tụ User-1 User-2 User-3 User-4 User-n IP-1 IP-2 IP-3 IP-4 IP-n
  • 8. Giải thuật hội tụ  Xây dựng Web Graph để mapping giữa User và IP  User1 -> (IP1, IP2,…IPN)  IP1 -> (User1, User2,… UserN)  Xuất phát với bộ dữ liệu mẫu về IP và vùng miền (bao gồm cả dữ liệu sai)  IP1 -> (ScoreB, ScoreT, ScoreN) -> vùng miền của IP1  Ưu điểm của giải thuật:  Tận dụng, xử lý được toàn bộ nguồn dữ liệu log của VC.  Sử dụng thuật toán hội tụ, nên tỉ lệ chính xác cao.  Thời gian tính toán không nhiều, tận dụng được kết quả các lần tính toán trước.
  • 9. Xử lý dữ liệu  Xử lý phân tán, sử dụng Hadoop, Map-Reduce, HDFS.  Lưu trữ 60 tỷ bản ghi khách hàng, tổng cộng 25TB dữ liệu.  Cập nhật dữ liệu theo tuần, mỗi tuần 4 tỷ bản ghi, 1.5TB dữ liệu, cập nhật lại toàn bộ dữ liệu.
  • 10. APIs cho hệ thống ngoài  Đưa dữ liệu về IP và vùng miền cho các hệ thống sử dụng.  Sử dụng Redis để chịu tải cho hệ thống phục vụ phần lớn các yêu cầu đọc.
  • 11. Kết quả  Tổng số IP hệ thống nhận diện được vùng miền: 2,4 triệu.  Tỉ lệ nhận diện chính xác: trên 90%.  Đang được triển khai cho box nhà đất của enbac, trên hệ thống muachung