A future that integrates LLMs and LAMs (Symposium)
Kth daisy 추천솔루션_20130509_v1.0_이호철
1. Powered by kth 이호철
대용량 실시간 분석/추천 솔루션
DAISY
Data Intelligence System
- Recommendation -
2. 1. 데이터 마이닝 (Data Mining)
대량의 데이터 집합으로부터 유용한 정보를 추출
통계,수학 및 패턴 인식 기술 이용 - 새로운 상관관계, 패턴, 추세 등을 발견
3. 2. 데이터 마이닝 주요 개념 및 효과
- 38% 이상의 조회가 추천에 의해 발생
- 대여되는 영화의 2/3가 추천으로부터 발생
판매의 35%가 추천으로 부터 발생 -
Classification / Prediction / Association Rules / Predictive Analytics
Data Reduction / Data Exploration / Data Visualization
4. 3. kth DAISY
추천
소셜 분석
DAISY
실시간 분석
인기 키워드, 실시간 통계
상품 추천
친구 추천, 장소 추천
대용량 분산 DataStore
메모리 기반의 빠른 데이터 처리 속도
저비용 / 확장 용이
Real Time Analytics Solution
6. 4. 서비스에서 추천의 필요성
현 황
• 대량의 콘텐츠에서 선택의
어려움
• Mass Marketing 관점의
기존 추천
• 다양한 고객의 취향, 기호
개 선
• 추천을 통한 검색 보완
• 고객 맞춤형 콘텐츠 제공
• 데이터 마이닝을 통한
맞춤형 추천
• 구매이력 기반 연관 추천
• 고객 세분화 및 특성에 맞
는 타겟팅
상품간 유사도 기반 추천 제공 / 시스템을 통한 자동화 추천
7. 5. DAISY 추천 FLOW
DAISY를 통한 수집/추천/API 제공 자동화
User Service DAISY UserService
서비스 Database
사용자
행동 패턴
접속/구매 HDFS
Data collector
Data Analysis / Mining
Engine
분석 모델 적용
ML, Hive 활용
사용자 데이터
- 구매 로그
- 채널 접속 통계
- 클릭 로그
요일/시간별
사용자 성향별
연관 상품 추천
구매 상품과 연
관성 높은 상품
추천
요일/시간별
BEST 카테고리
상품 추천
구매 로그
서비스 Database
Log
Agent
사용자 분류
사용자 기반 연관
분석
상품 기반 연관
분석
검증
구매로그
접속 로그
Screen
추천
8. 6. 추천 알고리즘 – User/Item Based CF
A
C
B
D
이용자 1
이용자 2
이용자 3
high
correlation
like
User-based Filtering
A
C
B
D
이용자 1
이용자 2
이용자 3
high
correlation
like
Item-based Filtering
9. 6. 추천 알고리즘 : Item-Based CF – Cosine Similarity
Item-Based Collaborative Filtering 의 상세 알고리즘 중
- Cosine Similarity
• Manhattan Distance로 잘 알려진, 두 지점 간의 거리를 구하는 방법의 확장
판
• 두 지점간의 거리를 구할 때 2차원의 좌표값을 사용했다면, 이를 3차원
벡터로 확장한 알고리즘
• 각 문서간의 유사도를 평가할 때, 두 문서의 각도를 척도로 함
• 값의 범위: (-1~1)
• -1: 두 vector는 정확히 반대, 0: 두 vector는 독립, 1: 두 vector는 같다
10. A C B
B D A
B A
A B C D
A 0 1 1 1
B 1 0 1 1
C 1 1 0 0
D 1 1 0 0
이용자 1
이용자 2
이용자 3
A- 연관 VOD
이용자 N
“A” 선택/설명 보는 중 또는 “A” 기 구매자
A와 유사도 계산
A와 B : 0.67
A와 C : 0.41
A와 D : 0.41
Item-based Filtering
(Cosine Similarity
Algorithms 적용)
B
추천
-1 : 정반대 / 0 : 독립
1 : 동일
6. 추천 알고리즘 : Item-Based CF – Cosine Similarity
구매
로그
수집
11. 7. DAISY 추천 설계
기반 데이터
• 구매 로그
• 콘텐츠 정보
• 사용자 정보
수집 / 전처리
• 데이터 수집
• 데이터 적재
• 전처리
데이터 마이닝
• Item-based
Filtering
• Clustering
• Classification
서비스 제공
• Open-API
• 연관 상품
• 사용자 그룹별
• 카테고리별
Open
API
일 배치 수집
최근 3개월 데이터
기반
추천결과 저장
매일 배치 처리
서비스 로그 저장
(사용자 반응)
- 검증
12. 유무선상의 TV 에서 생성하는 거대한 데이터
사용자들은 손쉽게 추천을 받게 된다.
- kth DAISY 2013 -
13. *. Reference
• 본 문서 설명 블로그 http://hochul.net/blog/recommendation-daisy/
• kth DAISY 소개 http://dev.kthcorp.com/2013/01/07/big-data-age-
introducing-kth-daisy/
• ML(Machine Learning) 의 대표적 오픈 소스 Apache Mahout
• http://mahout.apache.org/
• https://cwiki.apache.org/confluence/display/MAHOUT/Recommender+Do
cumentation
• http://hochul.net/blog/about-apache-mahout/
14. 대용량 실시간 분석/추천 솔루션
DAISY
Data Intelligence System
감사합니다!