O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
1
2
네이버&
데이터마이닝
주변핫검색
3
옛날이야기–연관검색어
Support Confidence Frequent Subset
4
연관검색어
5
연관검색어
전체 1000명중 100명이 evidence가 되는 경우
전체 1000명중 10명이 evidence가 되는 경우
전체 1000명중 5명이 evidence가 되는 경우
6
연관검색어
7
1
8
기술을이긴다는것…
9
랭킹시스템
1
2
3
100클릭
200클릭
50클릭
CASE 1
교환
100클릭
100클릭
50클릭
CASE 2
교환
100클릭
90클릭
50클릭
CASE 3
교환?
10
랭킹시스템
1
2
3
[능력] =[순수능력]+[위치능력]
𝜂1
𝜂2
𝜂3
100 = 70 + 30
90 = 75 + 15
50 = 45 + 5
11
랭킹시스템
추정이 잘됨 ( 분산 : 1 ) 추정이 잘 안됨 (분산 : 3 )
𝜂1
𝜂2
𝜂3
100 = 70 + 30
90 = 75 + 15
50 = 45 + 5
12
랭킹시스템
통계분야 데이터 마이닝 전문가
13
랭킹시스템
통계 KDD 머신러닝
14
2
15
기술..
16
최근이야기-LDA
corpus
document
17
LDA-이기기위해서.
D1
M개w1 w2 w3
wN
… …
w4
z1 z2 z3 z4
zN
z = multinomial(θ) θ = <θ1,θ2,θ3 … ,θk >
θ = Dir(α) α = <α1,α2,α3 … ,αk...
LDA
19
BLOCK OUT
LDA
20
LDA-실험
#Cluster 국가기
관
#Cluster 복지
#Cluster 슈퍼스
타k
#Cluster 주거
기획재정부 건강보험 슈스케 시프트
외교통상부 4대보험 크리스티나 보금자리주택
중소기업청 4대보험포털사이트 신...
LDA-분산처리
22
LDA–sowhat?
23
반대사례–실시간검색어
24
실시간검색어
www.cs.cmu.edu/~neill/papers/eventdetection.pdf )
25
BLOCK OUT
BLOCK OUT
BLOCK OUT
BLOCK OUT
3
26
좋은목적..
27
아직도..–협력필터
28
협력필터
Wij : item i와 j간의 weight
Conditional probability를 이용하여
score를 계산
qi : item의 특성을 n개의 feature로 표현
pu : 사용자의 특성을 n개의 fea...
협력필터
30
협력필터
31
4
32
DomaindependentTraining-TestScheme.
TRAINING DATA TEST DATA
33
정리하면..
34
35
36
BLOCK OUT
37
BLOCK OUT
네이버‘Realtime’프로젝트
CUVE
blog
news
post
sns
.
.
.
RED
Realtime 데이터
이벤트 추출
& 점수
BigBrew
실시간 색인
REACT
Dynamic
Relay
Real
Liste...
39
CUVE
blog
news
post
sns
.
.
.
RED
Stat
Analizer
segment
Analizer
Event
score
Event
score
Event
score
..
Event DB
Realtime ...
Stat
Analizer
Segment
Analizer
event
scorer
1. Event Detection
2. Compute Real
Score
41
RED
42
RED
2015년 4월 16일 18:30분
‘부산 사직 구장’
0.89
0.92
0.87
0.65
Real Score = now + interest
10초전
3분전
8분전
33분전
43
44
BLOCK OUT
45
46
47
Próximos SlideShares
Carregando em…5
×

57

Compartilhar

Baixar para ler offline

[211] 네이버 검색과 데이터마이닝

Baixar para ler offline

DEVIEW2015 DAY2. 네이버 검색과 데이터마이닝

[211] 네이버 검색과 데이터마이닝

  1. 1. 1
  2. 2. 2
  3. 3. 네이버& 데이터마이닝 주변핫검색 3
  4. 4. 옛날이야기–연관검색어 Support Confidence Frequent Subset 4
  5. 5. 연관검색어 5
  6. 6. 연관검색어 전체 1000명중 100명이 evidence가 되는 경우 전체 1000명중 10명이 evidence가 되는 경우 전체 1000명중 5명이 evidence가 되는 경우 6
  7. 7. 연관검색어 7
  8. 8. 1 8
  9. 9. 기술을이긴다는것… 9
  10. 10. 랭킹시스템 1 2 3 100클릭 200클릭 50클릭 CASE 1 교환 100클릭 100클릭 50클릭 CASE 2 교환 100클릭 90클릭 50클릭 CASE 3 교환? 10
  11. 11. 랭킹시스템 1 2 3 [능력] =[순수능력]+[위치능력] 𝜂1 𝜂2 𝜂3 100 = 70 + 30 90 = 75 + 15 50 = 45 + 5 11
  12. 12. 랭킹시스템 추정이 잘됨 ( 분산 : 1 ) 추정이 잘 안됨 (분산 : 3 ) 𝜂1 𝜂2 𝜂3 100 = 70 + 30 90 = 75 + 15 50 = 45 + 5 12
  13. 13. 랭킹시스템 통계분야 데이터 마이닝 전문가 13
  14. 14. 랭킹시스템 통계 KDD 머신러닝 14
  15. 15. 2 15
  16. 16. 기술.. 16
  17. 17. 최근이야기-LDA corpus document 17
  18. 18. LDA-이기기위해서. D1 M개w1 w2 w3 wN … … w4 z1 z2 z3 z4 zN z = multinomial(θ) θ = <θ1,θ2,θ3 … ,θk > θ = Dir(α) α = <α1,α2,α3 … ,αk> z = <z1,z2,z3 … ,zN> zn = <zn 1, zn 2, zn 3, .., zn k > Z1 1=1 β : p(word, topic) K V β11 β12 … β1v β21 β22 … β2v … … βk1 βk2 … βkv K : topic 수 Latent Dirichlet Allocation 18
  19. 19. LDA 19 BLOCK OUT
  20. 20. LDA 20
  21. 21. LDA-실험 #Cluster 국가기 관 #Cluster 복지 #Cluster 슈퍼스 타k #Cluster 주거 기획재정부 건강보험 슈스케 시프트 외교통상부 4대보험 크리스티나 보금자리주택 중소기업청 4대보험포털사이트 신지수 국민임대아파트 농림수산식품부 고용보험관리공단 이정아 주택관리공단 지식경제부 건설기술인협회 임윤택 한국주택금융공사 여성가족부 실업급여 동경소녀 질바이질스튜어트 국회 고용산재토탈서비 스 도대윤 보금자리론 21
  22. 22. LDA-분산처리 22
  23. 23. LDA–sowhat? 23
  24. 24. 반대사례–실시간검색어 24
  25. 25. 실시간검색어 www.cs.cmu.edu/~neill/papers/eventdetection.pdf ) 25 BLOCK OUT BLOCK OUT BLOCK OUT BLOCK OUT
  26. 26. 3 26
  27. 27. 좋은목적.. 27
  28. 28. 아직도..–협력필터 28
  29. 29. 협력필터 Wij : item i와 j간의 weight Conditional probability를 이용하여 score를 계산 qi : item의 특성을 n개의 feature로 표현 pu : 사용자의 특성을 n개의 feature로 표현 사용자와 아이템을 똑같은 n차원의 feature 로 표현하여 둘의 곱으로 선호도를 구함. 전역 적인 특성이 있음 w : feature의 weight Ii : i 번째 아이템의 feature 각 feature의 global한 weght를 구하여 적 용한다. Neighborhood model 1 Factor model2 Contents model3 User behavior 이용 Contents 정보 이용User behavior 이용 𝑆𝑐𝑜𝑟𝑒 𝑢𝑖 = 𝑤𝑖𝑗 𝑃 𝑑𝑖 𝑑 𝑘 + 𝑗∈𝑅 𝑢 𝑞𝑖 𝑇 ∙ 𝑝𝑢 + 𝑤 ∙ 𝐼𝑖 𝐼𝑗 𝑗∈𝑅 𝑢 29 BLOCK OUT
  30. 30. 협력필터 30
  31. 31. 협력필터 31
  32. 32. 4 32
  33. 33. DomaindependentTraining-TestScheme. TRAINING DATA TEST DATA 33
  34. 34. 정리하면.. 34
  35. 35. 35
  36. 36. 36 BLOCK OUT
  37. 37. 37 BLOCK OUT
  38. 38. 네이버‘Realtime’프로젝트 CUVE blog news post sns . . . RED Realtime 데이터 이벤트 추출 & 점수 BigBrew 실시간 색인 REACT Dynamic Relay Real Listener USER see act react 이벤트 탐지 & 색인 전달 및 반응 38
  39. 39. 39
  40. 40. CUVE blog news post sns . . . RED Stat Analizer segment Analizer Event score Event score Event score .. Event DB Realtime 데이터 이벤트 점수 이벤트 저장 40
  41. 41. Stat Analizer Segment Analizer event scorer 1. Event Detection 2. Compute Real Score 41
  42. 42. RED 42
  43. 43. RED 2015년 4월 16일 18:30분 ‘부산 사직 구장’ 0.89 0.92 0.87 0.65 Real Score = now + interest 10초전 3분전 8분전 33분전 43
  44. 44. 44 BLOCK OUT
  45. 45. 45
  46. 46. 46
  47. 47. 47
  • haeseongchoi

    Apr. 5, 2021
  • ssuser3be3ed

    Jul. 26, 2019
  • ssuser97fd50

    Oct. 24, 2018
  • HanChangKyun

    May. 29, 2018
  • SunbeomKwon1

    Apr. 4, 2018
  • MinheeChung

    Nov. 13, 2017
  • AlexChey

    Sep. 18, 2017
  • ksmin23

    May. 17, 2017
  • yeongseonpark7

    Mar. 17, 2017
  • JisungJeon

    Dec. 16, 2016
  • TaehyunKim11

    Jun. 8, 2016
  • atmelk

    Feb. 8, 2016
  • jaeminkim7549

    Feb. 3, 2016
  • seobmin

    Jan. 18, 2016
  • caesar1207

    Jan. 17, 2016
  • james4633

    Jan. 17, 2016
  • jaehoyang33

    Jan. 16, 2016
  • longway21

    Jan. 16, 2016
  • JohnUe

    Jan. 16, 2016
  • kchman

    Jan. 16, 2016

DEVIEW2015 DAY2. 네이버 검색과 데이터마이닝

Vistos

Vistos totais

10.610

No Slideshare

0

De incorporações

0

Número de incorporações

4.617

Ações

Baixados

204

Compartilhados

0

Comentários

0

Curtir

57

×