Topic Modeling & Word Embedding on Cosmetics

Hongjoo LEE
Topic Modeling & Word Embedding
on Cosmetics
with Interactive Visualization

Who am I
Lead Engineer @ Glowdayz
● Over 680k users
● Over 120k reviewers
● Over 2.6m reviews and ratings
We provide weekly ranking based on reviews and ratings
● Aprox 6k brands
● Aprox 82k products

Data Specialist vs. Domain Expert
Data Specialist
from MARS
Domain Expert
from VENUS

● Data Specialist
○ Classification
○ Topic Modeling
○ Word Embedding
○ Probability
○ Similarity
○ …...
O_o; ..?DATA

● Domain Expert
○ 외래어
■ 딥씨 듀드롭
○ 외계어
■ "살결수", "오일수"
○ 은어
■ 7스킨, 콧물, 유목민
DOMAIN?!... -_-

수분력
3쳐발DATA DOMAIN

Building Review Corpus
Topic Modeling
Sentiment Analysis
Word Embedding
Review Corpus Interactive
Visualization
?
Consumer
Insights

Topic Modeling
● Latent Dirichlet Allocation
Topics Documents Topic proportions & assignments

Topic Modeling
● pyLDAvis
뒤집어,
여드름,
트러블,
수부지

Sentiment Analysis
● Scaled f-score
○ Term associations:
■ “Good” → positive class
■ “Bad” → negative class
○ Association by two factors
■ Frequency : how often a term occurs in a class
■ Precision : P(class | document contains terms)
○ F-score
■ IR evaluation metric
■ Harmonic mean btw precision & recall (Both should be high)

Sentiment Analysis
● Visualize
positive
negative
neutral

Sentiment Analysis
● Scattertext
유목민, 닦토로, 7스킨,
콧물
여드름 올라오,
흐르, 오일,
용기

Word Embedding
● Distributional Hypothesis
○ “You shall know a word by the company it keeps” (J.R. Firth,
British Linguist, 1957)
○ “words that occur in similar contexts tend to be similar” (Z.S.
Harris, American Linguist, 1992)

Word Embedding
● Distributional Hypothesis
○ Moon, Trump, Jinping are presidents
■ President Moon said yesterday
■ President Trump said yesterday
■ President Jinping said yesterday
○ Python is ...
■ I write a code in Python
■ A program is written in Python
■ Python is a programming language

Word Embedding
● Pre-training Word Vectors
2.6M review docs
V130k x 150
Word Vectors
pre-trained
Word2Vec
model
>>> model.most_similar('피부색')
[('얼굴색', 0.870),
('피부톤', 0.847),
('톤', 0.740),
('얼굴빛', 0.665),
('본래_피부색', 0.657),
('낯빛', 0.615),
('21_호', 0.586),
('23_호', 0.586),
('하얀피부', 0.582),
('화사함', 0.562),
('안색', 0.551)]
C={docs}

Word Embedding
● Word Projectection
D={xi
|xi
⊂C}
subset of C
V130k x 150
model
Word Vectors
pre-trained
token[0..i] mode[token[0..i]]
(i+1) x 150

Word Embedding
● Tensorboard Projector
제형 ≅ {
질감, 체형, 재형,
타입, 젤타입,
텍스쳐, 느낌, 젤,
콧물_제형, 점성,
마무리_감, …
}

Future works
● Consumer Insights
○ Conceptual keyword buzz
○ Radar chart
● Feature engineering

Consumer Insights
● Conceptual keyword buzz

Consumer Insights
● Radar Chart
향
흡수
보습
제형
자극

Feature Engineering
● Cosmetic Domain Specific Corpus Analyzer

한글 분석기 성능 비교
""" review_text
에스쁘아의 메이크업 제품은 발색력도 좋고요 가격대비에 만족합니다
사용한 파데는 에스쁘아 비실크와 브이디엘 퍼펙팅 래스트입니다
"""
from konlpy.tag import Kkma, Hannanum, Komoran, Twitter, Mecab
Kkma().pos(review_text)
Hannanum().pos(review_text)
Komoran().pos(review_text)
Twitter().pos(review_text)
Mecab().pos(review_text)

“에스쁘아의 메이크업 제품은 발색력도 좋고요 가격대비에 만족합니다”
Kkma Hannanum Twitter Mecab Glowpick
에스쁘아/UN 에스쁘아/N 에스쁘아/Noun 에스/NNG 에스쁘아/NNP
의/JKG 의/J 의/Josa 쁘아의/UNKN 의/JKG
메이크업/NNG 메이크업/N 메이크업/Noun 메이크업/NNG 메이크업/NNG
제품/NNG 제품/N 제품/Noun 제품/NNG 제품/NNG
은/JX 은/J 은/Josa 은/JX 은/JX

발색/NNG 발색력/N 발/Noun 발색/NNG 발색력/NNP
력/XSN 색력/Noun 력/XSN
도/JX 도/J 도/Josa 도/JX 도/JX
좋/VA 좋/P 좋/Adjective 좋/VA 좋/VA
고요/EFN 고요/E 고요/Eomi 고/EC 고/EC
요/MM 요/MM

가격/NNG 가격대비/N 가격/Noun 가격/NNG 가격_대비
대비/NNG 에/J 대비/Noun 대비/NNG
에/JKM 에/Josa 에/JKB 에/JKB
만족/NNG 만족/N 만족합/Verb 만족/NNG 만족_합니다
하/XSV 하/X 합니다/XSV+EC
ㅂ니다/EFN ㅂ니다/E 니다/Eomi

“사용한 파데는 에스쁘아 비실크와 브이디엘 퍼펙팅 래스트입니다”
사용/NNG 사용/N 사용한/Verb 사용/NNG 사용/NNG
하/XSV 하/X 한/XSV+ETM 한/XSV+ETM
ㄴ/ETD ㄴ/E
파/NNG 파/P 파/Verb 파/NNG 파데/NNP
데는/NNG 데는/E 데/PreEomi 데/NNB
는/Eomi 는/JX 는/JX

에스/NNG 에스쁘아/N 에스쁘/Noun 에스/NNG 에스쁘아/NNP
쁘/UN 쁘아/UNKN
아/VV, 아/ECS 아/Josa
비/XPN 비/X 비실/Noun 비/XPN 비/XPN
실크/NNG 실크/N 크/Verb 실크/NNG 실크/NNG
와/JKM 와/J 와/Eomi 와/JC 와/JC

브이/NNG 브이디엘/N 브이/Noun 브이/NNG 브이디엘/NNP
디/NNG 디/Noun 디/NNG
엘/NNG 엘/Josa 엘/JKB+JKO

푸/VV 퍼펙팅/N 퍼펙팅/Noun 퍼/VV+EC 퍼펙팅_래스트
어/ECS 펙/NNG
펙팅/UN 팅/MAG
래스트/NNG 래스트/N 래/Josa 래스/NNG
스/Noun 트/NNG
이/VCP 이/J 트입니/Verb 입니다/VCP+EC 입니다/VCP+EC
ㅂ니다/EFN ㅂ니다/E 다/Eomi

Contacts
lee.hongjoo@yandex.com
https://www.linkedin.com/in/hongjoo-lee/
We are hiring!

Topic Modeling & Word Embedding on Cosmetics

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Topic Modeling & Word Embedding on Cosmetics