[D2 CAMPUS] Tech meet-up `data science` 발표자료

데이터사이언스 & 네이버
최재걸
통합검색

오늘은…
현업이
야기진로
기술
기타

2003년
입사 면접 질문
: 디버깅은 어떻게 합니까?
답변
: 버그가 없습니다. 버그프리….

크게 분류하면..
검색연구와 검색시스템
검색연구 검색시스템

ML DM STAT
Data
Mining
(KDD)
Machine
Learning
( AI )
Statistics
From
http://www.kdnuggets.com/2014/06/data-science-skills-business-problems.html

1.1Data Mining
From
www.saedasayad.com
-Solving everything
-Algorithmic & Efficient

1.2 Machine Learning
From
http://www.humphreysheil.com/blog/dee
p-learning-and-machine-learning
-AI is all of computer science
-Learn, learn and learn

1.3 Statistics
From
www.quora.com
- The World is probabilistic
- Model and Distribution
Too formal but strong

1.4 Why statistics?
Data
Mining
(KDD)
Machine
Learning
( AI )
Statistics
DATA  Probability – inevitably
Association Rule
( Conditional Probability)
K-means ( EM )
1. NO BLACK BOX
2. BREAKTHROUGH
畵龍點睛

아마도 머지않아
데이터사이언스란 말은 사라질 것이다

2003 2017
데이터마이닝
2007
빅데이터
2010
확률모델
2012
딥러닝 AI

누구나 데이터를 다룬다

딥러닝도 보편화 되어간다.

데이터 사이언스의 고유영역이 사라짐

1. 함께 일하고 싶은 사람
데이터 분석 잘 하는 사람?
딥러닝 잘 하는 사람?
스마트한 인재 ..

2. 학위
석사 – 논문을 이해하고 구현할 수 있음
박사 – 문제를 정의하고 풀 수 있음.
학위는 유리한 면이 있음.
학위가 없다면 그 수준까지 왔음을 스스로 입증

3. 준비해야 할 것
Data
Mining
(KDD)
Machine
Learning
( AI )
Statistics
딥러닝

1. 네이버에서 일하기
현업 분위기?
야근 많이 하는지?
어떤언어를 많이 사용하는지?
개발자가 겪는 고충?

1. 네이버에서 일하기
현업 분위기?
야근 많이 하는지?
어떤 언어를 많이 사용하는지?
개발자가 겪는 고충?

2. 네이버에서 데이터분석
네이버에 어떤 데이터가 있는지?
네이버에서 머신러닝,마이닝 어떻게 쓰는지, 실제적용사례?
시행착오를 가장 많이 겪는 것은 무엇인지?
데이터수집과 전처리정보를 어디서 얻는지?
데이터분석을 통한 개선 사례?

네이버 &
검색 기술
연관검색어
자동완성
협력필터
LDA
지식그래프
실시간검색어
사용자클러스터링
뉴스클러스터링
이미지그룹화
랭킹시스템
키워드분류기
주변핫검색
Fraud detection
Team matching
…
실시간 검색
음성인식
대화시스템
문장 요약
데이터마이닝
딥러닝
머신러닝
언어처리
수집 ROBOT IR ( 검색모델 )
빅데이터
실시간처리
TOPIC모델

UX 그리고 데이터 분석
-네이버 UI 변경
-7%

2nd 3600px
1st 2750px
3rd 4550px
2nd 1060px
1st 560px
3rd 2050px
1000px
2000px
3000px
4000px
5000px
첫 화면 크기 560px
네이버가 제공한
화면크기
User가 사용한크
기
첫 화면크기
Valid max 4050
( 98%)
2nd 610px
1st 560px
3rd 720px
-크기 boxplot
이 자료를 바탕으로 제공화면 크기를 조절
할 계획임.

-50000
0
50000
100000
150000
200000
250000
300000
350000
0 500 1000 1500 2000 2500 3000 3500 4000 4500
네이버제공
사용자이용
첫화면크기
median
사용자이용크기
median
네이버화면크기
median
-크기에 따른 제공, 이용 Graph
이 자료를 바탕으로 정답형 등이 크기를 조
절할 계획임

질문
NLP 는 유망한가?
딥러닝 분야에서의 text 마이닝?
직군관리?

0. 데이터 분석
데이터 분석은 크게 5가지 작업으로 구분된다.
(1) Data Collection – 수집
: 필요한 자료수집 ( 생각보다 어려움 )
(2) Descriptive Statistics - 기술통계
: 데이터를 이해하는 지점.
(3) Exploratory data analysis – 탐구적 자료분석
: 같음, 다름을 찾아내는 지점.
(4) Hypothesis testing – 가설검정
: 확신을 얻는 지점.
(5) Estimation – 추정
: 모델을 완성하는 지점.5가지를 균형있게 수행할 수 있는 사람을 ‘데이터사이언티스트’ 라고 한다.

1. 기술통계 (Descriptive Statistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“송중기가어떻게생겼는가?”
->잘생겼네.
->눈은어떻고,코는어떻고,…
평균
Median, quantile, variance, …

1. 기술통계 (Descriptive Statistics)
- 데이터가 어떻게 생겼는지 이해하는 부분
“기초 통계를보고싶다”
데이터가 어떻게 생겼는지 알고싶다
[ multi modal 예제 ]
가장짧은말로,가장많은모습을설명한다.
! 대부분, 데이터를 이해하는 과정에서 분석의 전체 구조가 나온다.

2. 탐구적 자료분석 (Exploratory Data Analysis )
- 특징 ( 패턴 및 특이점) 찾는 부분
이중에유독 다른 한장을 찾을 수 있
나?
① ②
③ ④

2. 탐구적 자료분석 (Exploratory Data Analysis )
- 패턴 및 특이점 찾는 부분
- Sequence Mining
- Clustering
- Classification
- Topic modeling
- Deep learning
[ clustering 예제]

3. 가설검정 (Hypothesis testing)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
“송중기와송혜교가만나는 사이인
가?”
->증거: 반지,커플티..

3. 가설검정 (Hypothesis testing)
- 찾아낸 특징이 정말로 그러한지 확신하는 부분
- P-value
- T test, Chi square
test
- Likelihood ratio
- Cross validation

4. 추정 (Estimation)
- 현재까지의 증거를 가지고, 현상의 본질을 설명하는 모델을 만드
는 것
“드라마를 같이 하면 사귄다”

4. 추정 (Estimation)
- 현재까지의 증거를 가지고, 현상의 본질을 설명하는 모델을 만드
는 것
- Bayesian Inference
- Deep Learning

5. 데이터 수집 (Data Collection)
- 예상되는 결론을 입증하기 위해 필요한 자료를 수집
“드라마를 같이 하면 사귄다”
O
X
?뉴스
SNS
지식인
연애
모델

3.1 통계 Agony..
D-
재수강
Drop
네번..

3.2 Learn from problem-solving
Gaussian Mixture Model for MUSIC ( 2012 )
Beat빠르기
전자음
가우시언믹스쳐를 알고는 있었지만,
사용할 수 없을 것 같았음.
실제 상황 + 이론
“느리니까 쓰지않는다.”

3.3 Roughly saying about Statistics..
분포통계기술통계 검정통계회귀통계

3.5 분포통계
제가 사용하는 분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
동전던지기
여러번 무한번
평균
제곱:
분산
나누기
일정시간
거꾸로
거꾸로
거꾸로
주사위
여러번
무한번

3.5 분포통계
제가 사용하는 분포 구조입니다.
베르누이 이항분포 정규분표
t분표
카이스퀘
어분표
F분표
다항분포
다변량정
규분표
베타분포
드리쉴레
분포
프아송
분포
감마분포
(지수분포)
검정통계continuousdiscrete
bernuill binomial
poisson
multinomial
Multivariate
normaml
gaussian
beta
dirichlet
Student t
Chi-square
F
Gamma
일정시간
-

3.7 유클리드.
From
wikipedia

마치며..
-Welcome!
-자유로운 피버팅

[D2 CAMPUS] Tech meet-up `data science` 발표자료

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (13)

Semelhante a [D2 CAMPUS] Tech meet-up `data science` 발표자료

Semelhante a [D2 CAMPUS] Tech meet-up `data science` 발표자료 (20)

Mais de NAVER D2

Mais de NAVER D2 (20)

[D2 CAMPUS] Tech meet-up `data science` 발표자료