SlideShare a Scribd company logo
1 of 34
Download to read offline
Deep Learning
Machine Learning with Deep Neural Network
김정희 부장 / 딥러닝 연구 Lab
NAVER LABS
CONTENTS
1. 왜 다시 Deep Learning 인가?
2. Deep Learning Tips
 
3. Deep Learning 과 Speech Recognition
 
1. 왜 다시 Deep Learning 인가?
1.1 Deep Neural Network
Deep Neural Network (DNN)
1.  1 개 이상의 Hidden Layer를 가진 Neural Network

C_1

C_2

ŸŸŸ

C_n

Output Layer

ŸŸŸ
Non
Linear
Activation

Sigmoid

ŸŸŸ

Hidden Layer

Weight
ŸŸŸ

Input Layer
1.1 Deep Neural Network

C_1

C_2

ŸŸŸ

C_n

‘고양이’, ‘호랑이’
‘학교’, ‘학과’

ŸŸŸ
Non
Linear
Activation

Sigmoid

ŸŸŸ

Weight
ŸŸŸ

Hidden Layer
1.1 Deep Neural Network
Linear
Multiplication

T

T

[InputVector]

!Weight $
#

 Matrix %

tanh
sigmoid

T

!Weight $
#

 Matrix %

…

Non-Linear
Activation

tanh
sigmoid
1.2 Deep Learning의 부활
DNN-Back propagation
1.  1980년대에 개발된 방법
2.  Overfitting 문제와 느린 학습으로 인해, Shallow Learning – SVM, GMM 에 완전히 밀림

New Algorithms

Big Data

GPU
1.2 Deep Learning의 부활
Re-Birth

New Algorithms

Big Data

GPU
1.2 Deep Learning의 부활

‘망설이는 호랑이는 벌보다 못하다’ – 사기열전 한신

New Algorithms

Big Data

GPU
1.3 New Algorithms
Pre-Training : Restricted Boltzmann Machine (RBM)
1.  2000 년 대 Deep Learning 의 새로운 시작
2.  Unsupervised  Generative Training

Drop-Out
1.  2010 년 대 Overfitting 을 방지하기 위한 효율적 방법
2.  Regularizer by Randomness
1.4 Pre-Training with RBM
1.5 Restricted Boltzmann Machine
Pre-Training : Restricted Boltzmann Machine (RBM)
1.  Hidden Node 들 끼리, Visible Node 들 끼리는 Independent
2.  Hidden Node 와 Visible Node 사이의 Weight는 Bipartite

H_1

…

H_N

Hidden

V_1

…

V_M

Visible
1.6 Learning Restricted Boltzmann Machine
Generative Training
1.  p( Label | Image )를 Maximize 하는 것이 아니라, p(Image)를 Maximize 하기 위한 것
a. 

Δwij = vi h j data −  vi h j model

b.  Ideal 하게는 무한대의 Markov Chain – Monte Carlo

j

i

j

i
New Algorithm

t=0

t=1

j

i
GPU
t=2

j

Big iData
t = infinity
1.7 Contrastive Divergence
Hinton 의 제안 ( Toronto Univ.)
1.  2002년 RBM을 이용한 Pre-Training
a.  CD-1 만으로도 Overfitting 문제를 피할 수 있는 Initial Point
b.  Generative Training 후 Discriminative Training
c. 

Δwij = vi h j data −  vi h j recon
j

i
t=0
data

j

i
t=1
reconstruction
1.8 Layer Stacking
Greedy Algorithm
Hidden Layer 3
Hidden Layer 2

Hidden Layer 2

Hidden Layer 1

Hidden Layer 1

Hidden Layer 1

Visible Layer

Visible Layer

Visible Layer

Learn  Freeze
반복하여 Layer를 쌓는다
1.9 Drop-Out
Drop-Out
1.  Regularizer 의 일종
a.  Randomness 를 추가함
2.  Hidden Node를 모두 훈련시키지 않고, Random 하게 Drop Out 시킨다
a.  관련된 Weight들은 모두 훈련되지 않는다.

Big Data
Random Value  0.6

GPU

Random Value  0.6
1.9 Drop-Out
Multi Neural Networks 의
Merge

GPU

GPU

GPU
1.10 Rectified Linear Unit (ReLU)
Drop-Out  ReLU
1.  Drop-Out 은 학습 Curve 의 수렴이 느리다
a.  Drop Out 되고 남은 일부분만 학습되므로
2.  Non-Linear Activation Function 의 교체
a.  일반적으로 사용되는 tanh, Logistic Sigmoid 대신
b.  ReLU 사용

Logistic Sigmoid

ReLU
1.11 Big Data
포털, 검색 업체 들 대량의 학습 DB 보유
1.  Modeling 을 정교하게 하기 위해서는 많은 Parameter 들이 필요
2.  많은 Parameter 들을 Overfitting 없이 훈련하려면 Big Data 필요
3.  Google 음성 인식에 사용된 DB Size
a.  5800 시간 이상
b.  DNN 훈련을 위한 입력 Data 20 억개 이상

Big 중
c.  지금도 게속하여 수집되어지는 음성 인식 데이터로 성능 개선 진행Data
d.  Google의 DB 수집 노력
• 

https://www.peanutgalleryfilms.com
1.12 GPU
Training Time
1.  New Algorithm 은 모두 Overfitting 을 방지 하기 위한 것
2.  추가 알고리즘에 의해 Training Time 은 더 늘어난다.
3.  다행히 DNN 의 Training 은 Non Linear Activation 을 제외하면 Matrix Operation
4.  GPU
a.  NVIDIA – CUBLAS
b.  NVIDIA 최신 GPU
• 

GeForce GTX Titan

• 

CUDA Core 2688 개

Big Data
2. Deep Learning Tips
2.1 RBM or Drop-Out ?
Drop-Out is better than RBM
1.  Overfitting 을 막을 Pre-Training 목적이라면 굳이 RBM 쓸 필요 없음
2.  Drop-Out 과 함께 Discriminative Training
a.  많은 hidden node 와 hidden layer
b.  ReLU
c.  Drop-Out
3.  RBM의 효용성
a.  Unsupervised Training
b.  Feature Extractor
2.2 Input Data
Noisy 한 Real Data 가 많다면 굳이 RBM도 Drop-Out도 쓰지 않아도 됨
1.  Noisy Data의 역할
a.  Local Minimum에 빠지는 것을 방지해 준다
b.  Regularizer by Randomness 의 역할
2.  Noisy Data 가 없다면
a.  만들어서라도 넣어 주어야
• 

Image Data의 경우
ü  좌우 반전, 약간의 왜곡 등

• 

음성의 경우
ü  임의의 배경 잡음 삽입
2.3 Noisy Data가 많다면
2.4 Learning Rate
계속 같은 Learning Rate를 써야 하나요?
1.  Iteration이 진행 될 수록 Learning Rate를 감소
a.  Validation Data Set을 설정
b.  Test 해 보며 성능이 Saturation 할 때마다 감소시키는 것이 정석
c.  귀찮고, 얼마나 감소시켜야 하는지도 애매
• 

음성 인식 AM의 경우

• 

Practically Exponentially 감소시키기
2.5 남은 어려운 점
DNN 을 훈련시키기 위해 결정되어져야 할 Parameters
1.  DNN Structure
a.  Input Layer 의 Node 개수
b.  Output Layer 의 Node 개수
c.  Hidden Layer 의 개수
d.  Hidden Layer 의 Node 수
2.  Training 단계 Parameters
a.  Momentum
b.  Learning Rate
c.  Weight Initial Value
d.  Drop Out 비율
e.  Mini-Batch Size
f.  Big-Batch Size
3. Deep Learning 과 Speech Recognition
3.1 Speech Recognition with DNN

p(x | w)p(w)
w = arg max p(w | x) = arg max
p(x)
w
w
^

Speech Recognition
1.  Observation Data
a.  Speech Signal : x
2.  Maximum A Posteriori
a.  p( w | x ) 를 최대로 하는 Word Sequence w
3.1 Speech Recognition with DNN

p(x | w)p(w)
w = arg max p(w | x) = arg max
p(x)
w
w
^

Acoustic Model  Language Model
1.  p(x)
a.  w와 Independent 하므로 제외
2.  p(w)
a.  Prior Probability : Language Model
3.  p( x | w )
a.  Likelihood : Acoustic Model
b.  현재의 흐름은 DNN 을 이용하여 Acoustic Model을 표현
3.2 Acoustic Model with DNN
T

p(x | w) = max ∏ p(xt | qt )
t=1

Acoustic Model  Language Model
1.  q
a.  Word w 를 구성하는 Senone q
2.  기존 방법
1.  p( x | q )를 표현하기 위해 Gaussian Mixture Model (GMM) 을 사용
2.  p( x | q ) Acoustic Model을 GMM 대신 DNN 사용
3.3 HMM-DNN Hybrid
Gaussian Mixture Model (GMM) 의 대체
1.  GMM Acoustic Model (AM)
a.  음성 신호의 Likelihood 를 표현
2.  AM 을 DNN 으로 표현

s1

s2

s3

Observation
Probabilities

H(M)
H(M-1)
…
H(1)
v

HMM

DNN

Observation
3.4 Deep Learning 음성인식 현황
Deep Learning NAVER 음성인식 서비스
1.  2013년 하반기부터 서비스
a.  기존 HMM-GMM 방식으로는 넘어설 수 없었던 수준
• 

기존 GMM 방식과 DNN 방식은
청동기 시대 철기 시대의 차이

b.  지금도 계속 성능 개선 진행 중
2.  Google, Microsoft 등 대부분 음성 인식 서비스 제공 업체들
이미 DNN 방식 사용
a.  Google 은 2012 년 Jelly Bean 부터
b.  Microsoft 는 2013년 하반기 부터

More Related Content

What's hot

밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장Sunggon Song
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝찬웅 주
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기Kwangsik Lee
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 
개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow양 한빛
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 
Io17ex automl & autodraw
Io17ex automl & autodrawIo17ex automl & autodraw
Io17ex automl & autodrawTae Young Lee
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본deepseaswjh
 
keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)beom kyun choi
 
Deep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural NetworkDeep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural Networkagdatalab
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
 
One-Shot Learning
One-Shot LearningOne-Shot Learning
One-Shot LearningJisung Kim
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호NAVER D2
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작Do Hoerin
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)WON JOON YOO
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기NAVER D2
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
 

What's hot (20)

밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
Io17ex automl & autodraw
Io17ex automl & autodrawIo17ex automl & autodraw
Io17ex automl & autodraw
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
 
keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)
 
Deep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural NetworkDeep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural Network
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개
 
One-Shot Learning
One-Shot LearningOne-Shot Learning
One-Shot Learning
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
 

Viewers also liked

기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 
[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVER[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVERNAVER D2
 
알파고 해부하기 1부
알파고 해부하기 1부알파고 해부하기 1부
알파고 해부하기 1부Donghun Lee
 
Introduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep LearningIntroduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep LearningTerry Taewoong Um
 
기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기Terry Taewoong Um
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 
1차시 smart education
1차시 smart education1차시 smart education
1차시 smart educationJaechoon Jo
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5SANG WON PARK
 
[BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님
[BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님 [BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님
[BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님 BIZ+
 
알파고 해부하기 3부
알파고 해부하기 3부알파고 해부하기 3부
알파고 해부하기 3부Donghun Lee
 
기계 학습의 현재와 미래
기계 학습의 현재와 미래기계 학습의 현재와 미래
기계 학습의 현재와 미래Joon Kim
 
20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료JungGeun Lee
 
주식 기술적 분석#3 (추세선)
주식 기술적 분석#3 (추세선)주식 기술적 분석#3 (추세선)
주식 기술적 분석#3 (추세선)Ant House
 
기술적분석 16 trix
기술적분석 16 trix기술적분석 16 trix
기술적분석 16 trixAnt House
 
머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical Model머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical ModelJungkyu Lee
 
Concurrent Programming (Java thread 다루기)
Concurrent Programming (Java thread 다루기)Concurrent Programming (Java thread 다루기)
Concurrent Programming (Java thread 다루기)JungGeun Lee
 
STRONG KOREA 20130609
STRONG KOREA 20130609STRONG KOREA 20130609
STRONG KOREA 20130609Leo Kim
 

Viewers also liked (20)

기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVER[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVER
 
알파고 해부하기 1부
알파고 해부하기 1부알파고 해부하기 1부
알파고 해부하기 1부
 
Introduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep LearningIntroduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep Learning
 
기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 
1차시 smart education
1차시 smart education1차시 smart education
1차시 smart education
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
4차산업혁명
4차산업혁명4차산업혁명
4차산업혁명
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5
 
[BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님
[BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님 [BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님
[BIZ+005 스타트업 투자/법률 기초편] 첫 투자를 위한 스타트업 기초상식 | 비즈업 조가연님
 
알파고 해부하기 3부
알파고 해부하기 3부알파고 해부하기 3부
알파고 해부하기 3부
 
기계 학습의 현재와 미래
기계 학습의 현재와 미래기계 학습의 현재와 미래
기계 학습의 현재와 미래
 
20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료
 
주식 기술적 분석#3 (추세선)
주식 기술적 분석#3 (추세선)주식 기술적 분석#3 (추세선)
주식 기술적 분석#3 (추세선)
 
기술적분석 16 trix
기술적분석 16 trix기술적분석 16 trix
기술적분석 16 trix
 
머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical Model머피의 머신러닝: Undirencted Graphical Model
머피의 머신러닝: Undirencted Graphical Model
 
파이썬으로 익히는 딥러닝
파이썬으로 익히는 딥러닝파이썬으로 익히는 딥러닝
파이썬으로 익히는 딥러닝
 
Concurrent Programming (Java thread 다루기)
Concurrent Programming (Java thread 다루기)Concurrent Programming (Java thread 다루기)
Concurrent Programming (Java thread 다루기)
 
STRONG KOREA 20130609
STRONG KOREA 20130609STRONG KOREA 20130609
STRONG KOREA 20130609
 

Similar to Deview deep learning-김정희

Image net classification with deep convolutional neural networks
Image net classification with deep convolutional neural networks Image net classification with deep convolutional neural networks
Image net classification with deep convolutional neural networks Korea, Sejong University.
 
Deferred Shading
Deferred ShadingDeferred Shading
Deferred Shading종빈 오
 
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...Gyubin Son
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition준영 박
 
[0326 박민근] deferred shading
[0326 박민근] deferred shading[0326 박민근] deferred shading
[0326 박민근] deferred shadingMinGeun Park
 
[신경망기초] 멀티레이어퍼셉트론
[신경망기초] 멀티레이어퍼셉트론[신경망기초] 멀티레이어퍼셉트론
[신경망기초] 멀티레이어퍼셉트론jaypi Ko
 
gametech 2012 Gladius project
gametech 2012 Gladius projectgametech 2012 Gladius project
gametech 2012 Gladius projectWuwon Yu
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)Tae Young Lee
 
Dense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDong Heon Cho
 
실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬현찬 양
 

Similar to Deview deep learning-김정희 (13)

Image net classification with deep convolutional neural networks
Image net classification with deep convolutional neural networks Image net classification with deep convolutional neural networks
Image net classification with deep convolutional neural networks
 
Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
Deferred Shading
Deferred ShadingDeferred Shading
Deferred Shading
 
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
 
DL from scratch(6)
DL from scratch(6)DL from scratch(6)
DL from scratch(6)
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition
 
[0326 박민근] deferred shading
[0326 박민근] deferred shading[0326 박민근] deferred shading
[0326 박민근] deferred shading
 
[신경망기초] 멀티레이어퍼셉트론
[신경망기초] 멀티레이어퍼셉트론[신경망기초] 멀티레이어퍼셉트론
[신경망기초] 멀티레이어퍼셉트론
 
gametech 2012 Gladius project
gametech 2012 Gladius projectgametech 2012 Gladius project
gametech 2012 Gladius project
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)
 
Digit recognizer
Digit recognizerDigit recognizer
Digit recognizer
 
Dense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other Models
 
실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬실전프로젝트 정서경 양현찬
실전프로젝트 정서경 양현찬
 

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&ANAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep LearningNAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applicationsNAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingNAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual SearchNAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?NAVER D2
 

More from NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 

Deview deep learning-김정희

  • 1. Deep Learning Machine Learning with Deep Neural Network 김정희 부장 / 딥러닝 연구 Lab NAVER LABS
  • 2. CONTENTS 1. 왜 다시 Deep Learning 인가? 2. Deep Learning Tips
  • 3.   3. Deep Learning 과 Speech Recognition
  • 4.  
  • 5. 1. 왜 다시 Deep Learning 인가?
  • 6. 1.1 Deep Neural Network Deep Neural Network (DNN) 1.  1 개 이상의 Hidden Layer를 가진 Neural Network C_1 C_2 ŸŸŸ C_n Output Layer ŸŸŸ Non Linear Activation Sigmoid ŸŸŸ Hidden Layer Weight ŸŸŸ Input Layer
  • 7. 1.1 Deep Neural Network C_1 C_2 ŸŸŸ C_n ‘고양이’, ‘호랑이’ ‘학교’, ‘학과’ ŸŸŸ Non Linear Activation Sigmoid ŸŸŸ Weight ŸŸŸ Hidden Layer
  • 8. 1.1 Deep Neural Network Linear Multiplication T T [InputVector] !Weight $ # Matrix % tanh sigmoid T !Weight $ # Matrix % … Non-Linear Activation tanh sigmoid
  • 9. 1.2 Deep Learning의 부활 DNN-Back propagation 1.  1980년대에 개발된 방법 2.  Overfitting 문제와 느린 학습으로 인해, Shallow Learning – SVM, GMM 에 완전히 밀림 New Algorithms Big Data GPU
  • 10. 1.2 Deep Learning의 부활 Re-Birth New Algorithms Big Data GPU
  • 11. 1.2 Deep Learning의 부활 ‘망설이는 호랑이는 벌보다 못하다’ – 사기열전 한신 New Algorithms Big Data GPU
  • 12. 1.3 New Algorithms Pre-Training : Restricted Boltzmann Machine (RBM) 1.  2000 년 대 Deep Learning 의 새로운 시작 2.  Unsupervised Generative Training Drop-Out 1.  2010 년 대 Overfitting 을 방지하기 위한 효율적 방법 2.  Regularizer by Randomness
  • 14. 1.5 Restricted Boltzmann Machine Pre-Training : Restricted Boltzmann Machine (RBM) 1.  Hidden Node 들 끼리, Visible Node 들 끼리는 Independent 2.  Hidden Node 와 Visible Node 사이의 Weight는 Bipartite H_1 … H_N Hidden V_1 … V_M Visible
  • 15. 1.6 Learning Restricted Boltzmann Machine Generative Training 1.  p( Label | Image )를 Maximize 하는 것이 아니라, p(Image)를 Maximize 하기 위한 것 a.  Δwij = vi h j data − vi h j model b.  Ideal 하게는 무한대의 Markov Chain – Monte Carlo j i j i New Algorithm t=0 t=1 j i GPU t=2 j Big iData t = infinity
  • 16. 1.7 Contrastive Divergence Hinton 의 제안 ( Toronto Univ.) 1.  2002년 RBM을 이용한 Pre-Training a.  CD-1 만으로도 Overfitting 문제를 피할 수 있는 Initial Point b.  Generative Training 후 Discriminative Training c.  Δwij = vi h j data − vi h j recon j i t=0 data j i t=1 reconstruction
  • 17. 1.8 Layer Stacking Greedy Algorithm Hidden Layer 3 Hidden Layer 2 Hidden Layer 2 Hidden Layer 1 Hidden Layer 1 Hidden Layer 1 Visible Layer Visible Layer Visible Layer Learn Freeze 반복하여 Layer를 쌓는다
  • 18. 1.9 Drop-Out Drop-Out 1.  Regularizer 의 일종 a.  Randomness 를 추가함 2.  Hidden Node를 모두 훈련시키지 않고, Random 하게 Drop Out 시킨다 a.  관련된 Weight들은 모두 훈련되지 않는다. Big Data Random Value 0.6 GPU Random Value 0.6
  • 19. 1.9 Drop-Out Multi Neural Networks 의 Merge GPU GPU GPU
  • 20. 1.10 Rectified Linear Unit (ReLU) Drop-Out ReLU 1.  Drop-Out 은 학습 Curve 의 수렴이 느리다 a.  Drop Out 되고 남은 일부분만 학습되므로 2.  Non-Linear Activation Function 의 교체 a.  일반적으로 사용되는 tanh, Logistic Sigmoid 대신 b.  ReLU 사용 Logistic Sigmoid ReLU
  • 21. 1.11 Big Data 포털, 검색 업체 들 대량의 학습 DB 보유 1.  Modeling 을 정교하게 하기 위해서는 많은 Parameter 들이 필요 2.  많은 Parameter 들을 Overfitting 없이 훈련하려면 Big Data 필요 3.  Google 음성 인식에 사용된 DB Size a.  5800 시간 이상 b.  DNN 훈련을 위한 입력 Data 20 억개 이상 Big 중 c.  지금도 게속하여 수집되어지는 음성 인식 데이터로 성능 개선 진행Data d.  Google의 DB 수집 노력 •  https://www.peanutgalleryfilms.com
  • 22. 1.12 GPU Training Time 1.  New Algorithm 은 모두 Overfitting 을 방지 하기 위한 것 2.  추가 알고리즘에 의해 Training Time 은 더 늘어난다. 3.  다행히 DNN 의 Training 은 Non Linear Activation 을 제외하면 Matrix Operation 4.  GPU a.  NVIDIA – CUBLAS b.  NVIDIA 최신 GPU •  GeForce GTX Titan •  CUDA Core 2688 개 Big Data
  • 24. 2.1 RBM or Drop-Out ? Drop-Out is better than RBM 1.  Overfitting 을 막을 Pre-Training 목적이라면 굳이 RBM 쓸 필요 없음 2.  Drop-Out 과 함께 Discriminative Training a.  많은 hidden node 와 hidden layer b.  ReLU c.  Drop-Out 3.  RBM의 효용성 a.  Unsupervised Training b.  Feature Extractor
  • 25. 2.2 Input Data Noisy 한 Real Data 가 많다면 굳이 RBM도 Drop-Out도 쓰지 않아도 됨 1.  Noisy Data의 역할 a.  Local Minimum에 빠지는 것을 방지해 준다 b.  Regularizer by Randomness 의 역할 2.  Noisy Data 가 없다면 a.  만들어서라도 넣어 주어야 •  Image Data의 경우 ü  좌우 반전, 약간의 왜곡 등 •  음성의 경우 ü  임의의 배경 잡음 삽입
  • 26. 2.3 Noisy Data가 많다면
  • 27. 2.4 Learning Rate 계속 같은 Learning Rate를 써야 하나요? 1.  Iteration이 진행 될 수록 Learning Rate를 감소 a.  Validation Data Set을 설정 b.  Test 해 보며 성능이 Saturation 할 때마다 감소시키는 것이 정석 c.  귀찮고, 얼마나 감소시켜야 하는지도 애매 •  음성 인식 AM의 경우 •  Practically Exponentially 감소시키기
  • 28. 2.5 남은 어려운 점 DNN 을 훈련시키기 위해 결정되어져야 할 Parameters 1.  DNN Structure a.  Input Layer 의 Node 개수 b.  Output Layer 의 Node 개수 c.  Hidden Layer 의 개수 d.  Hidden Layer 의 Node 수 2.  Training 단계 Parameters a.  Momentum b.  Learning Rate c.  Weight Initial Value d.  Drop Out 비율 e.  Mini-Batch Size f.  Big-Batch Size
  • 29. 3. Deep Learning 과 Speech Recognition
  • 30. 3.1 Speech Recognition with DNN p(x | w)p(w) w = arg max p(w | x) = arg max p(x) w w ^ Speech Recognition 1.  Observation Data a.  Speech Signal : x 2.  Maximum A Posteriori a.  p( w | x ) 를 최대로 하는 Word Sequence w
  • 31. 3.1 Speech Recognition with DNN p(x | w)p(w) w = arg max p(w | x) = arg max p(x) w w ^ Acoustic Model Language Model 1.  p(x) a.  w와 Independent 하므로 제외 2.  p(w) a.  Prior Probability : Language Model 3.  p( x | w ) a.  Likelihood : Acoustic Model b.  현재의 흐름은 DNN 을 이용하여 Acoustic Model을 표현
  • 32. 3.2 Acoustic Model with DNN T p(x | w) = max ∏ p(xt | qt ) t=1 Acoustic Model Language Model 1.  q a.  Word w 를 구성하는 Senone q 2.  기존 방법 1.  p( x | q )를 표현하기 위해 Gaussian Mixture Model (GMM) 을 사용 2.  p( x | q ) Acoustic Model을 GMM 대신 DNN 사용
  • 33. 3.3 HMM-DNN Hybrid Gaussian Mixture Model (GMM) 의 대체 1.  GMM Acoustic Model (AM) a.  음성 신호의 Likelihood 를 표현 2.  AM 을 DNN 으로 표현 s1 s2 s3 Observation Probabilities H(M) H(M-1) … H(1) v HMM DNN Observation
  • 34. 3.4 Deep Learning 음성인식 현황 Deep Learning NAVER 음성인식 서비스 1.  2013년 하반기부터 서비스 a.  기존 HMM-GMM 방식으로는 넘어설 수 없었던 수준 •  기존 GMM 방식과 DNN 방식은 청동기 시대 철기 시대의 차이 b.  지금도 계속 성능 개선 진행 중 2.  Google, Microsoft 등 대부분 음성 인식 서비스 제공 업체들 이미 DNN 방식 사용 a.  Google 은 2012 년 Jelly Bean 부터 b.  Microsoft 는 2013년 하반기 부터
  • 35. QA