SlideShare uma empresa Scribd logo
1 de 28
Understanding LSTM Networks
Jaehyun Ahn
Machine Learning Data mining Lab.
1
RNN(Recurrent Neural Networks)
Recurrent Neural
Network
Feedforward
Network
Structure At least contain
cycles
(so called “memory”)
No cycle
Input-output Time sequential Data Current state
Training
approaches
(Most popular)
Backpropagation
through time(BPTT)
Backpropagation
Algorithm
참고자료: http://www.cs.bham.ac.uk/~jxb/INC/l12.pdf
2
RNN(Recurrent Neural Networks)
•  순차적인 정보를 처리하는 모델(e.g. 자동번역)
•  Recurrent: 출력 결과가 이전 계산 결과에 영향을 받음

(메모리를 가짐)
•  기본적인 RNN 구조
X_t: time step t에서의 입력
S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0)
O_t: time step t에서의 출력, o_t = f(V_s_t)
기초 논문: Recurrent neural network regularization
3
RNN(Recurrent Neural Networks)
X_t: time step t에서의 입력
S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0)
O_t: time step t에서의 출력 (e.g. 자동번역, 단어 완성)
[Note]
•  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보
애 대한 Output이다
•  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W)
(Long-term dependency 문제 발생) 4
RNN(Recurrent Neural Networks)
X_t: time step t에서의 입력
S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0)
O_t: time step t에서의 출력 (e.g. 자동번역 단어 벡터)
[Note]
•  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보
애 대한 Output이다
•  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W)
(Long-term dependency 문제 발생) 5
RNN(Recurrent Neural Networks)
RNN의 학습은 BPTT(Backpropagation Through Time)으로 진행되는데,
이것은 t_n의 U,V,W를 학습하기 위해서 t_1 – t_n-1 까지의 state를 모두 더
해야 함을 의미하고, Exploding/Vanishing Gradients의 문제로 학습하기
어렵다고 발표된 바 있다. 

(Bengio, On the difficulty of training recurrent neural networks)
•  Explosion은 long term components를 학습할 때 일어남
•  Vanish는 다음 event에 대하여 correlation을 학습하는 와중에 일어남
(delta weight가 0)
[Note] 논문 2. Exploding and vanishing gradients
6
RNN(Recurrent Neural Networks)
RNN의 학습은 BPTT(Backpropagation Through Time) 대신 단기 BPTT
(Truncated Backpropagation Through Time)로 대체되기도 하는데,
이와 같은 경우 장기적으로 남아있어야 할 메모리가 유실된다고 알려져 있다.
BPTT	
TBPTT	
7
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
8http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
Green: 얼마나 잘못되었는지 기록
Orange: Green차이만큼 update
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
9
http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
e_o(t): next word predicting error
Alpha: learning rate
Beta : L2 regularization coefficient
V(t+1) = V(t) + (과거 state)*predict err*lr – V(t)*Beta
L2 Reg: https://www.quora.com/What-is-the-difference-between-L1-and-L2-regularization
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
10http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
e_h(t): error in the hidden layer
U(t+1) = U(t) + (0 ~ t-1)시점 [weight]*err*[lr] – U(t)*beta
W(t+1) = W(t) + (0 ~ t-1)시점 [recurrent state]*err*[lr] – W(t)*beta
d_h: differential of the sigmoid function
RNN(Recurrent Neural Networks)
RNN 학습: BPTT(Backpropagation Through Time)
11http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html
e_h(t-tau-1): error of the past hidden layer
e_h(t-tau): is the weight W flowing in the oppositie direction
d_h: differential of the sigmoid function
RNN(Recurrent Neural Networks)
그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN),
LSTM]
12http://aikorea.org/blog/rnn-tutorial-1/
step t 이후의 출력값이 입력값에도 영향을
받을 수 있다는 아이디어에서 나온 모델. 두 개의
RNN이 동시에 존재하고, 출력값은 두 개의 RNN
hidden state에 의존한다.
Bidirectional RNN:
RNN(Recurrent Neural Networks)
그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN),
LSTM]
13http://aikorea.org/blog/rnn-tutorial-1/
Bidirectional RNN에서 매 시간 step마
다 추가적인 layer를 두어 구성한 RNN. 계산
capacity가 크고, 학습 데이터는 훨씬 더 많
이 필요하다.
Deep Bidirectional RNN:
RNN(Recurrent Neural Networks)
그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN),
LSTM]
14http://aikorea.org/blog/rnn-tutorial-1/
RNN이 과거 time step t를 학습하여 추론하
는 과정에서 장기 의존성(long term
dependency)이 떨어진다는 단점을 극복하기
위하여 나온 네트워크. 때문에 weight를 학습
한다기 보다는 어떠한 정보를 버리고(forgot)
update할지에 초점을 맞춘 구조.
LSTM은 RNN의 뉴런 대신에 [메모리 셀]이라는
구조를 사용하여 forgot, 현재 state에 남
길 값을 결정한다.
LSTM Network:
LSTM(Long Short Term Memory) Architecture
Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개
발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계
됨.
15http://colah.github.io/posts/2015-08-Understanding-LSTMs/
X_t: t timestep에서의 input
LSTM(Long Short Term Memory) Architecture
Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개
발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계
됨. 메모리 셀 C가 들어간 버전은 Gers et al. 2000이 소개하였음.
16http://colah.github.io/posts/2015-08-Understanding-LSTMs/
X_t: t timestep에서의 input
C_t: Cell state, 정보를 더하거나 지울지 정함
LSTM(Long Short Term Memory) Architecture
17http://colah.github.io/posts/2015-08-Understanding-LSTMs/
Forget gate층은 h_[t-1]과 x_t를 보고, sigmoid를 통과시켜 C_[t-1]에서의 각 숫자
를 위한 0과 1 사이의 숫자를 출력함. Output인 f_t()가 forget gate.
LSTM(Long Short Term Memory) Architecture
18http://colah.github.io/posts/2015-08-Understanding-LSTMs/
Input gate층은 i_t()로 어떤 값을 갱신할지 결정한다. Tanh()층은 셀 상태에서 추가될 수
있는 후보들의 벡터인 [C_t]^~를 생성한다. 다음 단계에서 셀 스테이트 C를 갱신한다.
LSTM(Long Short Term Memory) Architecture
19http://colah.github.io/posts/2015-08-Understanding-LSTMs/
새로운 셀 스테이트 C_t는 forget gate를 통과한 과거 셀 상태 C_[t-1]과 input gate를
통과한 새로운 후보 셀 스테이트 [C_t]^~와의 합으로 구성된다. 이는 셀 스테이트 값을 얼만큼 갱신
할지 결정한 값으로 크기 변경된(scaled) 새 후보들이 된다. 이러한 셀 state는 gradient 곱
이 발생하지 않기 때문에 exploding이나 vanishing이 발생하지 않는다.셀 state가 장기 기
억이 가능하게 되는 이유다.
LSTM(Long Short Term Memory) Architecture
20http://colah.github.io/posts/2015-08-Understanding-LSTMs/
h_t는 출력을 의미하며 o_t()는 Output gate이다. Output gate는 Hidden
state(h_[t-1])와 현재 input x_t를 확인하고 어떤 부분을 출력할지 결정한다. 새로운
Hidden layer는 새로 갱신한 Cell state에 Output gate 결과를 반영하여 결정된다.
LSTM(Long Short Term Memory) Architecture
21http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
¤: element-wise multiplication
h_t^l: layer l의 time stamp t일때 hidden state
•  RNN에는 Dropout을 붙이면 잘 동작하지 않는다고 알려져 있는데, dropout이 지워버려선 안
되는 과거 information이 지워지기 때문이라고 한다.(Recurrent Neural Network
Regularization, ICLR 2015) 참고로 이러한 이유 때문에 Dropout 연산은
Recurrent connection이 아닌 곳에서만 적용하는 것이 위 논문의 아이디어다.
g^t() = cell state 후보
[LSTM feed forward pass]
LSTM(Long Short Term Memory) Architecture
22http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
•  LSTM은 구조에 따라 다양한 용례로 사용할 수 있음
•  2D Tensor는 # of inputs,# of examples로 구성되며
•  3D Tensor는 [2D Tensor]에 Timesteps가 포함된다. 즉 (덩어리)를 input으로 사용
[LSTM 용례]
LSTM(Long Short Term Memory) Architecture
23http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
•  각 게이트(forget, input, output)마다 셀 상태를 추가로 참고할 수 있도록 하여 게이트
들이 과거 데이터에 조금 더 의존적으로 계산을 수행하도록 만든 LSTM
•  Gers and Schmidhuber (2000)
[LSTM 변형: Peephole connection]
LSTM(Long Short Term Memory) Architecture
24http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks
•  Forget gate와 input gate를 단일 Cell update gate로 통합함
•  Input gate가 사라지는 대신, input은 후보 셀 스테이트를 결정하고 새 hidden state
를 결정하는데 사용됨
•  결과 모델은 표준 LSTM 모델보다 단순함
•  Cho et al. (2014)
[LSTM 변형: GRU(Gated Recurrent Unit)]
LSTM(Long Short Term Memory) Architecture
25
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
[LSTM 변형: 그 외]
LSTM(Long Short Term Memory) Architecture
26
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
•  [Input]: 재현이 침대에서 일어났다.
•  [Input]: 재현이 테이블로 가서 사과를 집어들었다.
•  [Input]: 그는 사과를 먹었다.
•  [Input]: 재현이 거실로 이동했다.
•  [Input]: 사과를 떨어뜨렸다.
•  [Question]: 재현이 사과를 떨어뜨린 곳은?
[LSTM 변형: 그 외]
LSTM(Long Short Term Memory) Architecture
27
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
•  [Input]: 재현이 침대에서 일어났다.
•  [Input]: 재현이 테이블로 가서 사과를 집어들었다.
•  [Input]: 그는 사과를 먹었다.
•  [Input]: 재현이 거실로 이동했다.
•  [Input]: 사과를 떨어뜨렸다.
•  [Question]: 재현이 사과를 떨어뜨린 곳은?
•  [Answer]: 거실
[LSTM 변형: 그 외]
LSTM(Long Short Term Memory) Architecture
28
•  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음
•  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록
변형한 RNN임
•  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결
과가 비슷하다는 것을 발견
•  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정
데이터 세트에 맞는 구조들이 있음을 확인하였음
•  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러
개를 취합하는 것임
•  [Input]: 재현이 침대에서 일어났다.
•  [Input]: 재현이 테이블로 가서 사과를 집어들었다.
•  [Input]: 그는 사과를 먹었다.
•  [Input]: 재현이 거실로 이동했다.
•  [Input]: 사과를 떨어뜨렸다.
•  [Question]: 재현이 사과를 떨어뜨린 곳은?
•  [Answer]: 거실
•  Show, Attend and Tell, Kelvin Xu et al. (2015)
[LSTM 변형: 그 외]

Mais conteúdo relacionado

Mais procurados

Precise LSTM Algorithm
Precise LSTM AlgorithmPrecise LSTM Algorithm
Precise LSTM AlgorithmYasutoTamura1
 
Chatbots and Deep Learning
Chatbots and Deep LearningChatbots and Deep Learning
Chatbots and Deep LearningAndherson Maeda
 
9XD 대학생 노동자 성장기
9XD 대학생 노동자 성장기9XD 대학생 노동자 성장기
9XD 대학생 노동자 성장기원희 정
 
後悔しないもんごもんごの使い方 〜アプリ編〜
後悔しないもんごもんごの使い方 〜アプリ編〜後悔しないもんごもんごの使い方 〜アプリ編〜
後悔しないもんごもんごの使い方 〜アプリ編〜Masakazu Matsushita
 
Pacemaker 操作方法メモ
Pacemaker 操作方法メモPacemaker 操作方法メモ
Pacemaker 操作方法メモMasayuki Ozawa
 
BERT QnA System for Airplane Flight Manual
BERT QnA System for Airplane Flight ManualBERT QnA System for Airplane Flight Manual
BERT QnA System for Airplane Flight ManualArkaGhosh65
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - IntroductionChristian Perone
 
Промышленная разработка ПО. Лекция 1. Общие понятия
Промышленная разработка ПО. Лекция 1. Общие понятияПромышленная разработка ПО. Лекция 1. Общие понятия
Промышленная разработка ПО. Лекция 1. Общие понятияMikhail Payson
 
Self-Attention with Linear Complexity
Self-Attention with Linear ComplexitySelf-Attention with Linear Complexity
Self-Attention with Linear ComplexitySangwoo Mo
 
NGINX Back to Basics: Ingress Controller (Japanese Webinar)
NGINX Back to Basics: Ingress Controller (Japanese Webinar)NGINX Back to Basics: Ingress Controller (Japanese Webinar)
NGINX Back to Basics: Ingress Controller (Japanese Webinar)NGINX, Inc.
 
kubernetes-meetup-tokyo-20210624-kubevirt
kubernetes-meetup-tokyo-20210624-kubevirtkubernetes-meetup-tokyo-20210624-kubevirt
kubernetes-meetup-tokyo-20210624-kubevirtYukinori Sagara
 
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systemsQi He
 
Conversational AI with Transformer Models
Conversational AI with Transformer ModelsConversational AI with Transformer Models
Conversational AI with Transformer ModelsDatabricks
 
svn 능력자를 위한 git 개념 가이드
svn 능력자를 위한 git 개념 가이드svn 능력자를 위한 git 개념 가이드
svn 능력자를 위한 git 개념 가이드Insub Lee
 
Performance Comparison of Mutex, RWLock and Atomic types in Rust
Performance Comparison of Mutex, RWLock and  Atomic types in RustPerformance Comparison of Mutex, RWLock and  Atomic types in Rust
Performance Comparison of Mutex, RWLock and Atomic types in RustMitsunori Komatsu
 
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wスケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wCloudera Japan
 
Spring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVCSpring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVCYuichi Hasegawa
 
NL-based Software Engineering (NLBSE) '22
NL-based Software Engineering (NLBSE) '22NL-based Software Engineering (NLBSE) '22
NL-based Software Engineering (NLBSE) '22Sebastiano Panichella
 

Mais procurados (20)

Precise LSTM Algorithm
Precise LSTM AlgorithmPrecise LSTM Algorithm
Precise LSTM Algorithm
 
Chatbots and Deep Learning
Chatbots and Deep LearningChatbots and Deep Learning
Chatbots and Deep Learning
 
9XD 대학생 노동자 성장기
9XD 대학생 노동자 성장기9XD 대학생 노동자 성장기
9XD 대학생 노동자 성장기
 
後悔しないもんごもんごの使い方 〜アプリ編〜
後悔しないもんごもんごの使い方 〜アプリ編〜後悔しないもんごもんごの使い方 〜アプリ編〜
後悔しないもんごもんごの使い方 〜アプリ編〜
 
Pacemaker 操作方法メモ
Pacemaker 操作方法メモPacemaker 操作方法メモ
Pacemaker 操作方法メモ
 
Sequence models
Sequence modelsSequence models
Sequence models
 
BERT QnA System for Airplane Flight Manual
BERT QnA System for Airplane Flight ManualBERT QnA System for Airplane Flight Manual
BERT QnA System for Airplane Flight Manual
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - Introduction
 
Промышленная разработка ПО. Лекция 1. Общие понятия
Промышленная разработка ПО. Лекция 1. Общие понятияПромышленная разработка ПО. Лекция 1. Общие понятия
Промышленная разработка ПО. Лекция 1. Общие понятия
 
Self-Attention with Linear Complexity
Self-Attention with Linear ComplexitySelf-Attention with Linear Complexity
Self-Attention with Linear Complexity
 
NGINX Back to Basics: Ingress Controller (Japanese Webinar)
NGINX Back to Basics: Ingress Controller (Japanese Webinar)NGINX Back to Basics: Ingress Controller (Japanese Webinar)
NGINX Back to Basics: Ingress Controller (Japanese Webinar)
 
kubernetes-meetup-tokyo-20210624-kubevirt
kubernetes-meetup-tokyo-20210624-kubevirtkubernetes-meetup-tokyo-20210624-kubevirt
kubernetes-meetup-tokyo-20210624-kubevirt
 
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
 
Deep Learning for Machine Translation
Deep Learning for Machine TranslationDeep Learning for Machine Translation
Deep Learning for Machine Translation
 
Conversational AI with Transformer Models
Conversational AI with Transformer ModelsConversational AI with Transformer Models
Conversational AI with Transformer Models
 
svn 능력자를 위한 git 개념 가이드
svn 능력자를 위한 git 개념 가이드svn 능력자를 위한 git 개념 가이드
svn 능력자를 위한 git 개념 가이드
 
Performance Comparison of Mutex, RWLock and Atomic types in Rust
Performance Comparison of Mutex, RWLock and  Atomic types in RustPerformance Comparison of Mutex, RWLock and  Atomic types in Rust
Performance Comparison of Mutex, RWLock and Atomic types in Rust
 
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wスケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
 
Spring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVCSpring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVC
 
NL-based Software Engineering (NLBSE) '22
NL-based Software Engineering (NLBSE) '22NL-based Software Engineering (NLBSE) '22
NL-based Software Engineering (NLBSE) '22
 

Destaque

Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRUananth
 
Machine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision TreesMachine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision Treesananth
 
Recent Progress in RNN and NLP
Recent Progress in RNN and NLPRecent Progress in RNN and NLP
Recent Progress in RNN and NLPhytae
 
RNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq ModelsRNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq ModelsEmory NLP
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM健程 杨
 
문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제Dosang Yoon
 
형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘Dosang Yoon
 
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)Universitat Politècnica de Catalunya
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 
FABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug DesignFABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug DesignMartin Heusel
 
좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^Ick-Sung Choi
 
나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)Mad Scientists
 
A Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMA Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMTomonari Masada
 
Recurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep diveRecurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep diveAlex Kalinin
 
Machine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu ChangMachine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu Changbutest
 
Ethereum overview 30 sep2014
Ethereum overview 30 sep2014Ethereum overview 30 sep2014
Ethereum overview 30 sep2014Yoshimitsu Homma
 
Behaviour change- fresh thinking
Behaviour change- fresh thinking Behaviour change- fresh thinking
Behaviour change- fresh thinking Table19
 

Destaque (20)

Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRU
 
Machine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision TreesMachine Learning Lecture 3 Decision Trees
Machine Learning Lecture 3 Decision Trees
 
Recent Progress in RNN and NLP
Recent Progress in RNN and NLPRecent Progress in RNN and NLP
Recent Progress in RNN and NLP
 
RNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq ModelsRNN, LSTM and Seq-2-Seq Models
RNN, LSTM and Seq-2-Seq Models
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM
 
문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제문장 분류 설명을 위한 간단한 예제
문장 분류 설명을 위한 간단한 예제
 
형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘형태소분석과 HMM 알고리즘
형태소분석과 HMM 알고리즘
 
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
Deep Learning for Computer Vision: Recurrent Neural Networks (UPC 2016)
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 
FABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug DesignFABIA: Large Data Biclustering in Drug Design
FABIA: Large Data Biclustering in Drug Design
 
좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^좋은 것을 찾는 방법. ^^
좋은 것을 찾는 방법. ^^
 
나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)나를 자극하는 Real world_algorithm (1/2)
나를 자극하는 Real world_algorithm (1/2)
 
Plan creat services
Plan creat servicesPlan creat services
Plan creat services
 
A Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMA Note on BPTT for LSTM LM
A Note on BPTT for LSTM LM
 
Recurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep diveRecurrent Networks and LSTM deep dive
Recurrent Networks and LSTM deep dive
 
Machine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu ChangMachine Learning: An Introduction Fu Chang
Machine Learning: An Introduction Fu Chang
 
Ethereum overview 30 sep2014
Ethereum overview 30 sep2014Ethereum overview 30 sep2014
Ethereum overview 30 sep2014
 
Behaviour change- fresh thinking
Behaviour change- fresh thinking Behaviour change- fresh thinking
Behaviour change- fresh thinking
 
Rails + Webpack
Rails + WebpackRails + Webpack
Rails + Webpack
 

Semelhante a LSTM 네트워크 이해하기

2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summitTae Young Lee
 
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요NAVER D2
 
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?내훈 정
 
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)내훈 정
 
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)Dong Chan Shin
 
스톰 접근 중
스톰 접근 중스톰 접근 중
스톰 접근 중June Yi
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Chapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsChapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsKyeongUkJang
 
Linux programming study
Linux programming studyLinux programming study
Linux programming studyYunseok Lee
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
자료구조 Project2
자료구조 Project2자료구조 Project2
자료구조 Project2KoChungWook
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 

Semelhante a LSTM 네트워크 이해하기 (20)

2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summit
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
 
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
시즌 2: 멀티쓰레드 프로그래밍이 왜이리 힘드나요?
 
Rnn keras
Rnn kerasRnn keras
Rnn keras
 
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이  왜 이리 힘드나요?  (Lock-free에서 Transactional Memory까지)
Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
 
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
C# / .NET Framework로 미래 밥그릇을 챙겨보자 (Basic)
 
스톰 접근 중
스톰 접근 중스톰 접근 중
스톰 접근 중
 
Thread programming
Thread programmingThread programming
Thread programming
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Chapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsChapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive nets
 
Linux programming study
Linux programming studyLinux programming study
Linux programming study
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
자료구조 Project2
자료구조 Project2자료구조 Project2
자료구조 Project2
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
LeNet & GoogLeNet
LeNet & GoogLeNetLeNet & GoogLeNet
LeNet & GoogLeNet
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 

Mais de Mad Scientists

트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회Mad Scientists
 
트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표Mad Scientists
 
트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획Mad Scientists
 
Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)Mad Scientists
 
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Mad Scientists
 
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSSMad Scientists
 
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...Mad Scientists
 
101: Convolutional Neural Networks
101: Convolutional Neural Networks 101: Convolutional Neural Networks
101: Convolutional Neural Networks Mad Scientists
 
how to visualize: interstellar from example
how to visualize: interstellar from examplehow to visualize: interstellar from example
how to visualize: interstellar from exampleMad Scientists
 
ideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release Seminarideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release SeminarMad Scientists
 
Relational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic EavaluationsRelational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic EavaluationsMad Scientists
 
Personal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBoxPersonal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBoxMad Scientists
 
핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계Mad Scientists
 
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Mad Scientists
 
Superhero discourse in Americanization
Superhero discourse in AmericanizationSuperhero discourse in Americanization
Superhero discourse in AmericanizationMad Scientists
 
[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final Presentation[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final PresentationMad Scientists
 
Basic Understanding of the Deep
Basic Understanding of the DeepBasic Understanding of the Deep
Basic Understanding of the DeepMad Scientists
 
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론Mad Scientists
 
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계Mad Scientists
 

Mais de Mad Scientists (19)

트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
트라우마틱 메모리(Traumatic Memory) : 리스크리스트 및 작품방향 선회
 
트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표트라우마틱 메모리(Traumatic Memory) 수정사항 발표
트라우마틱 메모리(Traumatic Memory) 수정사항 발표
 
트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획트라우마틱 메모리(Traumatic Memory) 제작 기획
트라우마틱 메모리(Traumatic Memory) 제작 기획
 
Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)Learning RBM(Restricted Boltzmann Machine in Practice)
Learning RBM(Restricted Boltzmann Machine in Practice)
 
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
 
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
핀테크 기업조사- TransferWise, CurrencyCloud, TOSS
 
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hier...
 
101: Convolutional Neural Networks
101: Convolutional Neural Networks 101: Convolutional Neural Networks
101: Convolutional Neural Networks
 
how to visualize: interstellar from example
how to visualize: interstellar from examplehow to visualize: interstellar from example
how to visualize: interstellar from example
 
ideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release Seminarideas worth spreading: 2015 Club Release Seminar
ideas worth spreading: 2015 Club Release Seminar
 
Relational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic EavaluationsRelational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
Relational Mate Value: Consensus and Uniqueness in Romantic Eavaluations
 
Personal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBoxPersonal Matching Recommendation system in TinderBox
Personal Matching Recommendation system in TinderBox
 
핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계핀란드, 내가 가보고 느낀 스타트업 생태계
핀란드, 내가 가보고 느낀 스타트업 생태계
 
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
 
Superhero discourse in Americanization
Superhero discourse in AmericanizationSuperhero discourse in Americanization
Superhero discourse in Americanization
 
[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final Presentation[SW Maestro] Team Loclas 1-2 Final Presentation
[SW Maestro] Team Loclas 1-2 Final Presentation
 
Basic Understanding of the Deep
Basic Understanding of the DeepBasic Understanding of the Deep
Basic Understanding of the Deep
 
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
문화연구입문 발표자료, <현대캐피탈>광고 분석 및 담론
 
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
러셀과 데카르트 탈 구조주의와 컴퓨터공학의 관계
 

LSTM 네트워크 이해하기

  • 1. Understanding LSTM Networks Jaehyun Ahn Machine Learning Data mining Lab. 1
  • 2. RNN(Recurrent Neural Networks) Recurrent Neural Network Feedforward Network Structure At least contain cycles (so called “memory”) No cycle Input-output Time sequential Data Current state Training approaches (Most popular) Backpropagation through time(BPTT) Backpropagation Algorithm 참고자료: http://www.cs.bham.ac.uk/~jxb/INC/l12.pdf 2
  • 3. RNN(Recurrent Neural Networks) •  순차적인 정보를 처리하는 모델(e.g. 자동번역) •  Recurrent: 출력 결과가 이전 계산 결과에 영향을 받음
 (메모리를 가짐) •  기본적인 RNN 구조 X_t: time step t에서의 입력 S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0) O_t: time step t에서의 출력, o_t = f(V_s_t) 기초 논문: Recurrent neural network regularization 3
  • 4. RNN(Recurrent Neural Networks) X_t: time step t에서의 입력 S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0) O_t: time step t에서의 출력 (e.g. 자동번역, 단어 완성) [Note] •  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보 애 대한 Output이다 •  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W) (Long-term dependency 문제 발생) 4
  • 5. RNN(Recurrent Neural Networks) X_t: time step t에서의 입력 S_t: time step t에서의 hidden state. (*U, W를 학습, S_-1 = 0) O_t: time step t에서의 출력 (e.g. 자동번역 단어 벡터) [Note] •  Hidden state S_t는 과거 모든 정보를 담고 있고, O_t는 현재 정보 애 대한 Output이다 •  RNN은 모든 시간 스텝에 대하여 같은 파라미터를 공유한다. (U,V,W) (Long-term dependency 문제 발생) 5
  • 6. RNN(Recurrent Neural Networks) RNN의 학습은 BPTT(Backpropagation Through Time)으로 진행되는데, 이것은 t_n의 U,V,W를 학습하기 위해서 t_1 – t_n-1 까지의 state를 모두 더 해야 함을 의미하고, Exploding/Vanishing Gradients의 문제로 학습하기 어렵다고 발표된 바 있다. 
 (Bengio, On the difficulty of training recurrent neural networks) •  Explosion은 long term components를 학습할 때 일어남 •  Vanish는 다음 event에 대하여 correlation을 학습하는 와중에 일어남 (delta weight가 0) [Note] 논문 2. Exploding and vanishing gradients 6
  • 7. RNN(Recurrent Neural Networks) RNN의 학습은 BPTT(Backpropagation Through Time) 대신 단기 BPTT (Truncated Backpropagation Through Time)로 대체되기도 하는데, 이와 같은 경우 장기적으로 남아있어야 할 메모리가 유실된다고 알려져 있다. BPTT TBPTT 7
  • 8. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 8http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html Green: 얼마나 잘못되었는지 기록 Orange: Green차이만큼 update
  • 9. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 9 http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html e_o(t): next word predicting error Alpha: learning rate Beta : L2 regularization coefficient V(t+1) = V(t) + (과거 state)*predict err*lr – V(t)*Beta L2 Reg: https://www.quora.com/What-is-the-difference-between-L1-and-L2-regularization
  • 10. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 10http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html e_h(t): error in the hidden layer U(t+1) = U(t) + (0 ~ t-1)시점 [weight]*err*[lr] – U(t)*beta W(t+1) = W(t) + (0 ~ t-1)시점 [recurrent state]*err*[lr] – W(t)*beta d_h: differential of the sigmoid function
  • 11. RNN(Recurrent Neural Networks) RNN 학습: BPTT(Backpropagation Through Time) 11http://kiyukuta.github.io/2013/12/09/mlac2013_day9_recurrent_neural_network_language_model.html e_h(t-tau-1): error of the past hidden layer e_h(t-tau): is the weight W flowing in the oppositie direction d_h: differential of the sigmoid function
  • 12. RNN(Recurrent Neural Networks) 그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN), LSTM] 12http://aikorea.org/blog/rnn-tutorial-1/ step t 이후의 출력값이 입력값에도 영향을 받을 수 있다는 아이디어에서 나온 모델. 두 개의 RNN이 동시에 존재하고, 출력값은 두 개의 RNN hidden state에 의존한다. Bidirectional RNN:
  • 13. RNN(Recurrent Neural Networks) 그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN), LSTM] 13http://aikorea.org/blog/rnn-tutorial-1/ Bidirectional RNN에서 매 시간 step마 다 추가적인 layer를 두어 구성한 RNN. 계산 capacity가 크고, 학습 데이터는 훨씬 더 많 이 필요하다. Deep Bidirectional RNN:
  • 14. RNN(Recurrent Neural Networks) 그 외 RNN, [Bidirectional RNN, Deep (Bidirectional RNN), LSTM] 14http://aikorea.org/blog/rnn-tutorial-1/ RNN이 과거 time step t를 학습하여 추론하 는 과정에서 장기 의존성(long term dependency)이 떨어진다는 단점을 극복하기 위하여 나온 네트워크. 때문에 weight를 학습 한다기 보다는 어떠한 정보를 버리고(forgot) update할지에 초점을 맞춘 구조. LSTM은 RNN의 뉴런 대신에 [메모리 셀]이라는 구조를 사용하여 forgot, 현재 state에 남 길 값을 결정한다. LSTM Network:
  • 15. LSTM(Long Short Term Memory) Architecture Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개 발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계 됨. 15http://colah.github.io/posts/2015-08-Understanding-LSTMs/ X_t: t timestep에서의 input
  • 16. LSTM(Long Short Term Memory) Architecture Hochretier, Schmidhuber (CMU, 1997)가 개발. RNN의 장기 의존성 문제를 해결하기 위해 개 발되었음. 일련의 학습을 통해 추론을 하기 보다는 과거에 일어났던 일을 기억하고 재현하는 일을 목적으로 설계 됨. 메모리 셀 C가 들어간 버전은 Gers et al. 2000이 소개하였음. 16http://colah.github.io/posts/2015-08-Understanding-LSTMs/ X_t: t timestep에서의 input C_t: Cell state, 정보를 더하거나 지울지 정함
  • 17. LSTM(Long Short Term Memory) Architecture 17http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Forget gate층은 h_[t-1]과 x_t를 보고, sigmoid를 통과시켜 C_[t-1]에서의 각 숫자 를 위한 0과 1 사이의 숫자를 출력함. Output인 f_t()가 forget gate.
  • 18. LSTM(Long Short Term Memory) Architecture 18http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Input gate층은 i_t()로 어떤 값을 갱신할지 결정한다. Tanh()층은 셀 상태에서 추가될 수 있는 후보들의 벡터인 [C_t]^~를 생성한다. 다음 단계에서 셀 스테이트 C를 갱신한다.
  • 19. LSTM(Long Short Term Memory) Architecture 19http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 새로운 셀 스테이트 C_t는 forget gate를 통과한 과거 셀 상태 C_[t-1]과 input gate를 통과한 새로운 후보 셀 스테이트 [C_t]^~와의 합으로 구성된다. 이는 셀 스테이트 값을 얼만큼 갱신 할지 결정한 값으로 크기 변경된(scaled) 새 후보들이 된다. 이러한 셀 state는 gradient 곱 이 발생하지 않기 때문에 exploding이나 vanishing이 발생하지 않는다.셀 state가 장기 기 억이 가능하게 되는 이유다.
  • 20. LSTM(Long Short Term Memory) Architecture 20http://colah.github.io/posts/2015-08-Understanding-LSTMs/ h_t는 출력을 의미하며 o_t()는 Output gate이다. Output gate는 Hidden state(h_[t-1])와 현재 input x_t를 확인하고 어떤 부분을 출력할지 결정한다. 새로운 Hidden layer는 새로 갱신한 Cell state에 Output gate 결과를 반영하여 결정된다.
  • 21. LSTM(Long Short Term Memory) Architecture 21http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks ¤: element-wise multiplication h_t^l: layer l의 time stamp t일때 hidden state •  RNN에는 Dropout을 붙이면 잘 동작하지 않는다고 알려져 있는데, dropout이 지워버려선 안 되는 과거 information이 지워지기 때문이라고 한다.(Recurrent Neural Network Regularization, ICLR 2015) 참고로 이러한 이유 때문에 Dropout 연산은 Recurrent connection이 아닌 곳에서만 적용하는 것이 위 논문의 아이디어다. g^t() = cell state 후보 [LSTM feed forward pass]
  • 22. LSTM(Long Short Term Memory) Architecture 22http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks •  LSTM은 구조에 따라 다양한 용례로 사용할 수 있음 •  2D Tensor는 # of inputs,# of examples로 구성되며 •  3D Tensor는 [2D Tensor]에 Timesteps가 포함된다. 즉 (덩어리)를 input으로 사용 [LSTM 용례]
  • 23. LSTM(Long Short Term Memory) Architecture 23http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks •  각 게이트(forget, input, output)마다 셀 상태를 추가로 참고할 수 있도록 하여 게이트 들이 과거 데이터에 조금 더 의존적으로 계산을 수행하도록 만든 LSTM •  Gers and Schmidhuber (2000) [LSTM 변형: Peephole connection]
  • 24. LSTM(Long Short Term Memory) Architecture 24http://www.slideshare.net/jpatanooga/modeling-electronic-health-records-with-recurrent-neural-networks •  Forget gate와 input gate를 단일 Cell update gate로 통합함 •  Input gate가 사라지는 대신, input은 후보 셀 스테이트를 결정하고 새 hidden state 를 결정하는데 사용됨 •  결과 모델은 표준 LSTM 모델보다 단순함 •  Cho et al. (2014) [LSTM 변형: GRU(Gated Recurrent Unit)]
  • 25. LSTM(Long Short Term Memory) Architecture 25 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 [LSTM 변형: 그 외]
  • 26. LSTM(Long Short Term Memory) Architecture 26 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 •  [Input]: 재현이 침대에서 일어났다. •  [Input]: 재현이 테이블로 가서 사과를 집어들었다. •  [Input]: 그는 사과를 먹었다. •  [Input]: 재현이 거실로 이동했다. •  [Input]: 사과를 떨어뜨렸다. •  [Question]: 재현이 사과를 떨어뜨린 곳은? [LSTM 변형: 그 외]
  • 27. LSTM(Long Short Term Memory) Architecture 27 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 •  [Input]: 재현이 침대에서 일어났다. •  [Input]: 재현이 테이블로 가서 사과를 집어들었다. •  [Input]: 그는 사과를 먹었다. •  [Input]: 재현이 거실로 이동했다. •  [Input]: 사과를 떨어뜨렸다. •  [Question]: 재현이 사과를 떨어뜨린 곳은? •  [Answer]: 거실 [LSTM 변형: 그 외]
  • 28. LSTM(Long Short Term Memory) Architecture 28 •  Yao et al. (2015)가 소개한 Depth gated RNNs와 같은 스타일도 있음 •  Clockwork RNNs, Koutnik et al. (2014)는 장기 의존성에 효율적으로 작동하도록 변형한 RNN임 •  Greff et al. (2015)는 유명한 변형(GRU, Peephole 등)을 비교하는 실험을 통해 결 과가 비슷하다는 것을 발견 •  Jozefowics et al. (2015)는 다양한 RNN 변형 모델들을 실험하고 비교함으로써 특정 데이터 세트에 맞는 구조들이 있음을 확인하였음 •  LSTM의 다음 단계는 Attention이라고 하는데, 예를 들면 다른것들보다 더 중요한 정보 여러 개를 취합하는 것임 •  [Input]: 재현이 침대에서 일어났다. •  [Input]: 재현이 테이블로 가서 사과를 집어들었다. •  [Input]: 그는 사과를 먹었다. •  [Input]: 재현이 거실로 이동했다. •  [Input]: 사과를 떨어뜨렸다. •  [Question]: 재현이 사과를 떨어뜨린 곳은? •  [Answer]: 거실 •  Show, Attend and Tell, Kelvin Xu et al. (2015) [LSTM 변형: 그 외]