SlideShare uma empresa Scribd logo
1 de 46
7.6 semi-supervised learning
목적 및 동기
강아지를 인식하는 모델을 만들고자 한다. 그런데 가지고 있는 데이터에 조금 문제가 있다.
label이 된 데이터 label이 안 된 데이터
Label된 데이터로만 모델을 만들자니 데이터가 너무 적고,
Label 안된 데이터에 labeling을 하자니 시간과 비용이 엄청나게 든다
어쩌지?
7.6 semi-supervised learning
Labeled data
Labeled+unlabeled data
지도학습
준지도학습
7.6 semi-supervised learning
Labeled 데이터로만 분포를 추정하고
Decision boundary를 형성
불안정함
Labeled+unlabeled 데이터로 분포를 추정하고
Decision boundary를 형성
안정적인 분포
7.7 multi-task learning
이것은 고양이인가요? ( O / X)
7.7 multi-task learning
이것은 고양이인가요? ( O / X)
7.7 multi-task learning
이것은 강아지인가요? ( O / X)
7.7 multi-task learning
이것은 강아지인가요? ( O / X)
7.7 multi-task learning
이것은 금색인가요? ( O / X)
7.7 multi-task learning
이것은 금색인가요? ( O / X)
7.7 multi-task learning
feature 고양이임?
ㄴㄴ
강아지임?
ㅇㅇ
금색임?
ㅇㅇ
금색 강아지구나!
7.7 multi-task learning
고양이가 아니다.
강아지가 맞다.
금색이 맞다.
사실 우리는 거의 동시에(simultaneously) 위 세가지 문제를 해결합니다
7.7 multi-task learning
feature
고양이임? ㄴㄴ -> 0
강아지임? ㅇㅇ -> 1
금색임? ㅇㅇ -> 1
금색 강아지구나!
7.7 multi-task learning
보행자 0, 1
자동차 0, 1
멈춤 0, 1
신호등 0, 1
4개의 task를 동시에
수행하는 multi-task learning
이 이미지가 𝑥(𝑖)
라는 input data라면
보행자 0
자동차 1
멈춤 1
신호등 0
𝑦(𝑖)
0
1
1
0
4 by 1 vectorInput
layer
output
layer
Hidden layer
𝑥(𝑖)
7.7 multi-task learning
Cost 계산
𝑦(𝑖)
1
0
1
0
만약 이라면𝑦(𝑖)
0
1
1
0
𝐶𝑜𝑠𝑡 =
𝐶𝑜𝑠𝑡 1,0 + 𝐶𝑜𝑠𝑡 0,1 + 𝐶𝑜𝑠𝑡 1,1 + 𝐶𝑜𝑠𝑡 0,0
4
이때 Cost function은
대부분 log loss
𝑦1
(𝑖)
𝑦2
(𝑖)
𝑦3
(𝑖)
𝑦4
(𝑖)
각 성분은 𝑦𝑗
(𝑖)
로 표현
1
𝑛
𝑖
𝑛
𝑗
𝑚
𝐶𝑜𝑠𝑡( 𝑦𝑗
(𝑖)
, 𝑦𝑗
(𝑖)
)
n = example 수
m = task 수일반화 하면
보행자 0
자동차 1
멈춤 1
신호등 0
𝑦(𝑖)
0
1
1
0
Input
layer
output
layer
Hidden layer
𝑥(𝑖)
7.7 multi-task learning
다른 이미지 데이터
𝑦(𝑖)
보행자 NA
자동차 0
멈춤 1
신호등 NA
이미지 데이터에 labeling이 안되어 있는 경우
Cost 계산
𝑦(𝑖)
1
1
1
0
𝑦(𝑖)
𝑁𝐴
0
1
𝑁𝐴
𝐶𝑜𝑠𝑡 𝑠𝑢𝑚 =
𝐶𝑜𝑠𝑡 1, 𝑁𝐴 + 𝐶𝑜𝑠𝑡 1,0 + 𝐶𝑜𝑠𝑡 1,1 + 𝐶𝑜𝑠𝑡 0, 𝑁𝐴
4
𝑦1
(𝑖)
𝑦2
(𝑖)
𝑦3
(𝑖)
𝑦4
(𝑖)
1
𝑛
𝑖
𝑛
𝑗
𝑚
𝐶𝑜𝑠𝑡( 𝑦𝑗
(𝑖)
, 𝑦𝑗
(𝑖)
)
n = example 수
m = task 수𝑦𝑗
(𝑖)
가 NA인것 제외하고
요 두 개는 제외하고 계산
7.7 multi-task learning
아키텍처를 좀 더 뜯어보면
1. 모든 task가 공유하는 일반적인 파라미터를 학습하는 부분
2. Task에 고유한 파라미터를 학습하는 부분
7.7 multi-task learning
Multi-task learning이 regularization 방법인 이유
경욱 연준
경욱의 특징 :
아무리 심한 말을 해도 다 받아줌
다빈 연준
다빈의 특징 :
심한 말을 하면 극대노함
각 task 마다 noise 패턴이 다름. 여러 noise 패턴을 동시에 학습을 하려다 보니 general한 모델 탄생
연준의 성격 :
심한 말을 많이 하는 성격이 됨.
다빈과는 친구가 될 수 없음 ㅠㅠ
연준경욱 다빈
두 명의 특징을 다 받아들여 일반적인 성격을 가지게 됨
7.7 multi-task learning
언제 multi-task learning을 쓸 수 있나요?
1. 각각의 task가 서로의 task에 도움이 되는 비슷한 특성을 가질 때.
2. 각 task에 대해 큰 신경망을 훈련할 수 있어야 함. 큰 신경망의 경우
task를 각각 하는 것 보다 성능이 좋은 경우가 거의 대다수
**Rich Caruana라는 연구자가 밝혀낸 내용.
그리고 multi-task learning은 다른 분야에서는 많이 쓰이지 않지만
computer vision 분야에서는 많이 쓰인다.
7.8 Early stopping
Epoch ↑ training set에 Overfitting Generalization error ↑
그래서 적당한 시점에 끊어야 함
7.8 Early stopping 갓경욱님께 감사를…
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
빠른 진행을 위해 수치에 대한 계산은 배제하겠습니다.
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
FeedForward propagation
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝑦(1)
𝑦(1)
7.8 Early stopping
Input Hidden Layer1 Hidden Layer2 Output Layer
x1
x2
w1
w2
w3
w4
w5
w6
w7
w8
w9
w10
b1 b3
b5
b2 b4
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝒙(𝟐)
~𝒙(𝒏)
까지 반복
𝑦(2)
7.8 Early stopping
Training
Set
𝑥(1)
𝑥(2)
𝑥(3)
𝑥(𝑛)
…
𝒊 𝑦(𝑖) 𝑦(𝑖)
1 0.7 0.99
2 0.6 1.55
3 0.2 1.4
4 0.4 0.3
… … …
n 𝑦(𝑛) 𝑦(𝑛)
𝐶𝑜𝑠𝑡 𝑠𝑢𝑚 =
𝐶𝑜𝑠𝑡 0.7,0.99 + 𝐶𝑜𝑠𝑡 0.6,1.55 + ⋯ + 𝐶𝑜𝑠𝑡 𝑦(𝑛), 𝑦(𝑛)
𝑛
=
1
𝑛
𝑖
𝑛
𝐶𝑜𝑠𝑡( 𝑦(𝑖)
, 𝑦(𝑖)
)
Feed forward outputinput
Cost 함수 계산
7.8 Early stopping
𝐶𝑜𝑠𝑡 𝑠𝑢𝑚 =
𝐶𝑜𝑠𝑡 0.7,0.99 + 𝐶𝑜𝑠𝑡 0.6,1.55 + ⋯ + 𝐶𝑜𝑠𝑡 𝑦(𝑛)
, 𝑦(𝑛)
𝑛
=
1
𝑛
𝑖
𝑛
𝐶𝑜𝑠𝑡( 𝑦(𝑖)
, 𝑦(𝑖)
)
Cost sum 을 최소로 하는
𝑤, 𝑏 를 구해 updating
1 iteration = 1 epoch
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
랜덤 초기값 ∞로 set
𝜽∗
= 𝜽 𝟎, 𝒊∗
=0
현재까지 𝝊 𝟎가 가장 낮은 값 𝝊 = 𝝊 𝟎
𝝊에 해당하는 파라미터 𝜽 𝟎, 𝒊
𝜽∗
, 𝒊∗
는 최적의 파라미터와 최적의 epoch
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
𝜽∗
= 𝜽 𝟏, 𝒊∗
= 𝟏
현재까지 𝝊 𝟏가 가장 낮은 값 𝝊 = 𝝊 𝟏
𝝊에 해당하는 파라미터 𝜽 𝟏, 𝒊
1 𝜽 𝟏 𝝊 𝟏
If 𝝊 𝟏 < 𝝊
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
𝜽∗ = 𝜽 𝟐, 𝒊∗ = 𝟐
현재까지 𝝊 𝟐가 가장 낮은 값 𝝊 = 𝝊 𝟐
𝝊에 해당하는 파라미터 𝜽 𝟐, 𝒊
1 𝜽 𝟏 𝝊 𝟏
If 𝝊 𝟐 < 𝝊
2 𝜽 𝟐 𝝊 𝟐
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
1 𝜽 𝟏 𝝊 𝟏
If 𝝊 𝟏𝟎𝟎 > 𝝊
2 𝜽 𝟐 𝝊 𝟐
100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎
… … …
현재 𝝊=𝝊 𝟗𝟗
𝜽∗ = 𝜽 𝟗𝟗
𝒊∗
= 𝟗𝟗 바로 stop???
너무 정이 없으니 몇 번 봐주기로 합시다!
몇 번 = p이라고 표현(patience)
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
𝜽∗
= 𝜽 𝟗𝟗, 𝒊∗
= 𝟗𝟗
현재까지 𝝊 𝟗𝟗가 가장 낮은 값 𝝊 = 𝝊 𝟗𝟗
𝝊에 해당하는 파라미터 𝜽 𝟗𝟗, 𝒊
1 𝜽 𝟏 𝝊 𝟏
If 𝝊 𝟏𝟎𝟎 > 𝝊
2 𝜽 𝟐 𝝊 𝟐
100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎
… … …
p=2 이므로 다음 epoch으로 넘어감
p=2
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
𝜽∗
= 𝜽 𝟗𝟗, 𝒊∗
= 𝟗𝟗
현재까지 𝝊 𝟗𝟗가 가장 낮은 값 𝝊 = 𝝊 𝟗𝟗
𝝊에 해당하는 파라미터 𝜽 𝟗𝟗, 𝒊
1 𝜽 𝟏 𝝊 𝟏
If 𝝊 𝟏𝟎𝟏 > 𝝊
2 𝜽 𝟐 𝝊 𝟐
100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎
… … …
다음 epoch으로 넘어감
p=2-1
101 𝜽 𝟏𝟎𝟏 𝝊 𝟏𝟎𝟏
7.8 Early stopping
Training
Set
Validation
Set
Test
Set
Training
Set
데이터셋 정의
Model
Validation
Set
Epoch(𝒊)
0
Parameter(w,b=𝜽)
𝜽 𝟎
Validation error(𝝊)
𝝊 𝟎
𝜽∗ = 𝜽 𝟗𝟗, 𝒊∗ = 𝟗𝟗
현재까지 𝝊 𝟗𝟗가 가장 낮은 값 𝝊 = 𝝊 𝟗𝟗
𝝊에 해당하는 파라미터 𝜽 𝟗𝟗, 𝒊
1 𝜽 𝟏 𝝊 𝟏
If 𝝊 𝟏𝟎𝟐 > 𝝊
2 𝜽 𝟐 𝝊 𝟐
100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎
… … …
이제 진짜 STOP!
p=2-2
101 𝜽 𝟏𝟎𝟏 𝝊 𝟏𝟎𝟏
102 𝜽 𝟏𝟎𝟐 𝝊 𝟏𝟎𝟐
7.8 Early stopping
Model
Epoch(iteration)
99
Parameter(w,b=𝜽)
𝜽 𝟗𝟗
optimal
Training
Set
Validation
Set
Test
Set
Training
Set
Test
Set
방법1
𝜽 𝟗𝟗 를 그대로 이용
훈련 1 MSE > 훈련 2 MSE 이면
epoch 종료
훈련 1 훈련 2
방법2
Epoch = 99 를 이용해서
훈련 no.2 진행
단점 : 종료가 안 될 수도…
7.8 Early stopping
Early stopping과 L2 regularization의 관련성
7.8 Early stopping
왜 regularization이 overfitting을 줄일 까요?
𝑎 = 𝑔 𝑤𝑥 + 𝑏 = 𝑔 𝑧 = 𝑦
𝑔 𝑥 ∶ 𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛 함수
sigmoid tanh
𝑔 𝑧 에서 𝑧가 0에 가까워 질수록 선형에 근사
모델이 더 간단해짐
𝐽 𝑤 = 𝐽 𝑤 +
𝛼
2
𝑤 𝑇
𝑤
𝛼 ↑ 면 𝑤 𝑇 𝑤 ↓ 니까 𝑤 ↓
7.8 Early stopping
“난 Early stopping 잘 안 씀”
“L2 짱"
7.9 Parameter Tying and Parameter sharing
CNN(Convolutional Neural Network)의 기반이 되는 개념
기본 가정
𝑤(𝐴) 𝑤(𝐵)
모델A 모델B
같은 task를 수행하는 두 모델(둘 다 고양이를 식별하는 모델) 일 때
같은 task를 수행하기 때문에 input과 output의 분포가 비슷하고
𝑤(𝐴)
와 𝑤(𝐵)
도 가까울 것 or 동일할 것이다.
7.9 Parameter Tying and Parameter sharing
저렇게 이미지를 여러 단위로 나누어도 나눠진 이미지 마다 다른 파라미터가 매겨지는 것이 아니라
같은 파라미터를 공유하는 것.
7.10 Sparse representation(희소표현)
L1 regularization 에서는 L2와 달리 w가 0으로 수렴하는 특징이 있었다.
input output
InputOutput W 행렬
0 많음 = 희소함
이것을 매개변수(parameter) 희소성이라고 함
…. ….
7.10 Sparse representation(희소표현)
Activation function g(z) 에 L1 regularization을 적용하면
input output
…. ….
inputW 행렬output
Activation function을 거친 input을 희소하게 만든다.
요것이 표현(representation) 희소성
무슨 의미냐 하면
7.10 Sparse representation(희소표현)
𝑧(𝐿−1) = 𝑤(𝐿−1) 𝑥 + 𝑏(𝐿−1)
𝑔 𝑥 ∶ 𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛 함수
L-2
L-1
L
𝑎(𝐿−1)
= 𝑔(𝑧 𝐿−1
)
𝑧(𝐿) = 𝑤(𝐿) 𝑎(𝐿−1) + 𝑏(𝐿)
𝑎(𝐿)
= 𝑔(𝑧 𝐿
)
𝑎(𝐿−1) = 𝑔 𝑤(𝐿−1) 𝑎(𝐿−2) + 𝑏(𝐿−1)
sigmoid tanh
얘가 희소해짐
7.10 Sparse representation(희소표현)
L1 regularization 적용하는 것 말고 또 있음
0이 되는 부분 존재

Mais conteúdo relacionado

Mais procurados

Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
Ohsawa Goodfellow
 
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
Taiji Suzuki
 

Mais procurados (20)

Deep Learningについて
Deep LearningについてDeep Learningについて
Deep Learningについて
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Exploring Simple Siamese Representation Learning
Exploring Simple Siamese Representation LearningExploring Simple Siamese Representation Learning
Exploring Simple Siamese Representation Learning
 
[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate
[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate
[DL輪読会]Adaptive Gradient Methods with Dynamic Bound of Learning Rate
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
続・わかりやすいパターン認識_3章
続・わかりやすいパターン認識_3章続・わかりやすいパターン認識_3章
続・わかりやすいパターン認識_3章
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
 
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
 
[DL輪読会]Vector-based navigation using grid-like representations in artificial ...
[DL輪読会]Vector-based navigation using grid-like representations in artificial ...[DL輪読会]Vector-based navigation using grid-like representations in artificial ...
[DL輪読会]Vector-based navigation using grid-like representations in artificial ...
 
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
 
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
 
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 

Semelhante a Chapter 7 Regularization for deep learning - 2

[NDC08] 최적화와 프로파일링 - 송창규
[NDC08] 최적화와 프로파일링 - 송창규[NDC08] 최적화와 프로파일링 - 송창규
[NDC08] 최적화와 프로파일링 - 송창규
ChangKyu Song
 

Semelhante a Chapter 7 Regularization for deep learning - 2 (20)

[GomGuard] 뉴런부터 YOLO 까지 - 딥러닝 전반에 대한 이야기
[GomGuard] 뉴런부터 YOLO 까지 - 딥러닝 전반에 대한 이야기[GomGuard] 뉴런부터 YOLO 까지 - 딥러닝 전반에 대한 이야기
[GomGuard] 뉴런부터 YOLO 까지 - 딥러닝 전반에 대한 이야기
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1
 
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리 학습을 위한 PPT! (Deep Learning for Natural Language Processing)
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_ppt
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
[244] 분산 환경에서 스트림과 배치 처리 통합 모델
[244] 분산 환경에서 스트림과 배치 처리 통합 모델[244] 분산 환경에서 스트림과 배치 처리 통합 모델
[244] 분산 환경에서 스트림과 배치 처리 통합 모델
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거
 
GAN with Mathematics
GAN with MathematicsGAN with Mathematics
GAN with Mathematics
 
02.09 naive bayesian classifier
02.09 naive bayesian classifier02.09 naive bayesian classifier
02.09 naive bayesian classifier
 
파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
 
Refinenet
RefinenetRefinenet
Refinenet
 
PaLM Paper Review
PaLM Paper ReviewPaLM Paper Review
PaLM Paper Review
 
[NDC08] 최적화와 프로파일링 - 송창규
[NDC08] 최적화와 프로파일링 - 송창규[NDC08] 최적화와 프로파일링 - 송창규
[NDC08] 최적화와 프로파일링 - 송창규
 

Mais de KyeongUkJang

Mais de KyeongUkJang (20)

Photo wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photoPhoto wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photo
 
YOLO
YOLOYOLO
YOLO
 
AlphagoZero
AlphagoZeroAlphagoZero
AlphagoZero
 
GoogLenet
GoogLenetGoogLenet
GoogLenet
 
GAN - Generative Adversarial Nets
GAN - Generative Adversarial NetsGAN - Generative Adversarial Nets
GAN - Generative Adversarial Nets
 
Distilling the knowledge in a neural network
Distilling the knowledge in a neural networkDistilling the knowledge in a neural network
Distilling the knowledge in a neural network
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
 
CNN for sentence classification
CNN for sentence classificationCNN for sentence classification
CNN for sentence classification
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
Playing atari with deep reinforcement learning
Playing atari with deep reinforcement learningPlaying atari with deep reinforcement learning
Playing atari with deep reinforcement learning
 
Chapter 20 - GAN
Chapter 20 - GANChapter 20 - GAN
Chapter 20 - GAN
 
Chapter 20 - VAE
Chapter 20 - VAEChapter 20 - VAE
Chapter 20 - VAE
 
Chapter 20 Deep generative models
Chapter 20 Deep generative modelsChapter 20 Deep generative models
Chapter 20 Deep generative models
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2
 
Natural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - BasicNatural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - Basic
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
 
Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 2Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 2
 
Chapter 16 structured probabilistic models for deep learning - 1
Chapter 16 structured probabilistic models for deep learning - 1Chapter 16 structured probabilistic models for deep learning - 1
Chapter 16 structured probabilistic models for deep learning - 1
 

Chapter 7 Regularization for deep learning - 2

  • 1. 7.6 semi-supervised learning 목적 및 동기 강아지를 인식하는 모델을 만들고자 한다. 그런데 가지고 있는 데이터에 조금 문제가 있다. label이 된 데이터 label이 안 된 데이터 Label된 데이터로만 모델을 만들자니 데이터가 너무 적고, Label 안된 데이터에 labeling을 하자니 시간과 비용이 엄청나게 든다 어쩌지?
  • 2. 7.6 semi-supervised learning Labeled data Labeled+unlabeled data 지도학습 준지도학습
  • 3. 7.6 semi-supervised learning Labeled 데이터로만 분포를 추정하고 Decision boundary를 형성 불안정함 Labeled+unlabeled 데이터로 분포를 추정하고 Decision boundary를 형성 안정적인 분포
  • 4. 7.7 multi-task learning 이것은 고양이인가요? ( O / X)
  • 5. 7.7 multi-task learning 이것은 고양이인가요? ( O / X)
  • 6. 7.7 multi-task learning 이것은 강아지인가요? ( O / X)
  • 7. 7.7 multi-task learning 이것은 강아지인가요? ( O / X)
  • 8. 7.7 multi-task learning 이것은 금색인가요? ( O / X)
  • 9. 7.7 multi-task learning 이것은 금색인가요? ( O / X)
  • 10. 7.7 multi-task learning feature 고양이임? ㄴㄴ 강아지임? ㅇㅇ 금색임? ㅇㅇ 금색 강아지구나!
  • 11. 7.7 multi-task learning 고양이가 아니다. 강아지가 맞다. 금색이 맞다. 사실 우리는 거의 동시에(simultaneously) 위 세가지 문제를 해결합니다
  • 12. 7.7 multi-task learning feature 고양이임? ㄴㄴ -> 0 강아지임? ㅇㅇ -> 1 금색임? ㅇㅇ -> 1 금색 강아지구나!
  • 13. 7.7 multi-task learning 보행자 0, 1 자동차 0, 1 멈춤 0, 1 신호등 0, 1 4개의 task를 동시에 수행하는 multi-task learning 이 이미지가 𝑥(𝑖) 라는 input data라면 보행자 0 자동차 1 멈춤 1 신호등 0 𝑦(𝑖) 0 1 1 0 4 by 1 vectorInput layer output layer Hidden layer 𝑥(𝑖)
  • 14. 7.7 multi-task learning Cost 계산 𝑦(𝑖) 1 0 1 0 만약 이라면𝑦(𝑖) 0 1 1 0 𝐶𝑜𝑠𝑡 = 𝐶𝑜𝑠𝑡 1,0 + 𝐶𝑜𝑠𝑡 0,1 + 𝐶𝑜𝑠𝑡 1,1 + 𝐶𝑜𝑠𝑡 0,0 4 이때 Cost function은 대부분 log loss 𝑦1 (𝑖) 𝑦2 (𝑖) 𝑦3 (𝑖) 𝑦4 (𝑖) 각 성분은 𝑦𝑗 (𝑖) 로 표현 1 𝑛 𝑖 𝑛 𝑗 𝑚 𝐶𝑜𝑠𝑡( 𝑦𝑗 (𝑖) , 𝑦𝑗 (𝑖) ) n = example 수 m = task 수일반화 하면 보행자 0 자동차 1 멈춤 1 신호등 0 𝑦(𝑖) 0 1 1 0 Input layer output layer Hidden layer 𝑥(𝑖)
  • 15. 7.7 multi-task learning 다른 이미지 데이터 𝑦(𝑖) 보행자 NA 자동차 0 멈춤 1 신호등 NA 이미지 데이터에 labeling이 안되어 있는 경우 Cost 계산 𝑦(𝑖) 1 1 1 0 𝑦(𝑖) 𝑁𝐴 0 1 𝑁𝐴 𝐶𝑜𝑠𝑡 𝑠𝑢𝑚 = 𝐶𝑜𝑠𝑡 1, 𝑁𝐴 + 𝐶𝑜𝑠𝑡 1,0 + 𝐶𝑜𝑠𝑡 1,1 + 𝐶𝑜𝑠𝑡 0, 𝑁𝐴 4 𝑦1 (𝑖) 𝑦2 (𝑖) 𝑦3 (𝑖) 𝑦4 (𝑖) 1 𝑛 𝑖 𝑛 𝑗 𝑚 𝐶𝑜𝑠𝑡( 𝑦𝑗 (𝑖) , 𝑦𝑗 (𝑖) ) n = example 수 m = task 수𝑦𝑗 (𝑖) 가 NA인것 제외하고 요 두 개는 제외하고 계산
  • 16. 7.7 multi-task learning 아키텍처를 좀 더 뜯어보면 1. 모든 task가 공유하는 일반적인 파라미터를 학습하는 부분 2. Task에 고유한 파라미터를 학습하는 부분
  • 17. 7.7 multi-task learning Multi-task learning이 regularization 방법인 이유 경욱 연준 경욱의 특징 : 아무리 심한 말을 해도 다 받아줌 다빈 연준 다빈의 특징 : 심한 말을 하면 극대노함 각 task 마다 noise 패턴이 다름. 여러 noise 패턴을 동시에 학습을 하려다 보니 general한 모델 탄생 연준의 성격 : 심한 말을 많이 하는 성격이 됨. 다빈과는 친구가 될 수 없음 ㅠㅠ 연준경욱 다빈 두 명의 특징을 다 받아들여 일반적인 성격을 가지게 됨
  • 18. 7.7 multi-task learning 언제 multi-task learning을 쓸 수 있나요? 1. 각각의 task가 서로의 task에 도움이 되는 비슷한 특성을 가질 때. 2. 각 task에 대해 큰 신경망을 훈련할 수 있어야 함. 큰 신경망의 경우 task를 각각 하는 것 보다 성능이 좋은 경우가 거의 대다수 **Rich Caruana라는 연구자가 밝혀낸 내용. 그리고 multi-task learning은 다른 분야에서는 많이 쓰이지 않지만 computer vision 분야에서는 많이 쓰인다.
  • 19. 7.8 Early stopping Epoch ↑ training set에 Overfitting Generalization error ↑ 그래서 적당한 시점에 끊어야 함
  • 20. 7.8 Early stopping 갓경욱님께 감사를… Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 빠른 진행을 위해 수치에 대한 계산은 배제하겠습니다. Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1)
  • 21. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1) FeedForward propagation
  • 22. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1)
  • 23. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1)
  • 24. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1)
  • 25. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1)
  • 26. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝑦(1) 𝑦(1)
  • 27. 7.8 Early stopping Input Hidden Layer1 Hidden Layer2 Output Layer x1 x2 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 b1 b3 b5 b2 b4 Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝒙(𝟐) ~𝒙(𝒏) 까지 반복 𝑦(2)
  • 28. 7.8 Early stopping Training Set 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(𝑛) … 𝒊 𝑦(𝑖) 𝑦(𝑖) 1 0.7 0.99 2 0.6 1.55 3 0.2 1.4 4 0.4 0.3 … … … n 𝑦(𝑛) 𝑦(𝑛) 𝐶𝑜𝑠𝑡 𝑠𝑢𝑚 = 𝐶𝑜𝑠𝑡 0.7,0.99 + 𝐶𝑜𝑠𝑡 0.6,1.55 + ⋯ + 𝐶𝑜𝑠𝑡 𝑦(𝑛), 𝑦(𝑛) 𝑛 = 1 𝑛 𝑖 𝑛 𝐶𝑜𝑠𝑡( 𝑦(𝑖) , 𝑦(𝑖) ) Feed forward outputinput Cost 함수 계산
  • 29. 7.8 Early stopping 𝐶𝑜𝑠𝑡 𝑠𝑢𝑚 = 𝐶𝑜𝑠𝑡 0.7,0.99 + 𝐶𝑜𝑠𝑡 0.6,1.55 + ⋯ + 𝐶𝑜𝑠𝑡 𝑦(𝑛) , 𝑦(𝑛) 𝑛 = 1 𝑛 𝑖 𝑛 𝐶𝑜𝑠𝑡( 𝑦(𝑖) , 𝑦(𝑖) ) Cost sum 을 최소로 하는 𝑤, 𝑏 를 구해 updating 1 iteration = 1 epoch
  • 30. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 랜덤 초기값 ∞로 set 𝜽∗ = 𝜽 𝟎, 𝒊∗ =0 현재까지 𝝊 𝟎가 가장 낮은 값 𝝊 = 𝝊 𝟎 𝝊에 해당하는 파라미터 𝜽 𝟎, 𝒊 𝜽∗ , 𝒊∗ 는 최적의 파라미터와 최적의 epoch
  • 31. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 𝜽∗ = 𝜽 𝟏, 𝒊∗ = 𝟏 현재까지 𝝊 𝟏가 가장 낮은 값 𝝊 = 𝝊 𝟏 𝝊에 해당하는 파라미터 𝜽 𝟏, 𝒊 1 𝜽 𝟏 𝝊 𝟏 If 𝝊 𝟏 < 𝝊
  • 32. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 𝜽∗ = 𝜽 𝟐, 𝒊∗ = 𝟐 현재까지 𝝊 𝟐가 가장 낮은 값 𝝊 = 𝝊 𝟐 𝝊에 해당하는 파라미터 𝜽 𝟐, 𝒊 1 𝜽 𝟏 𝝊 𝟏 If 𝝊 𝟐 < 𝝊 2 𝜽 𝟐 𝝊 𝟐
  • 33. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 1 𝜽 𝟏 𝝊 𝟏 If 𝝊 𝟏𝟎𝟎 > 𝝊 2 𝜽 𝟐 𝝊 𝟐 100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎 … … … 현재 𝝊=𝝊 𝟗𝟗 𝜽∗ = 𝜽 𝟗𝟗 𝒊∗ = 𝟗𝟗 바로 stop??? 너무 정이 없으니 몇 번 봐주기로 합시다! 몇 번 = p이라고 표현(patience)
  • 34. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 𝜽∗ = 𝜽 𝟗𝟗, 𝒊∗ = 𝟗𝟗 현재까지 𝝊 𝟗𝟗가 가장 낮은 값 𝝊 = 𝝊 𝟗𝟗 𝝊에 해당하는 파라미터 𝜽 𝟗𝟗, 𝒊 1 𝜽 𝟏 𝝊 𝟏 If 𝝊 𝟏𝟎𝟎 > 𝝊 2 𝜽 𝟐 𝝊 𝟐 100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎 … … … p=2 이므로 다음 epoch으로 넘어감 p=2
  • 35. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 𝜽∗ = 𝜽 𝟗𝟗, 𝒊∗ = 𝟗𝟗 현재까지 𝝊 𝟗𝟗가 가장 낮은 값 𝝊 = 𝝊 𝟗𝟗 𝝊에 해당하는 파라미터 𝜽 𝟗𝟗, 𝒊 1 𝜽 𝟏 𝝊 𝟏 If 𝝊 𝟏𝟎𝟏 > 𝝊 2 𝜽 𝟐 𝝊 𝟐 100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎 … … … 다음 epoch으로 넘어감 p=2-1 101 𝜽 𝟏𝟎𝟏 𝝊 𝟏𝟎𝟏
  • 36. 7.8 Early stopping Training Set Validation Set Test Set Training Set 데이터셋 정의 Model Validation Set Epoch(𝒊) 0 Parameter(w,b=𝜽) 𝜽 𝟎 Validation error(𝝊) 𝝊 𝟎 𝜽∗ = 𝜽 𝟗𝟗, 𝒊∗ = 𝟗𝟗 현재까지 𝝊 𝟗𝟗가 가장 낮은 값 𝝊 = 𝝊 𝟗𝟗 𝝊에 해당하는 파라미터 𝜽 𝟗𝟗, 𝒊 1 𝜽 𝟏 𝝊 𝟏 If 𝝊 𝟏𝟎𝟐 > 𝝊 2 𝜽 𝟐 𝝊 𝟐 100 𝜽 𝟏𝟎𝟎 𝝊 𝟏𝟎𝟎 … … … 이제 진짜 STOP! p=2-2 101 𝜽 𝟏𝟎𝟏 𝝊 𝟏𝟎𝟏 102 𝜽 𝟏𝟎𝟐 𝝊 𝟏𝟎𝟐
  • 37. 7.8 Early stopping Model Epoch(iteration) 99 Parameter(w,b=𝜽) 𝜽 𝟗𝟗 optimal Training Set Validation Set Test Set Training Set Test Set 방법1 𝜽 𝟗𝟗 를 그대로 이용 훈련 1 MSE > 훈련 2 MSE 이면 epoch 종료 훈련 1 훈련 2 방법2 Epoch = 99 를 이용해서 훈련 no.2 진행 단점 : 종료가 안 될 수도…
  • 38. 7.8 Early stopping Early stopping과 L2 regularization의 관련성
  • 39. 7.8 Early stopping 왜 regularization이 overfitting을 줄일 까요? 𝑎 = 𝑔 𝑤𝑥 + 𝑏 = 𝑔 𝑧 = 𝑦 𝑔 𝑥 ∶ 𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛 함수 sigmoid tanh 𝑔 𝑧 에서 𝑧가 0에 가까워 질수록 선형에 근사 모델이 더 간단해짐 𝐽 𝑤 = 𝐽 𝑤 + 𝛼 2 𝑤 𝑇 𝑤 𝛼 ↑ 면 𝑤 𝑇 𝑤 ↓ 니까 𝑤 ↓
  • 40. 7.8 Early stopping “난 Early stopping 잘 안 씀” “L2 짱"
  • 41. 7.9 Parameter Tying and Parameter sharing CNN(Convolutional Neural Network)의 기반이 되는 개념 기본 가정 𝑤(𝐴) 𝑤(𝐵) 모델A 모델B 같은 task를 수행하는 두 모델(둘 다 고양이를 식별하는 모델) 일 때 같은 task를 수행하기 때문에 input과 output의 분포가 비슷하고 𝑤(𝐴) 와 𝑤(𝐵) 도 가까울 것 or 동일할 것이다.
  • 42. 7.9 Parameter Tying and Parameter sharing 저렇게 이미지를 여러 단위로 나누어도 나눠진 이미지 마다 다른 파라미터가 매겨지는 것이 아니라 같은 파라미터를 공유하는 것.
  • 43. 7.10 Sparse representation(희소표현) L1 regularization 에서는 L2와 달리 w가 0으로 수렴하는 특징이 있었다. input output InputOutput W 행렬 0 많음 = 희소함 이것을 매개변수(parameter) 희소성이라고 함 …. ….
  • 44. 7.10 Sparse representation(희소표현) Activation function g(z) 에 L1 regularization을 적용하면 input output …. …. inputW 행렬output Activation function을 거친 input을 희소하게 만든다. 요것이 표현(representation) 희소성 무슨 의미냐 하면
  • 45. 7.10 Sparse representation(희소표현) 𝑧(𝐿−1) = 𝑤(𝐿−1) 𝑥 + 𝑏(𝐿−1) 𝑔 𝑥 ∶ 𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛 함수 L-2 L-1 L 𝑎(𝐿−1) = 𝑔(𝑧 𝐿−1 ) 𝑧(𝐿) = 𝑤(𝐿) 𝑎(𝐿−1) + 𝑏(𝐿) 𝑎(𝐿) = 𝑔(𝑧 𝐿 ) 𝑎(𝐿−1) = 𝑔 𝑤(𝐿−1) 𝑎(𝐿−2) + 𝑏(𝐿−1) sigmoid tanh 얘가 희소해짐
  • 46. 7.10 Sparse representation(희소표현) L1 regularization 적용하는 것 말고 또 있음 0이 되는 부분 존재