SlideShare uma empresa Scribd logo
1 de 13
Soongsil Univ. DSAI Lab.
Uniform convergence may be unable to
explain generalization in deep learning
Nagarajan & Kolter, Carnegie Mellon Univ., NIPS 2019
(Outstanding paper award, Oral)
1
지승현 발표
22.11.23.
Soongsil Univ. DSAI Lab.
목차
1. Traditional overfitting interpretation
2. Generalization bound vs Complexity
3. Generalization bound vs Uniform convergence
4. Conclusion & Opinion
5. Reference
2
Soongsil Univ. DSAI Lab.
1. Traditional overfitting interpretation
– Overfitting is caused by model complexity?
– 기존의 machine learning에서는 model compelxity와 overfitting을 연관지었다.
– 이 때 데이터(점)를 모델링하는 함수(선)의 모양(Curvature) 을 model complexity로 연결지을 수
있다.
– 너무 단순하거나 복잡한 모델 (좌, 우) 보다 적절한 모델 (중) 이 좋은 일반화 능력을 보인다.
3
Soongsil Univ. DSAI Lab.
1. Traditional overfitting interpretation
– 하지만 딥러닝에선?
– 딥러닝은 model complexity가 증가할수록 (혹은 Overparameter-ized) 일반화 능력이 좋아짐
– 기존의 ML에서의 Epoch에 따른 fitting 그래프는 (좌) 가 정석이었다.
– 하지만 딥러닝에서는 Double descent 그래프를 그린다. (우)
– 즉, 딥러닝에서는 parameter가 증가하여 Model complexity가 증가할수록 성능이 향상된다.
4
Soongsil Univ. DSAI Lab.
1. Traditional overfitting interpretation
– Is Memorization good in deep learning?
– 딥러닝은 over-parameter-ization 될 때 데이터셋을 충분히 외울 수 있다.
– 데이터에 랜덤 레이블을 할당했을 때조차 (레이블에 아무런 연관성이 없어도) 가능하다 (좌)
– Yoshua Bengio는 이러한 Memorization이 Generalization에 해롭다고 주장한다 (우)
– 하지만 네트워크가 암기를 하는지 핵심원리를 깨치는지 정확히 알 수 없다.
5
Soongsil Univ. DSAI Lab.
2. Generalization bound
– Traditional generalization bound(부등호)
– 어떤 일반화 능력을 직접적으로 측정하기는 어려움
– 따라서, train error와 test error로 나누고 이를 간접적으로 bound로 표현하자.
– 모델의 weight norm은 model complexity와 직결되므로, 이를 bound로 표현하면 (우)와 같다.
– 자연스레 (좌)와 비교하여, 모델이 매우 복잡해지면 test error가 커질 것임을 추측할 수 있다.
6
Soongsil Univ. DSAI Lab.
2. Generalization bound vs Complexity
– Traditional generalization bound may wrong
– 하지만 딥러닝에서는 데이터를 외우더라도 test error가 감소하는 것을 볼 수 있다.
– 특히, 학습 데이터셋이 증가할수록 weight norm은 급격하게 증가한다. (잘 학습되더라도, 좌)
– 따라서 기존의 bound 수식을 수정할 필요가 있다. (우)
7
Soongsil Univ. DSAI Lab.
3. Generalization bound vs Uniform convergence
– Uniform convergence bound
– Uniform convergence란, 두 함수의 최대 차이가 특정 값 범위 미만인 것
– 기존에는 Traditional generalization bound 말고도 아주 일반적이고 느
슨한 bound가 존재하는데, 이것이 Uniform convergence bound에 해당
– H가 어떤 데이터셋을 활용하여 만들어질 수 있는 모델의 집합이라고 하면,
𝐿(ℎ) 이 모델 ℎ 의 데이터셋에 대한 loss function이라고 할 때
𝑷 supℎ∈𝑯 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) ≤ 𝜖 ≥ 1 − 𝛿
– 예를 들어 𝐷가 테스트 데이터셋, 𝑆가 학습 데이터셋이라고 하면, 이상적으로
학습되었을 경우 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) 는 0에 근사할 것이고, Training error가
0에 가깝더라도 추론을 잘 하는 모델은 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) ≤ 𝜖이다.
8
Elements
of H
Error
Soongsil Univ. DSAI Lab.
3. Generalization bound vs Uniform convergence
– Conjecture with Uniform convergence bound
– 일반적으로 테스트 데이터셋에 대해 좋은 성능을 가진 모델이라면, 학습 데이터셋에 대해서도 좋은
성능을 낸다. (테스트 데이터셋과 학습 데이터셋 모두 동일 데이터 분포에서 샘플링되었을 경우)
→ 학습 데이터셋에 대해 적은 loss를 내는 모델이라면 테스트 데이터셋에 대해서도 적은 loss를
낼 것이고, 반대로 학습 데이터셋에 대해 큰 loss를 내는 모델이라면 테스트 데이터셋에 대해서도
큰 loss을 낼 것이다.
= supℎ∈𝑯 𝐿𝐷(ℎ𝑆) − 𝐿𝑆(ℎ𝑆) ≤ 𝜖
9
Soongsil Univ. DSAI Lab.
3. Generalization bound vs Uniform convergence
– 만약 레이블을 일부러 반전시킨 데이터 𝑆`가 존재한다면?
– 심지어 테스트셋에 대해 좋은 성능을 내는 모델이더라도…
– 𝐿𝑆` ℎ𝑆 = 1일 것이다.
– 이는 (상단) 그림과 같이, 보라와 빨강 클래스가 있다고 하고 이들이
원 테두리의 representation space로 매핑되었다고 할 때, 검정색
테두리 데이터 𝑆` 에 대해 학습되어 𝐿𝑆` ℎ𝑆 = 1인 상황이지만, 여전히
테스트 데이터셋에 대해서는 좋은 성능을 낼 수 있는 것을 의미한다.
– 그리고 이는 실제로, (하단) 그림과 같이 Projected라는 데이터셋에 대
해 레이블을 반전시켜 학습시킨 결과, 해당 데이터셋에 대해서는 에러
가 계속 1에 머물지만, Test error는 감소할 수 있음을 보인다.
10
Soongsil Univ. DSAI Lab.
4. Conclusion & Opinion
– Summary
– 딥러닝에서 일반화 능력은 중요하며, 이는 구체적으로 어떤 분포에서 샘플링된 데이터에 대해 학습
할 때 동일 분포의 다른 데이터에 대해 좋은 성능을 나타내는 것을 의미한다.
– 기존 ML에서는 Overfitting, Memorization이 일반화에 해로운 것으로 알려졌으나, 실제로는
좋은 일반화 능력을 나타낸다.
– 특히 데이터셋 사이즈와 가중치 크기는 비례하여, 데이터셋이 커질수록 모델은 급격하게 복잡해진다.
– 또한 기존에는 일반화 능력의 bound를 Uniform convergence를 활용해 느슨하게 정의하고,
학습 데이터셋에 대해 어떤 부드럽고 느슨한 경계를 만들 것이라 추측하였지만 이 또한 사실과 다르
게 특정 데이터 포인트에 대해서만 ‘뾰족한’ 경계를 만드는 현상을 보인다.
11
Soongsil Univ. DSAI Lab.
4. Conclusion & Opinion
– Opinion
– 현대의 자연어 표현 학습 기법은 단어에 대한 representation을 만들고, 이를 어떤 신경망에 입력
하여 Vocabulary dictionary중 하나의 단어로 분류하고 있다.
– 이 때 서로 같은 단어가 아닌 이상, 단어와 단어간의 연관성은 간접적으로 학습될 수밖에 없다.
– 이미지 분야에서는, 사람이 어떤 이미지들이 동일한 객체를 지칭한다고 생각하여 annotate하면
그들이 서로 다른 이미지더라도 연관성을 띄게 되지만, 자연어에서는 단어 수가 너무나도 많고
대부분의 단어가 매우 희귀하다. *Zipf’s law
– 본 논문에서의 요지는 counter-memorization, Training에 따른 smooth한 decision
boundary와 같은 일반화에 대한 추측이 전부 틀렸음을 이야기한다.
– 이것이 딥러닝 전반에 대한 부정으로 이어지지는 않지만, 적어도 단순한 task가 좋은 일반화를 유도
할 것이라는 추측, 나아가 유의미한 Knowledge를 얻을 수 있을 것이라는 추측은 부정할 수 있다고
사료된다.
12
Soongsil Univ. DSAI Lab.
Reference
– https://medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to-
deal-with-it-6803a989c76
– GPT-3 paper
– Zhang et al., ICLR 2017, Understanding deep learning requires rethinking generalization
– 위대한 수업, 요슈아 벤지오
– https://rmartinshort.jimdofree.com/2019/02/17/overfitting-bias-variance-and-leaning-curves/
13

Mais conteúdo relacionado

Semelhante a 221123 지승현 Uniform convergence may be unable to explain generalization in deep learning.pdf

Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터JEEHYUN PAIK
 
Dense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDong Heon Cho
 
PR12 Season3 Weight Agnostic Neural Networks
PR12 Season3 Weight Agnostic Neural NetworksPR12 Season3 Weight Agnostic Neural Networks
PR12 Season3 Weight Agnostic Neural NetworksKyunghoon Jung
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesSunghoon Joo
 
Learning by association
Learning by associationLearning by association
Learning by association홍배 김
 
The fastalgorithmfordeepbeliefnets
The fastalgorithmfordeepbeliefnetsThe fastalgorithmfordeepbeliefnets
The fastalgorithmfordeepbeliefnetsLee Gyeong Hoon
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsseungwoo kim
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_pptseungwoo kim
 

Semelhante a 221123 지승현 Uniform convergence may be unable to explain generalization in deep learning.pdf (9)

Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
Dense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other Models
 
PR12 Season3 Weight Agnostic Neural Networks
PR12 Season3 Weight Agnostic Neural NetworksPR12 Season3 Weight Agnostic Neural Networks
PR12 Season3 Weight Agnostic Neural Networks
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
 
Learning by association
Learning by associationLearning by association
Learning by association
 
The fastalgorithmfordeepbeliefnets
The fastalgorithmfordeepbeliefnetsThe fastalgorithmfordeepbeliefnets
The fastalgorithmfordeepbeliefnets
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendations
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_ppt
 

221123 지승현 Uniform convergence may be unable to explain generalization in deep learning.pdf

  • 1. Soongsil Univ. DSAI Lab. Uniform convergence may be unable to explain generalization in deep learning Nagarajan & Kolter, Carnegie Mellon Univ., NIPS 2019 (Outstanding paper award, Oral) 1 지승현 발표 22.11.23.
  • 2. Soongsil Univ. DSAI Lab. 목차 1. Traditional overfitting interpretation 2. Generalization bound vs Complexity 3. Generalization bound vs Uniform convergence 4. Conclusion & Opinion 5. Reference 2
  • 3. Soongsil Univ. DSAI Lab. 1. Traditional overfitting interpretation – Overfitting is caused by model complexity? – 기존의 machine learning에서는 model compelxity와 overfitting을 연관지었다. – 이 때 데이터(점)를 모델링하는 함수(선)의 모양(Curvature) 을 model complexity로 연결지을 수 있다. – 너무 단순하거나 복잡한 모델 (좌, 우) 보다 적절한 모델 (중) 이 좋은 일반화 능력을 보인다. 3
  • 4. Soongsil Univ. DSAI Lab. 1. Traditional overfitting interpretation – 하지만 딥러닝에선? – 딥러닝은 model complexity가 증가할수록 (혹은 Overparameter-ized) 일반화 능력이 좋아짐 – 기존의 ML에서의 Epoch에 따른 fitting 그래프는 (좌) 가 정석이었다. – 하지만 딥러닝에서는 Double descent 그래프를 그린다. (우) – 즉, 딥러닝에서는 parameter가 증가하여 Model complexity가 증가할수록 성능이 향상된다. 4
  • 5. Soongsil Univ. DSAI Lab. 1. Traditional overfitting interpretation – Is Memorization good in deep learning? – 딥러닝은 over-parameter-ization 될 때 데이터셋을 충분히 외울 수 있다. – 데이터에 랜덤 레이블을 할당했을 때조차 (레이블에 아무런 연관성이 없어도) 가능하다 (좌) – Yoshua Bengio는 이러한 Memorization이 Generalization에 해롭다고 주장한다 (우) – 하지만 네트워크가 암기를 하는지 핵심원리를 깨치는지 정확히 알 수 없다. 5
  • 6. Soongsil Univ. DSAI Lab. 2. Generalization bound – Traditional generalization bound(부등호) – 어떤 일반화 능력을 직접적으로 측정하기는 어려움 – 따라서, train error와 test error로 나누고 이를 간접적으로 bound로 표현하자. – 모델의 weight norm은 model complexity와 직결되므로, 이를 bound로 표현하면 (우)와 같다. – 자연스레 (좌)와 비교하여, 모델이 매우 복잡해지면 test error가 커질 것임을 추측할 수 있다. 6
  • 7. Soongsil Univ. DSAI Lab. 2. Generalization bound vs Complexity – Traditional generalization bound may wrong – 하지만 딥러닝에서는 데이터를 외우더라도 test error가 감소하는 것을 볼 수 있다. – 특히, 학습 데이터셋이 증가할수록 weight norm은 급격하게 증가한다. (잘 학습되더라도, 좌) – 따라서 기존의 bound 수식을 수정할 필요가 있다. (우) 7
  • 8. Soongsil Univ. DSAI Lab. 3. Generalization bound vs Uniform convergence – Uniform convergence bound – Uniform convergence란, 두 함수의 최대 차이가 특정 값 범위 미만인 것 – 기존에는 Traditional generalization bound 말고도 아주 일반적이고 느 슨한 bound가 존재하는데, 이것이 Uniform convergence bound에 해당 – H가 어떤 데이터셋을 활용하여 만들어질 수 있는 모델의 집합이라고 하면, 𝐿(ℎ) 이 모델 ℎ 의 데이터셋에 대한 loss function이라고 할 때 𝑷 supℎ∈𝑯 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) ≤ 𝜖 ≥ 1 − 𝛿 – 예를 들어 𝐷가 테스트 데이터셋, 𝑆가 학습 데이터셋이라고 하면, 이상적으로 학습되었을 경우 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) 는 0에 근사할 것이고, Training error가 0에 가깝더라도 추론을 잘 하는 모델은 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) ≤ 𝜖이다. 8 Elements of H Error
  • 9. Soongsil Univ. DSAI Lab. 3. Generalization bound vs Uniform convergence – Conjecture with Uniform convergence bound – 일반적으로 테스트 데이터셋에 대해 좋은 성능을 가진 모델이라면, 학습 데이터셋에 대해서도 좋은 성능을 낸다. (테스트 데이터셋과 학습 데이터셋 모두 동일 데이터 분포에서 샘플링되었을 경우) → 학습 데이터셋에 대해 적은 loss를 내는 모델이라면 테스트 데이터셋에 대해서도 적은 loss를 낼 것이고, 반대로 학습 데이터셋에 대해 큰 loss를 내는 모델이라면 테스트 데이터셋에 대해서도 큰 loss을 낼 것이다. = supℎ∈𝑯 𝐿𝐷(ℎ𝑆) − 𝐿𝑆(ℎ𝑆) ≤ 𝜖 9
  • 10. Soongsil Univ. DSAI Lab. 3. Generalization bound vs Uniform convergence – 만약 레이블을 일부러 반전시킨 데이터 𝑆`가 존재한다면? – 심지어 테스트셋에 대해 좋은 성능을 내는 모델이더라도… – 𝐿𝑆` ℎ𝑆 = 1일 것이다. – 이는 (상단) 그림과 같이, 보라와 빨강 클래스가 있다고 하고 이들이 원 테두리의 representation space로 매핑되었다고 할 때, 검정색 테두리 데이터 𝑆` 에 대해 학습되어 𝐿𝑆` ℎ𝑆 = 1인 상황이지만, 여전히 테스트 데이터셋에 대해서는 좋은 성능을 낼 수 있는 것을 의미한다. – 그리고 이는 실제로, (하단) 그림과 같이 Projected라는 데이터셋에 대 해 레이블을 반전시켜 학습시킨 결과, 해당 데이터셋에 대해서는 에러 가 계속 1에 머물지만, Test error는 감소할 수 있음을 보인다. 10
  • 11. Soongsil Univ. DSAI Lab. 4. Conclusion & Opinion – Summary – 딥러닝에서 일반화 능력은 중요하며, 이는 구체적으로 어떤 분포에서 샘플링된 데이터에 대해 학습 할 때 동일 분포의 다른 데이터에 대해 좋은 성능을 나타내는 것을 의미한다. – 기존 ML에서는 Overfitting, Memorization이 일반화에 해로운 것으로 알려졌으나, 실제로는 좋은 일반화 능력을 나타낸다. – 특히 데이터셋 사이즈와 가중치 크기는 비례하여, 데이터셋이 커질수록 모델은 급격하게 복잡해진다. – 또한 기존에는 일반화 능력의 bound를 Uniform convergence를 활용해 느슨하게 정의하고, 학습 데이터셋에 대해 어떤 부드럽고 느슨한 경계를 만들 것이라 추측하였지만 이 또한 사실과 다르 게 특정 데이터 포인트에 대해서만 ‘뾰족한’ 경계를 만드는 현상을 보인다. 11
  • 12. Soongsil Univ. DSAI Lab. 4. Conclusion & Opinion – Opinion – 현대의 자연어 표현 학습 기법은 단어에 대한 representation을 만들고, 이를 어떤 신경망에 입력 하여 Vocabulary dictionary중 하나의 단어로 분류하고 있다. – 이 때 서로 같은 단어가 아닌 이상, 단어와 단어간의 연관성은 간접적으로 학습될 수밖에 없다. – 이미지 분야에서는, 사람이 어떤 이미지들이 동일한 객체를 지칭한다고 생각하여 annotate하면 그들이 서로 다른 이미지더라도 연관성을 띄게 되지만, 자연어에서는 단어 수가 너무나도 많고 대부분의 단어가 매우 희귀하다. *Zipf’s law – 본 논문에서의 요지는 counter-memorization, Training에 따른 smooth한 decision boundary와 같은 일반화에 대한 추측이 전부 틀렸음을 이야기한다. – 이것이 딥러닝 전반에 대한 부정으로 이어지지는 않지만, 적어도 단순한 task가 좋은 일반화를 유도 할 것이라는 추측, 나아가 유의미한 Knowledge를 얻을 수 있을 것이라는 추측은 부정할 수 있다고 사료된다. 12
  • 13. Soongsil Univ. DSAI Lab. Reference – https://medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to- deal-with-it-6803a989c76 – GPT-3 paper – Zhang et al., ICLR 2017, Understanding deep learning requires rethinking generalization – 위대한 수업, 요슈아 벤지오 – https://rmartinshort.jimdofree.com/2019/02/17/overfitting-bias-variance-and-leaning-curves/ 13