221123 지승현 Uniform convergence may be unable to explain generalization in deep learning.pdf
1. Soongsil Univ. DSAI Lab.
Uniform convergence may be unable to
explain generalization in deep learning
Nagarajan & Kolter, Carnegie Mellon Univ., NIPS 2019
(Outstanding paper award, Oral)
1
지승현 발표
22.11.23.
2. Soongsil Univ. DSAI Lab.
목차
1. Traditional overfitting interpretation
2. Generalization bound vs Complexity
3. Generalization bound vs Uniform convergence
4. Conclusion & Opinion
5. Reference
2
3. Soongsil Univ. DSAI Lab.
1. Traditional overfitting interpretation
– Overfitting is caused by model complexity?
– 기존의 machine learning에서는 model compelxity와 overfitting을 연관지었다.
– 이 때 데이터(점)를 모델링하는 함수(선)의 모양(Curvature) 을 model complexity로 연결지을 수
있다.
– 너무 단순하거나 복잡한 모델 (좌, 우) 보다 적절한 모델 (중) 이 좋은 일반화 능력을 보인다.
3
4. Soongsil Univ. DSAI Lab.
1. Traditional overfitting interpretation
– 하지만 딥러닝에선?
– 딥러닝은 model complexity가 증가할수록 (혹은 Overparameter-ized) 일반화 능력이 좋아짐
– 기존의 ML에서의 Epoch에 따른 fitting 그래프는 (좌) 가 정석이었다.
– 하지만 딥러닝에서는 Double descent 그래프를 그린다. (우)
– 즉, 딥러닝에서는 parameter가 증가하여 Model complexity가 증가할수록 성능이 향상된다.
4
5. Soongsil Univ. DSAI Lab.
1. Traditional overfitting interpretation
– Is Memorization good in deep learning?
– 딥러닝은 over-parameter-ization 될 때 데이터셋을 충분히 외울 수 있다.
– 데이터에 랜덤 레이블을 할당했을 때조차 (레이블에 아무런 연관성이 없어도) 가능하다 (좌)
– Yoshua Bengio는 이러한 Memorization이 Generalization에 해롭다고 주장한다 (우)
– 하지만 네트워크가 암기를 하는지 핵심원리를 깨치는지 정확히 알 수 없다.
5
6. Soongsil Univ. DSAI Lab.
2. Generalization bound
– Traditional generalization bound(부등호)
– 어떤 일반화 능력을 직접적으로 측정하기는 어려움
– 따라서, train error와 test error로 나누고 이를 간접적으로 bound로 표현하자.
– 모델의 weight norm은 model complexity와 직결되므로, 이를 bound로 표현하면 (우)와 같다.
– 자연스레 (좌)와 비교하여, 모델이 매우 복잡해지면 test error가 커질 것임을 추측할 수 있다.
6
7. Soongsil Univ. DSAI Lab.
2. Generalization bound vs Complexity
– Traditional generalization bound may wrong
– 하지만 딥러닝에서는 데이터를 외우더라도 test error가 감소하는 것을 볼 수 있다.
– 특히, 학습 데이터셋이 증가할수록 weight norm은 급격하게 증가한다. (잘 학습되더라도, 좌)
– 따라서 기존의 bound 수식을 수정할 필요가 있다. (우)
7
8. Soongsil Univ. DSAI Lab.
3. Generalization bound vs Uniform convergence
– Uniform convergence bound
– Uniform convergence란, 두 함수의 최대 차이가 특정 값 범위 미만인 것
– 기존에는 Traditional generalization bound 말고도 아주 일반적이고 느
슨한 bound가 존재하는데, 이것이 Uniform convergence bound에 해당
– H가 어떤 데이터셋을 활용하여 만들어질 수 있는 모델의 집합이라고 하면,
𝐿(ℎ) 이 모델 ℎ 의 데이터셋에 대한 loss function이라고 할 때
𝑷 supℎ∈𝑯 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) ≤ 𝜖 ≥ 1 − 𝛿
– 예를 들어 𝐷가 테스트 데이터셋, 𝑆가 학습 데이터셋이라고 하면, 이상적으로
학습되었을 경우 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) 는 0에 근사할 것이고, Training error가
0에 가깝더라도 추론을 잘 하는 모델은 𝐿𝐷(ℎ) − 𝐿𝑆(ℎ) ≤ 𝜖이다.
8
Elements
of H
Error
9. Soongsil Univ. DSAI Lab.
3. Generalization bound vs Uniform convergence
– Conjecture with Uniform convergence bound
– 일반적으로 테스트 데이터셋에 대해 좋은 성능을 가진 모델이라면, 학습 데이터셋에 대해서도 좋은
성능을 낸다. (테스트 데이터셋과 학습 데이터셋 모두 동일 데이터 분포에서 샘플링되었을 경우)
→ 학습 데이터셋에 대해 적은 loss를 내는 모델이라면 테스트 데이터셋에 대해서도 적은 loss를
낼 것이고, 반대로 학습 데이터셋에 대해 큰 loss를 내는 모델이라면 테스트 데이터셋에 대해서도
큰 loss을 낼 것이다.
= supℎ∈𝑯 𝐿𝐷(ℎ𝑆) − 𝐿𝑆(ℎ𝑆) ≤ 𝜖
9
10. Soongsil Univ. DSAI Lab.
3. Generalization bound vs Uniform convergence
– 만약 레이블을 일부러 반전시킨 데이터 𝑆`가 존재한다면?
– 심지어 테스트셋에 대해 좋은 성능을 내는 모델이더라도…
– 𝐿𝑆` ℎ𝑆 = 1일 것이다.
– 이는 (상단) 그림과 같이, 보라와 빨강 클래스가 있다고 하고 이들이
원 테두리의 representation space로 매핑되었다고 할 때, 검정색
테두리 데이터 𝑆` 에 대해 학습되어 𝐿𝑆` ℎ𝑆 = 1인 상황이지만, 여전히
테스트 데이터셋에 대해서는 좋은 성능을 낼 수 있는 것을 의미한다.
– 그리고 이는 실제로, (하단) 그림과 같이 Projected라는 데이터셋에 대
해 레이블을 반전시켜 학습시킨 결과, 해당 데이터셋에 대해서는 에러
가 계속 1에 머물지만, Test error는 감소할 수 있음을 보인다.
10
11. Soongsil Univ. DSAI Lab.
4. Conclusion & Opinion
– Summary
– 딥러닝에서 일반화 능력은 중요하며, 이는 구체적으로 어떤 분포에서 샘플링된 데이터에 대해 학습
할 때 동일 분포의 다른 데이터에 대해 좋은 성능을 나타내는 것을 의미한다.
– 기존 ML에서는 Overfitting, Memorization이 일반화에 해로운 것으로 알려졌으나, 실제로는
좋은 일반화 능력을 나타낸다.
– 특히 데이터셋 사이즈와 가중치 크기는 비례하여, 데이터셋이 커질수록 모델은 급격하게 복잡해진다.
– 또한 기존에는 일반화 능력의 bound를 Uniform convergence를 활용해 느슨하게 정의하고,
학습 데이터셋에 대해 어떤 부드럽고 느슨한 경계를 만들 것이라 추측하였지만 이 또한 사실과 다르
게 특정 데이터 포인트에 대해서만 ‘뾰족한’ 경계를 만드는 현상을 보인다.
11
12. Soongsil Univ. DSAI Lab.
4. Conclusion & Opinion
– Opinion
– 현대의 자연어 표현 학습 기법은 단어에 대한 representation을 만들고, 이를 어떤 신경망에 입력
하여 Vocabulary dictionary중 하나의 단어로 분류하고 있다.
– 이 때 서로 같은 단어가 아닌 이상, 단어와 단어간의 연관성은 간접적으로 학습될 수밖에 없다.
– 이미지 분야에서는, 사람이 어떤 이미지들이 동일한 객체를 지칭한다고 생각하여 annotate하면
그들이 서로 다른 이미지더라도 연관성을 띄게 되지만, 자연어에서는 단어 수가 너무나도 많고
대부분의 단어가 매우 희귀하다. *Zipf’s law
– 본 논문에서의 요지는 counter-memorization, Training에 따른 smooth한 decision
boundary와 같은 일반화에 대한 추측이 전부 틀렸음을 이야기한다.
– 이것이 딥러닝 전반에 대한 부정으로 이어지지는 않지만, 적어도 단순한 task가 좋은 일반화를 유도
할 것이라는 추측, 나아가 유의미한 Knowledge를 얻을 수 있을 것이라는 추측은 부정할 수 있다고
사료된다.
12
13. Soongsil Univ. DSAI Lab.
Reference
– https://medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to-
deal-with-it-6803a989c76
– GPT-3 paper
– Zhang et al., ICLR 2017, Understanding deep learning requires rethinking generalization
– 위대한 수업, 요슈아 벤지오
– https://rmartinshort.jimdofree.com/2019/02/17/overfitting-bias-variance-and-leaning-curves/
13