실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
머신러닝 In 충치 진단
1. 머신러닝 in 충치 진단
목차
1. 기계 학습(machine learning)
1) 지도 학습(supervised learning)
(0) 평가 방법
(1) 서포트 벡터 머신(support vector machine)
(2) k-NN(k-nearest neighbors algorithm)
(3) 의사결정나무(classification tree)
(4) 선형판별분석(linear discriminant analysis)
(5) 지도 학습 데이터 일람
2) 자율 학습(unsupervised learning)
2. 500 nm, 650 nm 부근 피크 강도비
1) 평가 방법
2. 1. 기계 학습(machine learning)
1) 지도 학습(supervised learning)
(0) 평가 방법
a. 진단할 치아 부위에 405 nm 레이저를 조사.
b. 레이저가 조사된 치아 부위에서 반사된 빛을 분광기(spectrometer)로 읽음.
c. 분광기로 읽은 치아 스펙트럼 데이터를 컴퓨터로 전송하여 저장.
d. 임의로 선택한 치아의 스펙트럼 데이터와 해당 치아를 사람의 눈으로 진단한 값(건전한 치
아=1, 우식 치아=2)을 통해 지도학습(supervised learning) 모델 생성.
e. 학습에 사용하지 않은 치아 중 임의선택하여 위의 과정에서 학습한 모델을 통해 우식 여부
를 예측한 후 사람의 눈으로 분류해 놓은 값(건전한 치아=1, 우식 치아=2)과 비교.
f. 임의의 치아를 선택하고 예측하는 것을 100번 반복하여 적중률 계산.
g. 적중률 계산을 100회 반복. 총 10,000개의 치아를 예측하는 동안 수행시간(cputime) 측정.
계산된 적중률 100회의 평균, 표준편차 계산.
h. 지도학습 모델 생성에 사용하는 치아 데이터의 수를 2개에서 100개까지 증가시키면서 위의
과정을 반복한다.
(1) 서포트 벡터 머신(support vector machine)
주어진 자료에 대해서 그 자료들을 분리하는 초평면 중에서, 자료들과 가장 거리가 먼 초평면을
찾는 방법을 사용.
Vladimir Vapnik이 제안한 알고리즘. 90년대 필기인식 분야에서 우수한 성능으로 알려짐. 특히
두 그룹으로 분류하는 성능이 우수. 건전한 치아와 우식 치아 두 그룹으로 나누기에 적합할 것으
로 판단.
3. 평가결과
100
95
90
85
80
75
70
65
60
55
50
서포트 벡터 머신(support vector machine)
학습한 치아의 수가 늘어나면서 적중률도 100을 향해 증가.
수행시간(cputime) 평균 4.6965
서포트 벡터 머신의 예측은 한번의 벡터 내적(inner product)을 통해 계산됨. 이는 시간복잡도
(time complexity) O(n)으로 실시간 진단에 사용하는데 적합.
(평가에 사용한 치아 1개의 스펙트럼 데이터는 1044개의 숫자로 이루어져 있음. 시간복잡도 O(n)
n=1044)
2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 102
평
균
적
중
률
학습한 치아의 수
4.
5. (2) k-NN(k-nearest neighbors algorithm)
관찰치 특성을 기준으로 훈련 샘플 중에서 가장 가까운 관찰치들을 분류하는 방법. 기계 학습의
방법 중에 가장 간단한 방법 중 하나. 서포트 벡터 머신(support vector machine)의 대조군으로
설정.
6. 평가결과
100
95
90
85
80
75
70
65
60
55
50
k-NN(k-nearest neighbors algorithm)
2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 102
평
균
적
중
률
학습한 치아의 수
학습한 치아의 수가 늘어나면서 적중률 소폭 상승.
서포트 벡터 머신(support vector machine)에 비해 느리게 상승함.
100개의 치아 학습에서 적중률 65%를 넘지 못함.
수행시간(cputime) 평균 14.4885
O(n)의 서포트 벡터 머신(support vector machine) 보다 약 3배의 수행시간 소요.
7. (3) 의사결정나무(classification tree)
의사결정규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수
행하는 분석방법.
데이터를 구성하는 속성의 수가 불필요하게 많을 경우에도 모형 구축시 분류에 영향을 미치지
않는 속성을 자동으로 제외시키기 때문에 데이터 선정이 용이.
데이터에 다수의 연속형 변수(속성)가 포함되어 있을 경우 값들을 그룹화하여 이산형(discrete)이
나 범주형 값으로 변환시킬 필요가 있는데, 그룹화하는 과정에서 발생하는 치우침을 배제할 수
없음.
평가 결과
95
85
75
65
55
45
의사결정나무(classification tree)
2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 102
평
균
적
중
률
수행시간(cputime) 평균 7.1022
학습한 치아의 수
8. (4) 선형판별분석(linear discriminant analysis)
클래스간 분산(between-class scatter)과 클래스내 분산(within-class scatter)의 비율을 최대화하는
방식으로 데이터에 대한 특징 벡터의 차원을 축소하는 방법.
데이터가 유니모달 분포인 경우에 적합하며, 비선형적으로 이루어진 데이터와 같이 동일 한 평
균을 가진 데이터를 가진 클래스에 부적합.
분류 문제보다는 차원 축소의 한 접근법으로 많이 사용.
100
95
90
85
80
75
70
65
60
55
선형판별분석(linear discriminant analysis)
학습 치아의 증가와 무관하게 편차가 심한 일정하지 않은 적중률을 보임.
수행시간(cputime) 평균 72.4793
시간복잡도 O(n)의 서포트 벡터 머신(support vector machine) 보다 15배 이상의 긴 수행시간 소
요.
50
2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 102
평
균
적
중
률
학습한 치아의 수
12. 2. 500 nm, 650 nm 부근 피크 강도비
1) 평가 방법
a. 진단할 치아 부위에 405 nm 레이저를 조사함.
b. 레이저가 조사된 치아 부위에서 반사된 빛을 분광기(spectrometer)로 읽음.
c. 분광기로 읽은 스펙트럼 데이터를 실시간으로 컴퓨터로 전송.
d. 500 nm 부근의 가장 높은 피크 값(n1)과 650 nm 부근의 가장 높은 피크 값(n2)을 구함.
e. 강도 보정을 위해 두 피크에서 일정한 값을 뺌.
f. n2/(n1+n2) 값의 크기로 치아 우식 여부를 판단.