Anúncio
Anúncio

Mais conteúdo relacionado

Destaque(18)

Similar a 데이터에서 의미 추출하기(20)

Anúncio

Último(20)

데이터에서 의미 추출하기

  1. Doing Data Science 
 chapter7 데이터에서 의미 추출하기 2015/06/27 이남영(onlywis@gmail.com)
  2. 어떤 방식으로 기업들은 데이터에서 의미를 추출할까?
  3. 배경1; 데이터과학 경진대회 • 데이터과학 경진대회 역사가 존재 • 지식발견과 데이터마이닝(KDD) 연례 대회 • 넷플릭스 대회(2년에 걸쳐 개최) • 캐글 대회 등등... • 데이터 과학 생태계의 일부이자 문화적 힘 • 데이터 과학 체계화에 일조
  4. 배경2; 크라우드 소싱 • 전세계 많은 사람들이 문제 해결에 참여 • 역사적으로 오래 된 아이디어 • 1714년 영국 해군의 경도 측정 방법을 공모하여 해결 • 공정한 평가척도, 적절한 상금, 흥미로운 난이도가 필요
  5. 캐글Kaggle 모형 •수수료를 받고 • 기업의 문제를 크라우드 소싱으로 해결하기 위해 •경진대회를 개최
  6. 사고 실험 • 로봇 평가자의 에세이 채점은 옳은가? 윤리적인가? 1. 인간 채점자들이 항상 공정한 것은 아니다. 2. 기계는 상황을 구조화하고, 이것은 창의성을 억제하는가? 3. 에세이의 목적은 훌륭한 에세이를 쓰는 것인가?
 아니면 표준화된 시험을 잘 보는 것인가?
  7. 특징 선택feature selection • 모형에 넣을 데이터의 부분 집합 선택 • 알고리즘과 통계 모형 구축의 중요한 부분 • 중복되거나 상관이 높은 변수 제거 • “때로는, 더 많은 데이터는 단지 더 많은 데이터에 불과하다”
  8. 사례: 체이싱 드래곤 • 체이싱 드래곤이라는 애플리케이션을 설계하였다고 가정 • 첫 달이 지난 후 신규 사용자의 10%만 유지 • 신규 사용자 유치보다는 기존 사용자 유지가 비용적 유리 • 어떻게 기존 사용자를 유지할 것인가?
  9. 사용자 유지 1. 데이터 수집 • 사용자의 모든 행동을 time-stamped event log로 저장 2. 데이터 세트로 변환 • 각 행은 사용자, 각 열은 특징으로 구성 • 특징들에 대한 브레인스토밍이 필요(특징 추출feature extraction) ✤ 첫 달에 사용자가 방문한 날의 횟수 ✤ 두 번째 방문까지 소요된 총 시간 ✤ 사용자의 프로필 작성 유무 등등.. • 특징들 간에 중복과 연관성에 주의
  10. 사용자 유지 3. 로지스틱 회귀 분석 • 첫 달 사용자 활동의 조건 아래에서 두 번째 달 사용자가 돌아올 확률 계산 • logit(P(ci =1|xi)) = α + βτ ・xi • 특징을 선택하여 로지스틱 회귀에 입력 • 특징 선택 방법: 필터, 래퍼, 임베디드
  11. 특징 선택 방법; 필터filter • Model의 성능을 고려하지 않고 특징 선택 • 모든 특징을 척도에 따라 순위를 정하고, 가장 높은 순위의 특징들로 선택 • 특징 간의 중복을 고려하지 않는다
  12. 특징 선택 방법; 래퍼wrapper • Model이 최고의 성능을 내는 특징 선택 • 시간이 오래 걸린다 • 부분집합의 수가 기하급수적으로 늘어 과적합의 위험 발생 • 특징 선택을 위한 알고리즘과 선택기준을 결정해야 함
  13. 특징 선택을 위한 알고리즘 1. 전진 선택forward selection •비어 있는 상태에서 시작 •모형을 가장 많이 향상시키는 특징을 하나씩 점진적으로 추가 •추가 시 선택기준이 향상되지 않을 때 추가를 중단 2. 후진 제거backward elimination •모두 포함된 상태에서 시작 •제거 시 가장 큰 향상을 가져왔느냐에 따라 점진적으로 제거 •특징 제거가 선택기준을 나쁘게 할 때 추가를 중단 3. 혼합형 접근 •전진 선택과 후진 제거를 함께 사용
  14. 특징 선택을 위한 선택기준 • 다수의 선택기준이 존재 • R-제곱값(R 2 ) • P-값 • 아카이케 정보 기준 • 베이지안 정보 기준 • 엔트로피 • 선택기준에 따라 다른 모형이 제작 • 여러 선택기준을 적용 후 결과를 관찰하여 선택
  15. 특징 선택 방법; 임베디드 방법 • 의사 결정 나무decision tree • 분류classification 알고리즘 • 높은 해석가능성의 장점 • 각 단계의 특징을 어떻게 배치할 것인가가 관건 • 데이터에 기반한 특징 배치: 엔트로피
  16. 엔트로피entropy • 무엇이 얼마나 혼합되어 있는지에 대한 척도 • H(X) =−p(X=1)log2(p(X=1)) −p(X=0)log2(p(X=0)) • p(X=1)=0 또는 p(X=0)=0 일 경우 
 H(X) = 0 • H(X|a) = Σai p(a=ai)・H(X|a=ai) • 속성 a의 값을 알 때 X에 대해 얼마나 많은 정보를 알게 되는 가?
  17. 가지치기pruning • 특정한 깊이 아래를 잘라내는 작업 • 방대한 데이터를 학습할 경우 과적합이 발생 • 가지치기를 통해 과적합을 방지하고 정확도 향상
  18. 랜덤 포리스트random forest 1. 배깅bagging을 통해 의사결정나무를 일반화 • 학습 데이터에 따라 결과가 크가 달라지는 의사결정나무의 단점을 보완 • 연속 학습을 수행하는 동안 이전 학습에서 틀린 답에 좀 더 초점을 맞춰 학습하는 기법 • 월등히 높은 정확성. 간편하고 빠른 학습 및 테스트 • 해석가능성을 희생. 이해하기가 매우 어렵다 2. 부트스트래핑 •복원추출 표본으로 같은 데이터 포인터를 반복 추출 3. 가지치기를 하지 않는다 • 특이한 잡음을 포함할 수 있는 것이 큰 장점
Anúncio