4. 정보와 데이터
• 수년 전 부터 여러 분야에 정보라는 단어와 결합
• 인터넷을 비롯한 컴퓨터의 발전은 데이터 베이스를 포한하여 정보
를 다루는 기술이 폭발적으로 발전
• 스마트폰과 소셜 네트워크로 더욱 자유롭게 정보의 생산과 공유, 전
파가 가능
• 유용한 정보를 캐내는 ‘데이터마이닝’이 주목받기 시작
12년 11월 14일 수요일
5. 다차원 데이터 분석
• 대용량의 데이터는 관측값의 수와 데이터의 차원(속성 또는 변수)이
크다.
• 전통적인 통계학에서의 분석방법으로는 한계 노출
• 다차원의 데이터에 적합한 새로운 분석방법 마련이 필요
12년 11월 14일 수요일
6. 정보처리기술의 발전
• 정보를 적절히 처리하는 기술이 필요
• 1980년대 하드웨어 발전으로 대용량 데이터 저장 및 처리 가능
• 1990년대 인터넷 관련 기술의 발전과 더불어 실시간 의사결정시스
템 가능. 데이터웨어하우징 기술의 발달
• 21세기에는 소셜 네트워크에서 관계분석 및 텍스트마이닝 등으로
활용 분야 확장
12년 11월 14일 수요일
7. 고객관계관리의 도입
• 기업의 전통적인 자원을 효과적으로 관리 및 운영해야 한다.
• 새로운 제품과 서비스를 창출해 내는 또 다른 자원도 관리해야 한다.
• 기업의 생존과 발전을 하기위해서는 고객의 요구를 파악해야한다.
• 데이터마이닝이 크게 활성화된 동기는 고객정보를 축적 및 사용하
는 고객관계관리(CRM)를 도입하면서부터이다.
12년 11월 14일 수요일
9. 데이터마이닝의 정의
팅
컴퓨
뉴로
통계학 패턴인식
기계학습 인공지능
데이터마이닝
데이터베이스
지식발견
• 다량의 가공하지 않은 데이터로부터 소량의 귀중한 덩어리를 찾아
내는 과정
• 발굴된 값진 정보를 사용자가 전문적인 지식 없이 사용할 수 있도록
제공하는 시스템 개발과정까지 포함하기도 한다.
12년 11월 14일 수요일
10. 데이터마이닝과 OLAP의 차이점
• 데이터마이닝은 예측가능한 정보의 추출을 시행한다.
• OLAP는 TOP-DOWN 방식으로 효율적인 의사 결정에 도움을 주
도록 한다.
• 데이터마이닝은 DOWN-TOP 방식으로 영향을 미치는 인자들이
무엇인지 탐사하는데 도움을 준다.
12년 11월 14일 수요일
11. 데이터마이닝 과정
분석 계획 탐색
DELPA
처리 표현 탐색
• 계획 - 문제제기
• 탐색 - 데이터의 특성 찾기
• 표현 - 비주얼적으로 특성을 표현
• 처리 & 분석
12년 11월 14일 수요일
12. 데이터마이닝의 특징
특징 비고
- 시간의 흐름에 따라 축적됨
대용량의 관측 가능한 자료
- 데이터 분석을 업무에 두지 않는 경우가 많음
컴퓨터 집약적 기법
- 컴퓨터의 강력한 처리속도와 능력 활용
(computer-intensive
- 기존 분석기법의 한계 극복
method)
경험적 방법(adhockery - 경험에 기초하여 기법 개발
method) - 수리적 특성이 규명되지 않는 기법도 존재
일반화(generalization) - 일반화는 새로운 데이터에 얼마나 잘 적용되는가를 의미
업무활용성(business
- 다양한 경영상황하에서 경쟁력 확보를 위한 의사결정을 지원
aplications)
12년 11월 14일 수요일
14. 연구분야
분야 세부설명
- 데이터마이닝과 가장 유사한 의미
KDD(knowledge discoverty - 지식을 추출하는 전 과정
in database) - 데이터마이닝은 OLAP이나 웨어하우징 등과 마찬가지로 전체적인
KDD 과정 중 한 과정인 탐사 단계를 의미
기계학습(machine learning) - 인공지능의 한 분야로 자동적인 학습기법을 설계하고 구현하는 분야
패턴인식(pattern - 공학에서 출발하였으며, 이미지 분류와 깊은 관련이 잇음
recognition) - 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법을 제공
뉴로컴퓨팅
- 신경망 등과 관련된 학문적 배경을 가짐
(neurocomputing)
통계학(statistics) - 데이터마이닝은 대부분 통계학의 한 분야라고 할 수 있다
12년 11월 14일 수요일
15. 활용분야
• 고객관계관리 • 생명정보학
• 신용평가 • ETC......
• 품질개선
• 부정행위 적발
• 이미지분석
12년 11월 14일 수요일
17. 연관성 분석
• 주어진 데이터의 집합에서 함께 빈번하게 발생하는 속성에 대한 조
건을 나타내는 연관규칙을 발견하는 것
• 장바구니 분석, 트랜젝션 분석에 사용
12년 11월 14일 수요일
18. 분류와 예측
• 목표범주를 설명하고, 구별하는 모형의 집합을 찾는 과정
• 새로운 객체가 관측 되었을 때, 이를 적절한 목표범주에 할당할 수
있도록 분류모형을 구축하는 것이 목적.
• 판별분류규칙, 의사결정나무, 폴리클래스, 신경망 등등
• 관련성 분석을 선행하여 효과적인 예측모형을 구축한다.
12년 11월 14일 수요일
19. 군집분석
• 이미 알려진 범주값을 참고하지 않고 데이터 객체를 분석한다.
• 군집 내 유사성의 극대화, 군집 간 유사성 최소화를 원칙으로 군집화
한다.
• 분류법을 만드는데도 이용할 수 있다.
12년 11월 14일 수요일
20. 감독학습과 자율학습
• 감독학습 : 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사
시스템을 구하는 것. 예를 들면 회귀분석이나 판별분석
• 자율학습 : 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그
목표를 둔다. 예를 들면, 군집분석
• 자율학습은 감독학습에 비해 목표가 구체적이지 못해서 작업이 어
렵다.
12년 11월 14일 수요일