O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
빅데이터의 이해
2013.09
알앤비소프트, 빅데이터 연구소 소장
김수보 (kimsubo@gmail.com)
목차
2 | 00
빅데이터란 무엇인가?
시장이야기
3 | 00
빅데이터란 무엇인가?
Big Traffic
4 | 00
일 10억건 발송
즉, 초당 11,574건 메시지
일 12억 페이지뷰
일 1.3억 건 검색
일 26억 건 검색 (글로벌)
Big Data
5 | 00
행정 DB 공유 건수 10억건
Google Big Data
6 | 00
• Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다.
1인당 15GB * 2.7 억명 („12.12)
= 4.05 Exa Byte...
Hadoop
7 | 00
2008. 130년어치
(1,100만 페이지)
pdf 변환
200만원
14년
하둡은
x86서버
기반의
대용량
파일저장
시스템
정의
8 | 00
• 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성
Volume
 전수 데이터를 조사할 수 있게 되다.
 데이터가 누적될수록 정확해지다. (도로정체이력)
 데이...
필요로 하는 곳
9 | 00
 경찰청 : 범죄자 프로파일 (DNA 정보)
 인구통계: 인구 이동 및 출생,사망 정보
 이통사 : 통화이력 정보
 금융 : 거래 이력 정보
전수 데이터 필수
누적 데이터가 중요
 ...
빅데이터 처리의 4단계
10 | 00
Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다.
일반적인 CRM의 수집 분석 흐름과 대동소이 합니다.
( Big Data Solution 의 기능 ...
얼마나 빨라지나?
11 | 00
CPU Core
수를 높임 
병렬처리
Disk 는
병렬로 일하지
않는다.
Data 전송은
병렬로 일하지
않는다.
추가증설
컨트롤러
CPU, Disk가
병렬로 일한다.
 1대 추가,
약...
얼마나 저장할 수 있나?
12 | 00
• 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유
Google Server – Linux, 2 Disk
Google Data Center
- ...
어떻게 조사할 수 있나?
13 | 00
• 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적)
트렌드 분석 긍부정 분석
Word CloudSocial Graph
성공전략 3요소
14 | 00
Data • 어떤 데이터를 모을 것인가?
• 데이터를 어떻게 저장해둘 것인가?
Data Scientist
• Domain Knowledge +
통계적 지식 +
냉철한 분석능력
Platfor...
데이터 분석가
15 | 00
여행가형
• 무작위로 많은 데이터를 조사함
• 같은 데이터를 두 번 찾지 않음
• 요구사항이 무엇인지 알지 못함
• 메타 데이터를 많이 사용
• 정기적으로 데이터를 모니터링
• 정기적으로 대...
어려운 점은 무엇인가?
16 | 00
플랫폼 기술이 초기
데이터 사이언티스트의 부족
학문보다 기술 리딩의 한계
• 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2
• Open So...
17 | 00
시장 이야기
민간시장은 기술적 접근단계
18 | 00
삼성
빅데이터
SKT
빅데이터
kth
빅데이터
NHN
빅데이터
• 검색질의 일 2,000만건
• 문서 일 130억건
• 검색로그 3TB/일
• 2008 ~
엔씨소프트
빅데이터
•...
U-Health 시장흐름
19 | 00
고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3)
빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal He...
사례. 국내. 해외사례
20 | 00
수행기관 프로젝트 명 주요 내용
해외 미국 국립보건원 유전자 데이터 공유를 통한 질
병치료체계 마련
75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에
공개. 유전자 비교분석...
국내 주요 데이터 보유현황
21 | 00
기관 자료명 조사주기 조사대상 표본 수
질병관리본부
국민건강영양조사 매년 1회 가구표본
192개 조사구, 약 3,840가구의
만 1세 이상 가구원 약 11,520
명
지역사회건강...
22 | 00
감사합니다.
Próximos SlideShares
Carregando em…5
×

빅데이터의 이해

23.687 visualizações

Publicada em

대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.

Publicada em: Saúde e medicina
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • 이슈가 있어 kth 사례는 삭제하였습니다.
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

빅데이터의 이해

  1. 1. 빅데이터의 이해 2013.09 알앤비소프트, 빅데이터 연구소 소장 김수보 (kimsubo@gmail.com)
  2. 2. 목차 2 | 00 빅데이터란 무엇인가? 시장이야기
  3. 3. 3 | 00 빅데이터란 무엇인가?
  4. 4. Big Traffic 4 | 00 일 10억건 발송 즉, 초당 11,574건 메시지 일 12억 페이지뷰 일 1.3억 건 검색 일 26억 건 검색 (글로벌)
  5. 5. Big Data 5 | 00 행정 DB 공유 건수 10억건
  6. 6. Google Big Data 6 | 00 • Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다. 1인당 15GB * 2.7 억명 („12.12) = 4.05 Exa Bytes = 4,050 Terra Bytes = 4,050,000 Giga Bytes 메일 검색, 분류, 태그
  7. 7. Hadoop 7 | 00 2008. 130년어치 (1,100만 페이지) pdf 변환 200만원 14년 하둡은 x86서버 기반의 대용량 파일저장 시스템
  8. 8. 정의 8 | 00 • 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성 Volume  전수 데이터를 조사할 수 있게 되다.  데이터가 누적될수록 정확해지다. (도로정체이력)  데이터를 지우지 않게 되다. (음원) Velocity  전수 데이터 처리가 가능해지게 되다.(인구총조사)  데이터 처리가 빨라지게 되다.(1주일반나절) Variety  주어진 분석틀을 벗어난 탐색형 발굴이 가능하다.  소급분석이 가능해지다. Disk 1TB=6만원 Memory 1GB=1만원 분산병렬처리 기술 발달 통계분석 외 시각화 도구 활성화 빅데이터의 3요소
  9. 9. 필요로 하는 곳 9 | 00  경찰청 : 범죄자 프로파일 (DNA 정보)  인구통계: 인구 이동 및 출생,사망 정보  이통사 : 통화이력 정보  금융 : 거래 이력 정보 전수 데이터 필수 누적 데이터가 중요  경찰청 : 범죄 발생이력 정보  의료정보 : 개인별 진료기록 정보  국토부 : CCTV 감시 이력정보  기상청 : 기상 이력 정보 고가의 대용량 수집비용  지자체 : 실시간 버스 이동 정보 (경기도 1만대)  내비게이션 회사 : 도로 정체 이력 정보 Data Volume Data Volume + Data Velocity
  10. 10. 빅데이터 처리의 4단계 10 | 00 Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다. 일반적인 CRM의 수집 분석 흐름과 대동소이 합니다. ( Big Data Solution 의 기능 및 처리 흐름과 관리 구조 ) 데이터수집(Aggregation) Reporting Collecting Store Analysis Visualization Collecting Store Analysis Reporting OpenAPI Crawling Data Collector Web, Social Network System log, RDBMS 등 수집 데이터 저장 NoSQL DBMS DBMS Hadoop 등을 이용한 대용량 데이터 저장 Data Query Data Clustering Classification Recommendation Hive, mahout, R 등을 통한 분산/병렬 데이터 실시간 분석 Chart/Grid Data Export/API Monitoring Chart, API 등을 통한 다양한 View 생성 및 제공 Data Scientist Management System Managing 데이터활용(Utilization) 빅데이터 요소기술이 투입됨
  11. 11. 얼마나 빨라지나? 11 | 00 CPU Core 수를 높임  병렬처리 Disk 는 병렬로 일하지 않는다. Data 전송은 병렬로 일하지 않는다. 추가증설 컨트롤러 CPU, Disk가 병렬로 일한다.  1대 추가, 약 1.8 배씩 성능 증가
  12. 12. 얼마나 저장할 수 있나? 12 | 00 • 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유 Google Server – Linux, 2 Disk Google Data Center - 컨테이너 단위로 증설 저장공간 무제한 증설가능
  13. 13. 어떻게 조사할 수 있나? 13 | 00 • 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적) 트렌드 분석 긍부정 분석 Word CloudSocial Graph
  14. 14. 성공전략 3요소 14 | 00 Data • 어떤 데이터를 모을 것인가? • 데이터를 어떻게 저장해둘 것인가? Data Scientist • Domain Knowledge + 통계적 지식 + 냉철한 분석능력 Platform • 대용량 수집, 저장 기술 • 분석 및 가공처리 기술 • Keyword : „도메인 지식‟을 가진 사람이 „플랫폼‟을 이용해서 데이터로부터 „정보를 발 굴‟해내는 활동을 지속적으로 수행함.
  15. 15. 데이터 분석가 15 | 00 여행가형 • 무작위로 많은 데이터를 조사함 • 같은 데이터를 두 번 찾지 않음 • 요구사항이 무엇인지 알지 못함 • 메타 데이터를 많이 사용 • 정기적으로 데이터를 모니터링 • 정기적으로 대규모 데이터를 상세히 검토 • 산발적으로 데이터를 사용 • 프로파일링 툴에 의존 • 심화 탐구를 위한 영역을 이따금 조사 농부형 • 정기적으로 데이터 접속 • 무엇을 찾고 있는지 인지하고 있음 • 대규모 데이터에 접속 • 데이터에 예측가능한 접속 • 데이터에 접속한 후 예측 가능한 처리 시행 • 데이터 조회 시작 전에 요구사항을 인지하고 있음 • 정기적으로 데이터 마트에 접속 • 거의 현재 시점의 상세 데이터에 접속하지 않음 • 정기적으로 소규모의 황금조각을 발견 • 프레젠테이션 툴을 사용 탐험가형 • 데이터에 비정기적으로 접속 • 무엇을 찾는지 알지 못함 • 대량의 데이터를 조사 • 예측 불가능한 유형의 접근 • 때때로 큰 금덩어리를 발견 • 종종 아무것도 찾지 못함 • 정기적으로 현재 시점의 상세 데이터에 접근 • 데이터 발생보다 데이터 관계성을 검토 • 탐구와 통계적 분석 툴을 사용 광부형 • 통계학자 • 주장에 대한 가설을 바탕으로 수행 • 가설의 타당성을 입증 • 대량의 데이터로 수행 • 반복적으로 발생하는 독립 데이터로 수행 • 공생방식으로 탐험가와 긴밀히 협업 • 종종 새로운 가설과 주장을 발견 • 아주 큰 쿼리를 제출 • 업무에 특화된 툴을 사용
  16. 16. 어려운 점은 무엇인가? 16 | 00 플랫폼 기술이 초기 데이터 사이언티스트의 부족 학문보다 기술 리딩의 한계 • 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2 • Open Source 중심으로 업체 숙련도에 품질 좌우 • CRM 기술 수준 대비 이용 편의성이 낮음 • 빅데이터는 도메인 지식을 가진 전문가의 것 • CRM, DW 와 달리 유의한 데이터 실험이 가능함 • 빅데이터 특성에 맞는 „전문 분석가‟ 별도 양성의 필요가 있음 • 빅데이터 분석 기술에 대한 학문적 연구 부족 • Open Source에는 SAS와 같은 고급 분석 모듈들이 부족함.
  17. 17. 17 | 00 시장 이야기
  18. 18. 민간시장은 기술적 접근단계 18 | 00 삼성 빅데이터 SKT 빅데이터 kth 빅데이터 NHN 빅데이터 • 검색질의 일 2,000만건 • 문서 일 130억건 • 검색로그 3TB/일 • 2008 ~ 엔씨소프트 빅데이터 • 분석로그 일 1TB • 분석대상 1.6 PB • MS-SQL  Hadoop 기반 • 2010 ~ 2013 완성 • 푸딩앱 3,000만 다운로드 • 푸딩투 글로벌 200만 Active 유저 • 올레스마트 TV, 기상청 빅데이터 • 2011 ~ 2013 • 오픈빅데이터, 2013.5.13 • ICT 개방 1조2,000억 투자(3년간) • 2010 ~ • 무선사업부, MSC, VD사업부 • 반도체 사업부 등 글로벌 빅데이터 • Oracle, EMC, IBM 등 솔루션 PoC, ISP 수립 • 2011 ~ 정부3.0 • data.go.kr, 공공정보 연계(’12년 10억 Call) • 12.12 ~ 13.03 빅데이터 BPR/ISP 정책수립 • 13.09 미래부 빅데이터 분석 활용센터 구축 자사 내부서비스 대외 비즈니스용 정부 운영 목적 + 공공 서비스 목적 • 현재는 “빅데이터를 보유한 기업”이 자사 내부서비스 목적으로 오픈소스 기반의 빅데이터 센터 구축함 • 일반기업은 아직 효용성을 고민중이며, 정부가 선도하는 시장이 열리고 있음
  19. 19. U-Health 시장흐름 19 | 00 고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3) 빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal Health Record)의 확충에 대한 새로운변화 의 흐름이 등장하였습니다. Wellness Market Illness Market Data • 개인 건강이력정보 • 개인 생활이력정보 • 가족기록 정보 Device • 개인 모바일 기기 • 가정용 기기 분석서비스 • Device로부터 획득한 정보, 개인정보를 바탕으로 식이영 양 및 건강운동 정보 제공 처방서비스 • 분석에 따른 영양 불균형 및 건강 불균형에 대해 처방 대상 데이터 서비스 주요 기술 생체정보 모니터링기술 • 생체신호 처리기술 • 의료영상 처리기술 일상생활 모니터링 기술 • 생활센서 처리기술 • 행위정보 분류 • 생활패턴 가시화 U-Health 응용기술 • 임상결정지원기술 • 응용서비스 프로토콜 • 의료정보 보호 • 시험 및 인증 데이터 분석기술 • 빅데이터 기술 • 질병 데이터 분석 기술 • 생활건강정보 분석 기술 Data • 질병정보 • DNA 정보 • 치료이력 정보 • 진료환경 정보 • 임상 실험정보 Device • 질병 진단 기기 진료서비스 • 질병 정보와 PHR을 바탕으 로 효과적이고 개인화된 질병 진단 치료서비스 • PHR의 변화를 기반으로 한 장기적, 단기적 치료서비스 제공 예방서비스 • 데이터에 기반한 질병확률 중심의 예방 서비스 제공 임상실험 • 신약 개발 및 치료제 개발 대상 데이터 서비스 ※ 참고 : TTA Journal, 2013.01
  20. 20. 사례. 국내. 해외사례 20 | 00 수행기관 프로젝트 명 주요 내용 해외 미국 국립보건원 유전자 데이터 공유를 통한 질 병치료체계 마련 75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에 공개. 유전자 비교분석 서비스 제공, DNA 이상에 따른 질병 사전예측 및 대응 미국 국립보건원 Pillbox 프로젝트를 통한 의료 개혁 약검색 서비스를 통해 지역별 질병통계 분석 이 정보를 기반으로 보건정책 수립 대응 미국 퇴역군인국 미국 퇴역군인 전자의료기록 분석을 통한 맞춤형 의료서비 스 지원 2년간 25개 DW 구축, 전자의료기록(EHR) DB구축 의료서비스에 제공 캐나다 온타리오 공과대 병원 미숙아 모니터링을 통한 감염 예방 및 예측 미숙아 1명이 일9,000만건 데이터 생성 (바이털 사인을 초당 1,000번 수집) 이상징후를 통해 6~24시간 먼저 감염 확인 건강보험회사 웰포인트 슈퍼컴퓨터를 활용한 효율적 환자치료 환자 증상, 면담기록등 모든 내역을 저장, 환자치료 가이 드라인 제시 기능. 2억 페이지 검색을 3초 내 실시 구글 검색어 분석을 통한 독감예보 서비스 제공 검색어 쿼리를 조사하여, 지역별 독감동향을 신속히 감 지함. 국내 한국인체자원은행 네트워크 정보공유로 생명공학 분야 경 쟁력 제고 전국 16개 병원에서 36만명 인체 정보 획득. 특정질환별 로 연구자들에게 무료 제공 DNA Link 유전자 분석시스템으로 맞춤형 건강검진 서비스 제공 4만명 이상 질병관련 분석을 하여 국내 최대 한국인 유 전체 DB 구축 1 TB 이상 DB 구축, 기하급수적으로 늘어나는 DNA 데 이터 저장 분석 가능 연세대학교 의료원 후(HooH) 헬스케어시스템 전자진료기록부, 의료영상 전송 등에 대한 전산시스템을 클라우드 기반으로 이전 빅데이터 인프라를 적용하여 방대한 데이터 축적
  21. 21. 국내 주요 데이터 보유현황 21 | 00 기관 자료명 조사주기 조사대상 표본 수 질병관리본부 국민건강영양조사 매년 1회 가구표본 192개 조사구, 약 3,840가구의 만 1세 이상 가구원 약 11,520 명 지역사회건강조사 매년 1회 가구표본 전국 227,700명 해당 청소년건강행태 온라인조사 매년 1회 학교표본 중·고등학생 약 8만명(중학교 400개교, 고등학교 400개교) 퇴원손상심층조사 매년 1회 100병상이상병원표본 국민건강보험공단 건강검진통계 매년 1회 건강검진 대상자 대상자 : 15,249,528명 수검자 : 11,070,569명 (2011년일반건강검진 기준) 건강보험주요수술 통계 매년 1회 건강보험및의료급여가입자 전 수 건강보험통계 매년 1회 건강보험 적용인구 전 수 건강보험환자진료 비실태조사 매년 1회 요양기관표본 850개 요양기관 노인장기요양보험 통계 매년 1회 개인 전 수 지역별의료이용 통계 매년 1회 건강보험 적용인구 전 수 한국보건사회 연구원 전국출산력및 보건복지실태조사 매 3년 가구표본 약 16,380가구 장애인실태조사 매 3년 가구표본 1,000개 조사구 (가구: 41,000 가구, 시설: 736개 전 수) 한국복지패널조사 매년 1회 가구표본 7,072가구 한국의료패널조사 매년 1회 가구표본 약 8,000가구 환자조사 매년 1회 의료기관표본 57,133개 의료기관 영아모성사망조사 매 2년 전 수 전 수 노인실태조사 매 3년 (전국)가구표본 (63세이상노인) 3,086개 조사구 약 15,000명 한국고용정보원 고령화연구패널 조사 매 2년 가구표본 1,000개 조사구 기관 자료명 조사주기 조사대상 표본 수 국민연금공단 국민노후보장패널조사 매 2년 만 50세 이상 중고령자가 있는 가구표본 5,110가구 (8,689명) 통계청 사망원인통계 매년 9월 사망자 사회조사 매년 1회 가구표본 17,664가구의 만 13세 이상 가구원 보건복지부 국민구강건강 실태조사 매 3년 학교표본 초등학교(1학년, 3학년과 5학 년):6,000명 중학교: 6,000명 고등학교: 6,000명 특수학교: 300명 한국 노동연구원 한국노동패널조사 매년 1회 가구표본 1차 표본 : 5000가구 2차 표본 : 1500가구 국립암센터 암등록통계 매년 1회 새롭게 발생한 암환자 국립중앙 의료원 응급의료현황통계 매년 1회 전국응급실이용자 및응급의료자원 전 수 국세청 국세통계 매년 1회 전 수 전 수 ※ 출처 : 건강보험심사평가원
  22. 22. 22 | 00 감사합니다.

×