SlideShare uma empresa Scribd logo
1 de 14
Baixar para ler offline
빅데이터 처리기술의 의해
빅데이터 플랫폼 제3강
CONTENTS
01 02 03 04
빅데이터 처리시스템의
이해
빅데이터 처리시스템의
설계 원칙
빅데이터 처리시스템의 이해
대용량의 데이터를 분산 병렬 처리하고 관리하는 시스템
• 데이터의 유형에 따라 실시간(Real-Time) 처리나 배치(Batch)
처리를 가능하도록 하는 프레임워크
• 대량 데이터의 수집, 관리, 유통, 분석을 처리하는 일련의 분산
병렬 처리 프레임워크
빅데이터 처리시스템이란
01
빅데이터 처리시스템의 이해
프레임워크(Framework)의 정의
• 컴퓨터 프로그래밍에서, 소프트웨어 프레임워크(software framework)는
복잡한 문제를 해결하거나 서술하는 데 사용되는 기본 개념 구조를 의미
ko.wikipedia.org
01
빅데이터 처리시스템의 이해
https://doi.org/10.1016/j.epsr.2017.06.006
빅데이터 처리 프레임워크
01
빅데이터 처리시스템의 이해
구분 기존의 데이터처리 방식 빅데이터 처리방식
데이터 트래픽 테라바이트 수준
• 페타바이트 수준(최소 100 테라바이트 이상)
• 장기 간의 정보수집 및 분석
• 방대한 데이터 처리량
데이터 유형 정형 데이터 중심
• 비정형 데이터의 비중이 높음(SNS 데이터, 로그파일, 클릭
스트림 데이터, 콜센터 로그, 통신 로그 등)
• 처리의 복잡성 증대
프로세스 및 기술
• 단순한 프로세스 및 기술
• 정형화된 처리/분석 과정
• 원인/결과 규명 중심
• 다양한 데이터 소스 및 복잡한 로직 처리
• 데이터 처리 복잡도가 높아 분산처리기술 필요
• 새롭고 다양한 처리방법 개발 필요(정의된 데이터 모델/ 상
관관계/절차 등이 없음)
• 상관관계 규명 중심
• Hadoop, R, NoSQL 등 개방형 소프트웨어
정보통신정책연구원, 빅데이터 동향 및 정책 시사점
01
빅데이터 처리시스템의 설계 원칙
대량의 데이터 처리 실시간 데이터 처리
저비용 고효율 시스템 결함 허용 시스템
빅데이터
처리시스템
빅데이터 3V 특성에 맞는 새로운 형태의 빅데이터 처리 프레임워크 필요
02
빅데이터 처리시스템의 설계 원칙
대량의 데이터를 처리하기 위한 분산 데이터 저장 기술
네트워크를 기반으로 대규모 클러스터 시스템을 구축하여 대용량의 저장 공간과 빠른 데이터 처리를 지원
분산 파일 시스템의 특징
• 서버의 고장을 염두해 두고 이러한 상태에서도 시스템이
정상적으로 수행할 수 있어야 한다.
• 파일에 대한 쓰기 연산은 주로 순차적으로 데이터를 추가
하는 것이며 파일에 대한 갱신은 드물게 이뤄진다.
• 응답 지연시간 보다 높은 처리율이 더 중요하다.
02
빅데이터 처리시스템의 설계 원칙
결함 허용 시스템
시스템의 결함 발생 가능성을 인정하고 장애 발생시 안정적으로 시스
템을 운영할 수 있는 시스템 구축
빅데이터 처리시스템은 많은 노드의 네트워크로 구성되어 있기 때문
에 일부 노드의 장애가 전체 시스템에 영향을 미치지 않도록 시스템을
구성해야 함
고장 대응체계, 대체 시스템 등 필요
02
빅데이터 처리시스템의 설계 원칙
하둡(Hadoop)의 결함허용 전략
클러스터 내의 노드가 수행 중에 장애로 서비스가 중단되거나 정상적인 수행이 실패하는 경우 대응 전략
자동으로 작업을 재수행(Restart)함
다른 노드에 작업(Job)을 할당
02
빅데이터 처리시스템의 설계 원칙
실시간 데이터 분석 사용자 패턴 파악 의사결정 반영
실시간 데이터 처리
대용량 데이터를 실시간으로 처리하면서 통합 분석할 수 있도록 하는 기술
02
빅데이터 처리시스템의 설계 원칙
저비용 고효율 시스템
02
빅데이터 처리시스템의 설계 원칙
기존에 구축되고 운영 중인 시스템과 연계
빅데이터 시스템은 기존에 구축된 시스템과의 연계를 통해 데이터의 수집 및 처리 할 수 있도록 해야함
소설네트워크, 시스템 로그,
텍스트, 동영상, 음성, 사진,
텍스트, 각종 센서 로그 등
다양한 종류의 데이터를
저장하고 처리하는 기술
기존에 구축된 시스템과
연계 필요
02
감사합니다

Mais conteúdo relacionado

Mais procurados

로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법Jeongsang Baek
 
엘라스틱서치, 로그스태시, 키바나
엘라스틱서치, 로그스태시, 키바나엘라스틱서치, 로그스태시, 키바나
엘라스틱서치, 로그스태시, 키바나종민 김
 
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018Amazon Web Services Korea
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Seongyun Byeon
 
Massive service basic
Massive service basicMassive service basic
Massive service basicDaeMyung Kang
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
 
Real time analytics at uber @ strata data 2019
Real time analytics at uber @ strata data 2019Real time analytics at uber @ strata data 2019
Real time analytics at uber @ strata data 2019Zhenxiao Luo
 
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)Myungjin Lee
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측BOAZ Bigdata
 
Tiger graph 2021 corporate overview [read only]
Tiger graph 2021 corporate overview [read only]Tiger graph 2021 corporate overview [read only]
Tiger graph 2021 corporate overview [read only]ercan5
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)SANG WON PARK
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?Mikhail Alekseev
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)Hyojun Jeon
 
Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3
Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3
Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3Databricks
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...AWSKRUG - AWS한국사용자모임
 
Fraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business AuthorityFraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business AuthorityNeo4j
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
Demystifying Data Warehouse as a Service
Demystifying Data Warehouse as a ServiceDemystifying Data Warehouse as a Service
Demystifying Data Warehouse as a ServiceSnowflake Computing
 
Government GraphSummit: Leveraging Graphs for AI and ML
Government GraphSummit: Leveraging Graphs for AI and MLGovernment GraphSummit: Leveraging Graphs for AI and ML
Government GraphSummit: Leveraging Graphs for AI and MLNeo4j
 
Web analytics at scale with Druid at naver.com
Web analytics at scale with Druid at naver.comWeb analytics at scale with Druid at naver.com
Web analytics at scale with Druid at naver.comJungsu Heo
 

Mais procurados (20)

로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
엘라스틱서치, 로그스태시, 키바나
엘라스틱서치, 로그스태시, 키바나엘라스틱서치, 로그스태시, 키바나
엘라스틱서치, 로그스태시, 키바나
 
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
Amazon Redshift 아키텍처 및 모범사례::김민성::AWS Summit Seoul 2018
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 
Massive service basic
Massive service basicMassive service basic
Massive service basic
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
Real time analytics at uber @ strata data 2019
Real time analytics at uber @ strata data 2019Real time analytics at uber @ strata data 2019
Real time analytics at uber @ strata data 2019
 
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
 
Tiger graph 2021 corporate overview [read only]
Tiger graph 2021 corporate overview [read only]Tiger graph 2021 corporate overview [read only]
Tiger graph 2021 corporate overview [read only]
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
 
Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3
Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3
Spark Saturday: Spark SQL & DataFrame Workshop with Apache Spark 2.3
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
 
Fraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business AuthorityFraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business Authority
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
Demystifying Data Warehouse as a Service
Demystifying Data Warehouse as a ServiceDemystifying Data Warehouse as a Service
Demystifying Data Warehouse as a Service
 
Government GraphSummit: Leveraging Graphs for AI and ML
Government GraphSummit: Leveraging Graphs for AI and MLGovernment GraphSummit: Leveraging Graphs for AI and ML
Government GraphSummit: Leveraging Graphs for AI and ML
 
Web analytics at scale with Druid at naver.com
Web analytics at scale with Druid at naver.comWeb analytics at scale with Druid at naver.com
Web analytics at scale with Druid at naver.com
 

Semelhante a 빅데이터 처리기술의 이해

DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나Amazon Web Services Korea
 
[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)
[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)
[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)Metatron
 
Object storage의 이해와 활용
Object storage의 이해와 활용Object storage의 이해와 활용
Object storage의 이해와 활용Seoro Kim
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)Amazon Web Services Korea
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략Amazon Web Services Korea
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2Seong-Bok Lee
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf효근 윤
 
[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유confluent
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseNAVER Engineering
 
조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝
조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝
조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝Mungyu Choi
 
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...Denodo
 
Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1NDSCorporation
 
Scalable web architecture and distributed systems
Scalable web architecture and distributed systemsScalable web architecture and distributed systems
Scalable web architecture and distributed systemseva
 

Semelhante a 빅데이터 처리기술의 이해 (20)

DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
 
[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)
[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)
[DDC 2018] 통신 데이터 분석환경 구축사례 (SKT, 홍태희)
 
Object storage의 이해와 활용
Object storage의 이해와 활용Object storage의 이해와 활용
Object storage의 이해와 활용
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf
 
[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유[웨비나] 우리가 데이터 메시에 주목해야 할 이유
[웨비나] 우리가 데이터 메시에 주목해야 할 이유
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 
조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝
조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝
조대협의 서버 사이드 - 대용량 아키텍처와 성능튜닝
 
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...
 
Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1
 
Scalable web architecture and distributed systems
Scalable web architecture and distributed systemsScalable web architecture and distributed systems
Scalable web architecture and distributed systems
 

빅데이터 처리기술의 이해

  • 2. CONTENTS 01 02 03 04 빅데이터 처리시스템의 이해 빅데이터 처리시스템의 설계 원칙
  • 3. 빅데이터 처리시스템의 이해 대용량의 데이터를 분산 병렬 처리하고 관리하는 시스템 • 데이터의 유형에 따라 실시간(Real-Time) 처리나 배치(Batch) 처리를 가능하도록 하는 프레임워크 • 대량 데이터의 수집, 관리, 유통, 분석을 처리하는 일련의 분산 병렬 처리 프레임워크 빅데이터 처리시스템이란 01
  • 4. 빅데이터 처리시스템의 이해 프레임워크(Framework)의 정의 • 컴퓨터 프로그래밍에서, 소프트웨어 프레임워크(software framework)는 복잡한 문제를 해결하거나 서술하는 데 사용되는 기본 개념 구조를 의미 ko.wikipedia.org 01
  • 6. 빅데이터 처리시스템의 이해 구분 기존의 데이터처리 방식 빅데이터 처리방식 데이터 트래픽 테라바이트 수준 • 페타바이트 수준(최소 100 테라바이트 이상) • 장기 간의 정보수집 및 분석 • 방대한 데이터 처리량 데이터 유형 정형 데이터 중심 • 비정형 데이터의 비중이 높음(SNS 데이터, 로그파일, 클릭 스트림 데이터, 콜센터 로그, 통신 로그 등) • 처리의 복잡성 증대 프로세스 및 기술 • 단순한 프로세스 및 기술 • 정형화된 처리/분석 과정 • 원인/결과 규명 중심 • 다양한 데이터 소스 및 복잡한 로직 처리 • 데이터 처리 복잡도가 높아 분산처리기술 필요 • 새롭고 다양한 처리방법 개발 필요(정의된 데이터 모델/ 상 관관계/절차 등이 없음) • 상관관계 규명 중심 • Hadoop, R, NoSQL 등 개방형 소프트웨어 정보통신정책연구원, 빅데이터 동향 및 정책 시사점 01
  • 7. 빅데이터 처리시스템의 설계 원칙 대량의 데이터 처리 실시간 데이터 처리 저비용 고효율 시스템 결함 허용 시스템 빅데이터 처리시스템 빅데이터 3V 특성에 맞는 새로운 형태의 빅데이터 처리 프레임워크 필요 02
  • 8. 빅데이터 처리시스템의 설계 원칙 대량의 데이터를 처리하기 위한 분산 데이터 저장 기술 네트워크를 기반으로 대규모 클러스터 시스템을 구축하여 대용량의 저장 공간과 빠른 데이터 처리를 지원 분산 파일 시스템의 특징 • 서버의 고장을 염두해 두고 이러한 상태에서도 시스템이 정상적으로 수행할 수 있어야 한다. • 파일에 대한 쓰기 연산은 주로 순차적으로 데이터를 추가 하는 것이며 파일에 대한 갱신은 드물게 이뤄진다. • 응답 지연시간 보다 높은 처리율이 더 중요하다. 02
  • 9. 빅데이터 처리시스템의 설계 원칙 결함 허용 시스템 시스템의 결함 발생 가능성을 인정하고 장애 발생시 안정적으로 시스 템을 운영할 수 있는 시스템 구축 빅데이터 처리시스템은 많은 노드의 네트워크로 구성되어 있기 때문 에 일부 노드의 장애가 전체 시스템에 영향을 미치지 않도록 시스템을 구성해야 함 고장 대응체계, 대체 시스템 등 필요 02
  • 10. 빅데이터 처리시스템의 설계 원칙 하둡(Hadoop)의 결함허용 전략 클러스터 내의 노드가 수행 중에 장애로 서비스가 중단되거나 정상적인 수행이 실패하는 경우 대응 전략 자동으로 작업을 재수행(Restart)함 다른 노드에 작업(Job)을 할당 02
  • 11. 빅데이터 처리시스템의 설계 원칙 실시간 데이터 분석 사용자 패턴 파악 의사결정 반영 실시간 데이터 처리 대용량 데이터를 실시간으로 처리하면서 통합 분석할 수 있도록 하는 기술 02
  • 12. 빅데이터 처리시스템의 설계 원칙 저비용 고효율 시스템 02
  • 13. 빅데이터 처리시스템의 설계 원칙 기존에 구축되고 운영 중인 시스템과 연계 빅데이터 시스템은 기존에 구축된 시스템과의 연계를 통해 데이터의 수집 및 처리 할 수 있도록 해야함 소설네트워크, 시스템 로그, 텍스트, 동영상, 음성, 사진, 텍스트, 각종 센서 로그 등 다양한 종류의 데이터를 저장하고 처리하는 기술 기존에 구축된 시스템과 연계 필요 02