SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
빅데이터 기반 비정형 데이터의
   실시간 처리 방법

   (주)클라우다인 원종석 책임
    iamtedwon@gmail.com
소개

       (주)클라우다인 Real-time CEP Architect
       한국자바개발자협의회(JCO) 회원
       JBoss User Group 커뮤니티 부운영자
       실시간 대용량 Event 처리(CEP) 플랫폼 개발
       Big Data(대용량 분산 컴퓨팅) 플랫폼 개발
       대형 SI 개발, 운영, SA
       RHQ Contributor - 한글화 작업
       오픈 소스 Open Flamingo 커미터(http://www.openflamingo.org)
       책 공동 집필 및 번역
         JBoss Application Server5, Enterprise JavaBeans 3




Apache Hadoop                                                      2
Big Data Technology & Hadoop Echosystem




Apache Hadoop                                             3
Real Time Big Data 서비스 요건

       쇼핑몰 사이트의 사용자 클릭 스트림을 통해 실시간 개인화


       대용량 이메일 서버의 스팸 탐지 및 필터링


       위치 정보 기반 광고 서비스


       사용자 및 시스템 이벤트를 이용한 실시간 보안 감시


       시스템 정보 수집을 통한 장비 고장 예측



Apache Hadoop                                   4
Real Time Big Data 구현을 위한 기술




                실시간 이벤트 수집 및 처리 기술

                  로그 수집 및 분배 기술

            대용량 데이터의 배치 처리 및 분석 기술

                       통합 기술



Apache Hadoop                                     5
Use-Case: Dispenser




Apache Hadoop                         6
Use-Case: Dispenser




Apache Hadoop                         7
Facebook Real Time Analytics System




Apache Hadoop                                         8
Unstructured Data

       데이터는 유형, 특성 등으로 잘 저장해야 잘 사용할 수 있다!


       데이터의 약 20%는 정형 데이터, 80%는 비정형 데이터


       Blog, SNS, Mobile 등을 통해 비정형 데이터는 더욱더 빠르게
        증가 추세


       80%의 비정형 데이터를 어떻게 분석할 것인가?


       비정형 데이터를 이용하여 의미 있는 정보를 찾아내는 것은 정
        형 데이터를 분석하는 것보다 훨씬 복잡
Apache Hadoop                                        9
Unstructured Data




Apache Hadoop                       10
Unstructured Data - NMON Log

                             NMON Log
                하나의 정보가 구조화되지 않은 형태로 불규칙적으로 생성

       TOP,+PID,Time,%CPU,%Usr,%Sys,Size,ResSet,ResText,ResData,ShdLib,MinorFau
       lt,MajorFault,Command
       BBBP,000,/etc/release
       BBBP,001,/etc/release,"CentOS release 5.7 (Final)"
       BBBP,002,lsb_release
       BBBP,003,lsb_release,"LSB Version:   :core-4.0-amd64:core-4.0-
       ia32:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-ia32:graphics-4.0-
       noarch:printing-4.0-amd64:printing-4.0-ia32:printing-4.0-noarch"
       BBBP,004,lsb_release,"Distributor ID:          CentOS"
       BBBP,005,lsb_release,"Description:   CentOS release 5.7 (Final)"
       BBBP,006,lsb_release,"Release:       5.7"
       BBBP,007,lsb_release,"Codename:      Final"
       ...
                                                      다수의 라인으로 구성된 불규칙 로그를
                                                       정형화된 로그로 변형하는 것이 관건
Apache Hadoop                                                                     11
MapReduce & DFS: Apache Hadoop

       File System : HDFS(Hadoop Distributed File System)
         파일을 64M 단위로 나누어 장비에 나누어서 저장하는 방식
         사용자는 하나의 파일로 보이나 실제로는 나누어져 있음
         2003년 Google이 논문으로 Google File System을 발표


       프로그래밍 모델(MapReduce) (2004년 Google이 논문 발표)
         HDFS의 파일을 이용하여 처리하는 방법을 제공
         Parallelization, Distribution, Fault-Tolerance …




Apache Hadoop                                                12
HDFS




Apache Hadoop          13
MapReduce

       HDFS의 파일을 처리하기 위한 프로그래밍 모델




Apache Hadoop                                    14
MapReduce: WordCount




Apache Hadoop                          15
Log Aggregator – Apache Flume




                                           16
Apache Hadoop
Log Aggregator – Apache Flume




                                           17
Apache Hadoop
Complex Event Processing?

       CEP의 전통적인 영역
         prediction, observation, dissemination
         behavior, active diagnostic
         용어            정의

                       실제로 발생한 사건, 일, 메시지
                       상태의 변경
         이벤트
                       특정한 액션 또는 상태의 변화를 통해 발생하는 변경
                       이 불가능한 과거의 기록

                       시간의 순서대로 연속되는 이벤트의 흐름
         이벤트 스트림
                       시작과 끝이 없는 이벤트의 연속된 흐름

                       현저하게 낮은 수준의 지연
         실시간의 특징       일정한 응답속도
                       예측 가능한 성능
Apache Hadoop                                                 18
Complex Event Processing의 특징

       데이터의 이동을 일정한 시간 동안 유지
         길이가 Nm인 수도관에 물을 흘러가는 것과 같은 이치


       데이터의 이동(스트림)을 조회 또는 질의
         직장이 강남인 30~35세 여성 중 강남역에서 10분 동안 있었던 사
          람만


       수집한 데이터 스트림을 처리


       데이터 스토어(예; Database)와 스트리밍 데이터 결합


Apache Hadoop                                      19
OpenSource CEP : Esper

       GPL 라이선스, Oracle CEP의 모태로 알려져 있음
       경량의 Complex Event Processing Implementation




Apache Hadoop                                             20
OpenSource CEP : Esper




Apache Hadoop                            21
OpenSource CEP : Esper

     // Java Object
     public static class StockTick {
                String symbol;
                Double price;
                Date timeStamp;
     }


     // Esper Event Query (EPL)
     // Apple의 Tick이 평균 6이상, 2건 발생한 경우
     select * from StockTick(symbol='AAPL').win:length(2) having
     avg(price) > 6.0


Apache Hadoop                                                      22
OpenSource CEP : Esper

     EPServiceProvider epService = EPServiceProviderManager.getDefaultProvider();
     String expression = "select avg(price) from
                         org.myapp.event.OrderEvent.win:time(30 sec)";
     EPStatement statement = epService.getEPAdministrator().createEPL(expression);


     public class MyListener implements UpdateListener {
         public void update(EventBean[] newEvents, EventBean[] oldEvents) {
             EventBean event = newEvents[0];
             System.out.println("avg=" + event.get("avg(price)"));
         }
     }


     MyListener listener = new MyListener();
     statement.addListener(listener);


Apache Hadoop                                                                        23
OpenSource CEP : Esper

       최근 20분내 시청 근처에 있었던 급여가 20M 이상이며 나이가
        30~35세 이상이고 집이 강남이면서 취미가 쇼핑인 여성



    select * from customer(age=’30~35’,gender='male',salary>20M,
                 location='city hall',
                 home='gangnam',hobby='shopping').win:time(20 min)



                Volume : Analytics           Velocity : Real-Time
                  (Apache Hadoop)                (CEP; Esper)



Apache Hadoop                                                        24
로그 수집기와 CEP를 이용한 실시간 처리 아키텍처




Apache Hadoop                           25
Flume + Esper + RHQ Demo




Apache Hadoop                              26
Summary

       Real-Time Big Data는
         Real-Time과 Analytics의 Convergence
         High Technology


       아직까지 Real-Time 이벤트 처리 기술인 CEP에 대한 이해 부
        족으로 인하여 시장에서 적용 사례 부족


       향후 Big Data 시장에서 강력한 폭풍이 될 것




Apache Hadoop                                           27
References

       Big Data Use-Case: Real-time Dispenser Maintenance
         http://jameskaskade.com/?p=2177


       Real Time analytics for Big Data: Facebook's New
        Realtime Analytics System
         http://tinyurl.com/3cgg6yr


       Esper Documentation
         http://esper.codehaus.org/esper-
          4.5.0/doc/reference/en/html_single/index.html



Apache Hadoop                                                          28

Mais conteúdo relacionado

Mais procurados

Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사uEngine Solutions
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2Seong-Bok Lee
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준NAVER D2
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Donghan Kim
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWSMatthew (정재화)
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesJongwook Woo
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례Gruter
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Gruter
 

Mais procurados (20)

Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 

Destaque

ESB의 이해와 기술 동향
ESB의 이해와 기술 동향ESB의 이해와 기술 동향
ESB의 이해와 기술 동향shiptaek
 
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례JeongHeon Lee
 
SemTech 2011, Saltlux, Tony Lee
SemTech 2011, Saltlux, Tony LeeSemTech 2011, Saltlux, Tony Lee
SemTech 2011, Saltlux, Tony LeeSaltlux Inc.
 
kth 'SMART MOBILE' 전략발표_101012기자간담회
kth 'SMART MOBILE' 전략발표_101012기자간담회kth 'SMART MOBILE' 전략발표_101012기자간담회
kth 'SMART MOBILE' 전략발표_101012기자간담회Cool Melon
 
Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료neuroassociates
 
Json view 예제 설명
Json view 예제 설명Json view 예제 설명
Json view 예제 설명Hyung Eun Jin
 
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅Jade Jongdae Lee
 
빅데이터 시대에서의 사용자 경험 인터랙션 시각화 고넥터 고영혁
빅데이터 시대에서의 사용자 경험 인터랙션 시각화  고넥터 고영혁빅데이터 시대에서의 사용자 경험 인터랙션 시각화  고넥터 고영혁
빅데이터 시대에서의 사용자 경험 인터랙션 시각화 고넥터 고영혁VentureSquare
 
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안K data
 
모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...
모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...
모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...Dylan Ko
 
연관 키워드 분석으로 찾는 마케팅 인사이트
연관 키워드 분석으로 찾는 마케팅 인사이트연관 키워드 분석으로 찾는 마케팅 인사이트
연관 키워드 분석으로 찾는 마케팅 인사이트Jinseok Ro
 
[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션해은 최
 
4 voc비정형분석 문종영
4 voc비정형분석 문종영4 voc비정형분석 문종영
4 voc비정형분석 문종영Saltlux Inc.
 
20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제Tae Young Lee
 
SOAP 기반/ RESTful기반 웹서비스 비교
SOAP 기반/ RESTful기반 웹서비스 비교SOAP 기반/ RESTful기반 웹서비스 비교
SOAP 기반/ RESTful기반 웹서비스 비교seungdols
 
'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7
'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7
'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7Yonki Hyungkeun PARK
 
SOAP REST 이해
SOAP REST 이해SOAP REST 이해
SOAP REST 이해Jake Yoon
 
2015 Internet of Logistic Things / 2015 물류 사물인터넷
2015 Internet of Logistic Things / 2015 물류 사물인터넷2015 Internet of Logistic Things / 2015 물류 사물인터넷
2015 Internet of Logistic Things / 2015 물류 사물인터넷Junsang Dong
 
Victoria's Secret Angels Campaign
Victoria's Secret Angels CampaignVictoria's Secret Angels Campaign
Victoria's Secret Angels CampaignJohn White
 

Destaque (20)

ESB의 이해와 기술 동향
ESB의 이해와 기술 동향ESB의 이해와 기술 동향
ESB의 이해와 기술 동향
 
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
 
SemTech 2011, Saltlux, Tony Lee
SemTech 2011, Saltlux, Tony LeeSemTech 2011, Saltlux, Tony Lee
SemTech 2011, Saltlux, Tony Lee
 
kth 'SMART MOBILE' 전략발표_101012기자간담회
kth 'SMART MOBILE' 전략발표_101012기자간담회kth 'SMART MOBILE' 전략발표_101012기자간담회
kth 'SMART MOBILE' 전략발표_101012기자간담회
 
Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료
 
Json view 예제 설명
Json view 예제 설명Json view 예제 설명
Json view 예제 설명
 
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
 
빅데이터 시대에서의 사용자 경험 인터랙션 시각화 고넥터 고영혁
빅데이터 시대에서의 사용자 경험 인터랙션 시각화  고넥터 고영혁빅데이터 시대에서의 사용자 경험 인터랙션 시각화  고넥터 고영혁
빅데이터 시대에서의 사용자 경험 인터랙션 시각화 고넥터 고영혁
 
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
 
모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...
모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...
모바일, 융합, 데이터 관점에서 본 CES 2015 트렌드 & 인사이트 - 경희사이버대학교 모바일융합학과 FIT(Future IT Talk...
 
[Week5]R_scraping
[Week5]R_scraping[Week5]R_scraping
[Week5]R_scraping
 
연관 키워드 분석으로 찾는 마케팅 인사이트
연관 키워드 분석으로 찾는 마케팅 인사이트연관 키워드 분석으로 찾는 마케팅 인사이트
연관 키워드 분석으로 찾는 마케팅 인사이트
 
[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션
 
4 voc비정형분석 문종영
4 voc비정형분석 문종영4 voc비정형분석 문종영
4 voc비정형분석 문종영
 
20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제
 
SOAP 기반/ RESTful기반 웹서비스 비교
SOAP 기반/ RESTful기반 웹서비스 비교SOAP 기반/ RESTful기반 웹서비스 비교
SOAP 기반/ RESTful기반 웹서비스 비교
 
'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7
'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7
'인더스트리4.0, 독일의 미래 제조업 청사진' - LG CNS 강연자료, 2014. 3. 7
 
SOAP REST 이해
SOAP REST 이해SOAP REST 이해
SOAP REST 이해
 
2015 Internet of Logistic Things / 2015 물류 사물인터넷
2015 Internet of Logistic Things / 2015 물류 사물인터넷2015 Internet of Logistic Things / 2015 물류 사물인터넷
2015 Internet of Logistic Things / 2015 물류 사물인터넷
 
Victoria's Secret Angels Campaign
Victoria's Secret Angels CampaignVictoria's Secret Angels Campaign
Victoria's Secret Angels Campaign
 

Semelhante a 3 빅데이터기반비정형데이터의실시간처리방법 원종석

Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataTed Won
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)Sang Don Kim
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제NAVER D2
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대DaeHeon Oh
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna현철 박
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례 빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례 ABRC_DATA
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoopLGU+
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Channy Yun
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장eungjin cho
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료Teddy Choi
 
지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기Ted Won
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)SuHyun Jeon
 

Semelhante a 3 빅데이터기반비정형데이터의실시간처리방법 원종석 (20)

Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured Data
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례 빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoop
 
INFRASTRUCTURE
INFRASTRUCTUREINFRASTRUCTURE
INFRASTRUCTURE
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 

Mais de Saltlux Inc.

Semantic techandbigdata(presentation)rev01
Semantic techandbigdata(presentation)rev01Semantic techandbigdata(presentation)rev01
Semantic techandbigdata(presentation)rev01Saltlux Inc.
 
5 소셜빅데이터분석서비스 최광선
5 소셜빅데이터분석서비스 최광선5 소셜빅데이터분석서비스 최광선
5 소셜빅데이터분석서비스 최광선Saltlux Inc.
 
2 기업의빅데이터delta전략 이진권
2 기업의빅데이터delta전략 이진권2 기업의빅데이터delta전략 이진권
2 기업의빅데이터delta전략 이진권Saltlux Inc.
 
1 손에잡히는빅데이터 이경일
1 손에잡히는빅데이터 이경일1 손에잡히는빅데이터 이경일
1 손에잡히는빅데이터 이경일Saltlux Inc.
 
Semtech 2011, Saltlux, Tony Lee
Semtech 2011, Saltlux, Tony LeeSemtech 2011, Saltlux, Tony Lee
Semtech 2011, Saltlux, Tony LeeSaltlux Inc.
 
9.use case geo semantic technology
9.use case geo semantic technology9.use case geo semantic technology
9.use case geo semantic technologySaltlux Inc.
 
6.최광선 semantic search and mining
6.최광선 semantic search and mining6.최광선 semantic search and mining
6.최광선 semantic search and miningSaltlux Inc.
 
semantic search and mining
semantic search and miningsemantic search and mining
semantic search and miningSaltlux Inc.
 
An Introduction to OpenCyc
An Introduction to OpenCycAn Introduction to OpenCyc
An Introduction to OpenCycSaltlux Inc.
 
Cognitive Planning and Learning for Mobile Platforms
Cognitive Planning and Learning for Mobile PlatformsCognitive Planning and Learning for Mobile Platforms
Cognitive Planning and Learning for Mobile PlatformsSaltlux Inc.
 
Web Scale Reasoning and the LarKC Project
Web Scale Reasoning and the LarKC ProjectWeb Scale Reasoning and the LarKC Project
Web Scale Reasoning and the LarKC ProjectSaltlux Inc.
 
Industrials Use cases for Semantic Technology
Industrials Use cases for Semantic TechnologyIndustrials Use cases for Semantic Technology
Industrials Use cases for Semantic TechnologySaltlux Inc.
 
The Semantic Technology Business: Europe
The Semantic Technology Business: EuropeThe Semantic Technology Business: Europe
The Semantic Technology Business: EuropeSaltlux Inc.
 
Technology Trends for LOD and Semantic Web
Technology Trends for LOD and Semantic WebTechnology Trends for LOD and Semantic Web
Technology Trends for LOD and Semantic WebSaltlux Inc.
 
Learning Emergent Knowledge from Blog Postings
Learning Emergent Knowledge from Blog PostingsLearning Emergent Knowledge from Blog Postings
Learning Emergent Knowledge from Blog PostingsSaltlux Inc.
 

Mais de Saltlux Inc. (16)

Semantic techandbigdata(presentation)rev01
Semantic techandbigdata(presentation)rev01Semantic techandbigdata(presentation)rev01
Semantic techandbigdata(presentation)rev01
 
5 소셜빅데이터분석서비스 최광선
5 소셜빅데이터분석서비스 최광선5 소셜빅데이터분석서비스 최광선
5 소셜빅데이터분석서비스 최광선
 
2 기업의빅데이터delta전략 이진권
2 기업의빅데이터delta전략 이진권2 기업의빅데이터delta전략 이진권
2 기업의빅데이터delta전략 이진권
 
1 손에잡히는빅데이터 이경일
1 손에잡히는빅데이터 이경일1 손에잡히는빅데이터 이경일
1 손에잡히는빅데이터 이경일
 
Semtech 2011, Saltlux, Tony Lee
Semtech 2011, Saltlux, Tony LeeSemtech 2011, Saltlux, Tony Lee
Semtech 2011, Saltlux, Tony Lee
 
9.use case geo semantic technology
9.use case geo semantic technology9.use case geo semantic technology
9.use case geo semantic technology
 
6.최광선 semantic search and mining
6.최광선 semantic search and mining6.최광선 semantic search and mining
6.최광선 semantic search and mining
 
semantic search and mining
semantic search and miningsemantic search and mining
semantic search and mining
 
An Introduction to OpenCyc
An Introduction to OpenCycAn Introduction to OpenCyc
An Introduction to OpenCyc
 
Cognitive Planning and Learning for Mobile Platforms
Cognitive Planning and Learning for Mobile PlatformsCognitive Planning and Learning for Mobile Platforms
Cognitive Planning and Learning for Mobile Platforms
 
Web Scale Reasoning and the LarKC Project
Web Scale Reasoning and the LarKC ProjectWeb Scale Reasoning and the LarKC Project
Web Scale Reasoning and the LarKC Project
 
Industrials Use cases for Semantic Technology
Industrials Use cases for Semantic TechnologyIndustrials Use cases for Semantic Technology
Industrials Use cases for Semantic Technology
 
The Semantic Technology Business: Europe
The Semantic Technology Business: EuropeThe Semantic Technology Business: Europe
The Semantic Technology Business: Europe
 
Technology Trends for LOD and Semantic Web
Technology Trends for LOD and Semantic WebTechnology Trends for LOD and Semantic Web
Technology Trends for LOD and Semantic Web
 
Learning Emergent Knowledge from Blog Postings
Learning Emergent Knowledge from Blog PostingsLearning Emergent Knowledge from Blog Postings
Learning Emergent Knowledge from Blog Postings
 
1.sos2010 tony
1.sos2010 tony1.sos2010 tony
1.sos2010 tony
 

3 빅데이터기반비정형데이터의실시간처리방법 원종석

  • 1. 빅데이터 기반 비정형 데이터의 실시간 처리 방법 (주)클라우다인 원종석 책임 iamtedwon@gmail.com
  • 2. 소개  (주)클라우다인 Real-time CEP Architect  한국자바개발자협의회(JCO) 회원  JBoss User Group 커뮤니티 부운영자  실시간 대용량 Event 처리(CEP) 플랫폼 개발  Big Data(대용량 분산 컴퓨팅) 플랫폼 개발  대형 SI 개발, 운영, SA  RHQ Contributor - 한글화 작업  오픈 소스 Open Flamingo 커미터(http://www.openflamingo.org)  책 공동 집필 및 번역  JBoss Application Server5, Enterprise JavaBeans 3 Apache Hadoop 2
  • 3. Big Data Technology & Hadoop Echosystem Apache Hadoop 3
  • 4. Real Time Big Data 서비스 요건  쇼핑몰 사이트의 사용자 클릭 스트림을 통해 실시간 개인화  대용량 이메일 서버의 스팸 탐지 및 필터링  위치 정보 기반 광고 서비스  사용자 및 시스템 이벤트를 이용한 실시간 보안 감시  시스템 정보 수집을 통한 장비 고장 예측 Apache Hadoop 4
  • 5. Real Time Big Data 구현을 위한 기술 실시간 이벤트 수집 및 처리 기술 로그 수집 및 분배 기술 대용량 데이터의 배치 처리 및 분석 기술 통합 기술 Apache Hadoop 5
  • 8. Facebook Real Time Analytics System Apache Hadoop 8
  • 9. Unstructured Data  데이터는 유형, 특성 등으로 잘 저장해야 잘 사용할 수 있다!  데이터의 약 20%는 정형 데이터, 80%는 비정형 데이터  Blog, SNS, Mobile 등을 통해 비정형 데이터는 더욱더 빠르게 증가 추세  80%의 비정형 데이터를 어떻게 분석할 것인가?  비정형 데이터를 이용하여 의미 있는 정보를 찾아내는 것은 정 형 데이터를 분석하는 것보다 훨씬 복잡 Apache Hadoop 9
  • 11. Unstructured Data - NMON Log NMON Log 하나의 정보가 구조화되지 않은 형태로 불규칙적으로 생성 TOP,+PID,Time,%CPU,%Usr,%Sys,Size,ResSet,ResText,ResData,ShdLib,MinorFau lt,MajorFault,Command BBBP,000,/etc/release BBBP,001,/etc/release,"CentOS release 5.7 (Final)" BBBP,002,lsb_release BBBP,003,lsb_release,"LSB Version: :core-4.0-amd64:core-4.0- ia32:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-ia32:graphics-4.0- noarch:printing-4.0-amd64:printing-4.0-ia32:printing-4.0-noarch" BBBP,004,lsb_release,"Distributor ID: CentOS" BBBP,005,lsb_release,"Description: CentOS release 5.7 (Final)" BBBP,006,lsb_release,"Release: 5.7" BBBP,007,lsb_release,"Codename: Final" ... 다수의 라인으로 구성된 불규칙 로그를 정형화된 로그로 변형하는 것이 관건 Apache Hadoop 11
  • 12. MapReduce & DFS: Apache Hadoop  File System : HDFS(Hadoop Distributed File System)  파일을 64M 단위로 나누어 장비에 나누어서 저장하는 방식  사용자는 하나의 파일로 보이나 실제로는 나누어져 있음  2003년 Google이 논문으로 Google File System을 발표  프로그래밍 모델(MapReduce) (2004년 Google이 논문 발표)  HDFS의 파일을 이용하여 처리하는 방법을 제공  Parallelization, Distribution, Fault-Tolerance … Apache Hadoop 12
  • 14. MapReduce  HDFS의 파일을 처리하기 위한 프로그래밍 모델 Apache Hadoop 14
  • 16. Log Aggregator – Apache Flume 16 Apache Hadoop
  • 17. Log Aggregator – Apache Flume 17 Apache Hadoop
  • 18. Complex Event Processing?  CEP의 전통적인 영역  prediction, observation, dissemination  behavior, active diagnostic 용어 정의 실제로 발생한 사건, 일, 메시지 상태의 변경 이벤트 특정한 액션 또는 상태의 변화를 통해 발생하는 변경 이 불가능한 과거의 기록 시간의 순서대로 연속되는 이벤트의 흐름 이벤트 스트림 시작과 끝이 없는 이벤트의 연속된 흐름 현저하게 낮은 수준의 지연 실시간의 특징 일정한 응답속도 예측 가능한 성능 Apache Hadoop 18
  • 19. Complex Event Processing의 특징  데이터의 이동을 일정한 시간 동안 유지  길이가 Nm인 수도관에 물을 흘러가는 것과 같은 이치  데이터의 이동(스트림)을 조회 또는 질의  직장이 강남인 30~35세 여성 중 강남역에서 10분 동안 있었던 사 람만  수집한 데이터 스트림을 처리  데이터 스토어(예; Database)와 스트리밍 데이터 결합 Apache Hadoop 19
  • 20. OpenSource CEP : Esper  GPL 라이선스, Oracle CEP의 모태로 알려져 있음  경량의 Complex Event Processing Implementation Apache Hadoop 20
  • 21. OpenSource CEP : Esper Apache Hadoop 21
  • 22. OpenSource CEP : Esper // Java Object public static class StockTick { String symbol; Double price; Date timeStamp; } // Esper Event Query (EPL) // Apple의 Tick이 평균 6이상, 2건 발생한 경우 select * from StockTick(symbol='AAPL').win:length(2) having avg(price) > 6.0 Apache Hadoop 22
  • 23. OpenSource CEP : Esper EPServiceProvider epService = EPServiceProviderManager.getDefaultProvider(); String expression = "select avg(price) from org.myapp.event.OrderEvent.win:time(30 sec)"; EPStatement statement = epService.getEPAdministrator().createEPL(expression); public class MyListener implements UpdateListener { public void update(EventBean[] newEvents, EventBean[] oldEvents) { EventBean event = newEvents[0]; System.out.println("avg=" + event.get("avg(price)")); } } MyListener listener = new MyListener(); statement.addListener(listener); Apache Hadoop 23
  • 24. OpenSource CEP : Esper  최근 20분내 시청 근처에 있었던 급여가 20M 이상이며 나이가 30~35세 이상이고 집이 강남이면서 취미가 쇼핑인 여성 select * from customer(age=’30~35’,gender='male',salary>20M, location='city hall', home='gangnam',hobby='shopping').win:time(20 min) Volume : Analytics Velocity : Real-Time (Apache Hadoop) (CEP; Esper) Apache Hadoop 24
  • 25. 로그 수집기와 CEP를 이용한 실시간 처리 아키텍처 Apache Hadoop 25
  • 26. Flume + Esper + RHQ Demo Apache Hadoop 26
  • 27. Summary  Real-Time Big Data는  Real-Time과 Analytics의 Convergence  High Technology  아직까지 Real-Time 이벤트 처리 기술인 CEP에 대한 이해 부 족으로 인하여 시장에서 적용 사례 부족  향후 Big Data 시장에서 강력한 폭풍이 될 것 Apache Hadoop 27
  • 28. References  Big Data Use-Case: Real-time Dispenser Maintenance  http://jameskaskade.com/?p=2177  Real Time analytics for Big Data: Facebook's New Realtime Analytics System  http://tinyurl.com/3cgg6yr  Esper Documentation  http://esper.codehaus.org/esper- 4.5.0/doc/reference/en/html_single/index.html Apache Hadoop 28