SlideShare uma empresa Scribd logo
1 de 37
Baixar para ler offline
Linked Data 기반
데이터 검색 서비스의 현황과 과제

             윤석찬

    서울대 BikeLab · 다음커뮤니케이션
          channy@snu.ac.kr
         http://bike.snu.ac.kr
목차

1. 시맨틱 웹 킬러 애플리케이션의 현황

2. 시맨틱 검색 서비스 출현과 LinkedData의 성장

3. 대용량 LOD 기반 시맨틱 검색 방식

4. 클라우드 기반 시맨틱 웹 데이터 처리 사례

5. 대용량 LOD 검색 서비스의 한계
Web 3.0 Buzz
Only Three Company?
Why Semantic Web
     failed?
     Difficult to use
  No Killer application
  Only specific domains
Back to the Search
Semantic Search
        vs.
Semantic Web Search
Emerging Semantic Web
Search = Structured Data on the Web
Linked Data with TBL
What’s Linked Data?
. In October 2007, datasets consisted of over two
billion RDF triples, which were interlinked by over
two million RDF links. By September 2010 this had
grown to 25 billion RDF triples, interlinked by
around 395 million RDF links.
           http://en.wikipedia.org/wiki/Linked_Data
LinkedData 애플리케이션
• 데이터 브라우저
 – Tabulator Browser (MIT, USA)
 – Marbles (FU Berlin, DE)
 – OpenLink RDF Browser (OpenLink, UK)
 – Zitgist RDF Browser (Zitgist, USA)
 – Disco Hyperdata Browser (FU Berlin, DE)
 – Fenfire (DERI, Irland)
DBPedia Mobile
• 검색 엔진
 – Falcons (IWS, China)
 – Sig.ma (DERI, Ireland)
 – Swoogle (UMBC, USA)
 – VisiNav (DERI, Ireland)
 – Watson (Open University, UK)
검색 기술 비교 및 변화


 기존 웹 검색 엔진         방법         시맨틱 웹 검색
  외부 웹 문서 및                 링크드데이터(LinkedData) 및
  사내 콘텐츠 DB
                    대상         사내 콘텐츠 DB
웹 크롤러를 통해 수집        수집            RDF 수집
랭킹에 따라 문서 인덱스       저장      관계에 따라 RDF Triple 변환
    IR 알고리즘         결과          SPAQL 쿼리 응답
키워드 기반 랭킹 기반 검
      색
                    서비스       그래프 기반 의미 검색

    Google(1조)     데이터 용량      LinkedData(250억)
 Google, 네이버, 다음    대표 기업         Bing, Hakia
LOD 검색 개발 방식
1. 웹 기반 구조적 데이터 수집
  – 반 구조적 데이터: HTML내 RDFa, Microformat 혹은 HTML5
    Microdata, 구조적 데이터: XML 및 JSON, 시맨틱 데이터: RDF/RDFs
     •   예) LDspider (GPL license) http://code.google.com/p/ldspider


2. 데이터 저장
  – Virtuoso (GPL), Sesame (BSD), Jena TDB (BSD) 혹은 RDB
  – c.f Berlin SPARQL Benchmark (Nov 2009)


3. 퀴리 및 데이터 분석
  – SPAQL을 이용한 Query Engine


4. 랭킹 및 결과 제공
  – 결과에 대한 시맨틱 네비게이션 및 링크만 제공
기존 시맨틱 웹 처리 방법

                 1. 모델 만들기
                   개념과 관계 속성에 대한 정의
                   최대한 현실에 부합하는 모델을
                    만들며 확장 유연성

                 2.RDF 처리
                   대개 기존 DB에서 변환
                   RDF, Triple, N-Triple 형태 저장
                   처리 시간이 길다!

                 3. SPARQL 질의
                   원하는 답을 얻기 위한 추론
                   응답 시간이 길다!
RDF Store
            DB   Memory   File
검색에서 클라우드 플랫폼의 장점

1. 사회적 이슈가 발생했을 때, 클라우드 동적 제어 API를 이용하
여 크롤링 및 인덱싱 작업을 비주기적으로 시행.


2. UCC 검색 콘텐츠 DB에 대해서 신규 작업 시 클라우드 기반으
로 테스트 가능


3. Hadoop, Hbase 등 각종 분산 컴퓨팅 자원을 필요 시 이용.


4. 실시간 웹(Realtime Web) 검색을 대응하기 위한 검색 엔진
및 처리 시스템 필요
클라우드 기반 LOD 검색 방식
1. 웹 기반 구조적 데이터 수집

2. 데이터 저장
  – Hadoop을 이용한 분산 컴퓨팅 플랫폼
  – 대용량 RDF 변환 및 처리
  – NoSQL을 이용한 검색 데이터 저장소


3. 퀴리 및 데이터 분석
  – 사용자 쿼리에 해당하는 질의어 분석
  – 질의어를 통한 SPARQL 쿼리 생성
  – 쿼리에 대한 서브 쿼리 자동 생성 및 AnswerSet 추출


4. 랭킹 및 결과 제공
  – 관계 기반 질의어 확장 및 추천
1. RDF processing
2. Auto AnswerSet




c.f. SPARQL speed
3. Relation-based keyword expansion

  MJ’s birthday                            Actors same of MJ’s birthday




 – Subject Predicate
 – Subject Predicate sameAs Subject
 – Subject Predicate sameAs Subject Predicate…
4. Key Value DB for heavy update




   Update Heavy job, Real-time incremental Update
                        http://research.yahoo.com/Web_Information_Management/YCSB
System
                                        - MR Job Scheduler
           Music
            Music People Movie
                          Movie
            DB     People DB
             DB     DB     DB                 Map/Reduce
                     DB
                                                                           RDF
                                                                           RDF
              Search Service                                     Hadoop             M/R
                                                                                       -Incremental
                                                                                        Update
                                                                           N3
                                                                           N3

                                               {"Name": "Cheeso",
Internet                          REST APIs    "Rank": 7}          NoSQL               M/R
                                                {"Name": "Cheeso",
                                                "Rank": 7}
                                                  {"Name": "Cheeso",
                                                  "Rank": 7}
                                                                                   -

                                                              Hbase
                                                                         Answer
                                                                          Answer
             Search Service                                  Cassandra     Set
                                                                            Set
                                                        iCube                      Storage
               Front-end                                Cloud                       Clould
• 기존 시맨틱 웹 검색 서비스와 차별점
 – 사용자에게 친숙한 검색 인터페이스 제공
 – 속성 중심의 질의어 확장을 통한 검색 시간 증가


• 의미 검색 서비스 특징
 – 사용자가 원하는 질의어 확장을 통한 콘텐츠 의미 검색
 – 기존 스마트 앤서에 대한 보강 데이터 확보
 – 클라우드 플랫폼을 이용 영화/인물/음악을 기반한 RDF
   Triple/Answer Set 등 5억~10억 규모 데이터 실시간 처리 처리
   • 몇 십분안에서 처리 가능


• 향후 대규모 LOD 검색 서비스를 위한 프로토타입
LOD 검색 서비스의 한계
• 상용 대용량 데이터 처리가 필요하다
 – 전 세계 여러 연구 기관에서 최근 관심 급증
 – ISWC 차원에서 Billion Triples Challenge 진행중

 – 사용 데이터셋
   • 2010년 3~4월에 수집된 3.2 billion triples (27GB gzipped)
   • http://challenge.semanticweb.org


 – 제출 현황
   •   Creating voiD Descriptions for Web-scale Data
   •   HadoopRDF : A Scalable RDF Data Analysis System
   •   Scalable Online Analysis of Semantic Web Data
   •   High Performance Semantic Factoring of Giga-Scale Semantic
       Graph Databases
• 구조적 데이터 규모가 작다
  – 기존의 Annotation용 Vocaburary 적극 활용 필요
  – 자동 솔루션 이용
    • Open Calais (Thomsons Reuters) for news
    • Zemanta (startup) for blog posts


• LOD간 링크가 적다 (only 5% in LOD)
  – 수작업, 데이터 마이닝 (고전적인 방법)
  – Google Base API (데이터 입력으로 연결 작업)
  – R2R 프레임웍 (SPARQL 기반 맵핑 솔루션)


• 서비스 방법이 없다
  – 시맨틱 네비게이션의 이상이 랭킹 방법이 필요
  – 데이터가 너무 전문적이어서 킬러 앱이 없음
  – 의료 및 콘텐츠 분야 적극 육성 필요
결론
• LOD 기반 검색 서비스의 한계
 – 사용자에게 친숙한 검색 UI 및 킬러 앱 부재
 – 대용량 RDF 처리 시간 및 SPARQL 쿼리 처리 시간
 – LOD의 데이터 규모 및 링크의 문제


• 해결 방안
 – 기존 검색 서비스와 연계한 서비스 창출 필요
 – 클라우드 기반 시스템을 이용한 데이터 처리 적극 활용
 – LOD 기반 데이터의 링크 솔루션 활용
Announcement!
•   Daum에서 국내 최초로 영화 LinkedData
    레포지터리 제공 예정 (2011년 1월)
•   서울대 BikeLab에서는 대용량 LOD 검색 서
    비스 연구 중
    http://bike.snu.ac.kr

Mais conteúdo relacionado

Mais procurados

Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesJongwook Woo
 
Bog data 설명
Bog data 설명Bog data 설명
Bog data 설명DaeHeon Oh
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Donghan Kim
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
Best practice instagram
Best practice   instagramBest practice   instagram
Best practice instagramWooseung Kim
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기Gruter
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사uEngine Solutions
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 

Mais procurados (20)

Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
Bog data 설명
Bog data 설명Bog data 설명
Bog data 설명
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Best practice instagram
Best practice   instagramBest practice   instagram
Best practice instagram
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
digital archiving
digital archivingdigital archiving
digital archiving
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 

Destaque

인터넷 서비스 동향(검색/SNS 서비스 중심)
인터넷 서비스 동향(검색/SNS 서비스 중심)인터넷 서비스 동향(검색/SNS 서비스 중심)
인터넷 서비스 동향(검색/SNS 서비스 중심)DMC미디어
 
웹기획 Story 3 검색
웹기획   Story 3 검색웹기획   Story 3 검색
웹기획 Story 3 검색ahnsunggon
 
웹기획2
웹기획2웹기획2
웹기획2juhyun
 
[리치 인터페이스 디자인] 검색 패턴
[리치 인터페이스 디자인] 검색 패턴[리치 인터페이스 디자인] 검색 패턴
[리치 인터페이스 디자인] 검색 패턴sunhee kim
 
웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각sid choi
 
Story 06
Story 06Story 06
Story 06JooWan
 
개인화 추천 제안 2013.12
개인화 추천 제안 2013.12개인화 추천 제안 2013.12
개인화 추천 제안 2013.12David Geosung Yun
 

Destaque (9)

인터넷 서비스 동향(검색/SNS 서비스 중심)
인터넷 서비스 동향(검색/SNS 서비스 중심)인터넷 서비스 동향(검색/SNS 서비스 중심)
인터넷 서비스 동향(검색/SNS 서비스 중심)
 
웹기획 Story 3 검색
웹기획   Story 3 검색웹기획   Story 3 검색
웹기획 Story 3 검색
 
웹기획2
웹기획2웹기획2
웹기획2
 
웹 기획,1
웹 기획,1웹 기획,1
웹 기획,1
 
[리치 인터페이스 디자인] 검색 패턴
[리치 인터페이스 디자인] 검색 패턴[리치 인터페이스 디자인] 검색 패턴
[리치 인터페이스 디자인] 검색 패턴
 
웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각
 
Story 06
Story 06Story 06
Story 06
 
개인화 추천 제안 2013.12
개인화 추천 제안 2013.12개인화 추천 제안 2013.12
개인화 추천 제안 2013.12
 
웹 기획
웹 기획웹 기획
웹 기획
 

Semelhante a Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)

Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기BESPIN GLOBAL
 
국내 공공데이터 플랫폼 현황과 발전방향
국내 공공데이터 플랫폼 현황과 발전방향국내 공공데이터 플랫폼 현황과 발전방향
국내 공공데이터 플랫폼 현황과 발전방향Haklae Kim
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화Kenneth Ceyer
 
Legacy System에 BigData적용하기 (DevOn발표자료_1027)
Legacy System에 BigData적용하기 (DevOn발표자료_1027)Legacy System에 BigData적용하기 (DevOn발표자료_1027)
Legacy System에 BigData적용하기 (DevOn발표자료_1027)Tae Young Lee
 
서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어eva
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
파이어베이스 네이버 밋업발표
파이어베이스 네이버 밋업발표파이어베이스 네이버 밋업발표
파이어베이스 네이버 밋업발표NAVER D2
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)hkh
 
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)Amazon Web Services Korea
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Jayoung Lim
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
Introduction to mongo db
Introduction to mongo dbIntroduction to mongo db
Introduction to mongo dbMinho Kim
 
Trendetector : 커뮤니티 키워드 분석 서비스
Trendetector : 커뮤니티 키워드 분석 서비스Trendetector : 커뮤니티 키워드 분석 서비스
Trendetector : 커뮤니티 키워드 분석 서비스Shin Yeongmin
 

Semelhante a Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010) (20)

Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기
 
국내 공공데이터 플랫폼 현황과 발전방향
국내 공공데이터 플랫폼 현황과 발전방향국내 공공데이터 플랫폼 현황과 발전방향
국내 공공데이터 플랫폼 현황과 발전방향
 
Kswc2012
Kswc2012Kswc2012
Kswc2012
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화
 
Legacy System에 BigData적용하기 (DevOn발표자료_1027)
Legacy System에 BigData적용하기 (DevOn발표자료_1027)Legacy System에 BigData적용하기 (DevOn발표자료_1027)
Legacy System에 BigData적용하기 (DevOn발표자료_1027)
 
Apache Spark
Apache SparkApache Spark
Apache Spark
 
서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
I'm Traveling
I'm TravelingI'm Traveling
I'm Traveling
 
파이어베이스 네이버 밋업발표
파이어베이스 네이버 밋업발표파이어베이스 네이버 밋업발표
파이어베이스 네이버 밋업발표
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
 
RDF 해설서
RDF 해설서RDF 해설서
RDF 해설서
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
Introduction to mongo db
Introduction to mongo dbIntroduction to mongo db
Introduction to mongo db
 
Trendetector : 커뮤니티 키워드 분석 서비스
Trendetector : 커뮤니티 키워드 분석 서비스Trendetector : 커뮤니티 키워드 분석 서비스
Trendetector : 커뮤니티 키워드 분석 서비스
 

Mais de Channy Yun

Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Channy Yun
 
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019Channy Yun
 
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트 Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트 Channy Yun
 
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트) Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트) Channy Yun
 
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...Channy Yun
 
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...Channy Yun
 
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)Channy Yun
 
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업Channy Yun
 
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업Channy Yun
 
한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자Channy Yun
 
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)Channy Yun
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) Channy Yun
 
Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유Channy Yun
 
Microservices architecture examples
Microservices architecture examplesMicroservices architecture examples
Microservices architecture examplesChanny Yun
 
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)Channy Yun
 
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)Channy Yun
 
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014Channy Yun
 
Webware - from Document to Operating System
Webware - from Document to Operating System Webware - from Document to Operating System
Webware - from Document to Operating System Channy Yun
 
Daum APIs: A to Z - API Meetup 2014
Daum APIs: A to Z  - API Meetup 2014Daum APIs: A to Z  - API Meetup 2014
Daum APIs: A to Z - API Meetup 2014Channy Yun
 
제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드Channy Yun
 

Mais de Channy Yun (20)

Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
 
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
 
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트 Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
 
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트) Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
 
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
 
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
 
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
 
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
 
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
 
한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자
 
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
 
Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유
 
Microservices architecture examples
Microservices architecture examplesMicroservices architecture examples
Microservices architecture examples
 
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
 
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
 
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
 
Webware - from Document to Operating System
Webware - from Document to Operating System Webware - from Document to Operating System
Webware - from Document to Operating System
 
Daum APIs: A to Z - API Meetup 2014
Daum APIs: A to Z  - API Meetup 2014Daum APIs: A to Z  - API Meetup 2014
Daum APIs: A to Z - API Meetup 2014
 
제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드
 

Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)

  • 1. Linked Data 기반 데이터 검색 서비스의 현황과 과제 윤석찬 서울대 BikeLab · 다음커뮤니케이션 channy@snu.ac.kr http://bike.snu.ac.kr
  • 2. 목차 1. 시맨틱 웹 킬러 애플리케이션의 현황 2. 시맨틱 검색 서비스 출현과 LinkedData의 성장 3. 대용량 LOD 기반 시맨틱 검색 방식 4. 클라우드 기반 시맨틱 웹 데이터 처리 사례 5. 대용량 LOD 검색 서비스의 한계
  • 5. Why Semantic Web failed? Difficult to use No Killer application Only specific domains
  • 6. Back to the Search
  • 7. Semantic Search vs. Semantic Web Search
  • 8. Emerging Semantic Web Search = Structured Data on the Web
  • 10.
  • 11. What’s Linked Data? . In October 2007, datasets consisted of over two billion RDF triples, which were interlinked by over two million RDF links. By September 2010 this had grown to 25 billion RDF triples, interlinked by around 395 million RDF links. http://en.wikipedia.org/wiki/Linked_Data
  • 13. • 데이터 브라우저 – Tabulator Browser (MIT, USA) – Marbles (FU Berlin, DE) – OpenLink RDF Browser (OpenLink, UK) – Zitgist RDF Browser (Zitgist, USA) – Disco Hyperdata Browser (FU Berlin, DE) – Fenfire (DERI, Irland)
  • 14.
  • 15.
  • 16.
  • 18. • 검색 엔진 – Falcons (IWS, China) – Sig.ma (DERI, Ireland) – Swoogle (UMBC, USA) – VisiNav (DERI, Ireland) – Watson (Open University, UK)
  • 19.
  • 20.
  • 21.
  • 22. 검색 기술 비교 및 변화 기존 웹 검색 엔진 방법 시맨틱 웹 검색 외부 웹 문서 및 링크드데이터(LinkedData) 및 사내 콘텐츠 DB 대상 사내 콘텐츠 DB 웹 크롤러를 통해 수집 수집 RDF 수집 랭킹에 따라 문서 인덱스 저장 관계에 따라 RDF Triple 변환 IR 알고리즘 결과 SPAQL 쿼리 응답 키워드 기반 랭킹 기반 검 색 서비스 그래프 기반 의미 검색 Google(1조) 데이터 용량 LinkedData(250억) Google, 네이버, 다음 대표 기업 Bing, Hakia
  • 23. LOD 검색 개발 방식 1. 웹 기반 구조적 데이터 수집 – 반 구조적 데이터: HTML내 RDFa, Microformat 혹은 HTML5 Microdata, 구조적 데이터: XML 및 JSON, 시맨틱 데이터: RDF/RDFs • 예) LDspider (GPL license) http://code.google.com/p/ldspider 2. 데이터 저장 – Virtuoso (GPL), Sesame (BSD), Jena TDB (BSD) 혹은 RDB – c.f Berlin SPARQL Benchmark (Nov 2009) 3. 퀴리 및 데이터 분석 – SPAQL을 이용한 Query Engine 4. 랭킹 및 결과 제공 – 결과에 대한 시맨틱 네비게이션 및 링크만 제공
  • 24. 기존 시맨틱 웹 처리 방법 1. 모델 만들기 개념과 관계 속성에 대한 정의 최대한 현실에 부합하는 모델을 만들며 확장 유연성 2.RDF 처리 대개 기존 DB에서 변환 RDF, Triple, N-Triple 형태 저장 처리 시간이 길다! 3. SPARQL 질의 원하는 답을 얻기 위한 추론 응답 시간이 길다!
  • 25. RDF Store DB Memory File
  • 26. 검색에서 클라우드 플랫폼의 장점 1. 사회적 이슈가 발생했을 때, 클라우드 동적 제어 API를 이용하 여 크롤링 및 인덱싱 작업을 비주기적으로 시행. 2. UCC 검색 콘텐츠 DB에 대해서 신규 작업 시 클라우드 기반으 로 테스트 가능 3. Hadoop, Hbase 등 각종 분산 컴퓨팅 자원을 필요 시 이용. 4. 실시간 웹(Realtime Web) 검색을 대응하기 위한 검색 엔진 및 처리 시스템 필요
  • 27. 클라우드 기반 LOD 검색 방식 1. 웹 기반 구조적 데이터 수집 2. 데이터 저장 – Hadoop을 이용한 분산 컴퓨팅 플랫폼 – 대용량 RDF 변환 및 처리 – NoSQL을 이용한 검색 데이터 저장소 3. 퀴리 및 데이터 분석 – 사용자 쿼리에 해당하는 질의어 분석 – 질의어를 통한 SPARQL 쿼리 생성 – 쿼리에 대한 서브 쿼리 자동 생성 및 AnswerSet 추출 4. 랭킹 및 결과 제공 – 관계 기반 질의어 확장 및 추천
  • 29. 2. Auto AnswerSet c.f. SPARQL speed
  • 30. 3. Relation-based keyword expansion MJ’s birthday Actors same of MJ’s birthday – Subject Predicate – Subject Predicate sameAs Subject – Subject Predicate sameAs Subject Predicate…
  • 31. 4. Key Value DB for heavy update Update Heavy job, Real-time incremental Update http://research.yahoo.com/Web_Information_Management/YCSB
  • 32. System - MR Job Scheduler Music Music People Movie Movie DB People DB DB DB DB Map/Reduce DB RDF RDF Search Service Hadoop M/R -Incremental Update N3 N3 {"Name": "Cheeso", Internet REST APIs "Rank": 7} NoSQL M/R {"Name": "Cheeso", "Rank": 7} {"Name": "Cheeso", "Rank": 7} - Hbase Answer Answer Search Service Cassandra Set Set iCube Storage Front-end Cloud Clould
  • 33. • 기존 시맨틱 웹 검색 서비스와 차별점 – 사용자에게 친숙한 검색 인터페이스 제공 – 속성 중심의 질의어 확장을 통한 검색 시간 증가 • 의미 검색 서비스 특징 – 사용자가 원하는 질의어 확장을 통한 콘텐츠 의미 검색 – 기존 스마트 앤서에 대한 보강 데이터 확보 – 클라우드 플랫폼을 이용 영화/인물/음악을 기반한 RDF Triple/Answer Set 등 5억~10억 규모 데이터 실시간 처리 처리 • 몇 십분안에서 처리 가능 • 향후 대규모 LOD 검색 서비스를 위한 프로토타입
  • 34. LOD 검색 서비스의 한계 • 상용 대용량 데이터 처리가 필요하다 – 전 세계 여러 연구 기관에서 최근 관심 급증 – ISWC 차원에서 Billion Triples Challenge 진행중 – 사용 데이터셋 • 2010년 3~4월에 수집된 3.2 billion triples (27GB gzipped) • http://challenge.semanticweb.org – 제출 현황 • Creating voiD Descriptions for Web-scale Data • HadoopRDF : A Scalable RDF Data Analysis System • Scalable Online Analysis of Semantic Web Data • High Performance Semantic Factoring of Giga-Scale Semantic Graph Databases
  • 35. • 구조적 데이터 규모가 작다 – 기존의 Annotation용 Vocaburary 적극 활용 필요 – 자동 솔루션 이용 • Open Calais (Thomsons Reuters) for news • Zemanta (startup) for blog posts • LOD간 링크가 적다 (only 5% in LOD) – 수작업, 데이터 마이닝 (고전적인 방법) – Google Base API (데이터 입력으로 연결 작업) – R2R 프레임웍 (SPARQL 기반 맵핑 솔루션) • 서비스 방법이 없다 – 시맨틱 네비게이션의 이상이 랭킹 방법이 필요 – 데이터가 너무 전문적이어서 킬러 앱이 없음 – 의료 및 콘텐츠 분야 적극 육성 필요
  • 36. 결론 • LOD 기반 검색 서비스의 한계 – 사용자에게 친숙한 검색 UI 및 킬러 앱 부재 – 대용량 RDF 처리 시간 및 SPARQL 쿼리 처리 시간 – LOD의 데이터 규모 및 링크의 문제 • 해결 방안 – 기존 검색 서비스와 연계한 서비스 창출 필요 – 클라우드 기반 시스템을 이용한 데이터 처리 적극 활용 – LOD 기반 데이터의 링크 솔루션 활용
  • 37. Announcement! • Daum에서 국내 최초로 영화 LinkedData 레포지터리 제공 예정 (2011년 1월) • 서울대 BikeLab에서는 대용량 LOD 검색 서 비스 연구 중 http://bike.snu.ac.kr