SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
2010년 11월 29일
  탑쿼드란트 코리아 전략팀 추윤미
      ymchu@topquadrant.co.kr
홈페이지 : http://www.topquadrant.co.kr
 블로그 : http://blog.topquadrant.co.kr
목차

• 통계 정보의 상호운용성
• 시맨틱 웹과 링크드 데이터
 – 개요
 – LOD 프로젝트
• 해외 사례
 –   US census 2000
 –   data.gov/semantic
 –   OpenEI
 –   data.gov.uk
• 결론
공공 데이터로서의 통계
Official Statistics
 – “실세계(real world)”를 기술(description)하는 도구
      • 다양한 도표와 수치를 통해 사회의 상황과 현상의 발달 추이를 표현
      • raw data의 분석과 가공으로 새로운 지식을 얻어냄
      • 통계 분석의 결과는 예측, 계획 수립, 정책의 방향 결정 등에 영향을 줌
Open Government Data와 통계
 – 정부 데이터 공개 운동
      • 미국(data.gov), 영국(data.gov.uk)에서 시작된 공공 데이터의 공개와
        공유가 전세계적으로 확산되고 있음(호주, 프랑스, 캐나다, 핀란드 등)
 – 정부 데이터의 많은 부분이 통계 정보임
      • 통계 정보를 공공에게 제공함으로써
      • 정부의 투명성 제고 및
      • 다양한 컨텍스트에서 다양한 분야의 정보와 융합한 새로운 지식 생성의
        효과 기대
통계 정보의 특성
multidimensional data
 – 다양한 데이터의 aggregation
    • Numeric
    • Time series
    • Geographical etc...
dissemination의 중요성
 – 기술 발전에 따라 새로운 매체를 통해 배포되어 옴
    • 인쇄, 출판
    • 디지털화
    • 웹을 통한 정보의 배포
 – raw data를 결합, 분석하여 유용한 정보로 만들기 위해
    • 적절한 이용자에게 제공되어야 하고
    • 다양한 정보 및 컨텍스트와 연계 가능해야 함
통계 정보의 환경 변화
급격한 ICT의 발전
 – 데이터의 폭발적 증가
    • 특히, 웹의 등장으로
 – 정보 처리 성능의 향상
    • 수치 정보의 분석과 다양한 시각화
    • 데이터 중심의 다학제간(multidisciplinary) 연구
데이터의 globalisation
 – 통계 정보 생산자의 다양화
    • 정부, 국제 기구, 연구소, 여론 조사 기관 등
 – 웹을 통한 생산과 배포
    • 다양한 정보 접근 채널을 통한 자유로운 통계 정보의 생산과 배포
    • 매쉬업(mash-up)과 시각화(visualisation)를 통한 통계 정보의 가공
       • -> 통계 정보는 혈액과 같은 주요 역할
Information Interoperability
통계 정보의 상호 교환(exchange)에 대한 요구
– 정부 기관 내, 또는 외부 기관 과의 정보 교환 필요
   • 데이터의 공유(open)와 협업(collaboration) – 정부 2.0의 주요 키워드
   • 통계 정보의 상호 교환을 위한 국제 표준 제정
   • SDMX(Statistical Data and Metadata eXchange) - 유럽중앙은행,
     Eurostat, WHO, IMF, OECD, UN,...
– 웹에서의 데이터 교환과 융복합을 위한 공통의 포맷이 필요
   • PDF, SpreadSheet, 또는 HTML 형태의 수치 정보는 분석과 가공이 어
     려움
   • SDMX는 syntactic level의 표준(XML 기반)




통계 정보 간의 통합 및 다양한 정보와의 융합을 위한
통계 정보의 상호운용성(interoperability) 에 대한 요구
시맨틱 웹

 “The Semantic Web is a vision: the idea of having data on the
 Web defined and linked in a way that it can be used by machines
 not just for display purposes, but for automation, integration and
 reuse of data across various applications.[W3C 2001] ”




                                                 데이터의 웹
                                                 the Web of
                                                Linked Data

2010-12-07
시맨틱 웹
시맨틱 웹은 상호운용성에 관한 기술
– 시맨틱 웹 표준인 RDF(Resource Description Framework)
  로 데이터를 표현함으로써 이질적인 정보 간의 통합이 가능
지식 교환을 위한 표준과 아키텍처
– URI(Uniform Resource Identifier)를 이용한 웹에서의 정보
  접근
– RDFS, OWL, SKOS(Simple Knowledge Organization
  System), FOAF(Friends of a Friend), etc...
– Sparql 질의 언어를 이용한 분산된 정보에 대한 통합 질의
– Linked Data
RDF - 데이터 모델

RDF(Resource Description Framework)

              create
 마이크 샌델                  정의란 무엇인가




 subject    predicate      object



               트리플
              (Triple)
시맨틱 웹- integration




graph representation using RDF data model




                                            Source: Ivan Herman
SPARQL as a Unifying Source

                    Application

     Sparql query                 return data

                SPARQL Engine




DB   X     DB        X       DB         X       DB



                                                Source: Ivan Herman
시맨틱 웹 – Linked Data
          Data Silos on the Web




        Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/,
        CC-BY


 Many common things are represented in multiple data sets
 Linking identifiers connects these data sets
 Linked data opens the doors of the silos
Linked Data

   Tim Berners-Lee, “Linked Data- Design Issues(2006)”,
   http://www.w3.org/DesignIssues/LinkedData.html
1. Use URIs as names for things
2. Use HTTP URIs so that people can look up those names
3. When someone looks up a URI, provide useful RDF Information
4. Include RDF statements that link to other URIs so that they can discover
    related things




    Linked data는 웹 상의 데이터들에 URI를 이용해 이름을 붙이고,
   RDF로 데이터를 기술할 뿐만 아니라 데이터 간의 관계를 부여하여
  HTTP를 통해 웹으로 발행함으로써 데이터가 인간 뿐만 아니라 기계에
              의해 사용되고 이해될 수 있도록 하는 방법
Linked Data – RDF Data Link


  Linked Data                Linked Data                    Search
    Browsers                   Mashups                      Engines




Thing            Thing            Thing            Thing                 Thing


Thing            Thing            Thing            Thing                 Thing

        typed            typed            typed               typed
         links            links            links               links


  A               B                C                  D                    E


                                            참고 : Chris Bizer / The Emerging Web of Linked Data
W3C – Linking Open Data Project
W3C SWEO Community (Semantic Web Education & Outreach Interest Group)
 다양한 공개 데이터 셋을 RDF형태로 웹에 퍼블리싱하여, 다양한 데이터 소스 간의
   RDF 링크를 설정함으로써, 공유 데이터(data common)를 통해 웹을 확장하고자 하는
   목적




        Over 500 million RDF triples
        Around 120,000 RDF links between data sources
LOD Cloud – 2008. 2
LOD Cloud – 2009. 7

                      July 2009
LOD Cloud – 2010. 9




2010-12-07
LOD Cloud의 통계 데이터 셋
Linked Data로 발행된 통계 데이터

– US Census 2000
   • http://www.rdfabout.com/demo/cens
     us/
– Riese(RDFizing and Interlinking
  the EuroStat Data Set Effort)
  from EuroStat
   • http://riese.joanneum.at/data/
– Statistics.data.gov.uk(data.gov.u
  k)
   • http://statistics.data.gov.uk/
– TWC LOGD(data.gov)
   • http://data.gov/semantic
US Census 2000 –rdfabout.com

US Census 2000 데이터 셋
– 미 통계청에서 발행한 인구 통계(2000년 기준)
   • states, counties, sub-counties 등의 다양한 지리적 수준에 대한
     인종, 성별, 연령 등으로 조직화된 인구 통계
– 10억 개의 트리플로 구성
– Sparql Endpoint를 통해 데이터를 공개
   • http://www.rdfabout.com/demo/census/sparql.xpd
– Census Data 구조
미국의 data.gov

data.gov의 목적
– 미국 연방정부의 고부가가치 기계가독형 데이
  터셋을 대국민을 위해 개방
– 국민 스스로 창조적으로 이용하도록 함.
data.gov를 활용하여 국민들은
– RAW DATA를 보거나 다운로드
– 위젯이나 다른 툴을 이용하여 특정 데이터를
  가공, 융합한 챠트나 지도, 스냅샷을 만들 수도
  있음

data.gov의 Linked Data화(data.gov/semantic)
– 구축된 data.gov 의 일부를 시맨틱 웹 표준 포맷인 RDF(Resource Description
  Framework)로 변환하여 링크드 데이터로 공개
– Tim Berners-Lee와 함께 시맨틱 웹의 창시자인 Jim Hendler 교수가 프로젝트 수행
– 다양한 통계 데이터가 포함되어 있으며 지리 정보 등과 융합한 다수의 매쉬업 사례
  포함
Open EI (data.gov)
Open Energy Initiative
– Linked Open Data Platform을 통해 에너지 데이터를 공개하고 다양한 에너지 정
  보를 융합, 분석, 제공하고자 하는 목적
– 궁극적으로 에너지 분야의 창조와 혁신을 유도


Open EI의 데이터 셋
– 215개의 데이터 셋이 LOD에 상호 연계됨
– 25억개의 RDF 트리플로 구성됨

Open EI와 Census 데이터 매쉬업 사례
– Data.gov 의 OpenEI.org 데 이 터 및 U.S. Census 데 이 터 , SmartGrid.gov 의
  데이터를 매쉬업
   • 7개 도시의 전력 사용률, 소득수준, 스마트 그리드 프로그램의 에너지 관련
     인센티브와 타입을 연결시켜 새로운 에너지 마켓플레이스 도입
영국의 data.gov.uk
data.gov.uk의 목적
 –정부의 투명성을 높이기 위해
 –국민의 권리 향상(Citizen empowerment)
 –데이터의 공개를 통한 경제적 사회적 가치 증
 대
 –영국이 차세대 웹(web of data, 즉, Semantic
 Web)에서 세계적으로 앞서나가기 위해
비전
 – 정부가 수집한 데이터의 원스톱샵(one-stop-
   shop for data collected by the government)

     • 시맨틱 웹 기술을 이용하여 링크를 통해 데이터를 융합하고 검색을 확장하도
     록 제공
     • data.gov.uk의 이용자들은 이용가능한 정보를 이용해 자신만의 매쉬업을 만들
       수 있을 것으로 기대

2010년 1월 공식적으로 data.gov.uk 서비스 운영
 – 현재 3,000 개 이상의 Linked Data 셋을 서비스하고 있음
statistic.data.gov.uk
영국 정부의 통계 데이터 정책
– 통계 데이터를 통계 데이터 표준인 SDMX 기반의 다른 통계와 함
  께 Linked Data 표준을 이용하여 웹에 발행하고 재사용하고자 함.

구현 사례
– Timetric
    • 영국 통계청의 데이터(data.gov.uk)와 Eurostat 의 데이터를 포함, 세
      계의 다양한 거시경제 데이터를 시계열을 통해 다양하게 볼 수 있는
      어플리케이션
결론
공공 데이터의 많은 부분이 통계 정보임
– 다양한 기관들이 통계 정보를 생산하고 있음
– 통계 정보를 웹으로 생산하고 배포하는데 많은 예산과 노력을 소요
통계 정보의 상호운용성(interoperability)이 요구됨
– XML, CSV, Excel, PDF 등 다양한 형식으로 발행됨
– 웹을 통한 기계간(with mashine-readable format)의 교환(exchange)
  과 재사용(reuse)이 어려움
Linked Data기반의 통계 정보
– W3C 표준인 RDF 기반으로 데이터를 발행함으로써 다양한 데이터
  간의 통합이 용이
  • 통계 데이터를 외부 이용자도 쉽게 접근, 이용 가능
  • 웹 표준 기반의 통계 데이터 간의 통합 및 다른 분야의 Linked
    Data와 융합할 수 있음
통계 정보의 공개를 통한 데이터의 가치 증대
– 데이터의 질(quality)적 보장 – URI를 통한 데이터의 Provenance
– 데이터를 웹으로 공개(expose)함으로써 다른 컨텍스트의 데이터와 융합
  (fusion)을 통해 더욱 풍부해지고,
– 데이터의 활용도가 높아짐으로 인해 데이터 가치가 상승
결론 - 기대효과

                Global Standard를 기반으로 한
                Data Integration과 Exchange


                  Data Anaysis와 Fusion



                  Innovation, Knowledge



                  지식 기반 경제 사회의 동력




                                             better Service
 Creativity            Transparency            better Life
산업, 경제, 연구 개발              정부                     국민
탑쿼드란트 코리아 전략팀 추윤미
      ymchu@topquadrant.co.kr
홈페이지 : http://www.topquadrant.co.kr
 블로그 : http://blog.topquadrant.co.kr

Mais conteúdo relacionado

Mais procurados

LOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpLOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpHansung University
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기Haklae Kim
 
2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집Hansung University
 
[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked data[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked dataLiST Inc
 
LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)경욱 이
 
공공데이터와 Linked open data
공공데이터와 Linked open data공공데이터와 Linked open data
공공데이터와 Linked open dataMyungjin Lee
 
Interlinking for Linked Data
Interlinking for Linked DataInterlinking for Linked Data
Interlinking for Linked DataMyungjin Lee
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기Haklae Kim
 
공공데이터 맛있게 요리하기
공공데이터 맛있게 요리하기공공데이터 맛있게 요리하기
공공데이터 맛있게 요리하기영제 임
 
링크드 데이터 구축 공정 가이드V1.0
링크드 데이터 구축 공정 가이드V1.0링크드 데이터 구축 공정 가이드V1.0
링크드 데이터 구축 공정 가이드V1.0Hansung University
 
공공데이터, 현재 우리는?
공공데이터, 현재 우리는?공공데이터, 현재 우리는?
공공데이터, 현재 우리는?Myungjin Lee
 
도서관과 링크드데이터[TQK]
도서관과 링크드데이터[TQK]도서관과 링크드데이터[TQK]
도서관과 링크드데이터[TQK]ymchu88
 
서울시 열린데이터 광장 문화관광 분야 LOD 서비스
서울시 열린데이터 광장 문화관광 분야 LOD 서비스서울시 열린데이터 광장 문화관광 분야 LOD 서비스
서울시 열린데이터 광장 문화관광 분야 LOD 서비스Myungjin Lee
 
개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석
개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석
개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석Hansung University
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1Newsjelly
 

Mais procurados (20)

LOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpLOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUp
 
링크드 데이터 사례
링크드 데이터 사례링크드 데이터 사례
링크드 데이터 사례
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집
 
[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked data[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked data
 
LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)
 
공공데이터와 Linked open data
공공데이터와 Linked open data공공데이터와 Linked open data
공공데이터와 Linked open data
 
Interlinking for Linked Data
Interlinking for Linked DataInterlinking for Linked Data
Interlinking for Linked Data
 
digital archiving
digital archivingdigital archiving
digital archiving
 
Open Data Workshop
Open Data Workshop Open Data Workshop
Open Data Workshop
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기
 
공공데이터 맛있게 요리하기
공공데이터 맛있게 요리하기공공데이터 맛있게 요리하기
공공데이터 맛있게 요리하기
 
링크드 데이터 구축 공정 가이드V1.0
링크드 데이터 구축 공정 가이드V1.0링크드 데이터 구축 공정 가이드V1.0
링크드 데이터 구축 공정 가이드V1.0
 
공공데이터, 현재 우리는?
공공데이터, 현재 우리는?공공데이터, 현재 우리는?
공공데이터, 현재 우리는?
 
도서관과 링크드데이터[TQK]
도서관과 링크드데이터[TQK]도서관과 링크드데이터[TQK]
도서관과 링크드데이터[TQK]
 
서울시 열린데이터 광장 문화관광 분야 LOD 서비스
서울시 열린데이터 광장 문화관광 분야 LOD 서비스서울시 열린데이터 광장 문화관광 분야 LOD 서비스
서울시 열린데이터 광장 문화관광 분야 LOD 서비스
 
개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석
개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석
개방형 데이터(Open Data) 평가를 위한 오픈데이터 측정지표 현황 분석
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
library linked data
library linked datalibrary linked data
library linked data
 

Semelhante a Statistics and linked data

Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Dataymchu88
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Dataymchu88
 
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012Daum DNA
 
빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0Konkuk University
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
CKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul CityCKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul Cityok-korea
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터JM code group
 
데이터의 진화: 오픈 데이터에서 스마트 데이터로
데이터의 진화: 오픈 데이터에서 스마트 데이터로데이터의 진화: 오픈 데이터에서 스마트 데이터로
데이터의 진화: 오픈 데이터에서 스마트 데이터로ok-korea
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdfssuserde0b2d
 
고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 JM code group
 
서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-Overview서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-OverviewHaklae Kim
 
130308 디지털컨버젼스i 2교시
130308 디지털컨버젼스i 2교시130308 디지털컨버젼스i 2교시
130308 디지털컨버젼스i 2교시skccsocial
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황LiST Inc
 
오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 Haklae Kim
 
문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용LiST Inc
 
Linked data
Linked dataLinked data
Linked dataLiST Inc
 
LOD 구축현황 과 현황
LOD 구축현황 과 현황LOD 구축현황 과 현황
LOD 구축현황 과 현황sbchae
 
대한민국, 잇다!
대한민국, 잇다! 대한민국, 잇다!
대한민국, 잇다! Haklae Kim
 

Semelhante a Statistics and linked data (20)

Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Data
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Data
 
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
 
빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
CKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul CityCKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul City
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터
 
데이터의 진화: 오픈 데이터에서 스마트 데이터로
데이터의 진화: 오픈 데이터에서 스마트 데이터로데이터의 진화: 오픈 데이터에서 스마트 데이터로
데이터의 진화: 오픈 데이터에서 스마트 데이터로
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
 
고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주
 
서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-Overview서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-Overview
 
130308 디지털컨버젼스i 2교시
130308 디지털컨버젼스i 2교시130308 디지털컨버젼스i 2교시
130308 디지털컨버젼스i 2교시
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황
 
오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화
 
문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용
 
Linked data
Linked dataLinked data
Linked data
 
LOD 구축현황 과 현황
LOD 구축현황 과 현황LOD 구축현황 과 현황
LOD 구축현황 과 현황
 
대한민국, 잇다!
대한민국, 잇다! 대한민국, 잇다!
대한민국, 잇다!
 

Último

Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 

Último (6)

Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 

Statistics and linked data

  • 1. 2010년 11월 29일 탑쿼드란트 코리아 전략팀 추윤미 ymchu@topquadrant.co.kr 홈페이지 : http://www.topquadrant.co.kr 블로그 : http://blog.topquadrant.co.kr
  • 2. 목차 • 통계 정보의 상호운용성 • 시맨틱 웹과 링크드 데이터 – 개요 – LOD 프로젝트 • 해외 사례 – US census 2000 – data.gov/semantic – OpenEI – data.gov.uk • 결론
  • 3. 공공 데이터로서의 통계 Official Statistics – “실세계(real world)”를 기술(description)하는 도구 • 다양한 도표와 수치를 통해 사회의 상황과 현상의 발달 추이를 표현 • raw data의 분석과 가공으로 새로운 지식을 얻어냄 • 통계 분석의 결과는 예측, 계획 수립, 정책의 방향 결정 등에 영향을 줌 Open Government Data와 통계 – 정부 데이터 공개 운동 • 미국(data.gov), 영국(data.gov.uk)에서 시작된 공공 데이터의 공개와 공유가 전세계적으로 확산되고 있음(호주, 프랑스, 캐나다, 핀란드 등) – 정부 데이터의 많은 부분이 통계 정보임 • 통계 정보를 공공에게 제공함으로써 • 정부의 투명성 제고 및 • 다양한 컨텍스트에서 다양한 분야의 정보와 융합한 새로운 지식 생성의 효과 기대
  • 4. 통계 정보의 특성 multidimensional data – 다양한 데이터의 aggregation • Numeric • Time series • Geographical etc... dissemination의 중요성 – 기술 발전에 따라 새로운 매체를 통해 배포되어 옴 • 인쇄, 출판 • 디지털화 • 웹을 통한 정보의 배포 – raw data를 결합, 분석하여 유용한 정보로 만들기 위해 • 적절한 이용자에게 제공되어야 하고 • 다양한 정보 및 컨텍스트와 연계 가능해야 함
  • 5. 통계 정보의 환경 변화 급격한 ICT의 발전 – 데이터의 폭발적 증가 • 특히, 웹의 등장으로 – 정보 처리 성능의 향상 • 수치 정보의 분석과 다양한 시각화 • 데이터 중심의 다학제간(multidisciplinary) 연구 데이터의 globalisation – 통계 정보 생산자의 다양화 • 정부, 국제 기구, 연구소, 여론 조사 기관 등 – 웹을 통한 생산과 배포 • 다양한 정보 접근 채널을 통한 자유로운 통계 정보의 생산과 배포 • 매쉬업(mash-up)과 시각화(visualisation)를 통한 통계 정보의 가공 • -> 통계 정보는 혈액과 같은 주요 역할
  • 6. Information Interoperability 통계 정보의 상호 교환(exchange)에 대한 요구 – 정부 기관 내, 또는 외부 기관 과의 정보 교환 필요 • 데이터의 공유(open)와 협업(collaboration) – 정부 2.0의 주요 키워드 • 통계 정보의 상호 교환을 위한 국제 표준 제정 • SDMX(Statistical Data and Metadata eXchange) - 유럽중앙은행, Eurostat, WHO, IMF, OECD, UN,... – 웹에서의 데이터 교환과 융복합을 위한 공통의 포맷이 필요 • PDF, SpreadSheet, 또는 HTML 형태의 수치 정보는 분석과 가공이 어 려움 • SDMX는 syntactic level의 표준(XML 기반) 통계 정보 간의 통합 및 다양한 정보와의 융합을 위한 통계 정보의 상호운용성(interoperability) 에 대한 요구
  • 7. 시맨틱 웹 “The Semantic Web is a vision: the idea of having data on the Web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications.[W3C 2001] ” 데이터의 웹 the Web of Linked Data 2010-12-07
  • 8. 시맨틱 웹 시맨틱 웹은 상호운용성에 관한 기술 – 시맨틱 웹 표준인 RDF(Resource Description Framework) 로 데이터를 표현함으로써 이질적인 정보 간의 통합이 가능 지식 교환을 위한 표준과 아키텍처 – URI(Uniform Resource Identifier)를 이용한 웹에서의 정보 접근 – RDFS, OWL, SKOS(Simple Knowledge Organization System), FOAF(Friends of a Friend), etc... – Sparql 질의 언어를 이용한 분산된 정보에 대한 통합 질의 – Linked Data
  • 9. RDF - 데이터 모델 RDF(Resource Description Framework) create 마이크 샌델 정의란 무엇인가 subject predicate object 트리플 (Triple)
  • 10. 시맨틱 웹- integration graph representation using RDF data model Source: Ivan Herman
  • 11. SPARQL as a Unifying Source Application Sparql query return data SPARQL Engine DB X DB X DB X DB Source: Ivan Herman
  • 12. 시맨틱 웹 – Linked Data Data Silos on the Web Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY  Many common things are represented in multiple data sets  Linking identifiers connects these data sets  Linked data opens the doors of the silos
  • 13.
  • 14. Linked Data Tim Berners-Lee, “Linked Data- Design Issues(2006)”, http://www.w3.org/DesignIssues/LinkedData.html 1. Use URIs as names for things 2. Use HTTP URIs so that people can look up those names 3. When someone looks up a URI, provide useful RDF Information 4. Include RDF statements that link to other URIs so that they can discover related things Linked data는 웹 상의 데이터들에 URI를 이용해 이름을 붙이고, RDF로 데이터를 기술할 뿐만 아니라 데이터 간의 관계를 부여하여 HTTP를 통해 웹으로 발행함으로써 데이터가 인간 뿐만 아니라 기계에 의해 사용되고 이해될 수 있도록 하는 방법
  • 15. Linked Data – RDF Data Link Linked Data Linked Data Search Browsers Mashups Engines Thing Thing Thing Thing Thing Thing Thing Thing Thing Thing typed typed typed typed links links links links A B C D E 참고 : Chris Bizer / The Emerging Web of Linked Data
  • 16. W3C – Linking Open Data Project W3C SWEO Community (Semantic Web Education & Outreach Interest Group)  다양한 공개 데이터 셋을 RDF형태로 웹에 퍼블리싱하여, 다양한 데이터 소스 간의 RDF 링크를 설정함으로써, 공유 데이터(data common)를 통해 웹을 확장하고자 하는 목적  Over 500 million RDF triples  Around 120,000 RDF links between data sources
  • 17. LOD Cloud – 2008. 2
  • 18. LOD Cloud – 2009. 7 July 2009
  • 19. LOD Cloud – 2010. 9 2010-12-07
  • 20. LOD Cloud의 통계 데이터 셋 Linked Data로 발행된 통계 데이터 – US Census 2000 • http://www.rdfabout.com/demo/cens us/ – Riese(RDFizing and Interlinking the EuroStat Data Set Effort) from EuroStat • http://riese.joanneum.at/data/ – Statistics.data.gov.uk(data.gov.u k) • http://statistics.data.gov.uk/ – TWC LOGD(data.gov) • http://data.gov/semantic
  • 21. US Census 2000 –rdfabout.com US Census 2000 데이터 셋 – 미 통계청에서 발행한 인구 통계(2000년 기준) • states, counties, sub-counties 등의 다양한 지리적 수준에 대한 인종, 성별, 연령 등으로 조직화된 인구 통계 – 10억 개의 트리플로 구성 – Sparql Endpoint를 통해 데이터를 공개 • http://www.rdfabout.com/demo/census/sparql.xpd – Census Data 구조
  • 22. 미국의 data.gov data.gov의 목적 – 미국 연방정부의 고부가가치 기계가독형 데이 터셋을 대국민을 위해 개방 – 국민 스스로 창조적으로 이용하도록 함. data.gov를 활용하여 국민들은 – RAW DATA를 보거나 다운로드 – 위젯이나 다른 툴을 이용하여 특정 데이터를 가공, 융합한 챠트나 지도, 스냅샷을 만들 수도 있음 data.gov의 Linked Data화(data.gov/semantic) – 구축된 data.gov 의 일부를 시맨틱 웹 표준 포맷인 RDF(Resource Description Framework)로 변환하여 링크드 데이터로 공개 – Tim Berners-Lee와 함께 시맨틱 웹의 창시자인 Jim Hendler 교수가 프로젝트 수행 – 다양한 통계 데이터가 포함되어 있으며 지리 정보 등과 융합한 다수의 매쉬업 사례 포함
  • 23. Open EI (data.gov) Open Energy Initiative – Linked Open Data Platform을 통해 에너지 데이터를 공개하고 다양한 에너지 정 보를 융합, 분석, 제공하고자 하는 목적 – 궁극적으로 에너지 분야의 창조와 혁신을 유도 Open EI의 데이터 셋 – 215개의 데이터 셋이 LOD에 상호 연계됨 – 25억개의 RDF 트리플로 구성됨 Open EI와 Census 데이터 매쉬업 사례 – Data.gov 의 OpenEI.org 데 이 터 및 U.S. Census 데 이 터 , SmartGrid.gov 의 데이터를 매쉬업 • 7개 도시의 전력 사용률, 소득수준, 스마트 그리드 프로그램의 에너지 관련 인센티브와 타입을 연결시켜 새로운 에너지 마켓플레이스 도입
  • 24. 영국의 data.gov.uk data.gov.uk의 목적 –정부의 투명성을 높이기 위해 –국민의 권리 향상(Citizen empowerment) –데이터의 공개를 통한 경제적 사회적 가치 증 대 –영국이 차세대 웹(web of data, 즉, Semantic Web)에서 세계적으로 앞서나가기 위해 비전 – 정부가 수집한 데이터의 원스톱샵(one-stop- shop for data collected by the government) • 시맨틱 웹 기술을 이용하여 링크를 통해 데이터를 융합하고 검색을 확장하도 록 제공 • data.gov.uk의 이용자들은 이용가능한 정보를 이용해 자신만의 매쉬업을 만들 수 있을 것으로 기대 2010년 1월 공식적으로 data.gov.uk 서비스 운영 – 현재 3,000 개 이상의 Linked Data 셋을 서비스하고 있음
  • 25. statistic.data.gov.uk 영국 정부의 통계 데이터 정책 – 통계 데이터를 통계 데이터 표준인 SDMX 기반의 다른 통계와 함 께 Linked Data 표준을 이용하여 웹에 발행하고 재사용하고자 함. 구현 사례 – Timetric • 영국 통계청의 데이터(data.gov.uk)와 Eurostat 의 데이터를 포함, 세 계의 다양한 거시경제 데이터를 시계열을 통해 다양하게 볼 수 있는 어플리케이션
  • 26. 결론 공공 데이터의 많은 부분이 통계 정보임 – 다양한 기관들이 통계 정보를 생산하고 있음 – 통계 정보를 웹으로 생산하고 배포하는데 많은 예산과 노력을 소요 통계 정보의 상호운용성(interoperability)이 요구됨 – XML, CSV, Excel, PDF 등 다양한 형식으로 발행됨 – 웹을 통한 기계간(with mashine-readable format)의 교환(exchange) 과 재사용(reuse)이 어려움 Linked Data기반의 통계 정보 – W3C 표준인 RDF 기반으로 데이터를 발행함으로써 다양한 데이터 간의 통합이 용이 • 통계 데이터를 외부 이용자도 쉽게 접근, 이용 가능 • 웹 표준 기반의 통계 데이터 간의 통합 및 다른 분야의 Linked Data와 융합할 수 있음 통계 정보의 공개를 통한 데이터의 가치 증대 – 데이터의 질(quality)적 보장 – URI를 통한 데이터의 Provenance – 데이터를 웹으로 공개(expose)함으로써 다른 컨텍스트의 데이터와 융합 (fusion)을 통해 더욱 풍부해지고, – 데이터의 활용도가 높아짐으로 인해 데이터 가치가 상승
  • 27. 결론 - 기대효과 Global Standard를 기반으로 한 Data Integration과 Exchange Data Anaysis와 Fusion Innovation, Knowledge 지식 기반 경제 사회의 동력 better Service Creativity Transparency better Life 산업, 경제, 연구 개발 정부 국민
  • 28. 탑쿼드란트 코리아 전략팀 추윤미 ymchu@topquadrant.co.kr 홈페이지 : http://www.topquadrant.co.kr 블로그 : http://blog.topquadrant.co.kr