SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
大数据时代的图书馆
                    big data:
              From the Library of Books
                to the Library of Data


                    上海图书馆 刘 炜
                     kevenlw @ gmail.com



12年7月18日星期三                                1
There were 5 exabytes of information created between
              the dawn of civilization through 2003, but that much
              information is now created every 2 days, and the pace
              is increasing.

              从开天辟地至2003年,人类大约总共生产了5
              exabytes的信息。现在我们每两天就制造这么多信
              息。

                         ----Eric Schmidt, Former Google CEO, Techonomy Conference,
                                                                     August 4, 2010




12年7月18日星期三                                                                           2
Data is becoming the new raw material of business: an
              economic input almost on a par with capital and
              labour. “Every day I wake up and ask, ‘how can I flow
              data better, manage data better, analyse data better?”

              数据正在成为一种新的原材料,与资本和劳动力几
              乎同等重要。每天清晨我一醒来就会问自己:我能
              如何使数据运行得更顺畅、管理得更有效、分析得
              更透彻?

                --Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The
                                                          Economist, February 25, 2010




12年7月18日星期三                                                                              3
大纲 Outline
              大数据概念 What is Big Data?
              大数据的缘起 Where it comes from?
              大数据为什么重要 Why Big Data?
              大数据实例 Two Case Studies
              大数据与数字图书馆 Big Data and Digital
              Librarianship
              大数据时代图书馆员的角色 Library role to
              Tame the Big Data


12年7月18日星期三                                    4
什么是大数据
                   What is BD?

              数量庞大 Volume     当每个人都拥有不止⼀一台电脑,每
                              个手机都是⼀一台传感器;当摄像头
                              无所不在,每件东西都有⼀一个RFID
              变化迅速 Velocity   标签;当每个人的每个活动、甚至
                              每个心情都记载于社会性网络,而
                              互联网把所有这⼀一切都连结在⼀一起
              类型众多 Variety    的时候,每时每刻产生的信息可能
                              是⼀一个巨大的矿藏。它不仅勾画出
                              现实世界正在发生的图景,而且蕴

              价值巨大 Value      藏着惊人的秘密。这是在过去的岁
                              月中采取任何方式都无法获知的。



                                        From IBM


12年7月18日星期三                                        5
泥板文书 Cuneiform




12年7月18日星期三                    6
大数据来自何处
              Where BD comes from?




              Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)
                                Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)(
12年7月18日星期三                                                                                                                                 7
大数据有多大?




      Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-
                                   infographic/ctlinfographic/
12年7月18日星期三                                                                                   8
大数据有多大?




      Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-
                                   infographic/ctlinfographic/
12年7月18日星期三                                                                                   9
Yottabyte
                                       Zettabyte
                             Exabyte
                  Petabyte




              兆、京(吉)、太、拍、艾、泽、尧字节
12年7月18日星期三                                                    10
大数据来自何处
              Where BD comes from?

              科学计算 The large data collections of “big
              science” projects

              网络应用 The data holdings of a Google,
              Facebook or other large Web company
              (Taobao, Twitter)

              企业数据 The enterprise data of large, non-
              Web-based companies (IBM, TATA, etc.)

                                           From Jim Hendler


12年7月18日星期三                                                   11
清醒认识大数据
                   Why BD?

              多大才大 How BIG is big?

              大意味着什么 What BIG means?

              为什么要大数据 Why BIG so attractive?

              谁来驯服大数据 Who deal with BIG Data?



12年7月18日星期三                                     12
大数据特点
              New Characteristics

              结构化程度不高 NoSQL, weak structural

              向第三方应用开放 Third party application
              and extension (open for mashup)

              向语义化方向发展 Semantics (e.g..
              schema.org, RDF)


                                       From Jim Hendler

12年7月18日星期三                                               13
大数据是一项颠覆性技术,继信息高速公路、数
              字图书馆、赛百基础设施之后的新热点,一脉相
              承。Tame the Web到Tame the Big Data

              大数据研究有助于释放复杂数据中的智能。

              大数据的价值并不在于能帮我们做出神奇的事
              情,而是成为我们日常社会生活的基础设施。

              对于图书馆而言,大数据是Data Preservation和
              Data Curation的自然延伸




12年7月18日星期三                                      14
对大数据的需求
               New Requirements
              全网搜索 (Web-scale) data search

              众包建模 “Crowd-sourced” modeling

              快速虚拟整合 Rapid (and potentially ad hoc)
              integration of datasets

               可视化及局域建模分析Visualization and analysis
              of only-partially modeled datasets

              数据开放、复用及联结政策,Policies for data
              use, reuse and combination.
                                             From Jim Hendler


12年7月18日星期三                                                     15
大数据解决方案示意




         Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png
12年7月18日星期三                                                                           16
举例:两个领域
               Two Case Studies

              数据驱动型研究(数据密集型科
              学)Data Driven Research (Data
              Intensive Science)

              开放政府(信息公开服务)Open
              Government (Information Services)


12年7月18日星期三                                       17
数据驱动型研究
              Data Driven Research
              假设驱动型研究

                逐渐涌现:
                 数据驱动
                  模拟
                 预测驱动
                 自动试验
               虚拟团队研究
              等等新型研究模式

                  From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                       18
科学研究的第四范式
          The Fourth Paradigm
              1.上千年前:经验描述
              2.数百年前:理论总结
              3.几十年前:现象模拟
              4.当前:eScience,融
               合经验总结、理论与
               模拟;数据由仪器采
               集或模拟得到;经云
               端或众包处理;由数
               据科学家和计算机专
               家参与管理并可视
               化,最终交科学家分
               析总结。


12年7月18日星期三                     19
科学的摸样
              The Map of Science




     From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP7
12年7月18日星期三                                                                                                  20
政府信息公开                                     Government Data Sharing: “Year 1”

                                                  Open-Gov                                                                                   Tetherless World Constellation




                                                                             data.gov online                                    Open Government                                 data.gov relaunch
          January 1, 2009




                                                                                                      December 8, 2009
                             Openness will strengthen




                                                                                                                                                                 May 21, 2010
                                                           May 21, 2009

                            our democracy and promote                                                                          Directive released                               with semantic web
                                                                             57 Data Sets                                      ~2000 Data Sets                                  featured
                            efficiency and effectiveness
                            in Government.                                                                                                                                       >305,000 Data Sets
                                     --- President Obama



        2009                                                                                                                                                                               2010 …
                                                                                                                         January 19, 2010
                                                                    June30,2009




                                                                                  Putting Govt Data                                                                              ~6000 Data Set
                                                                                  online-
                                                                                  Data.gov.uk beta                                          data.gov.uk online




                                                                                                                                                                  From Jim Hendler


12年7月18日星期三                                                                                                                                                                                           21
政府信息公开
                  Government Data Sharing: Year 2

               Open-Gov   Tetherless World Constellation




                                       From Jim Hendler

12年7月18日星期三                                                22
政府信息公开
               Government Data in the linked open data cloud


               Open-Gov                 Tetherless World Constellation




                   Government Data is
                   currently over ½ the cloud in
                   size (~17B triples), 10s of
                   thousands of links to other
                   data (within and without)

               http://linkeddata.org/
                                                   From Jim Hendler
12年7月18日星期三                                                              23
政府信息公开
               Open-Gov
                    Tetherless World Constellation




                               From Jim Hendler
12年7月18日星期三                                          24
政府信息公开            Linking GDP of the US and China


                                           Open-Gov                    Tetherless World Constellation



      GDP of the US (Billion Dollar)




                               This mashup was built in less than 4 hours –
                               including conversion of data, web interface, and
                               visualization!
   GDP of China (Billion Chinese Yuan )




                                          [Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn
                                                                                       From Jim Hendler
12年7月18日星期三                                                                                               25
大数据与图书馆
              Big Data enabled Library




              Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/

12年7月18日星期三                                                                                 26
大数据与图书馆
              Big Data enabled Library




   Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html

12年7月18日星期三                                                                                    27
大数据与图书馆
              Big Data enabled Library




   Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-
                                  series-of-big-data-reports/
12年7月18日星期三                                                                                   28
大数据对图书馆为什么重要?
              Why Library’s matter?

              数据保存 Data Preservation
              数据看护 Data Curation
              大数据公共服务 Public Big Data Services
              大数据是图书馆信息服务和资源发现必须面
              临的问题,是图书馆资源发现克服目前技术
              和模式的局限性,获得突破创新的关键。



12年7月18日星期三                                      29
目前的图书馆“大数据”服务
              Current Library BD Services


              数字图书馆 Digital Library

              机构库 Institutional Repository

              资源到所,服务到人,嵌入一线,融入过程。
              Ubiquitous Services

              决策咨询服务 Think Tank Consultancy




12年7月18日星期三                                   30
图书馆的大数据业务
          Library Powered BD Services
              Search/Discover) Serendipitous)Finding)                   Integrated)search)
                               Collabora&ve)Searching)                  Automa&c)paper)download)
                                                                        Con&nual)queries)
                               Structural)Search)                       Paper)recommenda&on)
                               Keeping)Current)                         Alert)
                                                                        )
              Gather)           Collec&ng)                              Project))and)Personal))
                                                                        Internal)search)
                                Manage)                                 Refereed)and)Grey)literature)
                                Organizing)
                                                                        )
              Create)           Annota&ng)                              Tag,)annotate,)rate))
                                Review)&)Rate)                          Templates)
                                Describe)                               Mul&Lauthor)authoring)
                                Write)
              Share)                                                    Bibliography)management)
                                Publish)                                Version)management)
                                Sharing)                                Copyright)tools)(CC)and)SC))
                                Rights)                                 Linking)up)data,)models)and)other)
                                                                        components)


                              From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                                                  31
图书馆的大数据业务
          Library Powered BD Services
              Search/Discover) Serendipitous)Finding)                   Integrated)search)
                               Collabora&ve)Searching)                  Automa&c)paper)download)
                                                                        Con&nual)queries)
                               Structural)Search)                       Paper)recommenda&on)
                               Keeping)Current)                         Alert)
                                                                        )
              Gather)           Collec&ng)                              Project))and)Personal))
                                                                        Internal)search)
                                Manage)                                 Refereed)and)Grey)literature)
                                Organizing)
                                                                        )
              Create)           Annota&ng)                              Tag,)annotate,)rate))
                                Review)&)Rate)                          Templates)
                                Describe)                               Mul&Lauthor)authoring)
                                Write)
              Share)                                                    Bibliography)management)
                                Publish)                                Version)management)
                                Sharing)                                Copyright)tools)(CC)and)SC))
                                Rights)                                 Linking)up)data,)models)and)other)
                                                                        components)
         最重要的:数据的有序组织和规范控制
                              From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                                                  31
大数据时代图书馆员角色
                     BD Librarian
              可信的看护者                                           格式监管
              Trusted curator                                  Format authority

              可信的管理员                                           内容增值Add value
              Trusted data manager                             content provider

              质量审核                                             元数据/词表提供
              Quality arbiter                                  Metadata / controlled
                                                               vocabulary provider
              知识播种机
              Knowledge                                        服务增值Add value
              disseminator                                     service provider
                       From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                            32
新岗位,新称号
        New Position with New Requirements




  From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
12年7月18日星期三                                                                                     33
新岗位,新称号
        New Position with New Requirements




  From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
12年7月18日星期三                                                                                     34
可视化:Twitter数据流




              Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/
12年7月18日星期三                                                                              35
DEMO
              演示:大数据可视化




12年7月18日星期三               36
12年7月18日星期三   37
大数据时代的图书馆
                    big data:
              From the Library of Books
                to the Library of Data


                    上海图书馆 刘 炜
                     kevenlw @ gmail.com



12年7月18日星期三                                38

Mais conteúdo relacionado

Mais procurados

Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Etu Solution
 
20140206 victor gau - r簡介 @ ksdg
20140206   victor gau - r簡介 @ ksdg20140206   victor gau - r簡介 @ ksdg
20140206 victor gau - r簡介 @ ksdgVictor Gau
 
轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購Fred Chiang
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景Etu Solution
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
何謂大數據
何謂大數據何謂大數據
何謂大數據kngchn
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例Fred Chiang
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野Fred Chiang
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Etu Solution
 
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全Jerry Wen
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介codefortomorrow
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖Etu Solution
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘chernbb
 
鄧白氏大數據2015_SalesMarketing
鄧白氏大數據2015_SalesMarketing鄧白氏大數據2015_SalesMarketing
鄧白氏大數據2015_SalesMarketingFang-hsun Yeh
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingGandalf Huang
 
Big Data vs. Open Data
Big Data vs. Open DataBig Data vs. Open Data
Big Data vs. Open DataFred Chiang
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合Gene Hong
 
Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Fang-hsun Yeh
 

Mais procurados (20)

Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動
 
10708
1070810708
10708
 
大數據
大數據大數據
大數據
 
20140206 victor gau - r簡介 @ ksdg
20140206   victor gau - r簡介 @ ksdg20140206   victor gau - r簡介 @ ksdg
20140206 victor gau - r簡介 @ ksdg
 
轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
何謂大數據
何謂大數據何謂大數據
何謂大數據
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘
 
鄧白氏大數據2015_SalesMarketing
鄧白氏大數據2015_SalesMarketing鄧白氏大數據2015_SalesMarketing
鄧白氏大數據2015_SalesMarketing
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharing
 
Big Data vs. Open Data
Big Data vs. Open DataBig Data vs. Open Data
Big Data vs. Open Data
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
 
Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015
 

Destaque

海量資料與圖書館
海量資料與圖書館海量資料與圖書館
海量資料與圖書館皓仁 柯
 
Altmetrics presentation mla'14 chinese version
Altmetrics presentation mla'14 chinese versionAltmetrics presentation mla'14 chinese version
Altmetrics presentation mla'14 chinese versionLilian Takahashi Hoffecker
 
Altmetrics 2014-4-15-slideshare
Altmetrics 2014-4-15-slideshareAltmetrics 2014-4-15-slideshare
Altmetrics 2014-4-15-slideshareCMHSL
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data邦宇 叶
 
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)Ye (Julia) Li
 
BDTC2015 小米-大数据和小米金融
BDTC2015 小米-大数据和小米金融BDTC2015 小米-大数据和小米金融
BDTC2015 小米-大数据和小米金融Jerry Wen
 
大數據導讀
大數據導讀大數據導讀
大數據導讀良政 張
 
大数据漫谈-bilibili
大数据漫谈-bilibili大数据漫谈-bilibili
大数据漫谈-bilibili不持
 
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告Jerry Wen
 
超基本網站分析,數據會說話(網路版)
超基本網站分析,數據會說話(網路版)超基本網站分析,數據會說話(網路版)
超基本網站分析,數據會說話(網路版)Wanju Wang
 
行動廣告與大數據資料分析策略與執行
行動廣告與大數據資料分析策略與執行行動廣告與大數據資料分析策略與執行
行動廣告與大數據資料分析策略與執行Craig Chao
 

Destaque (11)

海量資料與圖書館
海量資料與圖書館海量資料與圖書館
海量資料與圖書館
 
Altmetrics presentation mla'14 chinese version
Altmetrics presentation mla'14 chinese versionAltmetrics presentation mla'14 chinese version
Altmetrics presentation mla'14 chinese version
 
Altmetrics 2014-4-15-slideshare
Altmetrics 2014-4-15-slideshareAltmetrics 2014-4-15-slideshare
Altmetrics 2014-4-15-slideshare
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
 
BDTC2015 小米-大数据和小米金融
BDTC2015 小米-大数据和小米金融BDTC2015 小米-大数据和小米金融
BDTC2015 小米-大数据和小米金融
 
大數據導讀
大數據導讀大數據導讀
大數據導讀
 
大数据漫谈-bilibili
大数据漫谈-bilibili大数据漫谈-bilibili
大数据漫谈-bilibili
 
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
 
超基本網站分析,數據會說話(網路版)
超基本網站分析,數據會說話(網路版)超基本網站分析,數據會說話(網路版)
超基本網站分析,數據會說話(網路版)
 
行動廣告與大數據資料分析策略與執行
行動廣告與大數據資料分析策略與執行行動廣告與大數據資料分析策略與執行
行動廣告與大數據資料分析策略與執行
 

Semelhante a Silf2012lw3

Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Lawrence Huang
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题hdhappy001
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214
認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214
認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214張大明 Ta-Ming Chang
 
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路Net Tuesday Taiwan
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
Data Strategy (資料策略)
Data Strategy (資料策略)Data Strategy (資料策略)
Data Strategy (資料策略)DSP智庫驅動
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學ckliu
 
大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢Anna Yen
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Fred Chiang
 
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧Mix Taiwan
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
DSP Wellcome
DSP WellcomeDSP Wellcome
DSP WellcomeTim Hong
 
Open Campus 2012 @ Taipei
Open Campus 2012 @ TaipeiOpen Campus 2012 @ Taipei
Open Campus 2012 @ TaipeiTH Schee
 
從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統Gene Hong
 
数据科学家
数据科学家数据科学家
数据科学家Felix Liu
 

Semelhante a Silf2012lw3 (20)

Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214
認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214
認識人工智慧與發展應用(台北市公訓處與程曦資訊企業參訪) 20171214
 
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
Data Strategy (資料策略)
Data Strategy (資料策略)Data Strategy (資料策略)
Data Strategy (資料策略)
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
 
大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢大數據與資料科學人才現況與趨勢
大數據與資料科學人才現況與趨勢
 
Dmresearch
DmresearchDmresearch
Dmresearch
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
What is big data
What is big dataWhat is big data
What is big data
 
DSP Wellcome
DSP WellcomeDSP Wellcome
DSP Wellcome
 
Open Campus 2012 @ Taipei
Open Campus 2012 @ TaipeiOpen Campus 2012 @ Taipei
Open Campus 2012 @ Taipei
 
從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統
 
数据科学家
数据科学家数据科学家
数据科学家
 
1
11
1
 

Mais de Shanghai Library

Mais de Shanghai Library (20)

数字阅读推广与大数据
数字阅读推广与大数据数字阅读推广与大数据
数字阅读推广与大数据
 
阅读:从哪里来?向何处去?
阅读:从哪里来?向何处去?阅读:从哪里来?向何处去?
阅读:从哪里来?向何处去?
 
Ecnu2014
Ecnu2014Ecnu2014
Ecnu2014
 
关于馆藏资源语义聚合及相关标准规范的思考
关于馆藏资源语义聚合及相关标准规范的思考关于馆藏资源语义聚合及相关标准规范的思考
关于馆藏资源语义聚合及相关标准规范的思考
 
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
 
数字人文与关联数据
数字人文与关联数据数字人文与关联数据
数字人文与关联数据
 
Smart library
Smart librarySmart library
Smart library
 
Meet up Google Glass
Meet up Google GlassMeet up Google Glass
Meet up Google Glass
 
资源发现可以更美
资源发现可以更美资源发现可以更美
资源发现可以更美
 
Archive it2b
Archive it2bArchive it2b
Archive it2b
 
ADLS 2013 Shen Zhen
ADLS 2013 Shen Zhen ADLS 2013 Shen Zhen
ADLS 2013 Shen Zhen
 
20130521 ecust
20130521 ecust20130521 ecust
20130521 ecust
 
20130339广州
20130339广州20130339广州
20130339广州
 
研讨班概述
研讨班概述研讨班概述
研讨班概述
 
数字阅读汇报
数字阅读汇报数字阅读汇报
数字阅读汇报
 
Hangzhoulib
HangzhoulibHangzhoulib
Hangzhoulib
 
馆庆汇报5月
馆庆汇报5月馆庆汇报5月
馆庆汇报5月
 
数字阅读 问答
数字阅读 问答数字阅读 问答
数字阅读 问答
 
深圳Ils1
深圳Ils1深圳Ils1
深圳Ils1
 
M library
M libraryM library
M library
 

Silf2012lw3

  • 1. 大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com 12年7月18日星期三 1
  • 2. There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing. 从开天辟地至2003年,人类大约总共生产了5 exabytes的信息。现在我们每两天就制造这么多信 息。 ----Eric Schmidt, Former Google CEO, Techonomy Conference, August 4, 2010 12年7月18日星期三 2
  • 3. Data is becoming the new raw material of business: an economic input almost on a par with capital and labour. “Every day I wake up and ask, ‘how can I flow data better, manage data better, analyse data better?” 数据正在成为一种新的原材料,与资本和劳动力几 乎同等重要。每天清晨我一醒来就会问自己:我能 如何使数据运行得更顺畅、管理得更有效、分析得 更透彻? --Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The Economist, February 25, 2010 12年7月18日星期三 3
  • 4. 大纲 Outline 大数据概念 What is Big Data? 大数据的缘起 Where it comes from? 大数据为什么重要 Why Big Data? 大数据实例 Two Case Studies 大数据与数字图书馆 Big Data and Digital Librarianship 大数据时代图书馆员的角色 Library role to Tame the Big Data 12年7月18日星期三 4
  • 5. 什么是大数据 What is BD? 数量庞大 Volume 当每个人都拥有不止⼀一台电脑,每 个手机都是⼀一台传感器;当摄像头 无所不在,每件东西都有⼀一个RFID 变化迅速 Velocity 标签;当每个人的每个活动、甚至 每个心情都记载于社会性网络,而 互联网把所有这⼀一切都连结在⼀一起 类型众多 Variety 的时候,每时每刻产生的信息可能 是⼀一个巨大的矿藏。它不仅勾画出 现实世界正在发生的图景,而且蕴 价值巨大 Value 藏着惊人的秘密。这是在过去的岁 月中采取任何方式都无法获知的。 From IBM 12年7月18日星期三 5
  • 7. 大数据来自何处 Where BD comes from? Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups) Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)( 12年7月18日星期三 7
  • 8. 大数据有多大? Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge- infographic/ctlinfographic/ 12年7月18日星期三 8
  • 9. 大数据有多大? Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge- infographic/ctlinfographic/ 12年7月18日星期三 9
  • 10. Yottabyte Zettabyte Exabyte Petabyte 兆、京(吉)、太、拍、艾、泽、尧字节 12年7月18日星期三 10
  • 11. 大数据来自何处 Where BD comes from? 科学计算 The large data collections of “big science” projects 网络应用 The data holdings of a Google, Facebook or other large Web company (Taobao, Twitter) 企业数据 The enterprise data of large, non- Web-based companies (IBM, TATA, etc.) From Jim Hendler 12年7月18日星期三 11
  • 12. 清醒认识大数据 Why BD? 多大才大 How BIG is big? 大意味着什么 What BIG means? 为什么要大数据 Why BIG so attractive? 谁来驯服大数据 Who deal with BIG Data? 12年7月18日星期三 12
  • 13. 大数据特点 New Characteristics 结构化程度不高 NoSQL, weak structural 向第三方应用开放 Third party application and extension (open for mashup) 向语义化方向发展 Semantics (e.g.. schema.org, RDF) From Jim Hendler 12年7月18日星期三 13
  • 14. 大数据是一项颠覆性技术,继信息高速公路、数 字图书馆、赛百基础设施之后的新热点,一脉相 承。Tame the Web到Tame the Big Data 大数据研究有助于释放复杂数据中的智能。 大数据的价值并不在于能帮我们做出神奇的事 情,而是成为我们日常社会生活的基础设施。 对于图书馆而言,大数据是Data Preservation和 Data Curation的自然延伸 12年7月18日星期三 14
  • 15. 对大数据的需求 New Requirements 全网搜索 (Web-scale) data search 众包建模 “Crowd-sourced” modeling 快速虚拟整合 Rapid (and potentially ad hoc) integration of datasets 可视化及局域建模分析Visualization and analysis of only-partially modeled datasets 数据开放、复用及联结政策,Policies for data use, reuse and combination. From Jim Hendler 12年7月18日星期三 15
  • 16. 大数据解决方案示意 Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png 12年7月18日星期三 16
  • 17. 举例:两个领域 Two Case Studies 数据驱动型研究(数据密集型科 学)Data Driven Research (Data Intensive Science) 开放政府(信息公开服务)Open Government (Information Services) 12年7月18日星期三 17
  • 18. 数据驱动型研究 Data Driven Research 假设驱动型研究 逐渐涌现: 数据驱动 模拟 预测驱动 自动试验 虚拟团队研究 等等新型研究模式 From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 18
  • 19. 科学研究的第四范式 The Fourth Paradigm 1.上千年前:经验描述 2.数百年前:理论总结 3.几十年前:现象模拟 4.当前:eScience,融 合经验总结、理论与 模拟;数据由仪器采 集或模拟得到;经云 端或众包处理;由数 据科学家和计算机专 家参与管理并可视 化,最终交科学家分 析总结。 12年7月18日星期三 19
  • 20. 科学的摸样 The Map of Science From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP7 12年7月18日星期三 20
  • 21. 政府信息公开 Government Data Sharing: “Year 1” Open-Gov Tetherless World Constellation data.gov online Open Government data.gov relaunch January 1, 2009 December 8, 2009 Openness will strengthen May 21, 2010 May 21, 2009 our democracy and promote Directive released with semantic web 57 Data Sets ~2000 Data Sets featured efficiency and effectiveness in Government. >305,000 Data Sets --- President Obama 2009 2010 … January 19, 2010 June30,2009 Putting Govt Data ~6000 Data Set online- Data.gov.uk beta data.gov.uk online From Jim Hendler 12年7月18日星期三 21
  • 22. 政府信息公开 Government Data Sharing: Year 2 Open-Gov Tetherless World Constellation From Jim Hendler 12年7月18日星期三 22
  • 23. 政府信息公开 Government Data in the linked open data cloud Open-Gov Tetherless World Constellation Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) http://linkeddata.org/ From Jim Hendler 12年7月18日星期三 23
  • 24. 政府信息公开 Open-Gov Tetherless World Constellation From Jim Hendler 12年7月18日星期三 24
  • 25. 政府信息公开 Linking GDP of the US and China Open-Gov Tetherless World Constellation GDP of the US (Billion Dollar) This mashup was built in less than 4 hours – including conversion of data, web interface, and visualization! GDP of China (Billion Chinese Yuan ) [Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn From Jim Hendler 12年7月18日星期三 25
  • 26. 大数据与图书馆 Big Data enabled Library Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/ 12年7月18日星期三 26
  • 27. 大数据与图书馆 Big Data enabled Library Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html 12年7月18日星期三 27
  • 28. 大数据与图书馆 Big Data enabled Library Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a- series-of-big-data-reports/ 12年7月18日星期三 28
  • 29. 大数据对图书馆为什么重要? Why Library’s matter? 数据保存 Data Preservation 数据看护 Data Curation 大数据公共服务 Public Big Data Services 大数据是图书馆信息服务和资源发现必须面 临的问题,是图书馆资源发现克服目前技术 和模式的局限性,获得突破创新的关键。 12年7月18日星期三 29
  • 30. 目前的图书馆“大数据”服务 Current Library BD Services 数字图书馆 Digital Library 机构库 Institutional Repository 资源到所,服务到人,嵌入一线,融入过程。 Ubiquitous Services 决策咨询服务 Think Tank Consultancy 12年7月18日星期三 30
  • 31. 图书馆的大数据业务 Library Powered BD Services Search/Discover) Serendipitous)Finding) Integrated)search) Collabora&ve)Searching) Automa&c)paper)download) Con&nual)queries) Structural)Search) Paper)recommenda&on) Keeping)Current) Alert) ) Gather) Collec&ng) Project))and)Personal)) Internal)search) Manage) Refereed)and)Grey)literature) Organizing) ) Create) Annota&ng) Tag,)annotate,)rate)) Review)&)Rate) Templates) Describe) Mul&Lauthor)authoring) Write) Share) Bibliography)management) Publish) Version)management) Sharing) Copyright)tools)(CC)and)SC)) Rights) Linking)up)data,)models)and)other) components) From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 31
  • 32. 图书馆的大数据业务 Library Powered BD Services Search/Discover) Serendipitous)Finding) Integrated)search) Collabora&ve)Searching) Automa&c)paper)download) Con&nual)queries) Structural)Search) Paper)recommenda&on) Keeping)Current) Alert) ) Gather) Collec&ng) Project))and)Personal)) Internal)search) Manage) Refereed)and)Grey)literature) Organizing) ) Create) Annota&ng) Tag,)annotate,)rate)) Review)&)Rate) Templates) Describe) Mul&Lauthor)authoring) Write) Share) Bibliography)management) Publish) Version)management) Sharing) Copyright)tools)(CC)and)SC)) Rights) Linking)up)data,)models)and)other) components) 最重要的:数据的有序组织和规范控制 From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 31
  • 33. 大数据时代图书馆员角色 BD Librarian 可信的看护者 格式监管 Trusted curator Format authority 可信的管理员 内容增值Add value Trusted data manager content provider 质量审核 元数据/词表提供 Quality arbiter Metadata / controlled vocabulary provider 知识播种机 Knowledge 服务增值Add value disseminator service provider From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 32
  • 34. 新岗位,新称号 New Position with New Requirements From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade” 12年7月18日星期三 33
  • 35. 新岗位,新称号 New Position with New Requirements From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade” 12年7月18日星期三 34
  • 36. 可视化:Twitter数据流 Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/ 12年7月18日星期三 35
  • 37. DEMO 演示:大数据可视化 12年7月18日星期三 36
  • 39. 大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com 12年7月18日星期三 38