1. 大数据时代的图书馆
big data:
From the Library of Books
to the Library of Data
上海图书馆 刘 炜
kevenlw @ gmail.com
12年7月18日星期三 1
2. There were 5 exabytes of information created between
the dawn of civilization through 2003, but that much
information is now created every 2 days, and the pace
is increasing.
从开天辟地至2003年,人类大约总共生产了5
exabytes的信息。现在我们每两天就制造这么多信
息。
----Eric Schmidt, Former Google CEO, Techonomy Conference,
August 4, 2010
12年7月18日星期三 2
3. Data is becoming the new raw material of business: an
economic input almost on a par with capital and
labour. “Every day I wake up and ask, ‘how can I flow
data better, manage data better, analyse data better?”
数据正在成为一种新的原材料,与资本和劳动力几
乎同等重要。每天清晨我一醒来就会问自己:我能
如何使数据运行得更顺畅、管理得更有效、分析得
更透彻?
--Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The
Economist, February 25, 2010
12年7月18日星期三 3
4. 大纲 Outline
大数据概念 What is Big Data?
大数据的缘起 Where it comes from?
大数据为什么重要 Why Big Data?
大数据实例 Two Case Studies
大数据与数字图书馆 Big Data and Digital
Librarianship
大数据时代图书馆员的角色 Library role to
Tame the Big Data
12年7月18日星期三 4
5. 什么是大数据
What is BD?
数量庞大 Volume 当每个人都拥有不止⼀一台电脑,每
个手机都是⼀一台传感器;当摄像头
无所不在,每件东西都有⼀一个RFID
变化迅速 Velocity 标签;当每个人的每个活动、甚至
每个心情都记载于社会性网络,而
互联网把所有这⼀一切都连结在⼀一起
类型众多 Variety 的时候,每时每刻产生的信息可能
是⼀一个巨大的矿藏。它不仅勾画出
现实世界正在发生的图景,而且蕴
价值巨大 Value 藏着惊人的秘密。这是在过去的岁
月中采取任何方式都无法获知的。
From IBM
12年7月18日星期三 5
7. 大数据来自何处
Where BD comes from?
Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)
Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)(
12年7月18日星期三 7
11. 大数据来自何处
Where BD comes from?
科学计算 The large data collections of “big
science” projects
网络应用 The data holdings of a Google,
Facebook or other large Web company
(Taobao, Twitter)
企业数据 The enterprise data of large, non-
Web-based companies (IBM, TATA, etc.)
From Jim Hendler
12年7月18日星期三 11
12. 清醒认识大数据
Why BD?
多大才大 How BIG is big?
大意味着什么 What BIG means?
为什么要大数据 Why BIG so attractive?
谁来驯服大数据 Who deal with BIG Data?
12年7月18日星期三 12
13. 大数据特点
New Characteristics
结构化程度不高 NoSQL, weak structural
向第三方应用开放 Third party application
and extension (open for mashup)
向语义化方向发展 Semantics (e.g..
schema.org, RDF)
From Jim Hendler
12年7月18日星期三 13
14. 大数据是一项颠覆性技术,继信息高速公路、数
字图书馆、赛百基础设施之后的新热点,一脉相
承。Tame the Web到Tame the Big Data
大数据研究有助于释放复杂数据中的智能。
大数据的价值并不在于能帮我们做出神奇的事
情,而是成为我们日常社会生活的基础设施。
对于图书馆而言,大数据是Data Preservation和
Data Curation的自然延伸
12年7月18日星期三 14
15. 对大数据的需求
New Requirements
全网搜索 (Web-scale) data search
众包建模 “Crowd-sourced” modeling
快速虚拟整合 Rapid (and potentially ad hoc)
integration of datasets
可视化及局域建模分析Visualization and analysis
of only-partially modeled datasets
数据开放、复用及联结政策,Policies for data
use, reuse and combination.
From Jim Hendler
12年7月18日星期三 15
17. 举例:两个领域
Two Case Studies
数据驱动型研究(数据密集型科
学)Data Driven Research (Data
Intensive Science)
开放政府(信息公开服务)Open
Government (Information Services)
12年7月18日星期三 17
18. 数据驱动型研究
Data Driven Research
假设驱动型研究
逐渐涌现:
数据驱动
模拟
预测驱动
自动试验
虚拟团队研究
等等新型研究模式
From:
Carole
Goble
“the
Future
of
Research”
12年7月18日星期三 18
20. 科学的摸样
The Map of Science
From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP7
12年7月18日星期三 20
21. 政府信息公开 Government Data Sharing: “Year 1”
Open-Gov Tetherless World Constellation
data.gov online Open Government data.gov relaunch
January 1, 2009
December 8, 2009
Openness will strengthen
May 21, 2010
May 21, 2009
our democracy and promote Directive released with semantic web
57 Data Sets ~2000 Data Sets featured
efficiency and effectiveness
in Government. >305,000 Data Sets
--- President Obama
2009 2010 …
January 19, 2010
June30,2009
Putting Govt Data ~6000 Data Set
online-
Data.gov.uk beta data.gov.uk online
From Jim Hendler
12年7月18日星期三 21
22. 政府信息公开
Government Data Sharing: Year 2
Open-Gov Tetherless World Constellation
From Jim Hendler
12年7月18日星期三 22
23. 政府信息公开
Government Data in the linked open data cloud
Open-Gov Tetherless World Constellation
Government Data is
currently over ½ the cloud in
size (~17B triples), 10s of
thousands of links to other
data (within and without)
http://linkeddata.org/
From Jim Hendler
12年7月18日星期三 23
24. 政府信息公开
Open-Gov
Tetherless World Constellation
From Jim Hendler
12年7月18日星期三 24
25. 政府信息公开 Linking GDP of the US and China
Open-Gov Tetherless World Constellation
GDP of the US (Billion Dollar)
This mashup was built in less than 4 hours –
including conversion of data, web interface, and
visualization!
GDP of China (Billion Chinese Yuan )
[Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn
From Jim Hendler
12年7月18日星期三 25
26. 大数据与图书馆
Big Data enabled Library
Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/
12年7月18日星期三 26
27. 大数据与图书馆
Big Data enabled Library
Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html
12年7月18日星期三 27
28. 大数据与图书馆
Big Data enabled Library
Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-
series-of-big-data-reports/
12年7月18日星期三 28
29. 大数据对图书馆为什么重要?
Why Library’s matter?
数据保存 Data Preservation
数据看护 Data Curation
大数据公共服务 Public Big Data Services
大数据是图书馆信息服务和资源发现必须面
临的问题,是图书馆资源发现克服目前技术
和模式的局限性,获得突破创新的关键。
12年7月18日星期三 29
30. 目前的图书馆“大数据”服务
Current Library BD Services
数字图书馆 Digital Library
机构库 Institutional Repository
资源到所,服务到人,嵌入一线,融入过程。
Ubiquitous Services
决策咨询服务 Think Tank Consultancy
12年7月18日星期三 30
33. 大数据时代图书馆员角色
BD Librarian
可信的看护者 格式监管
Trusted curator Format authority
可信的管理员 内容增值Add value
Trusted data manager content provider
质量审核 元数据/词表提供
Quality arbiter Metadata / controlled
vocabulary provider
知识播种机
Knowledge 服务增值Add value
disseminator service provider
From:
Carole
Goble
“the
Future
of
Research”
12年7月18日星期三 32
34. 新岗位,新称号
New Position with New Requirements
From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
12年7月18日星期三 33
35. 新岗位,新称号
New Position with New Requirements
From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
12年7月18日星期三 34