4. Germ any’ Erik Zabel (M
s ilram/Ita), Belgium s Tom Boonen (Quick Step/Bel) and
’
South Africa’ Robert Hunter (Barlow
s orld/GBR) sprint towards the finish line of the
12th stage of the 94th Tour de France cycling race betw een M ontpellier and
Castres, 20 July 2007. Boonen w the stage.
on
5. (From R) South Africa’ Robert Hunter (Barlow
s orld/GBR), Italy’ Filippo Pozzato
s
(Liquigas/Ita) and Sw itzerland’ Fabian Cancellara (CSC/Den) sprint tow
s ards the
finish line of the 11th stage of the 94th Tour de France cycling race betw een
M arseille and M ontpellier, 19 July 2007. Hunter w the stage.
on
8. S yb a s e IQ 填补 “ 分析缺口 ”
Sybase IQ Scalability
Analytics Requirements Sybase IQ
Scalability of Traditional Solutions
ns
s tio Analytics
e Capability
Qu
Systems Scalability
r Gap
he
ug a
To
re Dat
Mo
ers
Mo re Us
Projected
Potential Analytics
Scaling
Capabilities
Industry Evolution
11. 专业的分析服务器时代已经到来
特定的分析服务器
Column
DBMS
Column
DBMS
Superior Price/Performance
Appliances
Increasing Analytics
传统数库解决方案
Row
DBMS MPP
Accelerators Appliances
Row
Row DBMS
DBMS Appliances
Increasing Ease of Deployment and Management
12. 列式数据库是革命性的
传统行式数据库
数据是按行存储的
• • • • • • • • •
c c c c c c c c c
•
…
1 2 3 4 5 6 7 8 9 没有索引的查询使用大量 I/O
r1
r2 建立索引和物化视图需要花费大量时间和资源
r3 面对查询的需求,数据库必须被大量膨胀才能满
r4
足性能要求
r5
列式数据库
• • • • • • • • •
c c c c c c c c c
数据按列存储 –每一列单独存放
•
…
1 2 3 4 5 6 7 8 9 数据即是索引
r1
r2 只访问查询涉及的列 –大量降低系统 IO
r3 每一列由一个线索来处理 –查询的并发处理
r4
r5
数据类型一致,数据特征相似 –方便压缩
13. S yb a s e IQ 是绝对的市场领导者
# 1 列式分析服务器
• 为分析型应用提供服务超过 10年
• 比其他数据库快 10 到 1,000 倍
• 超过 4,000 独立安装点和 1,600 多客户,并且还在增长
• 2009 第一季度 – 保持全球两位数的 销售增长
14. 市场领导地位 : 数据分析
我们的分析解决方案所受的赞誉数不胜数。
领导地位 • # 1 列式分析服务器
• 全球 1,600名客户安装在4 ,000多个站点上
• 位列 2007 年 Gartner数据仓库 DBM 魔力象限图“
S 远见卓识”
象限
基准测试 • 1PB 数据量的数据仓库力证 Sybase IQ 的“预见未来”的可扩
展性,并同时节省 90%的耗电量和 91%的 CO2 排放
所获殊荣
• 2007 年被评为吉尼斯世界纪录之全球最大数据仓库
分析机构 • “我们正观察并等待能够赶上 Sybase IQ 的数据库实施… ”–
Carl Olofson, IDC
• “Sybase 一直以来都在不断赢取分析型应用的 POC,有时甚
至令竞争对手抓狂”– Donald Feinberg, Gartner
15. S yb a s e IQ 产品优势
速度 低 TCO
速 快速响应 T 经济性
• 10-1000 倍的快速查询响应 • 30-70% 数据压缩 , 而不是数据膨胀
• 基于列的存储结构 • 低成本
• 实时数据访问 • 更少硬件
• 无处不索引 • 更少的数据存储设备
• I/O 减少 90% • 更少的支持维护人员
可扩展性 灵活性
适应大量的用户数 灵 开放的标准
• 同时支持成百上千的用户数 • ANSI SQL (ODBC,JDBC)
• 从 GB 到上百个 TB 的数据 • Unix, Linux, Windows
• 接近实时的新数据装入—数据仓库的用户 • 任何的查询
查询几乎不受影响 • 任何的 schema
16. 议程
–S yb a s e IQ 市场领导地位
–S yb a s e IQ 典型应用场景
–S yb a s e IQ 1 5 新特性
–S yb a s e IQ 1 5 关键技术详解
–S yb a s e IQ 1 5 . 1 预览
16
17. S yb a s e IQ 1 5 典型应用场景
报表服务器 Re p o rtin g S e rvic e s
高级分析服务器 Ad va n c e d An a lytic s
数据聚合器 Da ta Ag g re g a to rs
信息生命周期管理 In fo rm a tio n Life c yc le
Ma n a g e m e n t NEW
19. 复杂分析服务器
Implementation and Methodology Expertise
Sybase Replication
Sybase ETL
Data Quality
Informatica
Ab Initio
IBM
EDW
Other/Future
Sources
Extract, Transform Analytics Data Model Predictive
Existing Systems
and Load Server Analytics
Data Modeling / Metadata Management / Business Process Modeling
20. 数据整合商 Da ta Ag g re g a to rs
• Data Aggregators = 收集和出售信息的公司
• 面临挑战:大数据量、大量并发用户、复杂查询、即席查询
21. 数据整合商 Da ta Ag g re g a to rs
另外的标签
M ortgage Risk Intelligence (LoanPerform ance)
Audience M easurem ent Services (Nielsen Media Research)
M arketing Research Provider (Clarity Blue)
National Statistical Agency (Statistics Canada)
Shopping Price Com parison (Shopzilla)
Retail Loyalty Program Provider (S&H Solutions)
Insurance Data Agencies (Korea Health Insurance Review Agency)
Securities M arket Regulation Agencies (SEC- USA, Korea
Inform ation Service)
Revenue Agencies (IRS- USA, Sao Paolo Treasury Departm ent-
Brazil)
Transportation Agencies (US DOT- Bureau of Transportation
Statistics)
Lottery Agencies (Taiw Lottery Technology Services Corporation
an
22. 信息生命周期管理 : 分级存储
Sep
Aug
Jul
Jun
Load “Hottest” Data Move Partition to
to Fastest Storage Lower-Cost Storage Drop Oldest
Partition
Jun May Apr Mar Feb Jan Dec
Fibre Channel or Solid State SAS or eSATA
Place “Hottest” Partitions in Fast Storage
Move Partitions to Lower-Cost Storage Over Time
23. S yb a s e IQ 1 5 应对更高挑战!
不断更新的市场要求
2. 数据爆炸 –更高的数据加载 / 处理功能
4. 可预测的查询性能
6. 信息资产保护
8. 系统可扩展性
10.管理复杂系统
Dependable
23
24. S yb a s e IQ 1 5 … 为智能分析而构建
高速实时 高性能 超快 高并发 客户端
数据加载 批量 ETL 并行分析 报表 数据加载和查询
Kerberos –Authenticated ECC/RSA/FIPS- Encrypted Connectivity
R/W Node R/W Node R Node R Node R/W Node
Scale out Scale out
Node 1 Node 2 Node 3 Node 4 Node 5
高速内部互联
图形化系统管理
历史数据存储
近线数据存储
活动数据存储
Scale out Scale out
共享、压缩、分区的 列式数据存储
25. 数据加载等待 :
S yb a s e IQ 1 5 优势 – 高速 & 高效
源数据传输
痛处 Sybase IQ 15
1
客户端 没有瓶颈
数据加载
灵活的加载任务
Bulk
ETL Secure
ETL
批量加载性能
ETL
ETL
受限制的数据加载
大数据量加载 痛处 Sybase IQ 15
2
智能的并行 超高性能
运算法则
智能地利用资源
Multi-
ETL W ETL
orkload
core
M ETL
em ory
超长等待时间
多表数据加载 痛处 Sybase IQ 15
3
网格扩展
经济的扩展
线性的性能
Multi-
ETL ETL
ETL
core
Multi-
ETL
势不可挡! node
DEMO
26. 无法预测的查询性能 :
S yb a s e IQ 1 5 优势 – 高速 & 灵活
海量数据、多种查询类型
痛处 Sybase IQ 15
1
速度显著提高
VARIABILITY
大量的并行查询机制
QUERY
Horizontal
ETL
Pipeline
ETL
SLAs (服务品质协
议) 得以保证
Parallelism Parallelism
Operator
ETL
Parallelism
DATA VARIABILITY SLAs 存在风险
不断变化的资源和工作负载 痛处
Sybase IQ 15
降低可变性
2
智能的资源利用
智能地使用系统资源
Concurrent
不一致的
M ETL
ulti- core
CPUs
M ain
W ETL
orkload 令并发用户满意
ETL
M ory
em
终端用户使用效果
易变的元数据
痛处 Sybase IQ 15
3
综合的元数据利用
充分利用索引和元数
M ETL
ulti- colum
Intelligence
n Sub- query
ETL
Correlation
据以获得最高性能
错过提高性能的机会 Predicate
ETL
Pushdow ns
27. 信息资产保护 :
S yb a s e IQ 1 5 优势 – 高安全性
用户账户安全 痛处 Sybase IQ 15
1 REGULATORY MANDATES 全面的用户登录管理 一致的、健全的
登录管理
Settable Login Audits
IT SECURITY POLICIES ETL ETL
复杂的登录管理
Passw ord
Passw
ETL ord
可追踪的记录
Expiry
用户认证 痛处 Sybase IQ 15
2
Kerberos
Authentication 通过 Kerberos
Kerberos Integration 进行用户认证
Protocol
ETL w Kerberos
ith ETL
IT SECURITY POLICIES 未认证的数据访问 Aw are Servers
是一个严重问题
信息加密 痛处 Sybase IQ 15
3
FIPS 确保健全的
REGULATORY MANDATES
数据访问和数据
IT SECURITY POLICIES Netw
ETLork Colum
ETL ns
加密
Database
ETL
数据盗窃案件呈上升趋势
28. 系统扩展性 :
S yb a s e IQ 1 5 优势 – 高性能、低成
本
工作负载增长 痛处 Sybase IQ 15
1
可扩展的计算能力
,并支持混合工作
负载
CONCURRENT
WORKLOAD 工作负载增长导致系统崩溃 可扩展的计算网格
超大数据量的增长 痛处 Sybase IQ 15
适合于备份、恢复
2 超大数据量的存储管理相当困难
表分区
存储设备分区
和数据生命周期管
理的数据和存储分
区
系统架构的扩展 痛处 Sybase IQ 15
3
Marketing Sales
按照需求增加计算
节点和存储
Finance
松散连接的数据仓库、数据 数据集市构建于数
DATA MARTS 集市很难维护和扩展 可增长,安全扩展 据仓库之上
29. 管理复杂系统
S yb a s e IQ 1 5 优势 – 易管理
管理规模 痛处 Sybase IQ 15
1 可扩展性和可管理性的不一致
直观的、图形化得网格
管理,简单的右键点击
操作
保持支撑力度和满意度 痛处 Sybase IQ 15
2
大量的分析和数据收集
工具,保证快速的系统
性能分析和问题的及时
始终面临对支撑的高期望值 解决
Sybase 客户满意度 : >96%
30. 议程
–S yb a s e IQ 市场领导地位
–S yb a s e IQ 典型应用场景
–S yb a s e IQ 1 5 新特性
–S yb a s e IQ 1 5 关键技术详解
–S yb a s e IQ 1 5 . 1 预览
30
33. 3 FP 索引更高的磁盘压缩
字段 基数 类型
CUST_CODE 150000 varchar(20)
product_code 550000 varchar(20)
20,000,000 条记录的压缩比较
350
数据文件, 315.9
300 数据文件
IQ 12.7
数据文件, 245.2 IQ 15
250
200
IQ 12.7, 152.6
150
IQ 12.7, 102.8
100
IQ 15, 58.8 IQ 15, 60.9
50
0
CUST_CODE PRODUCT_CODE
34. In - m e m o ry 压缩 , 减少 te m p
s p a c e 的使用
一个运行在 6 亿行记录的数据表上的查询 :
select top 100 l_orderkey, sum(l_quantity), max(l_shipdate),
count(*)
from lineitem group by l_orderkey
having sum(l_quantity) > 300
这个查询有大量的排序操作
–查询速度提高 25%
–15.0 只使用了一半的 tem space
p
•9.2 GB in 12.7
•4.6 GB in 15.0
36. 适应性查询处理 a d a p tive q ue ry
p ro c e s s in g
目标 :
–在不影响多用户并发查询性能的前提下,提供比 IQ 12.7 更高的查询性
能
新的适应性并行架构允许单个查询动态增减 CP U 占用率
–如果只有一个大查询运行,可允许其占用所有的 CPU 资源
–如果有其它用户启动查询,该查询会优雅地释放部分 CPU 资源
–以此保证单个查询的高效率,以及系统高并发度
37. Que ry p la n 变化 DEMO
连接线的粗细表示
数据行数的多少
估算的行
数提示
双竖线
表示并
行处理
最大线程数提
节点的深度 示
表示最大的
线程数
39. Lo a d 性能提升
Pa s s 1
• 大部分加载不再使用堆内存( heap m ory ),而是使用少量的 IQ
em
cache
Pa s s 2
• 每一个 HG或者 W 索引都有多个线程写数据
D
– 每一个 HG或 W 索引的数据加载工作会被划分为多个工作单元
D
,然后分配给多个线程并行执行。
基于可用的系统资源动态调整资源分配
– 根据系统负载动态调整线程分配和调度。
40. Lo a d 性能测试
• 数据量 : 10 次增量加载,每次加载 2,000,000
条记录
IQ 15 IQ 127
25
22
20 20
15
13
10 9
7
6 6 6
5 4 4
0
1 2 3 4 5 6 7 8 9 10
41. 并行多表数据加载 DEMO
Sybase ETL v4.8 Grid
Scale out
Scale out
ETL project 1 ETL project 2 ETL project 3
R/W R/W RO RO R/W
Scale out Scale out
Node 1 Node 1 Node 1 Node 1 Node 1
Sybase IQ v15 Grid
42. 灵活高效的海量数据 / 信息生命周期
管理
支持表空间 (Dbspace ) 和分区特性 (Range
Parition)
Historical Store
Near Line Store
READ- ONLY USER DBSPACE
R/W USER DBSPACE ONLINE/ OFFLINE
ONLINE
R/W DBSPACE
ONLINE
Table A –P2 Table A –P2
Table A –P1
FC Disk ATA Disk ATA Disk
Increasing age of data
Increasing size of data base
43. Sybase Central for IQ
• MPX 环境可视化
• 后台进程按照一定频
率检查各个节点状态
•节点状态变化触发自动
刷新
• 可视化的命令控制中
心
44. 总结: S yb a s e IQ 1 5
高速实时 高性能 超快 高并发 客户端
数据加载 批量 ETL 并行分析 报表 数据加载和查询
Kerberos – Authenticated ECC/RSA/FIPS-Encrypted Connectivity
R/W Node R/W Node R Node R Node R/W Node
Scale out Scale out
Node 1 Node 2 Node 3 Node 4 Node 5
高速内部互联
图形化系统管理
历史数据存储
近线数据存储
活动数据存储
Scale out Scale out
共享、压缩、分区的 列式数据存储
45. 议程
–S yb a s e IQ 市场领导地位
–S yb a s e IQ 典型应用场景
–S yb a s e IQ 1 5 新特性
–S yb a s e IQ 1 5 关键技术详解
–S yb a s e IQ 1 5 . 1 预览
45
46. S YBAS E IQ : V1 5 . 1 预览
Sybase IQ Analytic Whole Product
Design & Development Administration & Monitoring
• Analytics modeling • Sizing
ANALYTICS • Data modeling and design • Administration
WORKBENCH • Analytics development • Monitoring
• Report/dashboard design • Troubleshooting
ANALYTICS In-database Time Series & Non relational Security ILM
APPLICATION Analytics Forecasting Analytics Module Module
FOUNDATION
Module Module Module
ANALYTICS
ENGINES Grid-based Column Store DBMS Grid-based ETL
47. S YBAS E IQ – v 1 5 . 1 主要性能
1. In-Database Analytics Enables concurrent high performance advanced
Sybase IQ Process analytics on large data sets on consistent models
External DLL “A” External DLL “B” External high performance C++ analytics libraries can
be registered and invoked from Sybase IQ
External DLL “B”
2. Eclipse Analytics IDE
Rapid application development for productivity and
time to value
Eclipse based integrated development environment for
analytical application modeling and development
3. ILM Modeling
Manage large data sets to ensure peak performance,
cost savings and regulatory safeguards
Define, generate, track, administer object lifecycle
policy (table in this release)
48. In - d a ta b a s e An a lytic s : 革命性
的新模式
• Balancing between large volumes of
data, throughput and accuracy has
always been a challenge.
• The conventional wisdom: pick any two
(or one)
• Sybase IQ 15.1 provides an analytical
platform that can achieve all three
objectives simultaneously.
• Traditional constraints of data analysis
are removed.
49. S yb a s e IQ 1 5 . 1 In - Da ta b a s e
An a lytic s
革命性的新模式
Logic / filtering applied in
Database Data Analytic Workbench Servers Results
(SAS, SPSS,…)
Visualization
Figure 1: Traditional Advanced Analytics:
Data To Logic = SLOW + CLUMSY
In-database analytics
Accuracy of predictive ensures a consistent and
models is dependent on manageable analytics
large amounts of data. In- Logic /filtering environment. Users of
database analytics ensures applied Results different analytical data
fastest answers against In-Database sets can share
predictive models relying Visualization information freely with
on all relevant data no compatibility issues.
Figure 2: Sybase IQ 15.1 Advanced Analytics (In-Database):
Logic to Data = FAST + EFFICIENT
49 1/19/2009 Sybase Confidential
50. S YBAS E IQ : 展望未来
Near Future
•Data explosion
•Real time analytics
•Unstructed data analytics
•Cloud computing
•Total cost of ownership
Today
• Multiple Terabytes
• Exponential user growth
• Requirements pushing analytics into the database
• Analytics at the heart of the business
5 years ago
• Small datasets
• Few users
• Real time analytics non-existent
• Applications do the hard work
• Analytics not core to the business
Customer Analytics Requirements