Vldb Statistics Gathering Strategy

VLDB Statistics Gathering Strategy

Something You Need to Know But Maybe You Don’t

About Me

• Technical Director @ Enmo Tech
• ACOUG Co-founder, President

• Interests:
– My wife and my son
– Database technology (all related)
– World of Warcraft (online game)

• http://www.enmotech.com
• http://www.acoug.org
• http://www.dbform.com

云和恩墨成就所托

Statistics Gathering

• Manually
– dbms_stats.gather_table_stats

• Automatically
– 10g: DBMS_SCHEDULER
– 11g: DBMS_AUTO_TASK_ADMIN


What is Histogram
12

10

8
Value 1
Value 2
6
Value 3
4 Value 4
Value 5
2

0
Column 1 Column 2 Column 3 Column 4


What is Histogram

• frequency
800
700
700
600
500
500 Distinct Value 1
400
Distinct Value 3
300
100
100
0
Records#


What is Histogram

• height balanced
120
1 2 3 4 5 5 5 6 7 8 Bucket 1
100
Bucket 2
80 Bucket 3
Bucket 4
60 Bucket 5
Bucket 6
40
Bucket 7
20 Bucket 8
Bucket 9
0 Bucket 10
Records#


When We DON’T Need Histogram?

• 此列不用于查询

• 列值分布平均

• 不需要多个执行计划


Histogram Impact

COST!!


How Many Choices
dba_tab_modific
• method_opt=> ations

– for columns size skewonly [column_name]
– for columns size auto [column_name]
COL_USAGE$
– for columns size repeat [column_name]
– for columns size 1 [column_name]

– for all columns
– for all indexed columns


How Should We Do?

• Step 1
– method_opt=>FOR ALL COLUMNS SIZE 1
• Step 2 (repeat)
– method_opt=>FOR COLUMNS SIZE AUTO [COLUMN_NAME]
• Step 3
– Using atomatic statistics gathering job
– (10g) exec DBMS_STATS.SET_PARAM ('METHOD_OPT', 'FOR
ALL COLUMNS SIZE REPEAT');
– (11g) exec
DBMS_STATS.SET_GLOBAL_PREFS('METHOD_OPT','FOR ALL
COLUMNS SIZE REPEAT');


What is Granularity

• 只针对分区表
• ALL
• AUTO (默认值)
• DEFAULT = GLOBAL AND PARTITION
• GLOBAL
• GLOBAL AND PARTITION
• PARTITION
• SUBPARTITION


Global Statistics

• 收集统计信息
exec dbms_stats.gather_table_stats('KAMUS', 'TAB_PART’);

• 聚合统计信息 – 降低开销
exec
dbms_stats.gather_table_stats(‘KAMUS’, ‘TAB_PART’, GRANU
LARITY => SUBPARTITION);

TAB_PART表，20万记录
收集统计信息：Consistent Read = 23432
聚合统计信息：Consistent Read = 12036


坏的情况

• 新加载数据
• 收集有数据变化的子分区统计信息
exec
dbms_stats.gather_table_stats('KAMUS','TAB_PART', GRANU
LARITY => 'SUBPARTITION', PARTNAME =>
'P_20111206_BEIJING');

• 聚合统计信息正确
• 列统计信息呢？NDV


还有坏的情况

• 增加子分区
ALTER TABLE TAB_PART
ADD PARTITION P_20111208 VALUES LESS THAN (20111209);
• 新加载数据
• 收集有数据变化的子分区统计信息
exec
dbms_stats.gather_table_stats('KAMUS','TAB_PART', GRANULAR
ITY => 'SUBPARTITION', PARTNAME =>
'P_20111208_BEIJING');

• 聚合统计信息呢？
• 列统计信息呢？


还有更坏的情况

• 新创建的分区表没有任何数据
• 收集分区统计信息
exec dbms_stats.gather_table_stats('KAMUS','TAB_PART’);

• 新加载数据
• 聚合？
• 收集子分区的统计信息？
• 收集全部子分区的统计信息？
• 收集全部分区的统计信息？


Conclusion

• 如果只选择收集SUBPARTITION统计信息，那么要
确认聚合统计信息会正确生成。


问答

Vldb Statistics Gathering Strategy

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Vldb Statistics Gathering Strategy

Semelhante a Vldb Statistics Gathering Strategy (18)

Mais de Leyi (Kamus) Zhang

Mais de Leyi (Kamus) Zhang (9)

Vldb Statistics Gathering Strategy

Notas do Editor