SlideShare uma empresa Scribd logo
1 de 110
UUNNIITT--11 IInnttrroodduuccttiioonn 
LLeeccttuurree--11 MMoottiivvaattiioonn:: WWhhyy ddaattaa mmiinniinngg?? 
LLeeccttuurree--22 WWhhaatt iiss ddaattaa mmiinniinngg?? 
LLeeccttuurree--33 DDaattaa MMiinniinngg:: OOnn wwhhaatt kkiinndd ooff 
ddaattaa?? 
LLeeccttuurree--44 DDaattaa mmiinniinngg ffuunnccttiioonnaalliittyy 
LLeeccttuurree--55 CCllaassssiiffiiccaattiioonn ooff ddaattaa mmiinniinngg 
ssyysstteemmss 
LLeeccttuurree--66 MMaajjoorr iissssuueess iinn ddaattaa mmiinniinngg
Unit-1 Data wwaarreehhoouussee aanndd OOLLAAPP 
LLeeccttuurree--77 WWhhaatt iiss aa ddaattaa wwaarreehhoouussee?? 
LLeeccttuurree--88 AA mmuullttii--ddiimmeennssiioonnaall ddaattaa mmooddeell 
LLeeccttuurree--99 DDaattaa wwaarreehhoouussee aarrcchhiitteeccttuurree 
LLeeccttuurree--1100&&1111 DDaattaa wwaarreehhoouussee iimmpplleemmeennttaattiioonn 
LLeeccttuurree--1122 FFrroomm ddaattaa wwaarreehhoouussiinngg ttoo ddaattaa mmiinniinngg
LLeeccttuurree--11 
MMoottiivvaattiioonn:: WWhhyy ddaattaa mmiinniinngg??
EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 
11996600ss aanndd eeaarrlliieerr:: 
DDaattaa CCoolllleeccttiioonn aanndd DDaattaabbaassee CCrreeaattiioonn 
 PPrriimmiittiivvee ffiillee pprroocceessssiinngg 
LLeeccttuurree--11 MMoottiivvaattiioonn
EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 
11997700ss -- eeaarrllyy 11998800ss:: 
DDaattaa BBaassee MMaannaaggeemmeenntt SSyysstteemmss 
 HHiieerraattiiccaall aanndd nneettwwoorrkk ddaattaabbaassee ssyysstteemmss 
 RReellaattiioonnaall ddaattaabbaassee SSyysstteemmss 
 QQuueerryy llaanngguuaaggeess:: SSQQLL 
 TTrraannssaaccttiioonnss,, ccoonnccuurrrreennccyy ccoonnttrrooll aanndd 
rreeccoovveerryy.. 
 OOnn--lliinnee ttrraannssaaccttiioonn pprroocceessssiinngg ((OOLLTTPP)) 
LLeeccttuurree--11 MMoottiivvaattiioonn
EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 
MMiidd --11998800ss -- pprreesseenntt:: 
 AAddvvaanncceedd ddaattaa mmooddeellss 
EExxtteennddeedd rreellaattiioonnaall,, oobbjjeecctt--rreellaattiioonnaall 
 AAddvvaanncceedd aapppplliiccaattiioonn--oorriieenntteedd DDBBMMSS 
ssppaattiiaall,, sscciieennttiiffiicc,, eennggiinneeeerriinngg,, tteemmppoorraall,, 
mmuullttiimmeeddiiaa,, aaccttiivvee,, ssttrreeaamm aanndd sseennssoorr,, kknnoowwlleeddggee-- 
bbaasseedd 
LLeeccttuurree--11 MMoottiivvaattiioonn
EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 
LLaattee 11998800ss--pprreesseenntt 
 AAddvvaanncceedd DDaattaa AAnnaallyyssiiss 
DDaattaa wwaarreehhoouussee aanndd OOLLAAPP 
DDaattaa mmiinniinngg aanndd kknnoowwlleeddggee ddiissccoovveerryy 
AAddvvaanncceedd ddaattaa mmiinniinngg aapppplliiaattiioonnss 
DDaattaa mmiinniinngg aanndd ssoocciittyy 
11999900ss--pprreesseenntt:: 
 XXMMLL--bbaasseedd ddaattaabbaassee ssyysstteemmss 
 IInntteeggrraattiioonn wwiitthh iinnffoorrmmaattiioonn rreettrriieevvaall 
 DDaattaa aanndd iinnffoorrmmaattiioonn iinntteeggrreeaattiioonn 
LLeeccttuurree--11 MMoottiivvaattiioonn
EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 
PPrreesseenntt –– ffuuttuurree:: 
 NNeeww ggeenneerraattiioonn ooff iinntteeggrraatteedd ddaattaa aanndd 
iinnffoorrmmaattiioonn ssyysstteemm.. 
LLeeccttuurree--11 MMoottiivvaattiioonn
LLeeccttuurree--22 
WWhhaatt IIss DDaattaa MMiinniinngg??
WWhhaatt IIss DDaattaa MMiinniinngg?? 
DDaattaa mmiinniinngg rreeffeerrss ttoo eexxttrraaccttiinngg oorr mmiinniinngg 
kknnoowwlleeddggee ffrroomm llaarrggee aammoouunnttss ooff ddaattaa.. 
KKnnoowwlleeddggee mmiinniinngg ffrroomm ddaattaa,, kknnoowwlleeddggee 
eexxttrraaccttiioonn,, ddaattaa//ppaatttteerrnn aannaallyyssiiss,, ddaattaa 
aarrcchheeoollooggyy,, aanndd ddaattaa ddrreeddiinngg.. 
KKnnoowwlleeddggee DDiissccoovveerryy ffrroomm ddaattaa,, oorr KKDDDD 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
DDaattaa MMiinniinngg:: AA KKDDDD PPrroocceessss 
 DDaattaa mmiinniinngg:: tthhee ccoorree 
ooff kknnoowwlleeddggee 
ddiissccoovveerryy pprroocceessss.. 
Task-relevant Data 
Data Mining 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg?? 
Data 
Warehouse 
Data Cleaning 
Data Integration 
Databases 
Selection 
Pattern Evaluation
SStteeppss ooff aa KKDDDD PPrroocceessss 
11.. DDaattaa cclleeaanniinngg 
22.. DDaattaa iinntteeggrraattiioonn 
33.. DDaattaa sseelleeccttiioonn 
44.. DDaattaa ttrraannssffoorrmmaattiioonn 
55.. DDaattaa mmiinniinngg 
66.. PPaatttteerrnn eevvaalluuaattiioonn 
77.. KKnnoowwlleeddggee pprreesseennttaaiioonn 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
SStteeppss ooff aa KKDDDD PPrroocceessss 
LLeeaarrnniinngg tthhee aapppplliiccaattiioonn ddoommaaiinn:: 
 rreelleevvaanntt pprriioorr kknnoowwlleeddggee aanndd ggooaallss ooff 
aapppplliiccaattiioonn 
CCrreeaattiinngg aa ttaarrggeett ddaattaa sseett:: ddaattaa sseelleeccttiioonn 
DDaattaa cclleeaanniinngg aanndd pprreepprroocceessssiinngg 
DDaattaa rreedduuccttiioonn aanndd ttrraannssffoorrmmaattiioonn:: 
 FFiinndd uusseeffuull ffeeaattuurreess,, 
ddiimmeennssiioonnaalliittyy//vvaarriiaabbllee rreedduuccttiioonn,, iinnvvaarriiaanntt 
rreepprreesseennttaattiioonn.. 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
SStteeppss ooff aa KKDDDD PPrroocceessss 
CChhoooossiinngg ffuunnccttiioonnss ooff ddaattaa mmiinniinngg 
 ssuummmmaarriizzaattiioonn,, ccllaassssiiffiiccaattiioonn,, rreeggrreessssiioonn,, 
aassssoocciiaattiioonn,, cclluusstteerriinngg.. 
CChhoooossiinngg tthhee mmiinniinngg aallggoorriitthhmmss 
DDaattaa mmiinniinngg:: sseeaarrcchh ffoorr ppaatttteerrnnss ooff iinntteerreesstt 
PPaatttteerrnn eevvaalluuaattiioonn aanndd kknnoowwlleeddggee pprreesseennttaattiioonn 
 vviissuuaalliizzaattiioonn,, ttrraannssffoorrmmaattiioonn,, rreemmoovviinngg rreedduunnddaanntt 
ppaatttteerrnnss,, eettcc.. 
UUssee ooff ddiissccoovveerreedd kknnoowwlleeddggee 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
AArrcchhiitteeccttuurree ooff aa TTyyppiiccaall DDaattaa 
MMiinniinngg SSyysstteemm 
Graphical user interface 
Pattern evaluation 
Data mining engine 
Database or data 
warehouse server 
Data cleaning & data integration Filtering 
Data 
Warehouse 
Databases 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg?? 
Knowledge-base
Major sources of abundant data 
Business: Web, e-commerce, transactions, 
stocks, … 
Science: Remote sensing, bioinformatics, 
scientific simulation, … 
Society and everyone: news, digital cameras, 
YouTube
WWhhyy NNoott TTrraaddiittiioonnaall DDaattaa AAnnaallyyssiiss?? 
TTrreemmeennddoouuss aammoouunntt ooff ddaattaa 
 AAllggoorriitthhmmss mmuusstt bbee hhiigghhllyy ssccaallaabbllee ttoo hhaannddllee ssuucchh aass tteerraa--bbyytteess ooff 
HHiigghh--ddiimmeennssiioonnaalliittyy ooff ddaattaa 
 MMiiccrroo--aarrrraayy mmaayy hhaavvee tteennss ooff tthhoouussaannddss ooff ddiimmeennssiioonnss 
HHiigghh ccoommpplleexxiittyy ooff ddaattaa 
 DDaattaa ssttrreeaammss aanndd sseennssoorr ddaattaa 
 TTiimmee--sseerriieess ddaattaa,, tteemmppoorraall ddaattaa,, sseeqquueennccee ddaattaa 
 SSttrruuccttuurree ddaattaa,, ggrraapphhss,, ssoocciiaall nneettwwoorrkkss aanndd mmuullttii--lliinnkkeedd ddaattaa 
 HHeetteerrooggeenneeoouuss ddaattaabbaasseess aanndd lleeggaaccyy ddaattaabbaasseess 
 SSppaattiiaall,, ssppaattiiootteemmppoorraall,, mmuullttiimmeeddiiaa,, tteexxtt aanndd WWeebb ddaattaa 
 SSooffttwwaarree pprrooggrraammss,, sscciieennttiiffiicc ssiimmuullaattiioonnss 
NNeeww aanndd ssoopphhiissttiiccaatteedd aapppplliiccaattiioonnss 
SSeepptteemmbbeerr 44,, 22001144 
ddaattaa 
DDaattaa MMiinniinngg:: CCoonncceeppttss aanndd 
TTeecchhnniiqquueess 2200
DDaattaa MMiinniinngg aanndd BBuussiinneessss 
IInntteelllliiggeennccee 
Increasing potential 
to support 
business decisions End User 
Statistical Analysis, Querying and Reporting 
Data Warehouses / Data Marts 
Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg?? 
Business 
Analyst 
Data 
Analyst 
DBA 
Making 
Decisions 
Data Presentation 
Visualization Techniques 
Data Mining 
Information Discovery 
Data Exploration 
OLAP, MDA 
Data Sources 
Paper, Files, Information Providers, Database Systems, OLTP
LLeeccttuurree--33 
DDaattaa MMiinniinngg:: OOnn WWhhaatt KKiinndd ooff 
DDaattaa??
DDaattaa MMiinniinngg:: OOnn WWhhaatt KKiinndd ooff DDaattaa?? 
RReellaattiioonnaall ddaattaabbaasseess 
DDaattaa wwaarreehhoouusseess 
TTrraannssaaccttiioonnaall ddaattaabbaasseess 
Lecture-3 Data Mining: OOnn WWhhaatt kkiinndd ooff 
ddaattaa??
Example 1.1 A relational database for AllElectronics. The 
AllElectronics company is described by the 
following relation tables: customer, item, employee, and branch. 
Fragments of the tables 
. 
The relation customer consists of a set of attributes, including a 
unique customer identity number (cust ID), customer name, 
address, age, occupation, annual income, 
credit information, category, and so on. 
Similarly, each of the relations item, employee, and branch 
consists of a set of attributes 
describing their properties.
TTaabblleess ccaann aallssoo bbee uusseedd ttoo rreepprreesseenntt tthhee 
rreellaattiioonnsshhiippss bbeettwweeeenn oorr aammoonngg mmuullttiippllee rreellaattiioonn 
ttaabblleess.. FFoorr oouurr eexxaammppllee,, tthheessee iinncclluuddee 
ppuurrcchhaasseess ((ccuussttoommeerr ppuurrcchhaasseess iitteemmss,, 
ccrreeaattiinngg aa ssaalleess ttrraannssaaccttiioonn tthhaatt iiss hhaannddlleedd bbyy 
aann eemmppllooyyeeee)),, iitteemmss ssoolldd ((lliissttss tthhee iitteemmss ssoolldd iinn 
aa ggiivveenn ttrraannssaaccttiioonn)),, aanndd wwoorrkkss aatt ((eemmppllooyyeeee 
wwoorrkkss aatt aa bbrraanncchh ooff AAllllEElleeccttrroonniiccss)).. 
RReellaattiioonnaall ddaattaa ccaann bbee aacccceesssseedd bbyy ddaattaabbaassee 
qquueerriieess wwrriitttteenn iinn aa rreellaattiioonnaall qquueerryy llaanngguuaaggee,, 
ssuucchh aass SSQQLL,,
These allow yyoouu ttoo aasskk tthhiinnggss lliikkee ““SShhooww 
mmee tthhee ttoottaall ssaalleess ooff tthhee llaasstt mmoonntthh,, 
ggrroouuppeedd bbyy bbrraanncchh,,”” oorr 
““HHooww mmaannyy ssaalleess ttrraannssaaccttiioonnss ooccccuurrrreedd 
iinn tthhee mmoonntthh ooff DDeecceemmbbeerr??”” oorr 
““WWhhiicchh ssaalleess ppeerrssoonn hhaadd tthhee hhiigghheesstt 
aammoouunntt ooff ssaalleess??””
When data mining is applied to relational 
databases, 
we can go further by searching for trends or data 
patterns. For example, 
data mining systems can analyze customer data 
to predict the credit risk of new customers based 
on their income, age, and previous credit 
information.
DDaattaa MMiinniinngg:: OOnn WWhhaatt KKiinndd ooff DDaattaa?? 
AAddvvaanncceedd DDBB aanndd iinnffoorrmmaattiioonn rreeppoossiittoorriieess 
 OObbjjeecctt--oorriieenntteedd aanndd oobbjjeecctt--rreellaattiioonnaall 
ddaattaabbaasseess 
 SSppaattiiaall ddaattaabbaasseess 
 TTiimmee--sseerriieess ddaattaa aanndd tteemmppoorraall ddaattaa 
 TTeexxtt ddaattaabbaasseess aanndd mmuullttiimmeeddiiaa ddaattaabbaasseess 
 HHeetteerrooggeenneeoouuss aanndd lleeggaaccyy ddaattaabbaasseess 
 WWWWWW 
Lecture-3 Data Mining: OOnn WWhhaatt kkiinndd ooff 
ddaattaa??
LLeeccttuurree--44 
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess 
CCoonncceepptt//ccllaassss ddeessccrriippttiioonn:: CChhaarraacctteerriizzaattiioonn aanndd 
ddiissccrriimmiinnaattiioonn 
 DDaattaa ccaann bbee aassssoocciiaatteedd wwiitthh ccllaasssseess oorr ccoonncceeppttss 
 EExx.. AAllllEElleeccttrroonniiccss ssttoorree ccllaasssseess ooff iitteemmss ffoorr ssaallee 
iinncclluuddee ccoommppuutteerr aanndd pprriinntteerrss.. 
 DDeessccrriippttiioonn ooff ccllaassss oorr ccoonncceepptt ccaalllleedd ccllaassss//ccoonncceepptt 
ddeessccrriippttiioonn.. 
 DDaattaa cchhaarraacctteerriizzaattiioonn 
 DDaattaa ddiissccrriimmiinnaattiioonn 
Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
Concept/Class Description: CChhaarraacctteerriizzaattiioonn 
aanndd 
DDiissccrriimmiinnaattiioonn 
These descriptions can be derived via 
(1) data characterization, by summarizing the data of the class 
under study (often called the target class) 
, or 
(2) data discrimination, by comparison of the target class with one 
or a set of comparative classes (often called the contrasting 
classes), or 
(3) both data characterization and discrimination.
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess 
MMiinniinngg FFrreeqquueenntt PPaatttteerrnnss,, AAssssoocciiaattiioonnss,, 
aanndd CCoorrrreellaattiioonnss 
FFrreeqquueenntt ppaatttteerrss-- ppaatttteerrnnss ooccccuurrss ffrreeqquueennttllyy 
IItteemm sseettss,, ssuubbsseeqquueenncceess aanndd ssuubbssttrruuccttuurreess 
FFrreeqquueenntt iitteemm sseett 
SSeeqquueennttiiaall ppaatttteerrnnss 
SSttrruuccttuurreedd ppaatttteerrnnss 
Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess 
AAssssoocciiaattiioonn AAnnaallyyssiiss 
bbuuyyss((XX;; ““ccoommppuutteerr””))))bbuuyyss((XX;; ““ssooffttwwaarree””)) [[ssuuppppoorrtt 
== 1%%;; ccoonnffiiddeennccee == 5500%%]] 
MMuullttii--ddiimmeennssiioonnaall vvss ssiinnggllee--ddiimmeennssiioonnaall aassssoocciiaattiioonn 
 aaggee((XX,, ““2200....2299””)) ^^ iinnccoommee((XX,, ““2200....2299KK””)) ==>> 
bbuuyyss((XX,, ““PPCC””)) [[ssuuppppoorrtt == 22%%,, ccoonnffiiddeennccee == 
6600%%]] 
 ccoonnttaaiinnss((TT,, ““ccoommppuutteerr””)) ==>> ccoonnttaaiinnss((xx,, 
““ssooffttwwaarree””)) [[ssuuppppoorrtt==1%%,, ccoonnffiiddeennccee==7755%%]] 
Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess 
CCllaassssiiffiiccaattiioonn aanndd PPrreeddiiccttiioonn 
 FFiinnddiinngg mmooddeellss ((ffuunnccttiioonnss)) tthhaatt ddeessccrriibbee aanndd 
ddiissttiinngguuiisshh ddaattaa ccllaasssseess oorr ccoonncceeppttss ffoorr 
pprreeddiicctt tthhee ccllaassss wwhhoossee llaabbeell iiss uunnkknnoowwnn 
 EE..gg..,, ccllaassssiiffyy ccoouunnttrriieess bbaasseedd oonn cclliimmaattee,, oorr 
ccllaassssiiffyy ccaarrss bbaasseedd oonn ggaass mmiilleeaaggee 
 MMooddeellss:: ddeecciissiioonn--ttrreeee,, ccllaassssiiffiiccaattiioonn rruulleess ((iiff-- 
tthheenn)),, nneeuurraall nneettwwoorrkk 
 PPrreeddiiccttiioonn:: PPrreeddiicctt ssoommee uunnkknnoowwnn oorr 
mmiissssiinngg nnuummeerriiccaall vvaalluueess 
Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess 
CClluusstteerr aannaallyyssiiss 
 AAnnaallyyzzee ccllaassss--llaabbeelleedd ddaattaa oobbjjeeccttss,, cclluusstteerriinngg 
aannaallyyzzee ddaattaa oobbjjeeccttss wwiitthhoouutt ccoonnssuullttiinngg aa 
kknnoowwnn ccllaassss llaabbeell.. 
 CClluusstteerriinngg bbaasseedd oonn tthhee pprriinncciippllee:: mmaaxxiimmiizziinngg 
tthhee iinnttrraa--ccllaassss ssiimmiillaarriittyy aanndd mmiinniimmiizziinngg tthhee 
iinntteerrccllaassss ssiimmiillaarriittyy 
Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess 
OOuuttlliieerr aannaallyyssiiss 
 OOuuttlliieerr:: aa ddaattaa oobbjjeecctt tthhaatt ddooeess nnoott ccoommppllyy wwiitthh tthhee ggeenneerraall 
bbeehhaavviioorr ooff tthhee mmooddeell ooff tthhee ddaattaa 
 IItt ccaann bbee ccoonnssiiddeerreedd aass nnooiissee oorr eexxcceeppttiioonn bbuutt iiss qquuiittee uusseeffuull iinn 
ffrraauudd ddeetteeccttiioonn,, rraarree eevveennttss aannaallyyssiiss 
TTrreenndd aanndd eevvoolluuttiioonn aannaallyyssiiss 
 TTrreenndd aanndd ddeevviiaattiioonn:: rreeggrreessssiioonn aannaallyyssiiss 
 SSeeqquueennttiiaall ppaatttteerrnn mmiinniinngg,, ppeerriiooddiicciittyy aannaallyyssiiss 
 SSiimmiillaarriittyy--bbaasseedd aannaallyyssiiss 
Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
LLeeccttuurree--55 
DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn 
SScchheemmeess
Data MMiinniinngg:: CCoonnfflluueennccee ooff 
MMuullttiippllee DDiisscciipplliinneess 
Database 
Technology Statistics 
Information 
Science Data Mining 
MachineLearning 
Other 
Disciplines 
Visualization
DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess 
Geenneerraall ffuunnccttiioonnaalliittyy 
 DDeessccrriippttiivvee ddaattaa mmiinniinngg 
 PPrreeddiiccttiivvee ddaattaa mmiinniinngg 
DDaattaa mmiinniinngg vvaarriioouuss ccrriitteerriiaa''ss:: 
 KKiinnddss ooff ddaattaabbaasseess ttoo bbee mmiinneedd 
 KKiinnddss ooff kknnoowwlleeddggee ttoo bbee ddiissccoovveerreedd 
 KKiinnddss ooff tteecchhnniiqquueess uuttiilliizzeedd 
 KKiinnddss ooff aapppplliiccaattiioonnss aaddaapptteedd
DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess 
DDaattaabbaasseess ttoo bbee mmiinneedd 
 RReellaattiioonnaall,, ttrraannssaaccttiioonnaall,, oobbjjeecctt--oorriieenntteedd,, oobbjjeecctt-- 
rreellaattiioonnaall,, aaccttiivvee,, ssppaattiiaall,, ttiimmee--sseerriieess,, tteexxtt,, mmuullttii-- 
mmeeddiiaa,, hheetteerrooggeenneeoouuss,, lleeggaaccyy,, WWWWWW,, eettcc.. 
KKnnoowwlleeddggee ttoo bbee mmiinneedd 
 CChhaarraacctteerriizzaattiioonn,, ddiissccrriimmiinnaattiioonn,, aassssoocciiaattiioonn,, 
ccllaassssiiffiiccaattiioonn,, cclluusstteerriinngg,, ttrreenndd,, ddeevviiaattiioonn aanndd oouuttlliieerr 
aannaallyyssiiss,, eettcc.. 
 MMuullttiippllee//iinntteeggrraatteedd ffuunnccttiioonnss aanndd mmiinniinngg aatt mmuullttiippllee 
lleevveellss 
aannaallyyssiiss,, WWeebb mmiinniinngg,, WWeebblloogg aannaallyyssiiss,, eettcc..
DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess 
TTeecchhnniiqquueess uuttiilliizzeedd 
 DDaattaabbaassee--oorriieenntteedd,, ddaattaa wwaarreehhoouussee 
((OOLLAAPP)),, mmaacchhiinnee lleeaarrnniinngg,, ssttaattiissttiiccss,, 
vviissuuaalliizzaattiioonn,, nneeuurraall nneettwwoorrkk,, eettcc.. 
AApppplliiccaattiioonnss aaddaapptteedd 
 RReettaaiill,, tteelleeccoommmmuunniiccaattiioonn,, bbaannkkiinngg,, 
ffrraauudd aannaallyyssiiss,, DDNNAA mmiinniinngg,, ssttoocckk 
mmaarrkkeett
LLeeccttuurree--66 
MMaajjoorr IIssssuueess iinn DDaattaa MMiinniinngg
Major IIssssuueess iinn DDaattaa MMiinniinngg 
MMiinniinngg mmeetthhooddoollooggyy aanndd uusseerr iinntteerraaccttiioonn iissssuueess 
 MMiinniinngg ddiiffffeerreenntt kkiinnddss ooff kknnoowwlleeddggee iinn ddaattaabbaasseess 
 IInntteerraaccttiivvee mmiinniinngg ooff kknnoowwlleeddggee aatt mmuullttiippllee lleevveellss ooff 
aabbssttrraaccttiioonn 
 IInnccoorrppoorraattiioonn ooff bbaacckkggrroouunndd kknnoowwlleeddggee 
 DDaattaa mmiinniinngg qquueerryy llaanngguuaaggeess aanndd aadd--hhoocc ddaattaa mmiinniinngg 
 EExxpprreessssiioonn aanndd vviissuuaalliizzaattiioonn ooff ddaattaa mmiinniinngg rreessuullttss 
 HHaannddlliinngg nnooiissee aanndd iinnccoommpplleettee ddaattaa 
 PPaatttteerrnn eevvaalluuaattiioonn:: tthhee iinntteerreessttiinnggnneessss pprroobblleemm
Major IIssssuueess iinn DDaattaa MMiinniinngg 
PPeerrffoorrmmaannccee iissssuueess 
 EEffffiicciieennccyy aanndd ssccaallaabbiilliittyy ooff ddaattaa mmiinniinngg 
aallggoorriitthhmmss 
 PPaarraalllleell,, ddiissttrriibbuutteedd aanndd iinnccrreemmeennttaall mmiinniinngg 
mmeetthhooddss
MMaajjoorr IIssssuueess iinn DDaattaa MMiinniinngg 
IIssssuueess rreellaattiinngg ttoo tthhee ddiivveerrssiittyy ooff ddaattaa ttyyppeess 
 HHaannddlliinngg rreellaattiioonnaall aanndd ccoommpplleexx ttyyppeess ooff ddaattaa 
 MMiinniinngg iinnffoorrmmaattiioonn ffrroomm hheetteerrooggeenneeoouuss 
ddaattaabbaasseess aanndd gglloobbaall iinnffoorrmmaattiioonn ssyysstteemmss 
((WWWWWW))
LLeeccttuurree--77 
WWhhaatt iiss DDaattaa WWaarreehhoouussee??
WWhhaatt iiss DDaattaa WWaarreehhoouussee?? 
DDeeffiinneedd iinn mmaannyy ddiiffffeerreenntt wwaayyss 
 AA ddeecciissiioonn ssuuppppoorrtt ddaattaabbaassee tthhaatt iiss mmaaiinnttaaiinneedd 
sseeppaarraatteellyy ffrroomm tthhee oorrggaanniizzaattiioonn’’ss ooppeerraattiioonnaall 
ddaattaabbaassee 
 SSuuppppoorrtt iinnffoorrmmaattiioonn pprroocceessssiinngg bbyy pprroovviiddiinngg aa ssoolliidd 
ppllaattffoorrmm ooff ccoonnssoolliiddaatteedd,, hhiissttoorriiccaall ddaattaa ffoorr aannaallyyssiiss.. 
““AA ddaattaa wwaarreehhoouussee iiss aa ssuubbjjeecctt--oorriieenntteedd,, iinntteeggrraatteedd,, 
ttiimmee--vvaarriiaanntt,, aanndd nnoonnvvoollaattiillee ccoolllleeccttiioonn ooff ddaattaa iinn ssuuppppoorrtt 
ooff mmaannaaggeemmeenntt’’ss ddeecciissiioonn--mmaakkiinngg pprroocceessss..””——WW.. HH.. 
IInnmmoonn 
DDaattaa wwaarreehhoouussiinngg:: 
 TThhee pprroocceessss ooff ccoonnssttrruuccttiinngg aanndd uussiinngg ddaattaa 
wwaarreehhoouusseess
DDaattaa WWaarreehhoouussee——SSuubbjjeecctt-- 
OOrriieenntteedd 
OOrrggaanniizzeedd aarroouunndd mmaajjoorr ssuubbjjeeccttss,, ssuucchh aass ccuussttoommeerr,, 
pprroodduucctt,, ssaalleess.. 
FFooccuussiinngg oonn tthhee mmooddeelliinngg aanndd aannaallyyssiiss ooff ddaattaa ffoorr 
ddeecciissiioonn mmaakkeerrss,, nnoott oonn ddaaiillyy ooppeerraattiioonnss oorr ttrraannssaaccttiioonn 
pprroocceessssiinngg.. 
PPrroovviiddee aa ssiimmppllee aanndd ccoonncciissee vviieeww aarroouunndd ppaarrttiiccuullaarr 
ssuubbjjeecctt iissssuueess bbyy eexxcclluuddiinngg ddaattaa tthhaatt aarree nnoott uusseeffuull iinn tthhee 
ddeecciissiioonn ssuuppppoorrtt pprroocceessss..
DDaattaa WWaarreehhoouussee——IInntteeggrraatteedd 
CCoonnssttrruucctteedd bbyy iinntteeggrraattiinngg mmuullttiippllee,, 
hheetteerrooggeenneeoouuss ddaattaa ssoouurrcceess 
 rreellaattiioonnaall ddaattaabbaasseess,, ffllaatt ffiilleess,, oonn--lliinnee ttrraannssaaccttiioonn 
rreeccoorrddss 
DDaattaa cclleeaanniinngg aanndd ddaattaa iinntteeggrraattiioonn tteecchhnniiqquueess 
aarree aapppplliieedd.. 
 EEnnssuurree ccoonnssiisstteennccyy iinn nnaammiinngg ccoonnvveennttiioonnss,, 
eennccooddiinngg ssttrruuccttuurreess,, aattttrriibbuuttee mmeeaassuurreess,, eettcc.. aammoonngg 
ddiiffffeerreenntt ddaattaa ssoouurrcceess 
EE..gg..,, HHootteell pprriiccee:: ccuurrrreennccyy,, ttaaxx,, bbrreeaakkffaasstt ccoovveerreedd,, eettcc.. 
 WWhheenn ddaattaa iiss mmoovveedd ttoo tthhee wwaarreehhoouussee,, iitt iiss 
ccoonnvveerrtteedd..
DDaattaa WWaarreehhoouussee——TTiimmee 
VVaarriiaanntt 
TThhee ttiimmee hhoorriizzoonn ffoorr tthhee ddaattaa wwaarreehhoouussee iiss 
ssiiggnniiffiiccaannttllyy lloonnggeerr tthhaann tthhaatt ooff ooppeerraattiioonnaall 
ssyysstteemmss.. 
 OOppeerraattiioonnaall ddaattaabbaassee:: ccuurrrreenntt vvaalluuee ddaattaa.. 
 DDaattaa wwaarreehhoouussee ddaattaa:: pprroovviiddee iinnffoorrmmaattiioonn ffrroomm aa 
hhiissttoorriiccaall ppeerrssppeeccttiivvee ((ee..gg..,, ppaasstt 55--1100 yyeeaarrss)) 
EEvveerryy kkeeyy ssttrruuccttuurree iinn tthhee ddaattaa wwaarreehhoouussee 
 CCoonnttaaiinnss aann eelleemmeenntt ooff ttiimmee,, eexxpplliicciittllyy oorr iimmpplliicciittllyy 
 BBuutt tthhee kkeeyy ooff ooppeerraattiioonnaall ddaattaa mmaayy oorr mmaayy nnoott ccoonnttaaiinn 
““ttiimmee eelleemmeenntt””..
DDaattaa WWaarreehhoouussee——NNoonn--VVoollaattiillee 
AA pphhyyssiiccaallllyy sseeppaarraattee ssttoorree ooff ddaattaa ttrraannssffoorrmmeedd 
ffrroomm tthhee ooppeerraattiioonnaall eennvviirroonnmmeenntt.. 
OOppeerraattiioonnaall uuppddaattee ooff ddaattaa ddooeess nnoott ooccccuurr iinn tthhee 
ddaattaa wwaarreehhoouussee eennvviirroonnmmeenntt.. 
 DDooeess nnoott rreeqquuiirree ttrraannssaaccttiioonn pprroocceessssiinngg,, rreeccoovveerryy,, 
aanndd ccoonnccuurrrreennccyy ccoonnttrrooll mmeecchhaanniissmmss 
 RReeqquuiirreess oonnllyy ttwwoo ooppeerraattiioonnss iinn ddaattaa aacccceessssiinngg:: 
iinniittiiaall llooaaddiinngg ooff ddaattaa aanndd aacccceessss ooff ddaattaa..
DDaattaa WWaarreehhoouussee vvss.. OOppeerraattiioonnaall 
DDBBMMSS 
DDiissttiinncctt ffeeaattuurreess ((OOLLTTPP vvss.. OOLLAAPP)):: 
 UUsseerr aanndd ssyysstteemm oorriieennttaattiioonn:: ccuussttoommeerr vvss.. mmaarrkkeett 
 DDaattaa ccoonntteennttss:: ccuurrrreenntt,, ddeettaaiilleedd vvss.. hhiissttoorriiccaall,, 
ccoonnssoolliiddaatteedd 
 DDaattaabbaassee ddeessiiggnn:: EERR ++ aapppplliiccaattiioonn vvss.. ssttaarr ++ ssuubbjjeecctt 
 VViieeww:: ccuurrrreenntt,, llooccaall vvss.. eevvoolluuttiioonnaarryy,, iinntteeggrraatteedd 
 AAcccceessss ppaatttteerrnnss:: uuppddaattee vvss.. rreeaadd--oonnllyy bbuutt ccoommpplleexx 
qquueerriieess
Data Warehouse vvss.. OOppeerraattiioonnaall 
DDBBMMSS 
OOLLTTPP ((oonn--lliinnee ttrraannssaaccttiioonn pprroocceessssiinngg)) 
 MMaajjoorr ttaasskk ooff ttrraaddiittiioonnaall rreellaattiioonnaall DDBBMMSS 
 DDaayy--ttoo--ddaayy ooppeerraattiioonnss:: ppuurrcchhaassiinngg,, iinnvveennttoorryy,, bbaannkkiinngg,, 
mmaannuuffaaccttuurriinngg,, ppaayyrroollll,, rreeggiissttrraattiioonn,, aaccccoouunnttiinngg,, eettcc.. 
OOLLAAPP ((oonn--lliinnee aannaallyyttiiccaall pprroocceessssiinngg)) 
 MMaajjoorr ttaasskk ooff ddaattaa wwaarreehhoouussee ssyysstteemm 
 DDaattaa aannaallyyssiiss aanndd ddeecciissiioonn mmaakkiinngg
OOLLTTPP vvss.. OOLLAAPP 
OLTP OLAP 
users clerk, IT professional knowledge worker 
function day to day operations decision support 
DB design application-oriented subject-oriented 
data current, up-to-date 
detailed, flat relational 
isolated 
historical, 
summarized, multidimensional 
integrated, consolidated 
usage repetitive ad-hoc 
access read/write 
index/hash on prim. key 
lots of scans 
unit of work short, simple transaction complex query 
# records accessed tens millions 
#users thousands hundreds 
DB size 100MB-GB 100GB-TB 
metric transaction throughput query throughput, response
Why Separate DDaattaa WWaarreehhoouussee?? 
HHiigghh ppeerrffoorrmmaannccee ffoorr bbootthh ssyysstteemmss 
 DDBBMMSS—— ttuunneedd ffoorr OOLLTTPP:: aacccceessss mmeetthhooddss,, 
iinnddeexxiinngg,, ccoonnccuurrrreennccyy ccoonnttrrooll,, rreeccoovveerryy 
 WWaarreehhoouussee——ttuunneedd ffoorr OOLLAAPP:: ccoommpplleexx OOLLAAPP 
qquueerriieess,, mmuullttiiddiimmeennssiioonnaall vviieeww,, ccoonnssoolliiddaattiioonn..
Why Separate DDaattaa WWaarreehhoouussee?? 
DDiiffffeerreenntt ffuunnccttiioonnss aanndd ddiiffffeerreenntt ddaattaa:: 
 mmiissssiinngg ddaattaa:: DDeecciissiioonn ssuuppppoorrtt rreeqquuiirreess 
hhiissttoorriiccaall ddaattaa wwhhiicchh ooppeerraattiioonnaall DDBBss ddoo nnoott 
ttyyppiiccaallllyy mmaaiinnttaaiinn 
 ddaattaa ccoonnssoolliiddaattiioonn:: DDSS rreeqquuiirreess ccoonnssoolliiddaattiioonn 
((aaggggrreeggaattiioonn,, ssuummmmaarriizzaattiioonn)) ooff ddaattaa ffrroomm 
hheetteerrooggeenneeoouuss ssoouurrcceess 
 ddaattaa qquuaalliittyy:: ddiiffffeerreenntt ssoouurrcceess ttyyppiiccaallllyy uussee 
iinnccoonnssiisstteenntt ddaattaa rreepprreesseennttaattiioonnss,, ccooddeess aanndd 
ffoorrmmaattss wwhhiicchh hhaavvee ttoo bbee rreeccoonncciilleedd
LLeeccttuurree--88 
AA mmuullttii--ddiimmeennssiioonnaall ddaattaa mmooddeell
CCuubbee:: AA LLaattttiiccee ooff 
CCuubbooiiddss 
all 
time item location supplier 
time,item time,location 
item,location 
time,supplier 
item,supplier 
location,supplier 
time,item,location 
time,location,supplier 
time,item,supplier 
item,location,supplier 
time, item, location, supplier 
0-D(apex) cuboid 
1-D cuboids 
2-D cuboids 
3-D cuboids 
4-D(base) cuboid
M Conceptual Mooddeelliinngg ooff DDaattaa 
WWaarreehhoouusseess 
MMooddeelliinngg ddaattaa wwaarreehhoouusseess:: ddiimmeennssiioonnss && mmeeaassuurreess 
 SSttaarr sscchheemmaa:: AA ffaacctt ttaabbllee iinn tthhee mmiiddddllee ccoonnnneecctteedd ttoo aa 
sseett ooff ddiimmeennssiioonn ttaabblleess 
 SSnnoowwffllaakkee sscchheemmaa:: AA rreeffiinneemmeenntt ooff ssttaarr sscchheemmaa 
wwhheerree ssoommee ddiimmeennssiioonnaall hhiieerraarrcchhyy iiss nnoorrmmaalliizzeedd iinnttoo aa 
sseett ooff ssmmaalllleerr ddiimmeennssiioonn ttaabblleess,, ffoorrmmiinngg aa sshhaappee 
ssiimmiillaarr ttoo ssnnoowwffllaakkee 
 FFaacctt ccoonnsstteellllaattiioonnss:: MMuullttiippllee ffaacctt ttaabblleess sshhaarree 
ddiimmeennssiioonn ttaabblleess,, vviieewweedd aass aa ccoolllleeccttiioonn ooff ssttaarrss,, 
tthheerreeffoorree ccaalllleedd ggaallaaxxyy sscchheemmaa oorr ffaacctt ccoonnsstteellllaattiioonn
EExxaammppllee ooff SSttaarr SScchheemmaa 
time 
time_key 
day 
day_of_the_week 
month 
quarter 
year 
item 
location 
location_key 
street 
city 
province_or_street 
country 
Sales Fact Table 
time_key 
item_key 
branch_key 
location_key 
units_sold 
dollars_sold 
avg_sales 
Measures 
item_key 
item_name 
brand 
type 
supplier_type 
branch 
branch_key 
branch_name 
branch_type
EExxaammppllee ooff SSnnoowwffllaakkee 
SScchheemmaa 
time 
time_key 
day 
day_of_the_week 
month 
quarter 
year 
item 
location 
location_key 
street 
city_key 
Sales Fact Table 
time_key 
item_key 
branch_key 
location_key 
units_sold 
dollars_sold 
avg_sales 
Measures 
item_key 
item_name 
brand 
type 
supplier_key 
branch 
branch_key 
branch_name 
branch_type 
supplier 
supplier_key 
supplier_type 
city 
city_key 
city 
province_or_street 
country
EExxaammppllee ooff FFaacctt 
CCoonnsstteellllaattiioonn 
time 
time_key 
day 
day_of_the_week 
month 
quarter 
year 
item 
location 
location_key 
street 
city 
province_or_street 
country 
Sales Fact Table 
time_key 
item_key 
branch_key 
location_key 
units_sold 
dollars_sold 
avg_sales 
Measures 
item_key 
item_name 
brand 
type 
supplier_type 
branch 
branch_key 
branch_name 
branch_type 
Shipping Fact Table 
time_key 
item_key 
shipper_key 
from_location 
to_location 
dollars_cost 
units_shipped 
shipper 
shipper_key 
shipper_name 
location_key 
shipper_type
AA DDaattaa MMiinniinngg QQuueerryy LLaanngguuaaggee,, DDMMQQLL:: 
LLaanngguuaaggee PPrriimmiittiivveess 
CCuubbee DDeeffiinniittiioonn ((FFaacctt TTaabbllee)) 
ddeeffiinnee ccuubbee <<ccuubbee__nnaammee>> [[<<ddiimmeennssiioonn__lliisstt>>]]:: 
<<mmeeaassuurree__lliisstt>> 
DDiimmeennssiioonn DDeeffiinniittiioonn (( DDiimmeennssiioonn TTaabbllee )) 
ddeeffiinnee ddiimmeennssiioonn <<ddiimmeennssiioonn__nnaammee>> aass 
((<<aattttrriibbuuttee__oorr__ssuubbddiimmeennssiioonn__lliisstt>>)) 
SSppeecciiaall CCaassee ((SShhaarreedd DDiimmeennssiioonn TTaabblleess)) 
 FFiirrsstt ttiimmee aass ““ccuubbee ddeeffiinniittiioonn”” 
 ddeeffiinnee ddiimmeennssiioonn <<ddiimmeennssiioonn__nnaammee>> aass 
<<ddiimmeennssiioonn__nnaammee__ffiirrsstt__ttiimmee>> iinn ccuubbee 
<<ccuubbee__nnaammee__ffiirrsstt__ttiimmee>>
DDeeffiinniinngg aa SSttaarr SScchheemmaa iinn 
DDMMQQLL 
ddeeffiinnee ccuubbee ssaalleess__ssttaarr [[ttiimmee,, iitteemm,, bbrraanncchh,, llooccaattiioonn]]:: 
ddoollllaarrss__ssoolldd == ssuumm((ssaalleess__iinn__ddoollllaarrss)),, aavvgg__ssaalleess == 
aavvgg((ssaalleess__iinn__ddoollllaarrss)),, uunniittss__ssoolldd == ccoouunntt((**)) 
ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ((ttiimmee__kkeeyy,, ddaayy,, ddaayy__ooff__wweeeekk,, 
mmoonntthh,, qquuaarrtteerr,, yyeeaarr)) 
ddeeffiinnee ddiimmeennssiioonn iitteemm aass ((iitteemm__kkeeyy,, iitteemm__nnaammee,, bbrraanndd,, 
ttyyppee,, ssuupppplliieerr__ttyyppee)) 
ddeeffiinnee ddiimmeennssiioonn bbrraanncchh aass ((bbrraanncchh__kkeeyy,, bbrraanncchh__nnaammee,, 
bbrraanncchh__ttyyppee)) 
ddeeffiinnee ddiimmeennssiioonn llooccaattiioonn aass ((llooccaattiioonn__kkeeyy,, ssttrreeeett,, cciittyy,, 
pprroovviinnccee__oorr__ssttaattee,, ccoouunnttrryy))
DDeeffiinniinngg aa SSnnoowwffllaakkee SScchheemmaa iinn DDMMQQLL 
ddeeffiinnee ccuubbee ssaalleess__ssnnoowwffllaakkee [[ttiimmee,, iitteemm,, bbrraanncchh,, 
llooccaattiioonn]]:: 
ddoollllaarrss__ssoolldd == ssuumm((ssaalleess__iinn__ddoollllaarrss)),, aavvgg__ssaalleess == 
aavvgg((ssaalleess__iinn__ddoollllaarrss)),, uunniittss__ssoolldd == ccoouunntt((**)) 
ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ((ttiimmee__kkeeyy,, ddaayy,, 
ddaayy__ooff__wweeeekk,, mmoonntthh,, qquuaarrtteerr,, yyeeaarr)) 
ddeeffiinnee ddiimmeennssiioonn iitteemm aass ((iitteemm__kkeeyy,, iitteemm__nnaammee,, 
bbrraanndd,, ttyyppee,, ssuupppplliieerr((ssuupppplliieerr__kkeeyy,, ssuupppplliieerr__ttyyppee))))
DDeeffiinniinngg aa SSnnoowwffllaakkee SScchheemmaa iinn DDMMQQLL 
ddeeffiinnee ddiimmeennssiioonn bbrraanncchh aass ((bbrraanncchh__kkeeyy,, 
bbrraanncchh__nnaammee,, bbrraanncchh__ttyyppee)) 
ddeeffiinnee ddiimmeennssiioonn llooccaattiioonn aass ((llooccaattiioonn__kkeeyy,, 
ssttrreeeett,, cciittyy((cciittyy__kkeeyy,, pprroovviinnccee__oorr__ssttaattee,, 
ccoouunnttrryy))))
DDeeffiinniinngg aa FFaacctt CCoonnsstteellllaattiioonn iinn DDMMQQLL 
ddeeffiinnee ccuubbee ssaalleess [[ttiimmee,, iitteemm,, bbrraanncchh,, llooccaattiioonn]]:: 
ddoollllaarrss__ssoolldd == ssuumm((ssaalleess__iinn__ddoollllaarrss)),, aavvgg__ssaalleess == 
aavvgg((ssaalleess__iinn__ddoollllaarrss)),, uunniittss__ssoolldd == ccoouunntt((**)) 
ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ((ttiimmee__kkeeyy,, ddaayy,, ddaayy__ooff__wweeeekk,, mmoonntthh,, 
qquuaarrtteerr,, yyeeaarr)) 
ddeeffiinnee ddiimmeennssiioonn iitteemm aass ((iitteemm__kkeeyy,, iitteemm__nnaammee,, bbrraanndd,, ttyyppee,, 
ssuupppplliieerr__ttyyppee)) 
ddeeffiinnee ddiimmeennssiioonn bbrraanncchh aass ((bbrraanncchh__kkeeyy,, bbrraanncchh__nnaammee,, 
bbrraanncchh__ttyyppee)) 
ddeeffiinnee ddiimmeennssiioonn llooccaattiioonn aass ((llooccaattiioonn__kkeeyy,, ssttrreeeett,, cciittyy,, 
pprroovviinnccee__oorr__ssttaattee,, ccoouunnttrryy))
DDeeffiinniinngg aa FFaacctt CCoonnsstteellllaattiioonn iinn DDMMQQLL 
ddeeffiinnee ccuubbee sshhiippppiinngg [[ttiimmee,, iitteemm,, sshhiippppeerr,, ffrroomm__llooccaattiioonn,, 
ttoo__llooccaattiioonn]]:: 
ddoollllaarr__ccoosstt == ssuumm((ccoosstt__iinn__ddoollllaarrss)),, uunniitt__sshhiippppeedd == 
ccoouunntt((**)) 
ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ttiimmee iinn ccuubbee ssaalleess 
ddeeffiinnee ddiimmeennssiioonn iitteemm aass iitteemm iinn ccuubbee ssaalleess 
ddeeffiinnee ddiimmeennssiioonn sshhiippppeerr aass ((sshhiippppeerr__kkeeyy,, sshhiippppeerr__nnaammee,, 
llooccaattiioonn aass llooccaattiioonn iinn ccuubbee ssaalleess,, sshhiippppeerr__ttyyppee)) 
ddeeffiinnee ddiimmeennssiioonn ffrroomm__llooccaattiioonn aass llooccaattiioonn iinn ccuubbee ssaalleess 
ddeeffiinnee ddiimmeennssiioonn ttoo__llooccaattiioonn aass llooccaattiioonn iinn ccuubbee ssaalleess
MMeeaassuurreess:: TThhrreeee CCaatteeggoorriieess 
ddiissttrriibbuuttiivvee:: iiff tthhee rreessuulltt ddeerriivveedd bbyy aappppllyyiinngg tthhee 
ffuunnccttiioonn ttoo nn aaggggrreeggaattee vvaalluueess iiss tthhee ssaammee aass 
tthhaatt ddeerriivveedd bbyy aappppllyyiinngg tthhee ffuunnccttiioonn oonn aallll tthhee 
ddaattaa wwiitthhoouutt ppaarrttiittiioonniinngg.. 
EE..gg..,, ccoouunntt(()),, ssuumm(()),, mmiinn(()),, mmaaxx(()).. 
aallggeebbrraaiicc:: iiff iitt ccaann bbee ccoommppuutteedd bbyy aann aallggeebbrraaiicc 
ffuunnccttiioonn wwiitthh MM aarrgguummeennttss ((wwhheerree MM iiss aa 
bboouunnddeedd iinntteeggeerr)),, eeaacchh ooff wwhhiicchh iiss oobbttaaiinneedd bbyy 
aappppllyyiinngg aa ddiissttrriibbuuttiivvee aaggggrreeggaattee ffuunnccttiioonn.. 
EE..gg..,, aavvgg(()),, mmiinn__NN(()),, ssttaannddaarrdd__ddeevviiaattiioonn(())..
MMeeaassuurreess:: TThhrreeee CCaatteeggoorriieess 
hhoolliissttiicc:: iiff tthheerree iiss nnoo ccoonnssttaanntt bboouunndd oonn 
tthhee ssttoorraaggee ssiizzee nneeeeddeedd ttoo ddeessccrriibbee aa ssuubb 
aaggggrreeggaattee.. 
EE..gg..,, mmeeddiiaann(()),, mmooddee(()),, rraannkk(())..
A CCoonncceepptt HHiieerraarrcchhyy:: DDiimmeennssiioonn ((llooccaattiioonn)) 
all 
Europe ... 
North_America 
Germany ... Spain Canada ... 
Mexico 
... Vancouver 
... 
city Frankfurt Toronto 
L. Chan ... 
M. Wind 
all 
region 
country 
office
MMuullttiiddiimmeennssiioonnaall DDaattaa 
SSaalleess vvoolluummee aass aa ffuunnccttiioonn ooff pprroodduucctt,, 
mmoonntthh,, aanndd rreeggiioonn 
Region 
Product 
Month 
Dimensions: Product, Location, Time 
Hierarchical summarization paths 
Industry Region Year 
Category Country Quarter 
Product City Month Week 
Office Day
AA SSaammppllee DDaattaa CCuubbee 
Total annual sales 
of TV in U.S.A. 
Date 
Product 
Country 
sum 
sum 
TV 
PC 
VCR 
1Qtr 2Qtr 3Qtr 4Qtr 
U.S.A 
Canada 
Mexico 
sum
CCuubbooiiddss CCoorrrreessppoonnddiinngg ttoo tthhee 
CCuubbee 
all 
product date country 
product,date product,country date, country 
product, date, country 
0-D(apex) cuboid 
1-D cuboids 
2-D cuboids 
3-D(base) cuboid
OOLLAAPP OOppeerraattiioonnss 
RRoollll uupp ((ddrriillll--uupp)):: ssuummmmaarriizzee ddaattaa 
 bbyy cclliimmbbiinngg uupp hhiieerraarrcchhyy oorr bbyy 
ddiimmeennssiioonn rreedduuccttiioonn 
DDrriillll ddoowwnn ((rroollll ddoowwnn)):: rreevveerrssee ooff rroollll--uupp 
 ffrroomm hhiigghheerr lleevveell ssuummmmaarryy ttoo lloowweerr 
lleevveell ssuummmmaarryy oorr ddeettaaiilleedd ddaattaa,, oorr 
iinnttrroodduucciinngg nneeww ddiimmeennssiioonnss 
SSlliiccee aanndd ddiiccee:: 
 pprroojjeecctt aanndd sseelleecctt
OOLLAAPP OOppeerraattiioonnss 
PPiivvoott ((rroottaattee)):: 
 rreeoorriieenntt tthhee ccuubbee,, vviissuuaalliizzaattiioonn,, 33DD ttoo 
sseerriieess ooff 22DD ppllaanneess.. 
OOtthheerr ooppeerraattiioonnss 
 ddrriillll aaccrroossss:: iinnvvoollvviinngg ((aaccrroossss)) mmoorree 
tthhaann oonnee ffaacctt ttaabbllee 
 ddrriillll tthhrroouugghh:: tthhrroouugghh tthhee bboottttoomm lleevveell 
ooff tthhee ccuubbee ttoo iittss bbaacckk--eenndd rreellaattiioonnaall 
ttaabblleess ((uussiinngg SSQQLL))
LLeeccttuurree--99 
DDaattaa wwaarreehhoouussee aarrcchhiitteeccttuurree
Steps ffoorr tthhee DDeessiiggnn aanndd 
CCoonnssttrruuccttiioonn ooff DDaattaa WWaarreehhoouussee 
TThhee ddeessiiggnn ooff aa ddaattaa wwaarreehhoouussee:: aa 
bbuussiinneessss aannaallyyssiiss ffrraammeewwoorrkk 
TThhee pprroocceessss ooff ddaattaa wwaarreehhoouussee ddeessiiggnn 
AA tthhrreeee--ttiieerr ddaattaa wwaarree hhoouussee aarrcchhiitteeccttuurree
Design ooff aa DDaattaa WWaarreehhoouussee:: AA BBuussiinneessss 
AAnnaallyyssiiss FFrraammeewwoorrkk 
FFoouurr vviieewwss rreeggaarrddiinngg tthhee ddeessiiggnn ooff aa ddaattaa 
wwaarreehhoouussee 
 TToopp--ddoowwnn vviieeww 
aalllloowwss sseelleeccttiioonn ooff tthhee rreelleevvaanntt iinnffoorrmmaattiioonn 
nneecceessssaarryy ffoorr tthhee ddaattaa wwaarreehhoouussee
Design ooff aa DDaattaa WWaarreehhoouussee:: AA BBuussiinneessss 
AAnnaallyyssiiss FFrraammeewwoorrkk 
 DDaattaa wwaarreehhoouussee vviieeww 
ccoonnssiissttss ooff ffaacctt ttaabblleess aanndd ddiimmeennssiioonn ttaabblleess 
 DDaattaa ssoouurrccee vviieeww 
eexxppoosseess tthhee iinnffoorrmmaattiioonn bbeeiinngg ccaappttuurreedd,, ssttoorreedd,, 
aanndd mmaannaaggeedd bbyy ooppeerraattiioonnaall ssyysstteemmss 
 BBuussiinneessss qquueerryy vviieeww 
sseeeess tthhee ppeerrssppeeccttiivveess
DDaattaa WWaarreehhoouussee DDeessiiggnn PPrroocceessss 
TToopp--ddoowwnn,, bboottttoomm--uupp aapppprrooaacchheess oorr aa 
ccoommbbiinnaattiioonn ooff bbootthh 
 TToopp--ddoowwnn:: SSttaarrttss wwiitthh oovveerraallll ddeessiiggnn aanndd ppllaannnniinngg 
((mmaattuurree)) 
 BBoottttoomm--uupp:: SSttaarrttss wwiitthh eexxppeerriimmeennttss aanndd pprroottoottyyppeess 
((rraappiidd)) 
FFrroomm ssooffttwwaarree eennggiinneeeerriinngg ppooiinntt ooff vviieeww 
 WWaatteerrffaallll:: ssttrruuccttuurreedd aanndd ssyysstteemmaattiicc aannaallyyssiiss aatt eeaacchh 
sstteepp bbeeffoorree pprroocceeeeddiinngg ttoo tthhee nneexxtt 
 SSppiirraall:: rraappiidd ggeenneerraattiioonn ooff iinnccrreeaassiinnggllyy ffuunnccttiioonnaall 
ssyysstteemmss,, sshhoorrtt ttuurrnn aarroouunndd ttiimmee,, qquuiicckk ttuurrnn aarroouunndd
DDaattaa WWaarreehhoouussee DDeessiiggnn PPrroocceessss 
TTyyppiiccaall ddaattaa wwaarreehhoouussee ddeessiiggnn pprroocceessss 
 CChhoooossee aa bbuussiinneessss pprroocceessss ttoo mmooddeell,, ee..gg..,, 
oorrddeerrss,, iinnvvooiicceess,, eettcc.. 
 CChhoooossee tthhee ggrraaiinn ((aattoommiicc lleevveell ooff ddaattaa)) ooff tthhee 
bbuussiinneessss pprroocceessss 
 CChhoooossee tthhee ddiimmeennssiioonnss tthhaatt wwiillll aappppllyy ttoo eeaacchh 
ffaacctt ttaabbllee rreeccoorrdd 
 CChhoooossee tthhee mmeeaassuurree tthhaatt wwiillll ppooppuullaattee eeaacchh 
ffaacctt ttaabbllee rreeccoorrdd
MMuullttii--TTiieerreedd AArrcchhiitteeccttuurree 
Data 
Warehouse 
Extract 
Transform 
Load 
Refresh 
Serve 
OLAP Engine 
Analysis 
Query 
Reports 
Data mining 
Monitor 
& 
Integrator 
Metadata 
Data Marts 
other 
source 
s 
Operational 
DBs 
Data Sources Data Storage 
Front-End Tools 
OLAP Server
MMeettaaddaattaa RReeppoossiittoorryy 
MMeettaa ddaattaa iiss tthhee ddaattaa ddeeffiinniinngg wwaarreehhoouussee oobbjjeeccttss.. IItt hhaass 
tthhee ffoolllloowwiinngg kkiinnddss 
 DDeessccrriippttiioonn ooff tthhee ssttrruuccttuurree ooff tthhee wwaarreehhoouussee 
sscchheemmaa,, vviieeww,, ddiimmeennssiioonnss,, hhiieerraarrcchhiieess,, ddeerriivveedd ddaattaa ddeeffnn,, ddaattaa mmaarrtt 
llooccaattiioonnss aanndd ccoonntteennttss 
 OOppeerraattiioonnaall mmeettaa--ddaattaa 
ddaattaa lliinneeaaggee ((hhiissttoorryy ooff mmiiggrraatteedd ddaattaa aanndd ttrraannssffoorrmmaattiioonn ppaatthh)),, 
ccuurrrreennccyy ooff ddaattaa ((aaccttiivvee,, aarrcchhiivveedd,, oorr ppuurrggeedd)),, mmoonniittoorriinngg iinnffoorrmmaattiioonn 
((wwaarreehhoouussee uussaaggee ssttaattiissttiiccss,, eerrrroorr rreeppoorrttss,, aauuddiitt ttrraaiillss)) 
 TThhee aallggoorriitthhmmss uusseedd ffoorr ssuummmmaarriizzaattiioonn 
 TThhee mmaappppiinngg ffrroomm ooppeerraattiioonnaall eennvviirroonnmmeenntt ttoo tthhee ddaattaa wwaarreehhoouussee 
 DDaattaa rreellaatteedd ttoo ssyysstteemm ppeerrffoorrmmaannccee 
wwaarreehhoouussee sscchheemmaa,, vviieeww aanndd ddeerriivveedd ddaattaa ddeeffiinniittiioonnss 
 BBuussiinneessss ddaattaa 
bbuussiinneessss tteerrmmss aanndd ddeeffiinniittiioonnss,, oowwnneerrsshhiipp ooff ddaattaa,, cchhaarrggiinngg ppoolliicciieess
Data Warehouse BBaacckk--EEnndd TToooollss aanndd UUttiilliittiieess 
DDaattaa eexxttrraaccttiioonn:: 
 ggeett ddaattaa ffrroomm mmuullttiippllee,, hheetteerrooggeenneeoouuss,, aanndd eexxtteerrnnaall 
ssoouurrcceess 
DDaattaa cclleeaanniinngg:: 
 ddeetteecctt eerrrroorrss iinn tthhee ddaattaa aanndd rreeccttiiffyy tthheemm wwhheenn 
ppoossssiibbllee 
DDaattaa ttrraannssffoorrmmaattiioonn:: 
 ccoonnvveerrtt ddaattaa ffrroomm lleeggaaccyy oorr hhoosstt ffoorrmmaatt ttoo wwaarreehhoouussee 
ffoorrmmaatt 
LLooaadd:: 
 ssoorrtt,, ssuummmmaarriizzee,, ccoonnssoolliiddaattee,, ccoommppuuttee vviieewwss,, cchheecckk 
iinntteeggrriittyy,, aanndd bbuuiilldd iinnddiicceess aanndd ppaarrttiittiioonnss 
RReeffrreesshh 
 pprrooppaaggaattee tthhee uuppddaatteess ffrroomm tthhee ddaattaa ssoouurrcceess ttoo tthhee 
wwaarreehhoouussee
TThhrreeee DDaattaa WWaarreehhoouussee MMooddeellss 
EEnntteerrpprriissee wwaarreehhoouussee 
 ccoolllleeccttss aallll ooff tthhee iinnffoorrmmaattiioonn aabboouutt ssuubbjjeeccttss ssppaannnniinngg 
tthhee eennttiirree oorrggaanniizzaattiioonn 
DDaattaa MMaarrtt 
 aa ssuubbsseett ooff ccoorrppoorraattee--wwiiddee ddaattaa tthhaatt iiss ooff vvaalluuee ttoo aa 
ssppeecciiffiicc ggrroouuppss ooff uusseerrss.. IIttss ssccooppee iiss ccoonnffiinneedd ttoo 
ssppeecciiffiicc,, sseelleecctteedd ggrroouuppss,, ssuucchh aass mmaarrkkeettiinngg ddaattaa mmaarrtt 
IInnddeeppeennddeenntt vvss.. ddeeppeennddeenntt ((ddiirreeccttllyy ffrroomm wwaarreehhoouussee)) 
ddaattaa mmaarrtt 
VViirrttuuaall wwaarreehhoouussee 
 AA sseett ooff vviieewwss oovveerr ooppeerraattiioonnaall ddaattaabbaasseess 
 OOnnllyy ssoommee ooff tthhee ppoossssiibbllee ssuummmmaarryy vviieewwss mmaayy bbee 
mmaatteerriiaalliizzeedd
DDaattaa WWaarreehhoouussee DDeevveellooppmmeenntt:: AA 
RReeccoommmmeennddeedd AApppprrooaacchh 
Data 
Mart 
Distributed 
Data Marts 
Data 
Mart 
Multi-Tier Data 
Warehouse 
Enterprise 
Data 
Warehouse 
Model refinement Model refinement 
Define a high-level corporate data model
TTyyppeess ooff OOLLAAPP SSeerrvveerrss 
RReellaattiioonnaall OOLLAAPP ((RROOLLAAPP)) 
 UUssee rreellaattiioonnaall oorr eexxtteennddeedd--rreellaattiioonnaall DDBBMMSS ttoo ssttoorree 
aanndd mmaannaaggee wwaarreehhoouussee ddaattaa aanndd OOLLAAPP mmiiddddllee wwaarree 
ttoo ssuuppppoorrtt mmiissssiinngg ppiieecceess 
 IInncclluuddee ooppttiimmiizzaattiioonn ooff DDBBMMSS bbaacckkeenndd,, 
iimmpplleemmeennttaattiioonn ooff aaggggrreeggaattiioonn nnaavviiggaattiioonn llooggiicc,, aanndd 
aaddddiittiioonnaall ttoooollss aanndd sseerrvviicceess 
 ggrreeaatteerr ssccaallaabbiilliittyy 
MMuullttiiddiimmeennssiioonnaall OOLLAAPP ((MMOOLLAAPP)) 
 AArrrraayy--bbaasseedd mmuullttiiddiimmeennssiioonnaall ssttoorraaggee eennggiinnee ((ssppaarrssee 
mmaattrriixx tteecchhnniiqquueess)) 
 ffaasstt iinnddeexxiinngg ttoo pprree--ccoommppuutteedd ssuummmmaarriizzeedd ddaattaa
TTyyppeess ooff OOLLAAPP SSeerrvveerrss 
HHyybbrriidd OOLLAAPP ((HHOOLLAAPP)) 
 UUsseerr fflleexxiibbiilliittyy,, ee..gg..,, llooww lleevveell:: rreellaattiioonnaall,, hhiigghh-- 
lleevveell:: aarrrraayy 
SSppeecciiaalliizzeedd SSQQLL sseerrvveerrss 
 ssppeecciiaalliizzeedd ssuuppppoorrtt ffoorr SSQQLL qquueerriieess oovveerr 
ssttaarr//ssnnoowwffllaakkee sscchheemmaass
LLeeccttuurree--1100 && 1111 
DDaattaa wwaarreehhoouussee iimmpplleemmeennttaattiioonn
EEffffiicciieenntt DDaattaa CCuubbee CCoommppuuttaattiioonn 
DDaattaa ccuubbee ccaann bbee vviieewweedd aass aa llaattttiiccee ooff ccuubbooiiddss 
 TThhee bboottttoomm--mmoosstt ccuubbooiidd iiss tthhee bbaassee ccuubbooiidd 
 TThhee ttoopp--mmoosstt ccuubbooiidd ((aappeexx)) ccoonnttaaiinnss oonnllyy oonnee cceellll 
 HHooww mmaannyy ccuubbooiiddss iinn aann nn--ddiimmeennssiioonnaall ccuubbee wwiitthh LL 
lleevveellss?? 
n 
i i T L 
( + Õ= 
1) 
1 
= 
MMaatteerriiaalliizzaattiioonn ooff ddaattaa ccuubbee 
 MMaatteerriiaalliizzee eevveerryy ((ccuubbooiidd)) ((ffuullll mmaatteerriiaalliizzaattiioonn)),, nnoonnee 
((nnoo mmaatteerriiaalliizzaattiioonn)),, oorr ssoommee ((ppaarrttiiaall mmaatteerriiaalliizzaattiioonn)) 
 SSeelleeccttiioonn ooff wwhhiicchh ccuubbooiiddss ttoo mmaatteerriiaalliizzee 
BBaasseedd oonn ssiizzee,, sshhaarriinngg,, aacccceessss ffrreeqquueennccyy,, eettcc..
CCuubbee OOppeerraattiioonn 
CCuubbee ddeeffiinniittiioonn aanndd ccoommppuuttaattiioonn iinn DDMMQQLL 
ddeeffiinnee ccuubbee ssaalleess[[iitteemm,, cciittyy,, yyeeaarr]]:: ssuumm((ssaalleess__iinn__ddoollllaarrss)) 
ccoommppuuttee ccuubbee ssaalleess 
TTrraannssffoorrmm iitt iinnttoo aa SSQQLL--lliikkee llaanngguuaaggee ((wwiitthh aa nneeww ooppeerraattoorr 
ccuubbee bbyy,, iinnttrroodduucceedd bbyy GGrraayy eett aall..’’9966)) 
SSEELLEECCTT iitteemm,, cciittyy,, yyeeaarr,, SSUUMM ((aammoouunntt)) 
FFRROOMM SSAALLEESS 
CCUUBBEE BBYY iitteemm,, cciittyy,, yyeeaarr 
() 
(city) (item) 
NNeeeedd ccoommppuuttee tthhee ffoolllloowwiinngg GGrroouupp--BByyss 
((ddaattee,, pprroodduucctt,, ccuussttoommeerr)),, 
((ddaattee,,pprroodduucctt)),,((ddaattee,, ccuussttoommeerr)),, ((pprroodduucctt,, ccuussttoommeerr)),, 
((ddaattee)),, ((pprroodduucctt)),, ((ccuussttoommeerr)) 
(()) 
(year) 
(city, item) (city, year) (item, year) 
(city, item, year)
Cube Computation: RROOLLAAPP--BBaasseedd 
MMeetthhoodd 
EEffffiicciieenntt ccuubbee ccoommppuuttaattiioonn mmeetthhooddss 
 RROOLLAAPP--bbaasseedd ccuubbiinngg aallggoorriitthhmmss ((AAggaarrwwaall eett aall’’9966)) 
 AArrrraayy--bbaasseedd ccuubbiinngg aallggoorriitthhmm ((ZZhhaaoo eett aall’’9977)) 
 BBoottttoomm--uupp ccoommppuuttaattiioonn mmeetthhoodd ((BBaayyeerr && RRaammaarrkkrriisshhnnaann’’9999)) 
RROOLLAAPP--bbaasseedd ccuubbiinngg aallggoorriitthhmmss 
 SSoorrttiinngg,, hhaasshhiinngg,, aanndd ggrroouuppiinngg ooppeerraattiioonnss aarree aapppplliieedd ttoo tthhee 
ddiimmeennssiioonn aattttrriibbuutteess iinn oorrddeerr ttoo rreeoorrddeerr aanndd cclluusstteerr rreellaatteedd 
ttuupplleess 
 GGrroouuppiinngg iiss ppeerrffoorrmmeedd oonn ssoommee ssuubb aaggggrreeggaatteess aass aa ““ppaarrttiiaall 
ggrroouuppiinngg sstteepp”” 
 AAggggrreeggaatteess mmaayy bbee ccoommppuutteedd ffrroomm pprreevviioouussllyy ccoommppuutteedd 
aaggggrreeggaatteess,, rraatthheerr tthhaann ffrroomm tthhee bbaassee ffaacctt ttaabbllee
Multi-wwaayy AArrrraayy AAggggrreeggaattiioonn 
ffoorr CCuubbee CCoommppuuttaattiioonn 
PPaarrttiittiioonn aarrrraayyss iinnttoo cchhuunnkkss ((aa ssmmaallll ssuubb ccuubbee wwhhiicchh ffiittss iinn 
mmeemmoorryy)).. 
CCoommpprreesssseedd ssppaarrssee aarrrraayy aaddddrreessssiinngg:: ((cchhuunnkk__iidd,, ooffffsseett)) 
CCoommppuuttee aaggggrreeggaatteess iinn ““mmuullttii wwaayy”” bbyy vviissiittiinngg ccuubbee cceellllss iinn 
tthhee oorrddeerr wwhhiicchh mmiinniimmiizzeess tthhee ## ooff ttiimmeess ttoo vviissiitt eeaacchh cceellll,, 
aanndd rreedduucceess mmeemmoorryy aacccceessss aanndd ssttoorraaggee ccoosstt..
Multi-wwaayy AArrrraayy AAggggrreeggaattiioonn 
ffoorr CCuubbee CCoommppuuttaattiioonn 
c3 
61 62 63 64 
45 46 47 48 
c2 
c1 
c 0 
b3 
b2 
b1 
b0 
13 14 15 16 
A 
B 
29 30 31 32 
9 
5 
1 2 3 4 
a0 a1 
a2 a3 
C 
44 
60 
28 56 
40 
24 52 
36 
20 
B
MMuullttii--WWaayy AArrrraayy AAggggrreeggaattiioonn ffoorr 
CCuubbee CCoommppuuttaattiioonn 
MMeetthhoodd:: tthhee ppllaanneess sshhoouulldd bbee ssoorrtteedd aanndd 
ccoommppuutteedd aaccccoorrddiinngg ttoo tthheeiirr ssiizzee iinn 
aasscceennddiinngg oorrddeerr.. 
 IIddeeaa:: kkeeeepp tthhee ssmmaalllleesstt ppllaannee iinn tthhee mmaaiinn 
mmeemmoorryy,, ffeettcchh aanndd ccoommppuuttee oonnllyy oonnee cchhuunnkk 
aatt aa ttiimmee ffoorr tthhee llaarrggeesstt ppllaannee 
LLiimmiittaattiioonn ooff tthhee mmeetthhoodd:: ccoommppuuttiinngg wweellll 
oonnllyy ffoorr aa ssmmaallll nnuummbbeerr ooff ddiimmeennssiioonnss 
 IIff tthheerree aarree aa llaarrggee nnuummbbeerr ooff ddiimmeennssiioonnss,, 
““bboottttoomm--uupp ccoommppuuttaattiioonn”” aanndd iicceebbeerrgg ccuubbee 
ccoommppuuttaattiioonn mmeetthhooddss ccaann bbee eexxpplloorreedd
IInnddeexxiinngg OOLLAAPP DDaattaa:: BBiittmmaapp IInnddeexx 
IInnddeexx oonn aa ppaarrttiiccuullaarr ccoolluummnn 
EEaacchh vvaalluuee iinn tthhee ccoolluummnn hhaass aa bbiitt vveeccttoorr:: bbiitt--oopp iiss ffaasstt 
TThhee lleennggtthh ooff tthhee bbiitt vveeccttoorr:: ## ooff rreeccoorrddss iinn tthhee bbaassee 
ttaabbllee 
TThhee ii--tthh bbiitt iiss sseett iiff tthhee ii--tthh rrooww ooff tthhee bbaassee ttaabbllee hhaass 
tthhee vvaalluuee ffoorr tthhee iinnddeexxeedd ccoolluummnn 
nnoott ssuuiittaabbllee ffoorr hhiigghh ccaarrddiinnaalliittyy ddoommaaiinnss 
Base table Index on Region Index on Type 
Cust Region Type 
C1 Asia Retail 
C2 Europe Dealer 
C3 Asia Dealer 
C4 America Retail 
C5 Europe Dealer 
RecID Retail Dealer 
1 1 0 
2 0 1 
3 0 1 
4 1 0 
5 0 1 
RecIDAsia Europe America 
1 1 0 0 
2 0 1 0 
3 1 0 0 
4 0 0 1 
5 0 1 0
IInnddeexxiinngg OOLLAAPP DDaattaa:: JJooiinn IInnddiicceess 
JJooiinn iinnddeexx:: JJII((RR--iidd,, SS--iidd)) wwhheerree RR ((RR--iidd,, 
……))  SS ((SS--iidd,, ……)) 
TTrraaddiittiioonnaall iinnddiicceess mmaapp tthhee vvaalluueess ttoo aa 
lliisstt ooff rreeccoorrdd iiddss 
 IItt mmaatteerriiaalliizzeess rreellaattiioonnaall jjooiinn iinn JJII ffiillee aanndd 
ssppeeeeddss uupp rreellaattiioonnaall jjooiinn —— aa rraatthheerr ccoossttllyy 
ooppeerraattiioonn 
IInn ddaattaa wwaarreehhoouusseess,, jjooiinn iinnddeexx rreellaatteess 
tthhee vvaalluueess ooff tthhee ddiimmeennssiioonnss ooff aa ssttaarrtt 
sscchheemmaa ttoo rroowwss iinn tthhee ffaacctt ttaabbllee.. 
 EE..gg.. ffaacctt ttaabbllee:: SSaalleess aanndd ttwwoo ddiimmeennssiioonnss cciittyy 
aanndd pprroodduucctt 
AA jjooiinn iinnddeexx oonn cciittyy mmaaiinnttaaiinnss ffoorr eeaacchh 
ddiissttiinncctt cciittyy aa lliisstt ooff RR--IIDDss ooff tthhee ttuupplleess 
rreeccoorrddiinngg tthhee SSaalleess iinn tthhee cciittyy 
 JJooiinn iinnddiicceess ccaann ssppaann mmuullttiippllee ddiimmeennssiioonnss
EEffffiicciieenntt PPrroocceessssiinngg OOLLAAPP QQuueerriieess 
DDeetteerrmmiinnee wwhhiicchh ooppeerraattiioonnss sshhoouulldd bbee ppeerrffoorrmmeedd 
oonn tthhee aavvaaiillaabbllee ccuubbooiiddss:: 
 ttrraannssffoorrmm ddrriillll,, rroollll,, eettcc.. iinnttoo ccoorrrreessppoonnddiinngg SSQQLL aanndd//oorr 
OOLLAAPP ooppeerraattiioonnss,, ee..gg,, ddiiccee == sseelleeccttiioonn ++ pprroojjeeccttiioonn 
DDeetteerrmmiinnee ttoo wwhhiicchh mmaatteerriiaalliizzeedd ccuubbooiidd((ss)) tthhee 
rreelleevvaanntt ooppeerraattiioonnss sshhoouulldd bbee aapppplliieedd.. 
EExxpplloorriinngg iinnddeexxiinngg ssttrruuccttuurreess aanndd ccoommpprreesssseedd vvss.. 
ddeennssee aarrrraayy ssttrruuccttuurreess iinn MMOOLLAAPP
LLeeccttuurree--1122 
FFrroomm ddaattaa wwaarreehhoouussiinngg ttoo ddaattaa 
mmiinniinngg
DDaattaa WWaarreehhoouussee UUssaaggee 
TThhrreeee kkiinnddss ooff ddaattaa wwaarreehhoouussee aapppplliiccaattiioonnss 
 IInnffoorrmmaattiioonn pprroocceessssiinngg 
ssuuppppoorrttss qquueerryyiinngg,, bbaassiicc ssttaattiissttiiccaall aannaallyyssiiss,, aanndd rreeppoorrttiinngg 
uussiinngg ccrroossssttaabbss,, ttaabblleess,, cchhaarrttss aanndd ggrraapphhss 
 AAnnaallyyttiiccaall pprroocceessssiinngg 
mmuullttiiddiimmeennssiioonnaall aannaallyyssiiss ooff ddaattaa wwaarreehhoouussee ddaattaa 
ssuuppppoorrttss bbaassiicc OOLLAAPP ooppeerraattiioonnss,, sslliiccee--ddiiccee,, ddrriilllliinngg,, ppiivvoottiinngg 
 DDaattaa mmiinniinngg 
kknnoowwlleeddggee ddiissccoovveerryy ffrroomm hhiiddddeenn ppaatttteerrnnss 
ssuuppppoorrttss aassssoocciiaattiioonnss,, ccoonnssttrruuccttiinngg aannaallyyttiiccaall mmooddeellss,, 
ppeerrffoorrmmiinngg ccllaassssiiffiiccaattiioonn aanndd pprreeddiiccttiioonn,, aanndd pprreesseennttiinngg tthhee 
mmiinniinngg rreessuullttss uussiinngg vviissuuaalliizzaattiioonn ttoooollss.. 
DDiiffffeerreenncceess aammoonngg tthhee tthhrreeee ttaasskkss
From OOnn--LLiinnee AAnnaallyyttiiccaall PPrroocceessssiinngg ttoo OOnn 
LLiinnee AAnnaallyyttiiccaall MMiinniinngg ((OOLLAAMM)) 
WWhhyy oonnlliinnee aannaallyyttiiccaall mmiinniinngg?? 
 HHiigghh qquuaalliittyy ooff ddaattaa iinn ddaattaa wwaarreehhoouusseess 
DDWW ccoonnttaaiinnss iinntteeggrraatteedd,, ccoonnssiisstteenntt,, cclleeaanneedd ddaattaa 
 AAvvaaiillaabbllee iinnffoorrmmaattiioonn pprroocceessssiinngg ssttrruuccttuurree ssuurrrroouunnddiinngg ddaattaa 
wwaarreehhoouusseess 
OODDBBCC,, OOLLEEDDBB,, WWeebb aacccceessssiinngg,, sseerrvviiccee ffaacciilliittiieess,, rreeppoorrttiinngg 
aanndd OOLLAAPP ttoooollss 
 OOLLAAPP--bbaasseedd eexxpplloorraattoorryy ddaattaa aannaallyyssiiss 
mmiinniinngg wwiitthh ddrriilllliinngg,, ddiicciinngg,, ppiivvoottiinngg,, eettcc.. 
 OOnn--lliinnee sseelleeccttiioonn ooff ddaattaa mmiinniinngg ffuunnccttiioonnss 
iinntteeggrraattiioonn aanndd sswwaappppiinngg ooff mmuullttiippllee mmiinniinngg ffuunnccttiioonnss,, 
aallggoorriitthhmmss,, aanndd ttaasskkss.. 
AArrcchhiitteeccttuurree ooff OOLLAAMM
AAnn OOLLAAMM AArrcchhiitteeccttuurree 
Mining query Mining result 
Meta 
Data 
Data 
Warehouse 
MDDB 
OLAM 
Engine 
OLAP 
Engine 
User GUI API 
Data Cube API 
Database API 
Data cleaning 
Data integration 
Layer4 
User Interface 
Layer3 
OLAP/OLAM 
Layer2 
MDDB 
Layer1 
Data 
Repository 
Filtering&Integration Filtering 
Databases

Mais conteúdo relacionado

Semelhante a DataWarehousing Unit 1A

AO2- OP- PEIRETTI ANGELA
AO2- OP- PEIRETTI ANGELAAO2- OP- PEIRETTI ANGELA
AO2- OP- PEIRETTI ANGELAAngela Peiretti
 
Chapter 7 - Rotational Motion
Chapter 7 - Rotational MotionChapter 7 - Rotational Motion
Chapter 7 - Rotational MotionJPoilek
 
1185195456 173.criacao de_paginas_para_a_internet_v2
1185195456 173.criacao de_paginas_para_a_internet_v21185195456 173.criacao de_paginas_para_a_internet_v2
1185195456 173.criacao de_paginas_para_a_internet_v2Pelo Siro
 
multivariate data analysis
multivariate data analysismultivariate data analysis
multivariate data analysisDivya Padmanaban
 
14827 8 a d converter
14827 8 a d converter14827 8 a d converter
14827 8 a d converterSandeep Kumar
 
Transports multimodal
Transports multimodalTransports multimodal
Transports multimodalRabah HELAL
 
Chapter 1 notes abs 10/29
Chapter 1 notes abs 10/29Chapter 1 notes abs 10/29
Chapter 1 notes abs 10/29cwood
 
Implant parts/dental implant courses by Indian dental academy
Implant parts/dental implant courses by Indian dental academyImplant parts/dental implant courses by Indian dental academy
Implant parts/dental implant courses by Indian dental academyIndian dental academy
 
Introduction To Operation Managemet
Introduction To Operation ManagemetIntroduction To Operation Managemet
Introduction To Operation ManagemetKaushik Panchal
 
Digitaalinen alustatalous - uusi normaali
Digitaalinen alustatalous - uusi normaaliDigitaalinen alustatalous - uusi normaali
Digitaalinen alustatalous - uusi normaaliSitra / Hyvinvointi
 
Chapter 2 - Assignment Analyzing Transactions
Chapter 2 - Assignment Analyzing Transactions Chapter 2 - Assignment Analyzing Transactions
Chapter 2 - Assignment Analyzing Transactions cwood
 
Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0
Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0
Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0DotNetMarche
 
Sistem Informasi Pemasaran
Sistem Informasi PemasaranSistem Informasi Pemasaran
Sistem Informasi PemasaranAfdan Rojabi
 
Kerangka konseptual akuntansi
Kerangka konseptual akuntansiKerangka konseptual akuntansi
Kerangka konseptual akuntansisellyhood
 
Contra+de+transport
Contra+de+transportContra+de+transport
Contra+de+transportRabah HELAL
 
Conteneurisation
ConteneurisationConteneurisation
ConteneurisationRabah HELAL
 
Static analysis tools
Static analysis toolsStatic analysis tools
Static analysis toolsAman Ahmed
 
Transport en pontée en droit anglais
Transport en pontée  en droit anglaisTransport en pontée  en droit anglais
Transport en pontée en droit anglaisRabah HELAL
 

Semelhante a DataWarehousing Unit 1A (20)

AO2- OP- PEIRETTI ANGELA
AO2- OP- PEIRETTI ANGELAAO2- OP- PEIRETTI ANGELA
AO2- OP- PEIRETTI ANGELA
 
Chapter 7 - Rotational Motion
Chapter 7 - Rotational MotionChapter 7 - Rotational Motion
Chapter 7 - Rotational Motion
 
1185195456 173.criacao de_paginas_para_a_internet_v2
1185195456 173.criacao de_paginas_para_a_internet_v21185195456 173.criacao de_paginas_para_a_internet_v2
1185195456 173.criacao de_paginas_para_a_internet_v2
 
multivariate data analysis
multivariate data analysismultivariate data analysis
multivariate data analysis
 
14827 8 a d converter
14827 8 a d converter14827 8 a d converter
14827 8 a d converter
 
Transports multimodal
Transports multimodalTransports multimodal
Transports multimodal
 
Chapter 1 notes abs 10/29
Chapter 1 notes abs 10/29Chapter 1 notes abs 10/29
Chapter 1 notes abs 10/29
 
Implant parts/dental implant courses by Indian dental academy
Implant parts/dental implant courses by Indian dental academyImplant parts/dental implant courses by Indian dental academy
Implant parts/dental implant courses by Indian dental academy
 
Introduction To Operation Managemet
Introduction To Operation ManagemetIntroduction To Operation Managemet
Introduction To Operation Managemet
 
Digitaalinen alustatalous - uusi normaali
Digitaalinen alustatalous - uusi normaaliDigitaalinen alustatalous - uusi normaali
Digitaalinen alustatalous - uusi normaali
 
Chapter 2 - Assignment Analyzing Transactions
Chapter 2 - Assignment Analyzing Transactions Chapter 2 - Assignment Analyzing Transactions
Chapter 2 - Assignment Analyzing Transactions
 
Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0
Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0
Adaptive rendering e ASP.NET 2.0 CSS Friendly Control Adapters 1.0
 
Sistem Informasi Pemasaran
Sistem Informasi PemasaranSistem Informasi Pemasaran
Sistem Informasi Pemasaran
 
Dental materials
Dental materialsDental materials
Dental materials
 
Kerangka konseptual akuntansi
Kerangka konseptual akuntansiKerangka konseptual akuntansi
Kerangka konseptual akuntansi
 
Contra+de+transport
Contra+de+transportContra+de+transport
Contra+de+transport
 
Conteneurisation
ConteneurisationConteneurisation
Conteneurisation
 
Trips agreement
Trips agreementTrips agreement
Trips agreement
 
Static analysis tools
Static analysis toolsStatic analysis tools
Static analysis tools
 
Transport en pontée en droit anglais
Transport en pontée  en droit anglaisTransport en pontée  en droit anglais
Transport en pontée en droit anglais
 

DataWarehousing Unit 1A

  • 1. UUNNIITT--11 IInnttrroodduuccttiioonn LLeeccttuurree--11 MMoottiivvaattiioonn:: WWhhyy ddaattaa mmiinniinngg?? LLeeccttuurree--22 WWhhaatt iiss ddaattaa mmiinniinngg?? LLeeccttuurree--33 DDaattaa MMiinniinngg:: OOnn wwhhaatt kkiinndd ooff ddaattaa?? LLeeccttuurree--44 DDaattaa mmiinniinngg ffuunnccttiioonnaalliittyy LLeeccttuurree--55 CCllaassssiiffiiccaattiioonn ooff ddaattaa mmiinniinngg ssyysstteemmss LLeeccttuurree--66 MMaajjoorr iissssuueess iinn ddaattaa mmiinniinngg
  • 2. Unit-1 Data wwaarreehhoouussee aanndd OOLLAAPP LLeeccttuurree--77 WWhhaatt iiss aa ddaattaa wwaarreehhoouussee?? LLeeccttuurree--88 AA mmuullttii--ddiimmeennssiioonnaall ddaattaa mmooddeell LLeeccttuurree--99 DDaattaa wwaarreehhoouussee aarrcchhiitteeccttuurree LLeeccttuurree--1100&&1111 DDaattaa wwaarreehhoouussee iimmpplleemmeennttaattiioonn LLeeccttuurree--1122 FFrroomm ddaattaa wwaarreehhoouussiinngg ttoo ddaattaa mmiinniinngg
  • 4. EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 11996600ss aanndd eeaarrlliieerr:: DDaattaa CCoolllleeccttiioonn aanndd DDaattaabbaassee CCrreeaattiioonn  PPrriimmiittiivvee ffiillee pprroocceessssiinngg LLeeccttuurree--11 MMoottiivvaattiioonn
  • 5. EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy 11997700ss -- eeaarrllyy 11998800ss:: DDaattaa BBaassee MMaannaaggeemmeenntt SSyysstteemmss  HHiieerraattiiccaall aanndd nneettwwoorrkk ddaattaabbaassee ssyysstteemmss  RReellaattiioonnaall ddaattaabbaassee SSyysstteemmss  QQuueerryy llaanngguuaaggeess:: SSQQLL  TTrraannssaaccttiioonnss,, ccoonnccuurrrreennccyy ccoonnttrrooll aanndd rreeccoovveerryy..  OOnn--lliinnee ttrraannssaaccttiioonn pprroocceessssiinngg ((OOLLTTPP)) LLeeccttuurree--11 MMoottiivvaattiioonn
  • 6. EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy MMiidd --11998800ss -- pprreesseenntt::  AAddvvaanncceedd ddaattaa mmooddeellss EExxtteennddeedd rreellaattiioonnaall,, oobbjjeecctt--rreellaattiioonnaall  AAddvvaanncceedd aapppplliiccaattiioonn--oorriieenntteedd DDBBMMSS ssppaattiiaall,, sscciieennttiiffiicc,, eennggiinneeeerriinngg,, tteemmppoorraall,, mmuullttiimmeeddiiaa,, aaccttiivvee,, ssttrreeaamm aanndd sseennssoorr,, kknnoowwlleeddggee-- bbaasseedd LLeeccttuurree--11 MMoottiivvaattiioonn
  • 7. EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy LLaattee 11998800ss--pprreesseenntt  AAddvvaanncceedd DDaattaa AAnnaallyyssiiss DDaattaa wwaarreehhoouussee aanndd OOLLAAPP DDaattaa mmiinniinngg aanndd kknnoowwlleeddggee ddiissccoovveerryy AAddvvaanncceedd ddaattaa mmiinniinngg aapppplliiaattiioonnss DDaattaa mmiinniinngg aanndd ssoocciittyy 11999900ss--pprreesseenntt::  XXMMLL--bbaasseedd ddaattaabbaassee ssyysstteemmss  IInntteeggrraattiioonn wwiitthh iinnffoorrmmaattiioonn rreettrriieevvaall  DDaattaa aanndd iinnffoorrmmaattiioonn iinntteeggrreeaattiioonn LLeeccttuurree--11 MMoottiivvaattiioonn
  • 8. EEvvoolluuttiioonn ooff DDaattaabbaassee TTeecchhnnoollooggyy PPrreesseenntt –– ffuuttuurree::  NNeeww ggeenneerraattiioonn ooff iinntteeggrraatteedd ddaattaa aanndd iinnffoorrmmaattiioonn ssyysstteemm.. LLeeccttuurree--11 MMoottiivvaattiioonn
  • 9.
  • 10.
  • 11. LLeeccttuurree--22 WWhhaatt IIss DDaattaa MMiinniinngg??
  • 12. WWhhaatt IIss DDaattaa MMiinniinngg?? DDaattaa mmiinniinngg rreeffeerrss ttoo eexxttrraaccttiinngg oorr mmiinniinngg kknnoowwlleeddggee ffrroomm llaarrggee aammoouunnttss ooff ddaattaa.. KKnnoowwlleeddggee mmiinniinngg ffrroomm ddaattaa,, kknnoowwlleeddggee eexxttrraaccttiioonn,, ddaattaa//ppaatttteerrnn aannaallyyssiiss,, ddaattaa aarrcchheeoollooggyy,, aanndd ddaattaa ddrreeddiinngg.. KKnnoowwlleeddggee DDiissccoovveerryy ffrroomm ddaattaa,, oorr KKDDDD Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
  • 13.
  • 14. DDaattaa MMiinniinngg:: AA KKDDDD PPrroocceessss  DDaattaa mmiinniinngg:: tthhee ccoorree ooff kknnoowwlleeddggee ddiissccoovveerryy pprroocceessss.. Task-relevant Data Data Mining Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg?? Data Warehouse Data Cleaning Data Integration Databases Selection Pattern Evaluation
  • 15. SStteeppss ooff aa KKDDDD PPrroocceessss 11.. DDaattaa cclleeaanniinngg 22.. DDaattaa iinntteeggrraattiioonn 33.. DDaattaa sseelleeccttiioonn 44.. DDaattaa ttrraannssffoorrmmaattiioonn 55.. DDaattaa mmiinniinngg 66.. PPaatttteerrnn eevvaalluuaattiioonn 77.. KKnnoowwlleeddggee pprreesseennttaaiioonn Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
  • 16. SStteeppss ooff aa KKDDDD PPrroocceessss LLeeaarrnniinngg tthhee aapppplliiccaattiioonn ddoommaaiinn::  rreelleevvaanntt pprriioorr kknnoowwlleeddggee aanndd ggooaallss ooff aapppplliiccaattiioonn CCrreeaattiinngg aa ttaarrggeett ddaattaa sseett:: ddaattaa sseelleeccttiioonn DDaattaa cclleeaanniinngg aanndd pprreepprroocceessssiinngg DDaattaa rreedduuccttiioonn aanndd ttrraannssffoorrmmaattiioonn::  FFiinndd uusseeffuull ffeeaattuurreess,, ddiimmeennssiioonnaalliittyy//vvaarriiaabbllee rreedduuccttiioonn,, iinnvvaarriiaanntt rreepprreesseennttaattiioonn.. Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
  • 17. SStteeppss ooff aa KKDDDD PPrroocceessss CChhoooossiinngg ffuunnccttiioonnss ooff ddaattaa mmiinniinngg  ssuummmmaarriizzaattiioonn,, ccllaassssiiffiiccaattiioonn,, rreeggrreessssiioonn,, aassssoocciiaattiioonn,, cclluusstteerriinngg.. CChhoooossiinngg tthhee mmiinniinngg aallggoorriitthhmmss DDaattaa mmiinniinngg:: sseeaarrcchh ffoorr ppaatttteerrnnss ooff iinntteerreesstt PPaatttteerrnn eevvaalluuaattiioonn aanndd kknnoowwlleeddggee pprreesseennttaattiioonn  vviissuuaalliizzaattiioonn,, ttrraannssffoorrmmaattiioonn,, rreemmoovviinngg rreedduunnddaanntt ppaatttteerrnnss,, eettcc.. UUssee ooff ddiissccoovveerreedd kknnoowwlleeddggee Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg??
  • 18. AArrcchhiitteeccttuurree ooff aa TTyyppiiccaall DDaattaa MMiinniinngg SSyysstteemm Graphical user interface Pattern evaluation Data mining engine Database or data warehouse server Data cleaning & data integration Filtering Data Warehouse Databases Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg?? Knowledge-base
  • 19. Major sources of abundant data Business: Web, e-commerce, transactions, stocks, … Science: Remote sensing, bioinformatics, scientific simulation, … Society and everyone: news, digital cameras, YouTube
  • 20. WWhhyy NNoott TTrraaddiittiioonnaall DDaattaa AAnnaallyyssiiss?? TTrreemmeennddoouuss aammoouunntt ooff ddaattaa  AAllggoorriitthhmmss mmuusstt bbee hhiigghhllyy ssccaallaabbllee ttoo hhaannddllee ssuucchh aass tteerraa--bbyytteess ooff HHiigghh--ddiimmeennssiioonnaalliittyy ooff ddaattaa  MMiiccrroo--aarrrraayy mmaayy hhaavvee tteennss ooff tthhoouussaannddss ooff ddiimmeennssiioonnss HHiigghh ccoommpplleexxiittyy ooff ddaattaa  DDaattaa ssttrreeaammss aanndd sseennssoorr ddaattaa  TTiimmee--sseerriieess ddaattaa,, tteemmppoorraall ddaattaa,, sseeqquueennccee ddaattaa  SSttrruuccttuurree ddaattaa,, ggrraapphhss,, ssoocciiaall nneettwwoorrkkss aanndd mmuullttii--lliinnkkeedd ddaattaa  HHeetteerrooggeenneeoouuss ddaattaabbaasseess aanndd lleeggaaccyy ddaattaabbaasseess  SSppaattiiaall,, ssppaattiiootteemmppoorraall,, mmuullttiimmeeddiiaa,, tteexxtt aanndd WWeebb ddaattaa  SSooffttwwaarree pprrooggrraammss,, sscciieennttiiffiicc ssiimmuullaattiioonnss NNeeww aanndd ssoopphhiissttiiccaatteedd aapppplliiccaattiioonnss SSeepptteemmbbeerr 44,, 22001144 ddaattaa DDaattaa MMiinniinngg:: CCoonncceeppttss aanndd TTeecchhnniiqquueess 2200
  • 21. DDaattaa MMiinniinngg aanndd BBuussiinneessss IInntteelllliiggeennccee Increasing potential to support business decisions End User Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Lecture-2 WWhhaatt iiss DDaattaa MMiinniinngg?? Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP
  • 22. LLeeccttuurree--33 DDaattaa MMiinniinngg:: OOnn WWhhaatt KKiinndd ooff DDaattaa??
  • 23. DDaattaa MMiinniinngg:: OOnn WWhhaatt KKiinndd ooff DDaattaa?? RReellaattiioonnaall ddaattaabbaasseess DDaattaa wwaarreehhoouusseess TTrraannssaaccttiioonnaall ddaattaabbaasseess Lecture-3 Data Mining: OOnn WWhhaatt kkiinndd ooff ddaattaa??
  • 24. Example 1.1 A relational database for AllElectronics. The AllElectronics company is described by the following relation tables: customer, item, employee, and branch. Fragments of the tables . The relation customer consists of a set of attributes, including a unique customer identity number (cust ID), customer name, address, age, occupation, annual income, credit information, category, and so on. Similarly, each of the relations item, employee, and branch consists of a set of attributes describing their properties.
  • 25.
  • 26. TTaabblleess ccaann aallssoo bbee uusseedd ttoo rreepprreesseenntt tthhee rreellaattiioonnsshhiippss bbeettwweeeenn oorr aammoonngg mmuullttiippllee rreellaattiioonn ttaabblleess.. FFoorr oouurr eexxaammppllee,, tthheessee iinncclluuddee ppuurrcchhaasseess ((ccuussttoommeerr ppuurrcchhaasseess iitteemmss,, ccrreeaattiinngg aa ssaalleess ttrraannssaaccttiioonn tthhaatt iiss hhaannddlleedd bbyy aann eemmppllooyyeeee)),, iitteemmss ssoolldd ((lliissttss tthhee iitteemmss ssoolldd iinn aa ggiivveenn ttrraannssaaccttiioonn)),, aanndd wwoorrkkss aatt ((eemmppllooyyeeee wwoorrkkss aatt aa bbrraanncchh ooff AAllllEElleeccttrroonniiccss)).. RReellaattiioonnaall ddaattaa ccaann bbee aacccceesssseedd bbyy ddaattaabbaassee qquueerriieess wwrriitttteenn iinn aa rreellaattiioonnaall qquueerryy llaanngguuaaggee,, ssuucchh aass SSQQLL,,
  • 27. These allow yyoouu ttoo aasskk tthhiinnggss lliikkee ““SShhooww mmee tthhee ttoottaall ssaalleess ooff tthhee llaasstt mmoonntthh,, ggrroouuppeedd bbyy bbrraanncchh,,”” oorr ““HHooww mmaannyy ssaalleess ttrraannssaaccttiioonnss ooccccuurrrreedd iinn tthhee mmoonntthh ooff DDeecceemmbbeerr??”” oorr ““WWhhiicchh ssaalleess ppeerrssoonn hhaadd tthhee hhiigghheesstt aammoouunntt ooff ssaalleess??””
  • 28. When data mining is applied to relational databases, we can go further by searching for trends or data patterns. For example, data mining systems can analyze customer data to predict the credit risk of new customers based on their income, age, and previous credit information.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34. DDaattaa MMiinniinngg:: OOnn WWhhaatt KKiinndd ooff DDaattaa?? AAddvvaanncceedd DDBB aanndd iinnffoorrmmaattiioonn rreeppoossiittoorriieess  OObbjjeecctt--oorriieenntteedd aanndd oobbjjeecctt--rreellaattiioonnaall ddaattaabbaasseess  SSppaattiiaall ddaattaabbaasseess  TTiimmee--sseerriieess ddaattaa aanndd tteemmppoorraall ddaattaa  TTeexxtt ddaattaabbaasseess aanndd mmuullttiimmeeddiiaa ddaattaabbaasseess  HHeetteerrooggeenneeoouuss aanndd lleeggaaccyy ddaattaabbaasseess  WWWWWW Lecture-3 Data Mining: OOnn WWhhaatt kkiinndd ooff ddaattaa??
  • 35. LLeeccttuurree--44 DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess
  • 36.
  • 37. DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess CCoonncceepptt//ccllaassss ddeessccrriippttiioonn:: CChhaarraacctteerriizzaattiioonn aanndd ddiissccrriimmiinnaattiioonn  DDaattaa ccaann bbee aassssoocciiaatteedd wwiitthh ccllaasssseess oorr ccoonncceeppttss  EExx.. AAllllEElleeccttrroonniiccss ssttoorree ccllaasssseess ooff iitteemmss ffoorr ssaallee iinncclluuddee ccoommppuutteerr aanndd pprriinntteerrss..  DDeessccrriippttiioonn ooff ccllaassss oorr ccoonncceepptt ccaalllleedd ccllaassss//ccoonncceepptt ddeessccrriippttiioonn..  DDaattaa cchhaarraacctteerriizzaattiioonn  DDaattaa ddiissccrriimmiinnaattiioonn Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
  • 38. Concept/Class Description: CChhaarraacctteerriizzaattiioonn aanndd DDiissccrriimmiinnaattiioonn These descriptions can be derived via (1) data characterization, by summarizing the data of the class under study (often called the target class) , or (2) data discrimination, by comparison of the target class with one or a set of comparative classes (often called the contrasting classes), or (3) both data characterization and discrimination.
  • 39. DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess MMiinniinngg FFrreeqquueenntt PPaatttteerrnnss,, AAssssoocciiaattiioonnss,, aanndd CCoorrrreellaattiioonnss FFrreeqquueenntt ppaatttteerrss-- ppaatttteerrnnss ooccccuurrss ffrreeqquueennttllyy IItteemm sseettss,, ssuubbsseeqquueenncceess aanndd ssuubbssttrruuccttuurreess FFrreeqquueenntt iitteemm sseett SSeeqquueennttiiaall ppaatttteerrnnss SSttrruuccttuurreedd ppaatttteerrnnss Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
  • 40. DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess AAssssoocciiaattiioonn AAnnaallyyssiiss bbuuyyss((XX;; ““ccoommppuutteerr””))))bbuuyyss((XX;; ““ssooffttwwaarree””)) [[ssuuppppoorrtt == 1%%;; ccoonnffiiddeennccee == 5500%%]] MMuullttii--ddiimmeennssiioonnaall vvss ssiinnggllee--ddiimmeennssiioonnaall aassssoocciiaattiioonn  aaggee((XX,, ““2200....2299””)) ^^ iinnccoommee((XX,, ““2200....2299KK””)) ==>> bbuuyyss((XX,, ““PPCC””)) [[ssuuppppoorrtt == 22%%,, ccoonnffiiddeennccee == 6600%%]]  ccoonnttaaiinnss((TT,, ““ccoommppuutteerr””)) ==>> ccoonnttaaiinnss((xx,, ““ssooffttwwaarree””)) [[ssuuppppoorrtt==1%%,, ccoonnffiiddeennccee==7755%%]] Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
  • 41. DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess CCllaassssiiffiiccaattiioonn aanndd PPrreeddiiccttiioonn  FFiinnddiinngg mmooddeellss ((ffuunnccttiioonnss)) tthhaatt ddeessccrriibbee aanndd ddiissttiinngguuiisshh ddaattaa ccllaasssseess oorr ccoonncceeppttss ffoorr pprreeddiicctt tthhee ccllaassss wwhhoossee llaabbeell iiss uunnkknnoowwnn  EE..gg..,, ccllaassssiiffyy ccoouunnttrriieess bbaasseedd oonn cclliimmaattee,, oorr ccllaassssiiffyy ccaarrss bbaasseedd oonn ggaass mmiilleeaaggee  MMooddeellss:: ddeecciissiioonn--ttrreeee,, ccllaassssiiffiiccaattiioonn rruulleess ((iiff-- tthheenn)),, nneeuurraall nneettwwoorrkk  PPrreeddiiccttiioonn:: PPrreeddiicctt ssoommee uunnkknnoowwnn oorr mmiissssiinngg nnuummeerriiccaall vvaalluueess Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
  • 42. DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess CClluusstteerr aannaallyyssiiss  AAnnaallyyzzee ccllaassss--llaabbeelleedd ddaattaa oobbjjeeccttss,, cclluusstteerriinngg aannaallyyzzee ddaattaa oobbjjeeccttss wwiitthhoouutt ccoonnssuullttiinngg aa kknnoowwnn ccllaassss llaabbeell..  CClluusstteerriinngg bbaasseedd oonn tthhee pprriinncciippllee:: mmaaxxiimmiizziinngg tthhee iinnttrraa--ccllaassss ssiimmiillaarriittyy aanndd mmiinniimmiizziinngg tthhee iinntteerrccllaassss ssiimmiillaarriittyy Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
  • 43. DDaattaa MMiinniinngg FFuunnccttiioonnaalliittiieess OOuuttlliieerr aannaallyyssiiss  OOuuttlliieerr:: aa ddaattaa oobbjjeecctt tthhaatt ddooeess nnoott ccoommppllyy wwiitthh tthhee ggeenneerraall bbeehhaavviioorr ooff tthhee mmooddeell ooff tthhee ddaattaa  IItt ccaann bbee ccoonnssiiddeerreedd aass nnooiissee oorr eexxcceeppttiioonn bbuutt iiss qquuiittee uusseeffuull iinn ffrraauudd ddeetteeccttiioonn,, rraarree eevveennttss aannaallyyssiiss TTrreenndd aanndd eevvoolluuttiioonn aannaallyyssiiss  TTrreenndd aanndd ddeevviiaattiioonn:: rreeggrreessssiioonn aannaallyyssiiss  SSeeqquueennttiiaall ppaatttteerrnn mmiinniinngg,, ppeerriiooddiicciittyy aannaallyyssiiss  SSiimmiillaarriittyy--bbaasseedd aannaallyyssiiss Lecture-4 Data MMiinniinngg FFuunncciioonnaalliittiieess
  • 44. LLeeccttuurree--55 DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess
  • 45. Data MMiinniinngg:: CCoonnfflluueennccee ooff MMuullttiippllee DDiisscciipplliinneess Database Technology Statistics Information Science Data Mining MachineLearning Other Disciplines Visualization
  • 46. DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess Geenneerraall ffuunnccttiioonnaalliittyy  DDeessccrriippttiivvee ddaattaa mmiinniinngg  PPrreeddiiccttiivvee ddaattaa mmiinniinngg DDaattaa mmiinniinngg vvaarriioouuss ccrriitteerriiaa''ss::  KKiinnddss ooff ddaattaabbaasseess ttoo bbee mmiinneedd  KKiinnddss ooff kknnoowwlleeddggee ttoo bbee ddiissccoovveerreedd  KKiinnddss ooff tteecchhnniiqquueess uuttiilliizzeedd  KKiinnddss ooff aapppplliiccaattiioonnss aaddaapptteedd
  • 47. DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess DDaattaabbaasseess ttoo bbee mmiinneedd  RReellaattiioonnaall,, ttrraannssaaccttiioonnaall,, oobbjjeecctt--oorriieenntteedd,, oobbjjeecctt-- rreellaattiioonnaall,, aaccttiivvee,, ssppaattiiaall,, ttiimmee--sseerriieess,, tteexxtt,, mmuullttii-- mmeeddiiaa,, hheetteerrooggeenneeoouuss,, lleeggaaccyy,, WWWWWW,, eettcc.. KKnnoowwlleeddggee ttoo bbee mmiinneedd  CChhaarraacctteerriizzaattiioonn,, ddiissccrriimmiinnaattiioonn,, aassssoocciiaattiioonn,, ccllaassssiiffiiccaattiioonn,, cclluusstteerriinngg,, ttrreenndd,, ddeevviiaattiioonn aanndd oouuttlliieerr aannaallyyssiiss,, eettcc..  MMuullttiippllee//iinntteeggrraatteedd ffuunnccttiioonnss aanndd mmiinniinngg aatt mmuullttiippllee lleevveellss aannaallyyssiiss,, WWeebb mmiinniinngg,, WWeebblloogg aannaallyyssiiss,, eettcc..
  • 48. DDaattaa MMiinniinngg:: CCllaassssiiffiiccaattiioonn SScchheemmeess TTeecchhnniiqquueess uuttiilliizzeedd  DDaattaabbaassee--oorriieenntteedd,, ddaattaa wwaarreehhoouussee ((OOLLAAPP)),, mmaacchhiinnee lleeaarrnniinngg,, ssttaattiissttiiccss,, vviissuuaalliizzaattiioonn,, nneeuurraall nneettwwoorrkk,, eettcc.. AApppplliiccaattiioonnss aaddaapptteedd  RReettaaiill,, tteelleeccoommmmuunniiccaattiioonn,, bbaannkkiinngg,, ffrraauudd aannaallyyssiiss,, DDNNAA mmiinniinngg,, ssttoocckk mmaarrkkeett
  • 49. LLeeccttuurree--66 MMaajjoorr IIssssuueess iinn DDaattaa MMiinniinngg
  • 50. Major IIssssuueess iinn DDaattaa MMiinniinngg MMiinniinngg mmeetthhooddoollooggyy aanndd uusseerr iinntteerraaccttiioonn iissssuueess  MMiinniinngg ddiiffffeerreenntt kkiinnddss ooff kknnoowwlleeddggee iinn ddaattaabbaasseess  IInntteerraaccttiivvee mmiinniinngg ooff kknnoowwlleeddggee aatt mmuullttiippllee lleevveellss ooff aabbssttrraaccttiioonn  IInnccoorrppoorraattiioonn ooff bbaacckkggrroouunndd kknnoowwlleeddggee  DDaattaa mmiinniinngg qquueerryy llaanngguuaaggeess aanndd aadd--hhoocc ddaattaa mmiinniinngg  EExxpprreessssiioonn aanndd vviissuuaalliizzaattiioonn ooff ddaattaa mmiinniinngg rreessuullttss  HHaannddlliinngg nnooiissee aanndd iinnccoommpplleettee ddaattaa  PPaatttteerrnn eevvaalluuaattiioonn:: tthhee iinntteerreessttiinnggnneessss pprroobblleemm
  • 51. Major IIssssuueess iinn DDaattaa MMiinniinngg PPeerrffoorrmmaannccee iissssuueess  EEffffiicciieennccyy aanndd ssccaallaabbiilliittyy ooff ddaattaa mmiinniinngg aallggoorriitthhmmss  PPaarraalllleell,, ddiissttrriibbuutteedd aanndd iinnccrreemmeennttaall mmiinniinngg mmeetthhooddss
  • 52. MMaajjoorr IIssssuueess iinn DDaattaa MMiinniinngg IIssssuueess rreellaattiinngg ttoo tthhee ddiivveerrssiittyy ooff ddaattaa ttyyppeess  HHaannddlliinngg rreellaattiioonnaall aanndd ccoommpplleexx ttyyppeess ooff ddaattaa  MMiinniinngg iinnffoorrmmaattiioonn ffrroomm hheetteerrooggeenneeoouuss ddaattaabbaasseess aanndd gglloobbaall iinnffoorrmmaattiioonn ssyysstteemmss ((WWWWWW))
  • 53. LLeeccttuurree--77 WWhhaatt iiss DDaattaa WWaarreehhoouussee??
  • 54. WWhhaatt iiss DDaattaa WWaarreehhoouussee?? DDeeffiinneedd iinn mmaannyy ddiiffffeerreenntt wwaayyss  AA ddeecciissiioonn ssuuppppoorrtt ddaattaabbaassee tthhaatt iiss mmaaiinnttaaiinneedd sseeppaarraatteellyy ffrroomm tthhee oorrggaanniizzaattiioonn’’ss ooppeerraattiioonnaall ddaattaabbaassee  SSuuppppoorrtt iinnffoorrmmaattiioonn pprroocceessssiinngg bbyy pprroovviiddiinngg aa ssoolliidd ppllaattffoorrmm ooff ccoonnssoolliiddaatteedd,, hhiissttoorriiccaall ddaattaa ffoorr aannaallyyssiiss.. ““AA ddaattaa wwaarreehhoouussee iiss aa ssuubbjjeecctt--oorriieenntteedd,, iinntteeggrraatteedd,, ttiimmee--vvaarriiaanntt,, aanndd nnoonnvvoollaattiillee ccoolllleeccttiioonn ooff ddaattaa iinn ssuuppppoorrtt ooff mmaannaaggeemmeenntt’’ss ddeecciissiioonn--mmaakkiinngg pprroocceessss..””——WW.. HH.. IInnmmoonn DDaattaa wwaarreehhoouussiinngg::  TThhee pprroocceessss ooff ccoonnssttrruuccttiinngg aanndd uussiinngg ddaattaa wwaarreehhoouusseess
  • 55. DDaattaa WWaarreehhoouussee——SSuubbjjeecctt-- OOrriieenntteedd OOrrggaanniizzeedd aarroouunndd mmaajjoorr ssuubbjjeeccttss,, ssuucchh aass ccuussttoommeerr,, pprroodduucctt,, ssaalleess.. FFooccuussiinngg oonn tthhee mmooddeelliinngg aanndd aannaallyyssiiss ooff ddaattaa ffoorr ddeecciissiioonn mmaakkeerrss,, nnoott oonn ddaaiillyy ooppeerraattiioonnss oorr ttrraannssaaccttiioonn pprroocceessssiinngg.. PPrroovviiddee aa ssiimmppllee aanndd ccoonncciissee vviieeww aarroouunndd ppaarrttiiccuullaarr ssuubbjjeecctt iissssuueess bbyy eexxcclluuddiinngg ddaattaa tthhaatt aarree nnoott uusseeffuull iinn tthhee ddeecciissiioonn ssuuppppoorrtt pprroocceessss..
  • 56. DDaattaa WWaarreehhoouussee——IInntteeggrraatteedd CCoonnssttrruucctteedd bbyy iinntteeggrraattiinngg mmuullttiippllee,, hheetteerrooggeenneeoouuss ddaattaa ssoouurrcceess  rreellaattiioonnaall ddaattaabbaasseess,, ffllaatt ffiilleess,, oonn--lliinnee ttrraannssaaccttiioonn rreeccoorrddss DDaattaa cclleeaanniinngg aanndd ddaattaa iinntteeggrraattiioonn tteecchhnniiqquueess aarree aapppplliieedd..  EEnnssuurree ccoonnssiisstteennccyy iinn nnaammiinngg ccoonnvveennttiioonnss,, eennccooddiinngg ssttrruuccttuurreess,, aattttrriibbuuttee mmeeaassuurreess,, eettcc.. aammoonngg ddiiffffeerreenntt ddaattaa ssoouurrcceess EE..gg..,, HHootteell pprriiccee:: ccuurrrreennccyy,, ttaaxx,, bbrreeaakkffaasstt ccoovveerreedd,, eettcc..  WWhheenn ddaattaa iiss mmoovveedd ttoo tthhee wwaarreehhoouussee,, iitt iiss ccoonnvveerrtteedd..
  • 57. DDaattaa WWaarreehhoouussee——TTiimmee VVaarriiaanntt TThhee ttiimmee hhoorriizzoonn ffoorr tthhee ddaattaa wwaarreehhoouussee iiss ssiiggnniiffiiccaannttllyy lloonnggeerr tthhaann tthhaatt ooff ooppeerraattiioonnaall ssyysstteemmss..  OOppeerraattiioonnaall ddaattaabbaassee:: ccuurrrreenntt vvaalluuee ddaattaa..  DDaattaa wwaarreehhoouussee ddaattaa:: pprroovviiddee iinnffoorrmmaattiioonn ffrroomm aa hhiissttoorriiccaall ppeerrssppeeccttiivvee ((ee..gg..,, ppaasstt 55--1100 yyeeaarrss)) EEvveerryy kkeeyy ssttrruuccttuurree iinn tthhee ddaattaa wwaarreehhoouussee  CCoonnttaaiinnss aann eelleemmeenntt ooff ttiimmee,, eexxpplliicciittllyy oorr iimmpplliicciittllyy  BBuutt tthhee kkeeyy ooff ooppeerraattiioonnaall ddaattaa mmaayy oorr mmaayy nnoott ccoonnttaaiinn ““ttiimmee eelleemmeenntt””..
  • 58. DDaattaa WWaarreehhoouussee——NNoonn--VVoollaattiillee AA pphhyyssiiccaallllyy sseeppaarraattee ssttoorree ooff ddaattaa ttrraannssffoorrmmeedd ffrroomm tthhee ooppeerraattiioonnaall eennvviirroonnmmeenntt.. OOppeerraattiioonnaall uuppddaattee ooff ddaattaa ddooeess nnoott ooccccuurr iinn tthhee ddaattaa wwaarreehhoouussee eennvviirroonnmmeenntt..  DDooeess nnoott rreeqquuiirree ttrraannssaaccttiioonn pprroocceessssiinngg,, rreeccoovveerryy,, aanndd ccoonnccuurrrreennccyy ccoonnttrrooll mmeecchhaanniissmmss  RReeqquuiirreess oonnllyy ttwwoo ooppeerraattiioonnss iinn ddaattaa aacccceessssiinngg:: iinniittiiaall llooaaddiinngg ooff ddaattaa aanndd aacccceessss ooff ddaattaa..
  • 59. DDaattaa WWaarreehhoouussee vvss.. OOppeerraattiioonnaall DDBBMMSS DDiissttiinncctt ffeeaattuurreess ((OOLLTTPP vvss.. OOLLAAPP))::  UUsseerr aanndd ssyysstteemm oorriieennttaattiioonn:: ccuussttoommeerr vvss.. mmaarrkkeett  DDaattaa ccoonntteennttss:: ccuurrrreenntt,, ddeettaaiilleedd vvss.. hhiissttoorriiccaall,, ccoonnssoolliiddaatteedd  DDaattaabbaassee ddeessiiggnn:: EERR ++ aapppplliiccaattiioonn vvss.. ssttaarr ++ ssuubbjjeecctt  VViieeww:: ccuurrrreenntt,, llooccaall vvss.. eevvoolluuttiioonnaarryy,, iinntteeggrraatteedd  AAcccceessss ppaatttteerrnnss:: uuppddaattee vvss.. rreeaadd--oonnllyy bbuutt ccoommpplleexx qquueerriieess
  • 60. Data Warehouse vvss.. OOppeerraattiioonnaall DDBBMMSS OOLLTTPP ((oonn--lliinnee ttrraannssaaccttiioonn pprroocceessssiinngg))  MMaajjoorr ttaasskk ooff ttrraaddiittiioonnaall rreellaattiioonnaall DDBBMMSS  DDaayy--ttoo--ddaayy ooppeerraattiioonnss:: ppuurrcchhaassiinngg,, iinnvveennttoorryy,, bbaannkkiinngg,, mmaannuuffaaccttuurriinngg,, ppaayyrroollll,, rreeggiissttrraattiioonn,, aaccccoouunnttiinngg,, eettcc.. OOLLAAPP ((oonn--lliinnee aannaallyyttiiccaall pprroocceessssiinngg))  MMaajjoorr ttaasskk ooff ddaattaa wwaarreehhoouussee ssyysstteemm  DDaattaa aannaallyyssiiss aanndd ddeecciissiioonn mmaakkiinngg
  • 61. OOLLTTPP vvss.. OOLLAAPP OLTP OLAP users clerk, IT professional knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date detailed, flat relational isolated historical, summarized, multidimensional integrated, consolidated usage repetitive ad-hoc access read/write index/hash on prim. key lots of scans unit of work short, simple transaction complex query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB metric transaction throughput query throughput, response
  • 62. Why Separate DDaattaa WWaarreehhoouussee?? HHiigghh ppeerrffoorrmmaannccee ffoorr bbootthh ssyysstteemmss  DDBBMMSS—— ttuunneedd ffoorr OOLLTTPP:: aacccceessss mmeetthhooddss,, iinnddeexxiinngg,, ccoonnccuurrrreennccyy ccoonnttrrooll,, rreeccoovveerryy  WWaarreehhoouussee——ttuunneedd ffoorr OOLLAAPP:: ccoommpplleexx OOLLAAPP qquueerriieess,, mmuullttiiddiimmeennssiioonnaall vviieeww,, ccoonnssoolliiddaattiioonn..
  • 63. Why Separate DDaattaa WWaarreehhoouussee?? DDiiffffeerreenntt ffuunnccttiioonnss aanndd ddiiffffeerreenntt ddaattaa::  mmiissssiinngg ddaattaa:: DDeecciissiioonn ssuuppppoorrtt rreeqquuiirreess hhiissttoorriiccaall ddaattaa wwhhiicchh ooppeerraattiioonnaall DDBBss ddoo nnoott ttyyppiiccaallllyy mmaaiinnttaaiinn  ddaattaa ccoonnssoolliiddaattiioonn:: DDSS rreeqquuiirreess ccoonnssoolliiddaattiioonn ((aaggggrreeggaattiioonn,, ssuummmmaarriizzaattiioonn)) ooff ddaattaa ffrroomm hheetteerrooggeenneeoouuss ssoouurrcceess  ddaattaa qquuaalliittyy:: ddiiffffeerreenntt ssoouurrcceess ttyyppiiccaallllyy uussee iinnccoonnssiisstteenntt ddaattaa rreepprreesseennttaattiioonnss,, ccooddeess aanndd ffoorrmmaattss wwhhiicchh hhaavvee ttoo bbee rreeccoonncciilleedd
  • 65. CCuubbee:: AA LLaattttiiccee ooff CCuubbooiiddss all time item location supplier time,item time,location item,location time,supplier item,supplier location,supplier time,item,location time,location,supplier time,item,supplier item,location,supplier time, item, location, supplier 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid
  • 66. M Conceptual Mooddeelliinngg ooff DDaattaa WWaarreehhoouusseess MMooddeelliinngg ddaattaa wwaarreehhoouusseess:: ddiimmeennssiioonnss && mmeeaassuurreess  SSttaarr sscchheemmaa:: AA ffaacctt ttaabbllee iinn tthhee mmiiddddllee ccoonnnneecctteedd ttoo aa sseett ooff ddiimmeennssiioonn ttaabblleess  SSnnoowwffllaakkee sscchheemmaa:: AA rreeffiinneemmeenntt ooff ssttaarr sscchheemmaa wwhheerree ssoommee ddiimmeennssiioonnaall hhiieerraarrcchhyy iiss nnoorrmmaalliizzeedd iinnttoo aa sseett ooff ssmmaalllleerr ddiimmeennssiioonn ttaabblleess,, ffoorrmmiinngg aa sshhaappee ssiimmiillaarr ttoo ssnnoowwffllaakkee  FFaacctt ccoonnsstteellllaattiioonnss:: MMuullttiippllee ffaacctt ttaabblleess sshhaarree ddiimmeennssiioonn ttaabblleess,, vviieewweedd aass aa ccoolllleeccttiioonn ooff ssttaarrss,, tthheerreeffoorree ccaalllleedd ggaallaaxxyy sscchheemmaa oorr ffaacctt ccoonnsstteellllaattiioonn
  • 67. EExxaammppllee ooff SSttaarr SScchheemmaa time time_key day day_of_the_week month quarter year item location location_key street city province_or_street country Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type branch branch_key branch_name branch_type
  • 68. EExxaammppllee ooff SSnnoowwffllaakkee SScchheemmaa time time_key day day_of_the_week month quarter year item location location_key street city_key Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_key branch branch_key branch_name branch_type supplier supplier_key supplier_type city city_key city province_or_street country
  • 69. EExxaammppllee ooff FFaacctt CCoonnsstteellllaattiioonn time time_key day day_of_the_week month quarter year item location location_key street city province_or_street country Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type branch branch_key branch_name branch_type Shipping Fact Table time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type
  • 70. AA DDaattaa MMiinniinngg QQuueerryy LLaanngguuaaggee,, DDMMQQLL:: LLaanngguuaaggee PPrriimmiittiivveess CCuubbee DDeeffiinniittiioonn ((FFaacctt TTaabbllee)) ddeeffiinnee ccuubbee <<ccuubbee__nnaammee>> [[<<ddiimmeennssiioonn__lliisstt>>]]:: <<mmeeaassuurree__lliisstt>> DDiimmeennssiioonn DDeeffiinniittiioonn (( DDiimmeennssiioonn TTaabbllee )) ddeeffiinnee ddiimmeennssiioonn <<ddiimmeennssiioonn__nnaammee>> aass ((<<aattttrriibbuuttee__oorr__ssuubbddiimmeennssiioonn__lliisstt>>)) SSppeecciiaall CCaassee ((SShhaarreedd DDiimmeennssiioonn TTaabblleess))  FFiirrsstt ttiimmee aass ““ccuubbee ddeeffiinniittiioonn””  ddeeffiinnee ddiimmeennssiioonn <<ddiimmeennssiioonn__nnaammee>> aass <<ddiimmeennssiioonn__nnaammee__ffiirrsstt__ttiimmee>> iinn ccuubbee <<ccuubbee__nnaammee__ffiirrsstt__ttiimmee>>
  • 71. DDeeffiinniinngg aa SSttaarr SScchheemmaa iinn DDMMQQLL ddeeffiinnee ccuubbee ssaalleess__ssttaarr [[ttiimmee,, iitteemm,, bbrraanncchh,, llooccaattiioonn]]:: ddoollllaarrss__ssoolldd == ssuumm((ssaalleess__iinn__ddoollllaarrss)),, aavvgg__ssaalleess == aavvgg((ssaalleess__iinn__ddoollllaarrss)),, uunniittss__ssoolldd == ccoouunntt((**)) ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ((ttiimmee__kkeeyy,, ddaayy,, ddaayy__ooff__wweeeekk,, mmoonntthh,, qquuaarrtteerr,, yyeeaarr)) ddeeffiinnee ddiimmeennssiioonn iitteemm aass ((iitteemm__kkeeyy,, iitteemm__nnaammee,, bbrraanndd,, ttyyppee,, ssuupppplliieerr__ttyyppee)) ddeeffiinnee ddiimmeennssiioonn bbrraanncchh aass ((bbrraanncchh__kkeeyy,, bbrraanncchh__nnaammee,, bbrraanncchh__ttyyppee)) ddeeffiinnee ddiimmeennssiioonn llooccaattiioonn aass ((llooccaattiioonn__kkeeyy,, ssttrreeeett,, cciittyy,, pprroovviinnccee__oorr__ssttaattee,, ccoouunnttrryy))
  • 72. DDeeffiinniinngg aa SSnnoowwffllaakkee SScchheemmaa iinn DDMMQQLL ddeeffiinnee ccuubbee ssaalleess__ssnnoowwffllaakkee [[ttiimmee,, iitteemm,, bbrraanncchh,, llooccaattiioonn]]:: ddoollllaarrss__ssoolldd == ssuumm((ssaalleess__iinn__ddoollllaarrss)),, aavvgg__ssaalleess == aavvgg((ssaalleess__iinn__ddoollllaarrss)),, uunniittss__ssoolldd == ccoouunntt((**)) ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ((ttiimmee__kkeeyy,, ddaayy,, ddaayy__ooff__wweeeekk,, mmoonntthh,, qquuaarrtteerr,, yyeeaarr)) ddeeffiinnee ddiimmeennssiioonn iitteemm aass ((iitteemm__kkeeyy,, iitteemm__nnaammee,, bbrraanndd,, ttyyppee,, ssuupppplliieerr((ssuupppplliieerr__kkeeyy,, ssuupppplliieerr__ttyyppee))))
  • 73. DDeeffiinniinngg aa SSnnoowwffllaakkee SScchheemmaa iinn DDMMQQLL ddeeffiinnee ddiimmeennssiioonn bbrraanncchh aass ((bbrraanncchh__kkeeyy,, bbrraanncchh__nnaammee,, bbrraanncchh__ttyyppee)) ddeeffiinnee ddiimmeennssiioonn llooccaattiioonn aass ((llooccaattiioonn__kkeeyy,, ssttrreeeett,, cciittyy((cciittyy__kkeeyy,, pprroovviinnccee__oorr__ssttaattee,, ccoouunnttrryy))))
  • 74. DDeeffiinniinngg aa FFaacctt CCoonnsstteellllaattiioonn iinn DDMMQQLL ddeeffiinnee ccuubbee ssaalleess [[ttiimmee,, iitteemm,, bbrraanncchh,, llooccaattiioonn]]:: ddoollllaarrss__ssoolldd == ssuumm((ssaalleess__iinn__ddoollllaarrss)),, aavvgg__ssaalleess == aavvgg((ssaalleess__iinn__ddoollllaarrss)),, uunniittss__ssoolldd == ccoouunntt((**)) ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ((ttiimmee__kkeeyy,, ddaayy,, ddaayy__ooff__wweeeekk,, mmoonntthh,, qquuaarrtteerr,, yyeeaarr)) ddeeffiinnee ddiimmeennssiioonn iitteemm aass ((iitteemm__kkeeyy,, iitteemm__nnaammee,, bbrraanndd,, ttyyppee,, ssuupppplliieerr__ttyyppee)) ddeeffiinnee ddiimmeennssiioonn bbrraanncchh aass ((bbrraanncchh__kkeeyy,, bbrraanncchh__nnaammee,, bbrraanncchh__ttyyppee)) ddeeffiinnee ddiimmeennssiioonn llooccaattiioonn aass ((llooccaattiioonn__kkeeyy,, ssttrreeeett,, cciittyy,, pprroovviinnccee__oorr__ssttaattee,, ccoouunnttrryy))
  • 75. DDeeffiinniinngg aa FFaacctt CCoonnsstteellllaattiioonn iinn DDMMQQLL ddeeffiinnee ccuubbee sshhiippppiinngg [[ttiimmee,, iitteemm,, sshhiippppeerr,, ffrroomm__llooccaattiioonn,, ttoo__llooccaattiioonn]]:: ddoollllaarr__ccoosstt == ssuumm((ccoosstt__iinn__ddoollllaarrss)),, uunniitt__sshhiippppeedd == ccoouunntt((**)) ddeeffiinnee ddiimmeennssiioonn ttiimmee aass ttiimmee iinn ccuubbee ssaalleess ddeeffiinnee ddiimmeennssiioonn iitteemm aass iitteemm iinn ccuubbee ssaalleess ddeeffiinnee ddiimmeennssiioonn sshhiippppeerr aass ((sshhiippppeerr__kkeeyy,, sshhiippppeerr__nnaammee,, llooccaattiioonn aass llooccaattiioonn iinn ccuubbee ssaalleess,, sshhiippppeerr__ttyyppee)) ddeeffiinnee ddiimmeennssiioonn ffrroomm__llooccaattiioonn aass llooccaattiioonn iinn ccuubbee ssaalleess ddeeffiinnee ddiimmeennssiioonn ttoo__llooccaattiioonn aass llooccaattiioonn iinn ccuubbee ssaalleess
  • 76. MMeeaassuurreess:: TThhrreeee CCaatteeggoorriieess ddiissttrriibbuuttiivvee:: iiff tthhee rreessuulltt ddeerriivveedd bbyy aappppllyyiinngg tthhee ffuunnccttiioonn ttoo nn aaggggrreeggaattee vvaalluueess iiss tthhee ssaammee aass tthhaatt ddeerriivveedd bbyy aappppllyyiinngg tthhee ffuunnccttiioonn oonn aallll tthhee ddaattaa wwiitthhoouutt ppaarrttiittiioonniinngg.. EE..gg..,, ccoouunntt(()),, ssuumm(()),, mmiinn(()),, mmaaxx(()).. aallggeebbrraaiicc:: iiff iitt ccaann bbee ccoommppuutteedd bbyy aann aallggeebbrraaiicc ffuunnccttiioonn wwiitthh MM aarrgguummeennttss ((wwhheerree MM iiss aa bboouunnddeedd iinntteeggeerr)),, eeaacchh ooff wwhhiicchh iiss oobbttaaiinneedd bbyy aappppllyyiinngg aa ddiissttrriibbuuttiivvee aaggggrreeggaattee ffuunnccttiioonn.. EE..gg..,, aavvgg(()),, mmiinn__NN(()),, ssttaannddaarrdd__ddeevviiaattiioonn(())..
  • 77. MMeeaassuurreess:: TThhrreeee CCaatteeggoorriieess hhoolliissttiicc:: iiff tthheerree iiss nnoo ccoonnssttaanntt bboouunndd oonn tthhee ssttoorraaggee ssiizzee nneeeeddeedd ttoo ddeessccrriibbee aa ssuubb aaggggrreeggaattee.. EE..gg..,, mmeeddiiaann(()),, mmooddee(()),, rraannkk(())..
  • 78. A CCoonncceepptt HHiieerraarrcchhyy:: DDiimmeennssiioonn ((llooccaattiioonn)) all Europe ... North_America Germany ... Spain Canada ... Mexico ... Vancouver ... city Frankfurt Toronto L. Chan ... M. Wind all region country office
  • 79. MMuullttiiddiimmeennssiioonnaall DDaattaa SSaalleess vvoolluummee aass aa ffuunnccttiioonn ooff pprroodduucctt,, mmoonntthh,, aanndd rreeggiioonn Region Product Month Dimensions: Product, Location, Time Hierarchical summarization paths Industry Region Year Category Country Quarter Product City Month Week Office Day
  • 80. AA SSaammppllee DDaattaa CCuubbee Total annual sales of TV in U.S.A. Date Product Country sum sum TV PC VCR 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum
  • 81. CCuubbooiiddss CCoorrrreessppoonnddiinngg ttoo tthhee CCuubbee all product date country product,date product,country date, country product, date, country 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D(base) cuboid
  • 82. OOLLAAPP OOppeerraattiioonnss RRoollll uupp ((ddrriillll--uupp)):: ssuummmmaarriizzee ddaattaa  bbyy cclliimmbbiinngg uupp hhiieerraarrcchhyy oorr bbyy ddiimmeennssiioonn rreedduuccttiioonn DDrriillll ddoowwnn ((rroollll ddoowwnn)):: rreevveerrssee ooff rroollll--uupp  ffrroomm hhiigghheerr lleevveell ssuummmmaarryy ttoo lloowweerr lleevveell ssuummmmaarryy oorr ddeettaaiilleedd ddaattaa,, oorr iinnttrroodduucciinngg nneeww ddiimmeennssiioonnss SSlliiccee aanndd ddiiccee::  pprroojjeecctt aanndd sseelleecctt
  • 83. OOLLAAPP OOppeerraattiioonnss PPiivvoott ((rroottaattee))::  rreeoorriieenntt tthhee ccuubbee,, vviissuuaalliizzaattiioonn,, 33DD ttoo sseerriieess ooff 22DD ppllaanneess.. OOtthheerr ooppeerraattiioonnss  ddrriillll aaccrroossss:: iinnvvoollvviinngg ((aaccrroossss)) mmoorree tthhaann oonnee ffaacctt ttaabbllee  ddrriillll tthhrroouugghh:: tthhrroouugghh tthhee bboottttoomm lleevveell ooff tthhee ccuubbee ttoo iittss bbaacckk--eenndd rreellaattiioonnaall ttaabblleess ((uussiinngg SSQQLL))
  • 85. Steps ffoorr tthhee DDeessiiggnn aanndd CCoonnssttrruuccttiioonn ooff DDaattaa WWaarreehhoouussee TThhee ddeessiiggnn ooff aa ddaattaa wwaarreehhoouussee:: aa bbuussiinneessss aannaallyyssiiss ffrraammeewwoorrkk TThhee pprroocceessss ooff ddaattaa wwaarreehhoouussee ddeessiiggnn AA tthhrreeee--ttiieerr ddaattaa wwaarree hhoouussee aarrcchhiitteeccttuurree
  • 86. Design ooff aa DDaattaa WWaarreehhoouussee:: AA BBuussiinneessss AAnnaallyyssiiss FFrraammeewwoorrkk FFoouurr vviieewwss rreeggaarrddiinngg tthhee ddeessiiggnn ooff aa ddaattaa wwaarreehhoouussee  TToopp--ddoowwnn vviieeww aalllloowwss sseelleeccttiioonn ooff tthhee rreelleevvaanntt iinnffoorrmmaattiioonn nneecceessssaarryy ffoorr tthhee ddaattaa wwaarreehhoouussee
  • 87. Design ooff aa DDaattaa WWaarreehhoouussee:: AA BBuussiinneessss AAnnaallyyssiiss FFrraammeewwoorrkk  DDaattaa wwaarreehhoouussee vviieeww ccoonnssiissttss ooff ffaacctt ttaabblleess aanndd ddiimmeennssiioonn ttaabblleess  DDaattaa ssoouurrccee vviieeww eexxppoosseess tthhee iinnffoorrmmaattiioonn bbeeiinngg ccaappttuurreedd,, ssttoorreedd,, aanndd mmaannaaggeedd bbyy ooppeerraattiioonnaall ssyysstteemmss  BBuussiinneessss qquueerryy vviieeww sseeeess tthhee ppeerrssppeeccttiivveess
  • 88. DDaattaa WWaarreehhoouussee DDeessiiggnn PPrroocceessss TToopp--ddoowwnn,, bboottttoomm--uupp aapppprrooaacchheess oorr aa ccoommbbiinnaattiioonn ooff bbootthh  TToopp--ddoowwnn:: SSttaarrttss wwiitthh oovveerraallll ddeessiiggnn aanndd ppllaannnniinngg ((mmaattuurree))  BBoottttoomm--uupp:: SSttaarrttss wwiitthh eexxppeerriimmeennttss aanndd pprroottoottyyppeess ((rraappiidd)) FFrroomm ssooffttwwaarree eennggiinneeeerriinngg ppooiinntt ooff vviieeww  WWaatteerrffaallll:: ssttrruuccttuurreedd aanndd ssyysstteemmaattiicc aannaallyyssiiss aatt eeaacchh sstteepp bbeeffoorree pprroocceeeeddiinngg ttoo tthhee nneexxtt  SSppiirraall:: rraappiidd ggeenneerraattiioonn ooff iinnccrreeaassiinnggllyy ffuunnccttiioonnaall ssyysstteemmss,, sshhoorrtt ttuurrnn aarroouunndd ttiimmee,, qquuiicckk ttuurrnn aarroouunndd
  • 89. DDaattaa WWaarreehhoouussee DDeessiiggnn PPrroocceessss TTyyppiiccaall ddaattaa wwaarreehhoouussee ddeessiiggnn pprroocceessss  CChhoooossee aa bbuussiinneessss pprroocceessss ttoo mmooddeell,, ee..gg..,, oorrddeerrss,, iinnvvooiicceess,, eettcc..  CChhoooossee tthhee ggrraaiinn ((aattoommiicc lleevveell ooff ddaattaa)) ooff tthhee bbuussiinneessss pprroocceessss  CChhoooossee tthhee ddiimmeennssiioonnss tthhaatt wwiillll aappppllyy ttoo eeaacchh ffaacctt ttaabbllee rreeccoorrdd  CChhoooossee tthhee mmeeaassuurree tthhaatt wwiillll ppooppuullaattee eeaacchh ffaacctt ttaabbllee rreeccoorrdd
  • 90. MMuullttii--TTiieerreedd AArrcchhiitteeccttuurree Data Warehouse Extract Transform Load Refresh Serve OLAP Engine Analysis Query Reports Data mining Monitor & Integrator Metadata Data Marts other source s Operational DBs Data Sources Data Storage Front-End Tools OLAP Server
  • 91. MMeettaaddaattaa RReeppoossiittoorryy MMeettaa ddaattaa iiss tthhee ddaattaa ddeeffiinniinngg wwaarreehhoouussee oobbjjeeccttss.. IItt hhaass tthhee ffoolllloowwiinngg kkiinnddss  DDeessccrriippttiioonn ooff tthhee ssttrruuccttuurree ooff tthhee wwaarreehhoouussee sscchheemmaa,, vviieeww,, ddiimmeennssiioonnss,, hhiieerraarrcchhiieess,, ddeerriivveedd ddaattaa ddeeffnn,, ddaattaa mmaarrtt llooccaattiioonnss aanndd ccoonntteennttss  OOppeerraattiioonnaall mmeettaa--ddaattaa ddaattaa lliinneeaaggee ((hhiissttoorryy ooff mmiiggrraatteedd ddaattaa aanndd ttrraannssffoorrmmaattiioonn ppaatthh)),, ccuurrrreennccyy ooff ddaattaa ((aaccttiivvee,, aarrcchhiivveedd,, oorr ppuurrggeedd)),, mmoonniittoorriinngg iinnffoorrmmaattiioonn ((wwaarreehhoouussee uussaaggee ssttaattiissttiiccss,, eerrrroorr rreeppoorrttss,, aauuddiitt ttrraaiillss))  TThhee aallggoorriitthhmmss uusseedd ffoorr ssuummmmaarriizzaattiioonn  TThhee mmaappppiinngg ffrroomm ooppeerraattiioonnaall eennvviirroonnmmeenntt ttoo tthhee ddaattaa wwaarreehhoouussee  DDaattaa rreellaatteedd ttoo ssyysstteemm ppeerrffoorrmmaannccee wwaarreehhoouussee sscchheemmaa,, vviieeww aanndd ddeerriivveedd ddaattaa ddeeffiinniittiioonnss  BBuussiinneessss ddaattaa bbuussiinneessss tteerrmmss aanndd ddeeffiinniittiioonnss,, oowwnneerrsshhiipp ooff ddaattaa,, cchhaarrggiinngg ppoolliicciieess
  • 92. Data Warehouse BBaacckk--EEnndd TToooollss aanndd UUttiilliittiieess DDaattaa eexxttrraaccttiioonn::  ggeett ddaattaa ffrroomm mmuullttiippllee,, hheetteerrooggeenneeoouuss,, aanndd eexxtteerrnnaall ssoouurrcceess DDaattaa cclleeaanniinngg::  ddeetteecctt eerrrroorrss iinn tthhee ddaattaa aanndd rreeccttiiffyy tthheemm wwhheenn ppoossssiibbllee DDaattaa ttrraannssffoorrmmaattiioonn::  ccoonnvveerrtt ddaattaa ffrroomm lleeggaaccyy oorr hhoosstt ffoorrmmaatt ttoo wwaarreehhoouussee ffoorrmmaatt LLooaadd::  ssoorrtt,, ssuummmmaarriizzee,, ccoonnssoolliiddaattee,, ccoommppuuttee vviieewwss,, cchheecckk iinntteeggrriittyy,, aanndd bbuuiilldd iinnddiicceess aanndd ppaarrttiittiioonnss RReeffrreesshh  pprrooppaaggaattee tthhee uuppddaatteess ffrroomm tthhee ddaattaa ssoouurrcceess ttoo tthhee wwaarreehhoouussee
  • 93. TThhrreeee DDaattaa WWaarreehhoouussee MMooddeellss EEnntteerrpprriissee wwaarreehhoouussee  ccoolllleeccttss aallll ooff tthhee iinnffoorrmmaattiioonn aabboouutt ssuubbjjeeccttss ssppaannnniinngg tthhee eennttiirree oorrggaanniizzaattiioonn DDaattaa MMaarrtt  aa ssuubbsseett ooff ccoorrppoorraattee--wwiiddee ddaattaa tthhaatt iiss ooff vvaalluuee ttoo aa ssppeecciiffiicc ggrroouuppss ooff uusseerrss.. IIttss ssccooppee iiss ccoonnffiinneedd ttoo ssppeecciiffiicc,, sseelleecctteedd ggrroouuppss,, ssuucchh aass mmaarrkkeettiinngg ddaattaa mmaarrtt IInnddeeppeennddeenntt vvss.. ddeeppeennddeenntt ((ddiirreeccttllyy ffrroomm wwaarreehhoouussee)) ddaattaa mmaarrtt VViirrttuuaall wwaarreehhoouussee  AA sseett ooff vviieewwss oovveerr ooppeerraattiioonnaall ddaattaabbaasseess  OOnnllyy ssoommee ooff tthhee ppoossssiibbllee ssuummmmaarryy vviieewwss mmaayy bbee mmaatteerriiaalliizzeedd
  • 94. DDaattaa WWaarreehhoouussee DDeevveellooppmmeenntt:: AA RReeccoommmmeennddeedd AApppprrooaacchh Data Mart Distributed Data Marts Data Mart Multi-Tier Data Warehouse Enterprise Data Warehouse Model refinement Model refinement Define a high-level corporate data model
  • 95. TTyyppeess ooff OOLLAAPP SSeerrvveerrss RReellaattiioonnaall OOLLAAPP ((RROOLLAAPP))  UUssee rreellaattiioonnaall oorr eexxtteennddeedd--rreellaattiioonnaall DDBBMMSS ttoo ssttoorree aanndd mmaannaaggee wwaarreehhoouussee ddaattaa aanndd OOLLAAPP mmiiddddllee wwaarree ttoo ssuuppppoorrtt mmiissssiinngg ppiieecceess  IInncclluuddee ooppttiimmiizzaattiioonn ooff DDBBMMSS bbaacckkeenndd,, iimmpplleemmeennttaattiioonn ooff aaggggrreeggaattiioonn nnaavviiggaattiioonn llooggiicc,, aanndd aaddddiittiioonnaall ttoooollss aanndd sseerrvviicceess  ggrreeaatteerr ssccaallaabbiilliittyy MMuullttiiddiimmeennssiioonnaall OOLLAAPP ((MMOOLLAAPP))  AArrrraayy--bbaasseedd mmuullttiiddiimmeennssiioonnaall ssttoorraaggee eennggiinnee ((ssppaarrssee mmaattrriixx tteecchhnniiqquueess))  ffaasstt iinnddeexxiinngg ttoo pprree--ccoommppuutteedd ssuummmmaarriizzeedd ddaattaa
  • 96. TTyyppeess ooff OOLLAAPP SSeerrvveerrss HHyybbrriidd OOLLAAPP ((HHOOLLAAPP))  UUsseerr fflleexxiibbiilliittyy,, ee..gg..,, llooww lleevveell:: rreellaattiioonnaall,, hhiigghh-- lleevveell:: aarrrraayy SSppeecciiaalliizzeedd SSQQLL sseerrvveerrss  ssppeecciiaalliizzeedd ssuuppppoorrtt ffoorr SSQQLL qquueerriieess oovveerr ssttaarr//ssnnoowwffllaakkee sscchheemmaass
  • 97. LLeeccttuurree--1100 && 1111 DDaattaa wwaarreehhoouussee iimmpplleemmeennttaattiioonn
  • 98. EEffffiicciieenntt DDaattaa CCuubbee CCoommppuuttaattiioonn DDaattaa ccuubbee ccaann bbee vviieewweedd aass aa llaattttiiccee ooff ccuubbooiiddss  TThhee bboottttoomm--mmoosstt ccuubbooiidd iiss tthhee bbaassee ccuubbooiidd  TThhee ttoopp--mmoosstt ccuubbooiidd ((aappeexx)) ccoonnttaaiinnss oonnllyy oonnee cceellll  HHooww mmaannyy ccuubbooiiddss iinn aann nn--ddiimmeennssiioonnaall ccuubbee wwiitthh LL lleevveellss?? n i i T L ( + Õ= 1) 1 = MMaatteerriiaalliizzaattiioonn ooff ddaattaa ccuubbee  MMaatteerriiaalliizzee eevveerryy ((ccuubbooiidd)) ((ffuullll mmaatteerriiaalliizzaattiioonn)),, nnoonnee ((nnoo mmaatteerriiaalliizzaattiioonn)),, oorr ssoommee ((ppaarrttiiaall mmaatteerriiaalliizzaattiioonn))  SSeelleeccttiioonn ooff wwhhiicchh ccuubbooiiddss ttoo mmaatteerriiaalliizzee BBaasseedd oonn ssiizzee,, sshhaarriinngg,, aacccceessss ffrreeqquueennccyy,, eettcc..
  • 99. CCuubbee OOppeerraattiioonn CCuubbee ddeeffiinniittiioonn aanndd ccoommppuuttaattiioonn iinn DDMMQQLL ddeeffiinnee ccuubbee ssaalleess[[iitteemm,, cciittyy,, yyeeaarr]]:: ssuumm((ssaalleess__iinn__ddoollllaarrss)) ccoommppuuttee ccuubbee ssaalleess TTrraannssffoorrmm iitt iinnttoo aa SSQQLL--lliikkee llaanngguuaaggee ((wwiitthh aa nneeww ooppeerraattoorr ccuubbee bbyy,, iinnttrroodduucceedd bbyy GGrraayy eett aall..’’9966)) SSEELLEECCTT iitteemm,, cciittyy,, yyeeaarr,, SSUUMM ((aammoouunntt)) FFRROOMM SSAALLEESS CCUUBBEE BBYY iitteemm,, cciittyy,, yyeeaarr () (city) (item) NNeeeedd ccoommppuuttee tthhee ffoolllloowwiinngg GGrroouupp--BByyss ((ddaattee,, pprroodduucctt,, ccuussttoommeerr)),, ((ddaattee,,pprroodduucctt)),,((ddaattee,, ccuussttoommeerr)),, ((pprroodduucctt,, ccuussttoommeerr)),, ((ddaattee)),, ((pprroodduucctt)),, ((ccuussttoommeerr)) (()) (year) (city, item) (city, year) (item, year) (city, item, year)
  • 100. Cube Computation: RROOLLAAPP--BBaasseedd MMeetthhoodd EEffffiicciieenntt ccuubbee ccoommppuuttaattiioonn mmeetthhooddss  RROOLLAAPP--bbaasseedd ccuubbiinngg aallggoorriitthhmmss ((AAggaarrwwaall eett aall’’9966))  AArrrraayy--bbaasseedd ccuubbiinngg aallggoorriitthhmm ((ZZhhaaoo eett aall’’9977))  BBoottttoomm--uupp ccoommppuuttaattiioonn mmeetthhoodd ((BBaayyeerr && RRaammaarrkkrriisshhnnaann’’9999)) RROOLLAAPP--bbaasseedd ccuubbiinngg aallggoorriitthhmmss  SSoorrttiinngg,, hhaasshhiinngg,, aanndd ggrroouuppiinngg ooppeerraattiioonnss aarree aapppplliieedd ttoo tthhee ddiimmeennssiioonn aattttrriibbuutteess iinn oorrddeerr ttoo rreeoorrddeerr aanndd cclluusstteerr rreellaatteedd ttuupplleess  GGrroouuppiinngg iiss ppeerrffoorrmmeedd oonn ssoommee ssuubb aaggggrreeggaatteess aass aa ““ppaarrttiiaall ggrroouuppiinngg sstteepp””  AAggggrreeggaatteess mmaayy bbee ccoommppuutteedd ffrroomm pprreevviioouussllyy ccoommppuutteedd aaggggrreeggaatteess,, rraatthheerr tthhaann ffrroomm tthhee bbaassee ffaacctt ttaabbllee
  • 101. Multi-wwaayy AArrrraayy AAggggrreeggaattiioonn ffoorr CCuubbee CCoommppuuttaattiioonn PPaarrttiittiioonn aarrrraayyss iinnttoo cchhuunnkkss ((aa ssmmaallll ssuubb ccuubbee wwhhiicchh ffiittss iinn mmeemmoorryy)).. CCoommpprreesssseedd ssppaarrssee aarrrraayy aaddddrreessssiinngg:: ((cchhuunnkk__iidd,, ooffffsseett)) CCoommppuuttee aaggggrreeggaatteess iinn ““mmuullttii wwaayy”” bbyy vviissiittiinngg ccuubbee cceellllss iinn tthhee oorrddeerr wwhhiicchh mmiinniimmiizzeess tthhee ## ooff ttiimmeess ttoo vviissiitt eeaacchh cceellll,, aanndd rreedduucceess mmeemmoorryy aacccceessss aanndd ssttoorraaggee ccoosstt..
  • 102. Multi-wwaayy AArrrraayy AAggggrreeggaattiioonn ffoorr CCuubbee CCoommppuuttaattiioonn c3 61 62 63 64 45 46 47 48 c2 c1 c 0 b3 b2 b1 b0 13 14 15 16 A B 29 30 31 32 9 5 1 2 3 4 a0 a1 a2 a3 C 44 60 28 56 40 24 52 36 20 B
  • 103. MMuullttii--WWaayy AArrrraayy AAggggrreeggaattiioonn ffoorr CCuubbee CCoommppuuttaattiioonn MMeetthhoodd:: tthhee ppllaanneess sshhoouulldd bbee ssoorrtteedd aanndd ccoommppuutteedd aaccccoorrddiinngg ttoo tthheeiirr ssiizzee iinn aasscceennddiinngg oorrddeerr..  IIddeeaa:: kkeeeepp tthhee ssmmaalllleesstt ppllaannee iinn tthhee mmaaiinn mmeemmoorryy,, ffeettcchh aanndd ccoommppuuttee oonnllyy oonnee cchhuunnkk aatt aa ttiimmee ffoorr tthhee llaarrggeesstt ppllaannee LLiimmiittaattiioonn ooff tthhee mmeetthhoodd:: ccoommppuuttiinngg wweellll oonnllyy ffoorr aa ssmmaallll nnuummbbeerr ooff ddiimmeennssiioonnss  IIff tthheerree aarree aa llaarrggee nnuummbbeerr ooff ddiimmeennssiioonnss,, ““bboottttoomm--uupp ccoommppuuttaattiioonn”” aanndd iicceebbeerrgg ccuubbee ccoommppuuttaattiioonn mmeetthhooddss ccaann bbee eexxpplloorreedd
  • 104. IInnddeexxiinngg OOLLAAPP DDaattaa:: BBiittmmaapp IInnddeexx IInnddeexx oonn aa ppaarrttiiccuullaarr ccoolluummnn EEaacchh vvaalluuee iinn tthhee ccoolluummnn hhaass aa bbiitt vveeccttoorr:: bbiitt--oopp iiss ffaasstt TThhee lleennggtthh ooff tthhee bbiitt vveeccttoorr:: ## ooff rreeccoorrddss iinn tthhee bbaassee ttaabbllee TThhee ii--tthh bbiitt iiss sseett iiff tthhee ii--tthh rrooww ooff tthhee bbaassee ttaabbllee hhaass tthhee vvaalluuee ffoorr tthhee iinnddeexxeedd ccoolluummnn nnoott ssuuiittaabbllee ffoorr hhiigghh ccaarrddiinnaalliittyy ddoommaaiinnss Base table Index on Region Index on Type Cust Region Type C1 Asia Retail C2 Europe Dealer C3 Asia Dealer C4 America Retail C5 Europe Dealer RecID Retail Dealer 1 1 0 2 0 1 3 0 1 4 1 0 5 0 1 RecIDAsia Europe America 1 1 0 0 2 0 1 0 3 1 0 0 4 0 0 1 5 0 1 0
  • 105. IInnddeexxiinngg OOLLAAPP DDaattaa:: JJooiinn IInnddiicceess JJooiinn iinnddeexx:: JJII((RR--iidd,, SS--iidd)) wwhheerree RR ((RR--iidd,, ……))  SS ((SS--iidd,, ……)) TTrraaddiittiioonnaall iinnddiicceess mmaapp tthhee vvaalluueess ttoo aa lliisstt ooff rreeccoorrdd iiddss  IItt mmaatteerriiaalliizzeess rreellaattiioonnaall jjooiinn iinn JJII ffiillee aanndd ssppeeeeddss uupp rreellaattiioonnaall jjooiinn —— aa rraatthheerr ccoossttllyy ooppeerraattiioonn IInn ddaattaa wwaarreehhoouusseess,, jjooiinn iinnddeexx rreellaatteess tthhee vvaalluueess ooff tthhee ddiimmeennssiioonnss ooff aa ssttaarrtt sscchheemmaa ttoo rroowwss iinn tthhee ffaacctt ttaabbllee..  EE..gg.. ffaacctt ttaabbllee:: SSaalleess aanndd ttwwoo ddiimmeennssiioonnss cciittyy aanndd pprroodduucctt AA jjooiinn iinnddeexx oonn cciittyy mmaaiinnttaaiinnss ffoorr eeaacchh ddiissttiinncctt cciittyy aa lliisstt ooff RR--IIDDss ooff tthhee ttuupplleess rreeccoorrddiinngg tthhee SSaalleess iinn tthhee cciittyy  JJooiinn iinnddiicceess ccaann ssppaann mmuullttiippllee ddiimmeennssiioonnss
  • 106. EEffffiicciieenntt PPrroocceessssiinngg OOLLAAPP QQuueerriieess DDeetteerrmmiinnee wwhhiicchh ooppeerraattiioonnss sshhoouulldd bbee ppeerrffoorrmmeedd oonn tthhee aavvaaiillaabbllee ccuubbooiiddss::  ttrraannssffoorrmm ddrriillll,, rroollll,, eettcc.. iinnttoo ccoorrrreessppoonnddiinngg SSQQLL aanndd//oorr OOLLAAPP ooppeerraattiioonnss,, ee..gg,, ddiiccee == sseelleeccttiioonn ++ pprroojjeeccttiioonn DDeetteerrmmiinnee ttoo wwhhiicchh mmaatteerriiaalliizzeedd ccuubbooiidd((ss)) tthhee rreelleevvaanntt ooppeerraattiioonnss sshhoouulldd bbee aapppplliieedd.. EExxpplloorriinngg iinnddeexxiinngg ssttrruuccttuurreess aanndd ccoommpprreesssseedd vvss.. ddeennssee aarrrraayy ssttrruuccttuurreess iinn MMOOLLAAPP
  • 107. LLeeccttuurree--1122 FFrroomm ddaattaa wwaarreehhoouussiinngg ttoo ddaattaa mmiinniinngg
  • 108. DDaattaa WWaarreehhoouussee UUssaaggee TThhrreeee kkiinnddss ooff ddaattaa wwaarreehhoouussee aapppplliiccaattiioonnss  IInnffoorrmmaattiioonn pprroocceessssiinngg ssuuppppoorrttss qquueerryyiinngg,, bbaassiicc ssttaattiissttiiccaall aannaallyyssiiss,, aanndd rreeppoorrttiinngg uussiinngg ccrroossssttaabbss,, ttaabblleess,, cchhaarrttss aanndd ggrraapphhss  AAnnaallyyttiiccaall pprroocceessssiinngg mmuullttiiddiimmeennssiioonnaall aannaallyyssiiss ooff ddaattaa wwaarreehhoouussee ddaattaa ssuuppppoorrttss bbaassiicc OOLLAAPP ooppeerraattiioonnss,, sslliiccee--ddiiccee,, ddrriilllliinngg,, ppiivvoottiinngg  DDaattaa mmiinniinngg kknnoowwlleeddggee ddiissccoovveerryy ffrroomm hhiiddddeenn ppaatttteerrnnss ssuuppppoorrttss aassssoocciiaattiioonnss,, ccoonnssttrruuccttiinngg aannaallyyttiiccaall mmooddeellss,, ppeerrffoorrmmiinngg ccllaassssiiffiiccaattiioonn aanndd pprreeddiiccttiioonn,, aanndd pprreesseennttiinngg tthhee mmiinniinngg rreessuullttss uussiinngg vviissuuaalliizzaattiioonn ttoooollss.. DDiiffffeerreenncceess aammoonngg tthhee tthhrreeee ttaasskkss
  • 109. From OOnn--LLiinnee AAnnaallyyttiiccaall PPrroocceessssiinngg ttoo OOnn LLiinnee AAnnaallyyttiiccaall MMiinniinngg ((OOLLAAMM)) WWhhyy oonnlliinnee aannaallyyttiiccaall mmiinniinngg??  HHiigghh qquuaalliittyy ooff ddaattaa iinn ddaattaa wwaarreehhoouusseess DDWW ccoonnttaaiinnss iinntteeggrraatteedd,, ccoonnssiisstteenntt,, cclleeaanneedd ddaattaa  AAvvaaiillaabbllee iinnffoorrmmaattiioonn pprroocceessssiinngg ssttrruuccttuurree ssuurrrroouunnddiinngg ddaattaa wwaarreehhoouusseess OODDBBCC,, OOLLEEDDBB,, WWeebb aacccceessssiinngg,, sseerrvviiccee ffaacciilliittiieess,, rreeppoorrttiinngg aanndd OOLLAAPP ttoooollss  OOLLAAPP--bbaasseedd eexxpplloorraattoorryy ddaattaa aannaallyyssiiss mmiinniinngg wwiitthh ddrriilllliinngg,, ddiicciinngg,, ppiivvoottiinngg,, eettcc..  OOnn--lliinnee sseelleeccttiioonn ooff ddaattaa mmiinniinngg ffuunnccttiioonnss iinntteeggrraattiioonn aanndd sswwaappppiinngg ooff mmuullttiippllee mmiinniinngg ffuunnccttiioonnss,, aallggoorriitthhmmss,, aanndd ttaasskkss.. AArrcchhiitteeccttuurree ooff OOLLAAMM
  • 110. AAnn OOLLAAMM AArrcchhiitteeccttuurree Mining query Mining result Meta Data Data Warehouse MDDB OLAM Engine OLAP Engine User GUI API Data Cube API Database API Data cleaning Data integration Layer4 User Interface Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Filtering&Integration Filtering Databases