O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
Mobilios duomenų tyrybos
analizės apžvalga
Vilniaus universitetas
Matematikos ir informatikos institutas
doktorantas Gedim...
DUOMENŲ TYRYBA PASKIRSTYTOSE
SISTEMOSE

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

2	
  
SRAUTO DUOMENŲ TYRYBA
MOBILIUOSE ĮRENGINIUOSE

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  ...
SRAUTO DUOMENŲ TYRYBA (1)
•  Srauto tyryba – tai tendencijų, šablonų, ryšių ir
kategorijų aptikimo procesas iš laiko eiluč...
KODĖL SRAUTO TYRYBA?
•  Duomenų apdorojimas atliekamas tiesiogiai;
•  Duomenis galima tyrinėti/apdoroti mobiliai t.y.
keič...
SRAUTO DUOMENŲ
CHARAKTERISTIKOS
Ypatumai:
1.  duomenys gaunami/imami nenutrūkstamai iš srauto;
2.  nežinomas gaunamų duome...
PAGRINDINAI SKIRTUMAI TARP
SRAUTO IR TRADICINĖS DUOMENŲ
TYRYBOS
Srauto duomenų tyryba
Duomenų apdorojimas realiu laiku

Du...
SRAUTO DUOMENŲ TYRYBOS
ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią
imties dalį tyrinėsime, to pas...
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
•  Pirmas būdas. Visi duomenys turi būtų sumažinami
iš viso kiekio duomenų arba rankiniu...
SRAUTO DUOMENŲ TYRYBA,
ATRANKA
•  Atranka (angl. sampling) – tikimybiniu būdu
atrenkami duomenys tolimesnei duomenų tyryba...
SRAUTO DUOMENŲ TYRYBOS,
APKROVA
•  Apkrova (angl. shedding) – t.y. procesas kurio metu
atisakoma dalies duomenų srauto, ka...
SRAUTO DUOMENŲ TYRYBOS,
ESKIZAS
•  Eskizas (angl. sketching) – apima srauto duomenų
santraukos kūrimą naudojant mažą atmin...
SRAUTO DUOMENŲ TYRYBOS,
KONSPEKTAVIMAS
•  Konspektavimas (angl. synopsis) – šio proceso metu
išlaikoma trumpa informacija ...
SRAUTO DUOMENŲ TYRYBOS,
AGREGAVIMAS
•  Agregavimas (angls. aggregation) – įeinamo srautų
konspektas yra sugeneruotas naudo...
SRAUTO DUOMENŲ TYRYBOS
ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią
imties dalį tyrinėsime, to pas...
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
•  Antras būdas. Siekiama efektyviai išnaudoti esamus
duomenų tyrybos algoritmus, juos m...
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS, APROKSIMAVIMO
ALGORITMAS
•  Aproksimavimo algoritmas (angl. approximation
algorithm) – ...
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS, SLENKANTIS LANGAS
•  Slenkantis langas (angl. sliding windows algorithm)
Analizė naujai...
KLASIKINĖ MOBILIOS SRAUTO
DUOMENŲ TYRYBOS SCHEMA

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	...
MOBILIOJI DUOMENŲ TYRYBA
•  Mobilioji duomenų tyryba tai technologija suteikianti
galimybę realiu laiku analizuoti srauto ...
SRAUTO DUOMENŲ TYRYBOS
PROBLEMA
•  Srauto duomenų tyryba turi būti atliekama, taip kad ji
neviršytų mobilių įrenginių ribo...
SRAUTO DUOMENŲ TYRYBOS
SPRENDIMAS
•  Naudojamos atitinkamos duomenų tyrybos
strategijos leidžiančios dinamiškai keisti alg...
SRAUTO DUOMENŲ TYRYBOS
STRATEGIJOS
•  Situacijos prisitaikymo strategija: taikoma kritinei ir
nekritinei situacijai.
•  Re...
MOBILIOS DUOMENŲ TYRYBOS
PROGRAMOS
•  Open Mobile Miner
–  Klasifikavimas;
–  Klasterizavimas;
–  Laiko eilučių analizė;
–...
MOBILIOS DUOMENŲ TYRYBOS
ALGORITMAI
Open Mobile Miner programoje veikiantys algoritmai
Klasterizavimo algoritmai:
•  Light...
IŠVADOS (1)
•  Duomenų tyryba mobiliuose įreginiuose vystoma
pakankamai seniai, tačiau sukurtų ar modifikuotų
algoritmų sk...
IŠVADOS (2)
•  Duomenų tyrybą mobiliuose įrenginiuose riboja
skaičiavimo resursai (atminties kiekis, procesoriaus
greitis,...
AČIŪ UŽ DĖMESĮ

2013-­‐09-­‐21	
  

XVII	
  mokslinė	
  kompiuterininkų	
  konferencija	
  

28	
  
Próximos SlideShares
Carregando em…5
×

Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

502 visualizações

Publicada em

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Tikimybinių ir statistinių metodų taikymai“,
„Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Bazilevičius, Gediminas „Mobiliosios duomenų tyrybos paslaugų analizė“ (VU MII)

  1. 1. Mobilios duomenų tyrybos analizės apžvalga Vilniaus universitetas Matematikos ir informatikos institutas doktorantas Gediminas Bazilevičius
  2. 2. DUOMENŲ TYRYBA PASKIRSTYTOSE SISTEMOSE 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   2  
  3. 3. SRAUTO DUOMENŲ TYRYBA MOBILIUOSE ĮRENGINIUOSE 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   3  
  4. 4. SRAUTO DUOMENŲ TYRYBA (1) •  Srauto tyryba – tai tendencijų, šablonų, ryšių ir kategorijų aptikimo procesas iš laiko eilučių; •  Tradiciniai duomenų tyrybos metodai taikomi tuomet, kai turima visa duomenų aibė ir ji yra fiksuota. Jeigu duomenys gaunami srautu ir taip greitai, kad jų nenaudinga išsaugoti duomenų saugykloje, o reikia juos tirti realiu laiku – galime taikyti srauto duomenų tyrybos atvejį. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   4  
  5. 5. KODĖL SRAUTO TYRYBA? •  Duomenų apdorojimas atliekamas tiesiogiai; •  Duomenis galima tyrinėti/apdoroti mobiliai t.y. keičiantis geografiniai padėčiai; •  Sutaupoma duomenų saugyklų vieta, tinklo apkrova; •  Duomenų surinkimo ir išankstinio apdorojimo atlikimas mobiliajame įrenginyje palengvina ir paspartina duomenų perdavimą į duomenų saugyklas. •  Spartesnis duomenų apdorojimas tolygus spatesniam rezultatų gavimui. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   5  
  6. 6. SRAUTO DUOMENŲ CHARAKTERISTIKOS Ypatumai: 1.  duomenys gaunami/imami nenutrūkstamai iš srauto; 2.  nežinomas gaunamų duomenų tvarka/išsidėstymas; 3.  gaunamas srauto duomenų kiekis yra nenumatomas ir nesuskaičiuojamas; 4.  srautas yra negrįžtamas procesas, todėl daugiau nei du kartus duomenų srauto apdoroti neįmanoma; 5.  negalima taikyti tradicinių (įparastiniai) duomenų tyrybos algoritmų; 6.  duomenų srauto apdorojimo sutrikimai dėl ryšio patikimumo bei komunikavimo protokolų; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   6  
  7. 7. PAGRINDINAI SKIRTUMAI TARP SRAUTO IR TRADICINĖS DUOMENŲ TYRYBOS Srauto duomenų tyryba Duomenų apdorojimas realiu laiku Duomenų tyryba Tradicinis (įprastas) duomenų apdorojimas bet kuriuo metu Greita duomenų tyryba, kuri santykinai Lėta duomenų tyryba. Santykinai priklausanti priklauso nuo skaičiavimo išteklių nuo turimų skaičiavimo šaltinių Negalimas/dalinis duomenų saugojimas Galimas duomenų saugojimas Priimami apytikslūs rezultatai Gaunami tikslūs rezultatai Saugyklose saugomi tik išfiltruoti Saugyklose saugomi neapdoroti duomenys duomenys Erdvės ir laiko kontekstas yra ypatingai Erdvės ir laiko kontekstas yra taikomas tam svarbus tikrai taikomųjų programų klasei pvz.: Geographical Information Systems (GIS) Naudojami prisitaikantys ir modifikuoti Naudojami algoritmai, reikalaujantys didelių algoritmai, kurie nereikauja didelių įrangos resursų bei ilgo laiko tarpo įrenginio resursų 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   7  
  8. 8. SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1.  duomenų srauto atskirų rinkinių nagrinėjimas siekiant sumažinti duomenų dydį; 2.  efektyvus algoritmų panaudojimas laiko ir vietos atžvilgiu. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   8  
  9. 9. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS •  Pirmas būdas. Visi duomenys turi būtų sumažinami iš viso kiekio duomenų arba rankiniu būdu parenkama tam tikra rinkinio dalis (poaibis). •  Tam realizuoti naudojami algoritmai: 1.  atranka (angl. sampling), 2.  apkrova (angl. shedding), 3.  eskizas (angl. sketching), 4.  konspektavimas (angl. synopsis), 5.  agregavimas (angls. aggregation). 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   9  
  10. 10. SRAUTO DUOMENŲ TYRYBA, ATRANKA •  Atranka (angl. sampling) – tikimybiniu būdu atrenkami duomenys tolimesnei duomenų tyrybai. •  Apskaičiuotas barjerų paklaidų įvertinimas yra traktuojamas kaip atrankos rodiklio funkcija. •  Very Fast Maschine Learing (VFML) metodas naudoja Hoeffding ribą įvertinti atrankos dydį. •  Sunkumai: –  Nežinomas duomenų rinkinio dydis; –  Atrankos metodas gali veikti neteisingai, jei tikrinamos anomalijos analizės metu; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   10  
  11. 11. SRAUTO DUOMENŲ TYRYBOS, APKROVA •  Apkrova (angl. shedding) – t.y. procesas kurio metu atisakoma dalies duomenų srauto, kai yra fiksuojama gaunamo srauto perkrova. Apkrovos dydis yra naudojamas duomenų srauto užklausoms optimizuoti. Pageidautina naudoti apkrovos algoritmą, kad minimizuotume siekiamo rezultato paklaidą. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   11  
  12. 12. SRAUTO DUOMENŲ TYRYBOS, ESKIZAS •  Eskizas (angl. sketching) – apima srauto duomenų santraukos kūrimą naudojant mažą atminties kiekį. Tai yra įeinamo srauto vertikalus atrankos procesas. Eskizavimas yra taikomas palyginti skirtingus srautus duomenų. •  Pagrindinis trūkumas yra tikslumas. •  Sunku pritaikyti šį metodą srautui duomenų. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   12  
  13. 13. SRAUTO DUOMENŲ TYRYBOS, KONSPEKTAVIMAS •  Konspektavimas (angl. synopsis) – šio proceso metu išlaikoma trumpa informacija viso duomenų srauto metu. Duomenų konspekto sukūrimas tai yra santraukos metodų pritaikymas, kurie gali apibendrinti įeinamą srautą tolimesnei analizei. •  Negalima taikyti, kai yra O(N), kur N gali būti vietos/ laiko vienetų skaičius. •  Kai kurie sprendiniai yra reikalingi, kurių rezultatai gaunami arti O(poly(logN)). •  Duomenų struktūros konspektavimas gali būti taikomas kai neviršyjama tokio sudėtingumo O(logkN). 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   13  
  14. 14. SRAUTO DUOMENŲ TYRYBOS, AGREGAVIMAS •  Agregavimas (angls. aggregation) – įeinamo srautų konspektas yra sugeneruotas naudojant vidurkį ir dispersiją. •  Jeigu įėjimo srautai turi didelių svyravimų tuomet šis algoritmas netinka. •  Šis algoritmas gali būti naudojamas apjungiant netiesioginius (angl. offline) ir tiesioginius (angl. online) duomenis. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   14  
  15. 15. SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1.  duomenų srauto atskirų rinkinių nagrinėjimas siekiant sumažinti duomenų dydį; 2.  efektyvus algoritmų panaudojimas laiko ir vietos atžvilgiu. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   15  
  16. 16. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS •  Antras būdas. Siekiama efektyviai išnaudoti esamus duomenų tyrybos algoritmus, juos modifikuojant ir pritaikant esamo srauto duomenų charakteristikas; Realizuoti tokie algoritmai: 1.  aproksivavimo algoritmas (angl. approximation algorithm), 2.  slenkančio lango algoritmas (angl. sliding windows algorithm). 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   16  
  17. 17. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, APROKSIMAVIMO ALGORITMAS •  Aproksimavimo algoritmas (angl. approximation algorithm) – aproksimavimo metodai yra naudojami algoritmų kūrimui. Sprendimai gauti su šiuo algoritmu yra aproksimuojami taip gaunamos ribų paklaidos. Šis algoritmas naudojamas pasikartojančių elementų dažnio dinamikai sekti. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   17  
  18. 18. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, SLENKANTIS LANGAS •  Slenkantis langas (angl. sliding windows algorithm) Analizė naujai gautiems duomenims yra gauta iš prieš tai duomenų sukonspektuotos versijos. Naudojant slenkantį langą ankstesni srauto elementai pakeičiami naujai gauto duomenų srauto elementais. •  Naudojami du slenkantys langai: 1.  Skaičiaus (angl. count-based) 2.  Laiko (angl. time-based). •  Naudojant skaičaus pagrindo langą paskutiniai N elementai yra saugomi, o naudojant laiko pagrindu langą galima saugoti tik tuos elementus, kurie buvo sugeneruoti arba gauti paskutinėsiuose T laiko vienetuose. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   18  
  19. 19. KLASIKINĖ MOBILIOS SRAUTO DUOMENŲ TYRYBOS SCHEMA 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   19  
  20. 20. MOBILIOJI DUOMENŲ TYRYBA •  Mobilioji duomenų tyryba tai technologija suteikianti galimybę realiu laiku analizuoti srauto duomenis, sugeneruotus pačiame telefone arba iš dėvimų įrenginių, kurie yra netoli šio įrenginio. •  Yra atvejų, kai mobilusis įrenginys gali atstoti tarpininką tarp serverio ir jutiklio. •  Mobilioje srauto duomenų tyryboje paprastai naudojami prisitaikatys algoritmai, kurie veiktų veiksmingai ir efektyviai mobiliuose įrenginiuose esant skirtingom sąlygom. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   20  
  21. 21. SRAUTO DUOMENŲ TYRYBOS PROBLEMA •  Srauto duomenų tyryba turi būti atliekama, taip kad ji neviršytų mobilių įrenginių ribotų išteklių: 1.  ekrano dydžio; 2.  energijos suvartojimo; 3.  proceso apkrovos; 4.  operatyviosios atminties; 5.  saugojimo vietos. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   21  
  22. 22. SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS •  Naudojamos atitinkamos duomenų tyrybos strategijos leidžiančios dinamiškai keisti algoritmų parametrus priklausomai nuo esamų išteklių būklės, situacijos ir kitų apribojimų. •  Modifikuojami įprastiniai duomenų tyrybos algoritmai arba kuriami supaprastintos formos (angl. light-weight) algoritmai. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   22  
  23. 23. SRAUTO DUOMENŲ TYRYBOS STRATEGIJOS •  Situacijos prisitaikymo strategija: taikoma kritinei ir nekritinei situacijai. •  Resursų prisitaikymo strategija: 1.  AOG (Algorithm Output Granularity) – saugojimo vietos resursai; 2.  AIG (Algorithm Input Granularity) – baterijos resursai; 3.  APG (Algorithm Processing Granularity) – procesoriaus resursai. •  Hibridinė prisitaikymo strategija – situacijos ir resursų strategijos taikomos vienu metu. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   23  
  24. 24. MOBILIOS DUOMENŲ TYRYBOS PROGRAMOS •  Open Mobile Miner –  Klasifikavimas; –  Klasterizavimas; –  Laiko eilučių analizė; –  Pasikeitimo aptikimui. •  Mobile Weka –  Klasifikavimas; –  Klasterizavimas; –  Ryšių analizė. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   24  
  25. 25. MOBILIOS DUOMENŲ TYRYBOS ALGORITMAI Open Mobile Miner programoje veikiantys algoritmai Klasterizavimo algoritmai: •  Light-Weight Clustering; •  RA-Cluster ir DRA-Cluster; Pasikeitimo aptikimo algoritmas: •  CHANGE-DETECT; Klasifikavimo algoritmas: •  Light-Weight Class. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   25  
  26. 26. IŠVADOS (1) •  Duomenų tyryba mobiliuose įreginiuose vystoma pakankamai seniai, tačiau sukurtų ar modifikuotų algoritmų skirtų mobiliai duomenų tyrybai yra nedaug; •  Modifikuojant standartinius algoritmus mobiliems įrenginiams prarandamas gautų rezultatų tikslumas. Norint gauti tikslesnius skaičiavimų rezultatus padidėja laiko sąnaudos arba kyla problemų dėl nepakankamų mobilių įrenginių techninių išteklių; 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   26  
  27. 27. IŠVADOS (2) •  Duomenų tyrybą mobiliuose įrenginiuose riboja skaičiavimo resursai (atminties kiekis, procesoriaus greitis, tinklo pralaidumas, baterijos talpa) bei skirtingų mobilių įrenginių gausa ir techninių charakteristikų skirtumai, todėl dažnai neįmanoma duomenų tyrybos rezultatų turėti realiu laiku; •  Esami duomenų tyrybos algoritmai gali apdoroti nedidelius kiekius duomenų; •  Srauto duomenų tyrybai lengviausiai pritaikomi ir tiksliausius galutinius rezultatus teikia klasterizavimo algoritmai. 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   27  
  28. 28. AČIŪ UŽ DĖMESĮ 2013-­‐09-­‐21   XVII  mokslinė  kompiuterininkų  konferencija   28  

×