SlideShare uma empresa Scribd logo
1 de 25
Универзитет у Београду 
Факултет организационих наука 
Лабораторија за електронско пословање 
Hadoop i sveprisutno 
računarstvo 
Darko Marjanović 
Đorđe Stepanić 
Miloš Milovanović
ELAB 
• Oblasti izučavanja u Laboratoriji za elektronsko 
poslovanje: 
– Elektronsko poslovanje 
– Internet i mobilne tehnologije 
– Big Data 
– Cloud Computing 
– E-obrazovanje 
– Sveprisutno računarstvo 
– Socijalne mreže
Big Data 
• Big Data predstavlja podatake koji su one 
količine koja prevazilazi mogućnosti 
uobičajeno korišćenog softvera za 
skladištenje, obradu i upravljanje podacima. 
• Big data je sve ono što ne može da stane u 
Excel.
Big Data dimenzije 
• Volume – velika brzina rasta novih podataka i 
čuvanje postojećih dovodi do toga da se sada 
skladište stotine terabajta pa čak i mnogo više. 
• Variety – raznolikost podataka, više nije 
dovoljno čuvati samo struktuirane podatke već 
i slike, podatke sa društvenih mreža, logove, 
senzorske podatke… 
• Velocity – brzina kojom pristižu novi podaci je 
velika i veća je od brzine obrade podataka.
Hadoop 
• Hadoop je open-source software framework 
Apache fondacije. 
• Služi za skladištenje i procesiranje velikih 
količina podataka. 
• Hadoop je nastao 2005. godine od strane 
Doug Cutting i Mike Cafarella. 
• Ime je dobio po slonu igrački Cutting-ovog 
sina. 
• Napisan je u Java programskom jeziku.
Hadoop komponente 
• Hadoop Common paket 
• Hadoop Distributed File System(HDFS) 
• Hadoop YARN 
• Hadoop Map Reduce
Hadoop Ekosistem 
• Hadoop je moguće nadograditi brojnim alatima 
kojima sa poboljšavaju mogućnosti i efikasnost 
obrade podataka. 
• Dele se na alate za prenošenje podataka, analizu 
podataka, upravljanje klasterom… 
• Neki od alata koji se grade na Hadoop su: 
– Apache Hive 
– Apache Pig 
– Apache Flume 
– Apache Hue 
– Apache HCatalog 
– ……
Hadoop – Elab klaster 
• Master node, Slave1 node, Slave2 node 
– 27 Cores (CPU) 
– 60 GB RAM 
– 1TB +++ 
• Test klaster na privatnom Cloud-u, realizovan 
uz pomoć OpenStack softvera. 
– 32 Cores (CPU) 
– 64 GB RAM 
– 2TB +++
Hadoop – Za šta se koristi 
• Prikupljanje i analiza 
– Moodle podaci 
– Twitter podaci 
– Senzorski podaci 
• Integracija sa drugim servisima 
– Sharepoint 
• Edukativne svrhe
Projekat Slonče i Malina 
• Skupljanje i analiza senzorskih podataka iz 
pametnog okruženja. 
• Poboljšanje algoritma za upravljačke akcije. 
• Generisanje izveštaja radi donošenja boljih 
odluka. 
• Praćenje u realnom vremenu.
Zašto Hadoop 
• Velika brzina pristizanja novih podataka, 
upisivanje novih podataka na 2 do 3 sekunde. 
• Raznolikost podataka, senzorski podaci. 
• Velika količina podataka, mogućnost za 
dugotrajno skladištenje.
Početni model
Model u razvoju - Upravljačke akcije
Sveprisutno računarstvo
Apache Flume 
• Brz transfer podataka u Hadoop HDFS 
• Sources – izvor podataka 
• Channels – kanal prenosa podataka 
• Sinks - izvor
Apache Flume 
• Koristi se za najčešće za log podatke, 
serijalizovane podatke, podatke sa društvenih 
mreža….. 
• Namenjen je isključivo za transfer podataka, u 
slučaju obrade podataka prilikom transfera 
koristi se Apache Storm. 
• Ne koristi se za struktuirane podatke, za 
prenos relacione baze u HDFS se koristi Sqoop.
Apache Flume
Hive - nastanak 
2006 
12m 
korisnika 
<100GB/dan 
2007 
58m 
korisnika 
1TB/dan 
2009 
360m 
korisnika 
>10TB 
Facebook 
MySQL, Java Derby, Scribe 
Python skripte
Hive nastanak 
• Uvođenje Hadoop-a 
• Potreba za MapReduce-om 
• 30PB podataka na klasteru 2011-te 
• Korisnici – marketing stručnjaci 
• Nedostaci – napredno poznavanje Java 
programskog jezika, teško čitljive šeme 
podataka
Šta je Hive? 
• Hive – data warehousing infrastruktura za 
Hadoop 
• HiveQL zasnovan na SQL-u 
• Jednostavnije pisanje MapReduce programa 
• Primena: 
– Analiza log podataka 
– Obrada teksta 
– Indeksiranje dokumenata 
– Statističke analize, Business Intelligence
Hive komponente 
• Shell – interakcija sa korisnikom 
• Driver – upravljanje Hive engine-om 
• Compiler 
• Execution engine – izvršavanje 
• Meta Store – šema tabela + SerDe
Hive vs OLAP 
• Skaliranje i za više od 10.000 mašina u klasteru 
• Obrada >1TB podataka 
• Nema izmene podataka 
• Male promene na podacima imaju mali značaj
Hive tipovi podataka 
Primitivni 
Integer 
-tinyint 1B 
-smallint 2B 
-int 4B 
-bigint 8B 
Boolean – True/False 
Float 
-float 
-double 
String 
Složeni 
Structs 
Maps (key-value) 
Arrays
Zašto Hive? 
• Laka manipulacija podataka 
• Nestruktuirani podaci prikazani kao tabele 
• Mogućnosti proširivanja 
• Sličnost sa SQL-om
Hive Demo

Mais conteúdo relacionado

Destaque

マニュアル キャンペーン作成
マニュアル キャンペーン作成マニュアル キャンペーン作成
マニュアル キャンペーン作成chucklellc
 
Values 7 MI 1999 Survey Form (Answer Sheet)
Values 7 MI 1999 Survey Form (Answer Sheet)Values 7 MI 1999 Survey Form (Answer Sheet)
Values 7 MI 1999 Survey Form (Answer Sheet)MarzanChristian
 
Siyer-i Nebi 30. Sayısı
Siyer-i Nebi 30. SayısıSiyer-i Nebi 30. Sayısı
Siyer-i Nebi 30. Sayısısiyerinebi
 
Web Development Company India
Web Development Company IndiaWeb Development Company India
Web Development Company Indiawebvirtue
 
Material inspection guide
Material inspection guideMaterial inspection guide
Material inspection guideLanphuong Pham
 
Prezentacja esplorado z_trescia
Prezentacja esplorado z_tresciaPrezentacja esplorado z_trescia
Prezentacja esplorado z_tresciaEsplorado
 

Destaque (8)

マニュアル キャンペーン作成
マニュアル キャンペーン作成マニュアル キャンペーン作成
マニュアル キャンペーン作成
 
Values 7 MI 1999 Survey Form (Answer Sheet)
Values 7 MI 1999 Survey Form (Answer Sheet)Values 7 MI 1999 Survey Form (Answer Sheet)
Values 7 MI 1999 Survey Form (Answer Sheet)
 
REVIT A-CADD PORTFOLIO
REVIT A-CADD PORTFOLIOREVIT A-CADD PORTFOLIO
REVIT A-CADD PORTFOLIO
 
Tablas
TablasTablas
Tablas
 
Siyer-i Nebi 30. Sayısı
Siyer-i Nebi 30. SayısıSiyer-i Nebi 30. Sayısı
Siyer-i Nebi 30. Sayısı
 
Web Development Company India
Web Development Company IndiaWeb Development Company India
Web Development Company India
 
Material inspection guide
Material inspection guideMaterial inspection guide
Material inspection guide
 
Prezentacja esplorado z_trescia
Prezentacja esplorado z_tresciaPrezentacja esplorado z_trescia
Prezentacja esplorado z_trescia
 

Semelhante a Hadoop i sveprisutno računarstvo

Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?Darko Marjanovic
 
Pitanja kss (1)
Pitanja  kss (1)Pitanja  kss (1)
Pitanja kss (1)Milos Ilic
 
Rešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnostiRešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnostiPredrag Živić
 
Nasa skola 2011: Baze podataka - Stefan Nikolic -Silvana Ivkovic
Nasa skola 2011: Baze podataka - Stefan Nikolic -Silvana IvkovicNasa skola 2011: Baze podataka - Stefan Nikolic -Silvana Ivkovic
Nasa skola 2011: Baze podataka - Stefan Nikolic -Silvana IvkovicNašaŠkola.Net
 
Domaći rad 1
Domaći rad 1Domaći rad 1
Domaći rad 1tanja_vs
 
Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Nikola Reljin
 
Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...
Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...
Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...Nikola Milosevic
 
Software Freedom day Serbia - Owasp open source resenja
Software Freedom day Serbia - Owasp open source resenjaSoftware Freedom day Serbia - Owasp open source resenja
Software Freedom day Serbia - Owasp open source resenjaNikola Milosevic
 
Baze podataka
Baze podatakaBaze podataka
Baze podatakagrujam
 
Internet tehnologije
Internet tehnologijeInternet tehnologije
Internet tehnologijemilica981
 
Klijent Server Sistemi - Ljubomir Lazic
Klijent Server Sistemi - Ljubomir LazicKlijent Server Sistemi - Ljubomir Lazic
Klijent Server Sistemi - Ljubomir LazicZeki Zeki
 

Semelhante a Hadoop i sveprisutno računarstvo (20)

Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
 
Pitanja kss (1)
Pitanja  kss (1)Pitanja  kss (1)
Pitanja kss (1)
 
Web logs: Collecting and analysing - Nikola Krgovic
Web logs: Collecting and analysing - Nikola KrgovicWeb logs: Collecting and analysing - Nikola Krgovic
Web logs: Collecting and analysing - Nikola Krgovic
 
osnove Interneta.pptx
osnove Interneta.pptxosnove Interneta.pptx
osnove Interneta.pptx
 
Oit socijalne mreze
Oit socijalne mrezeOit socijalne mreze
Oit socijalne mreze
 
Decouple Goals
Decouple GoalsDecouple Goals
Decouple Goals
 
Migration to 9i
Migration to 9iMigration to 9i
Migration to 9i
 
информатика 1
информатика 1информатика 1
информатика 1
 
Rešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnostiRešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnosti
 
Nasa skola 2011: Baze podataka - Stefan Nikolic -Silvana Ivkovic
Nasa skola 2011: Baze podataka - Stefan Nikolic -Silvana IvkovicNasa skola 2011: Baze podataka - Stefan Nikolic -Silvana Ivkovic
Nasa skola 2011: Baze podataka - Stefan Nikolic -Silvana Ivkovic
 
Domaći rad 1
Domaći rad 1Domaći rad 1
Domaći rad 1
 
Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3
 
Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...
Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...
Software Freedom day Serbia - Owasp - informaciona bezbednost u Srbiji open s...
 
Software Freedom day Serbia - Owasp open source resenja
Software Freedom day Serbia - Owasp open source resenjaSoftware Freedom day Serbia - Owasp open source resenja
Software Freedom day Serbia - Owasp open source resenja
 
Baze podataka
Baze podatakaBaze podataka
Baze podataka
 
Internet tehnologije
Internet tehnologijeInternet tehnologije
Internet tehnologije
 
Klijent Server Sistemi - Ljubomir Lazic
Klijent Server Sistemi - Ljubomir LazicKlijent Server Sistemi - Ljubomir Lazic
Klijent Server Sistemi - Ljubomir Lazic
 
2 racunarske mreze
2 racunarske mreze2 racunarske mreze
2 racunarske mreze
 
Npp 2012 racunarstvo_i_informatika_120118
Npp 2012 racunarstvo_i_informatika_120118Npp 2012 racunarstvo_i_informatika_120118
Npp 2012 racunarstvo_i_informatika_120118
 
Internet.pptx
Internet.pptxInternet.pptx
Internet.pptx
 

Hadoop i sveprisutno računarstvo

  • 1. Универзитет у Београду Факултет организационих наука Лабораторија за електронско пословање Hadoop i sveprisutno računarstvo Darko Marjanović Đorđe Stepanić Miloš Milovanović
  • 2. ELAB • Oblasti izučavanja u Laboratoriji za elektronsko poslovanje: – Elektronsko poslovanje – Internet i mobilne tehnologije – Big Data – Cloud Computing – E-obrazovanje – Sveprisutno računarstvo – Socijalne mreže
  • 3. Big Data • Big Data predstavlja podatake koji su one količine koja prevazilazi mogućnosti uobičajeno korišćenog softvera za skladištenje, obradu i upravljanje podacima. • Big data je sve ono što ne može da stane u Excel.
  • 4. Big Data dimenzije • Volume – velika brzina rasta novih podataka i čuvanje postojećih dovodi do toga da se sada skladište stotine terabajta pa čak i mnogo više. • Variety – raznolikost podataka, više nije dovoljno čuvati samo struktuirane podatke već i slike, podatke sa društvenih mreža, logove, senzorske podatke… • Velocity – brzina kojom pristižu novi podaci je velika i veća je od brzine obrade podataka.
  • 5. Hadoop • Hadoop je open-source software framework Apache fondacije. • Služi za skladištenje i procesiranje velikih količina podataka. • Hadoop je nastao 2005. godine od strane Doug Cutting i Mike Cafarella. • Ime je dobio po slonu igrački Cutting-ovog sina. • Napisan je u Java programskom jeziku.
  • 6. Hadoop komponente • Hadoop Common paket • Hadoop Distributed File System(HDFS) • Hadoop YARN • Hadoop Map Reduce
  • 7. Hadoop Ekosistem • Hadoop je moguće nadograditi brojnim alatima kojima sa poboljšavaju mogućnosti i efikasnost obrade podataka. • Dele se na alate za prenošenje podataka, analizu podataka, upravljanje klasterom… • Neki od alata koji se grade na Hadoop su: – Apache Hive – Apache Pig – Apache Flume – Apache Hue – Apache HCatalog – ……
  • 8. Hadoop – Elab klaster • Master node, Slave1 node, Slave2 node – 27 Cores (CPU) – 60 GB RAM – 1TB +++ • Test klaster na privatnom Cloud-u, realizovan uz pomoć OpenStack softvera. – 32 Cores (CPU) – 64 GB RAM – 2TB +++
  • 9. Hadoop – Za šta se koristi • Prikupljanje i analiza – Moodle podaci – Twitter podaci – Senzorski podaci • Integracija sa drugim servisima – Sharepoint • Edukativne svrhe
  • 10. Projekat Slonče i Malina • Skupljanje i analiza senzorskih podataka iz pametnog okruženja. • Poboljšanje algoritma za upravljačke akcije. • Generisanje izveštaja radi donošenja boljih odluka. • Praćenje u realnom vremenu.
  • 11. Zašto Hadoop • Velika brzina pristizanja novih podataka, upisivanje novih podataka na 2 do 3 sekunde. • Raznolikost podataka, senzorski podaci. • Velika količina podataka, mogućnost za dugotrajno skladištenje.
  • 13. Model u razvoju - Upravljačke akcije
  • 15. Apache Flume • Brz transfer podataka u Hadoop HDFS • Sources – izvor podataka • Channels – kanal prenosa podataka • Sinks - izvor
  • 16. Apache Flume • Koristi se za najčešće za log podatke, serijalizovane podatke, podatke sa društvenih mreža….. • Namenjen je isključivo za transfer podataka, u slučaju obrade podataka prilikom transfera koristi se Apache Storm. • Ne koristi se za struktuirane podatke, za prenos relacione baze u HDFS se koristi Sqoop.
  • 18. Hive - nastanak 2006 12m korisnika <100GB/dan 2007 58m korisnika 1TB/dan 2009 360m korisnika >10TB Facebook MySQL, Java Derby, Scribe Python skripte
  • 19. Hive nastanak • Uvođenje Hadoop-a • Potreba za MapReduce-om • 30PB podataka na klasteru 2011-te • Korisnici – marketing stručnjaci • Nedostaci – napredno poznavanje Java programskog jezika, teško čitljive šeme podataka
  • 20. Šta je Hive? • Hive – data warehousing infrastruktura za Hadoop • HiveQL zasnovan na SQL-u • Jednostavnije pisanje MapReduce programa • Primena: – Analiza log podataka – Obrada teksta – Indeksiranje dokumenata – Statističke analize, Business Intelligence
  • 21. Hive komponente • Shell – interakcija sa korisnikom • Driver – upravljanje Hive engine-om • Compiler • Execution engine – izvršavanje • Meta Store – šema tabela + SerDe
  • 22. Hive vs OLAP • Skaliranje i za više od 10.000 mašina u klasteru • Obrada >1TB podataka • Nema izmene podataka • Male promene na podacima imaju mali značaj
  • 23. Hive tipovi podataka Primitivni Integer -tinyint 1B -smallint 2B -int 4B -bigint 8B Boolean – True/False Float -float -double String Složeni Structs Maps (key-value) Arrays
  • 24. Zašto Hive? • Laka manipulacija podataka • Nestruktuirani podaci prikazani kao tabele • Mogućnosti proširivanja • Sličnost sa SQL-om