Presentation of Hadoop and IoT for SQL Server UG Belgrade, held in Microsoft Serbia, in June 2014. Model of Hadoop and IoT platform, developed at Laboratorija za elektronsko poslovanje, Faculty of Organizational Sciences - University of Belgrade.
1. Универзитет у Београду
Факултет организационих наука
Лабораторија за електронско пословање
Hadoop i sveprisutno
računarstvo
Darko Marjanović
Đorđe Stepanić
Miloš Milovanović
2. ELAB
• Oblasti izučavanja u Laboratoriji za elektronsko
poslovanje:
– Elektronsko poslovanje
– Internet i mobilne tehnologije
– Big Data
– Cloud Computing
– E-obrazovanje
– Sveprisutno računarstvo
– Socijalne mreže
3. Big Data
• Big Data predstavlja podatake koji su one
količine koja prevazilazi mogućnosti
uobičajeno korišćenog softvera za
skladištenje, obradu i upravljanje podacima.
• Big data je sve ono što ne može da stane u
Excel.
4. Big Data dimenzije
• Volume – velika brzina rasta novih podataka i
čuvanje postojećih dovodi do toga da se sada
skladište stotine terabajta pa čak i mnogo više.
• Variety – raznolikost podataka, više nije
dovoljno čuvati samo struktuirane podatke već
i slike, podatke sa društvenih mreža, logove,
senzorske podatke…
• Velocity – brzina kojom pristižu novi podaci je
velika i veća je od brzine obrade podataka.
5. Hadoop
• Hadoop je open-source software framework
Apache fondacije.
• Služi za skladištenje i procesiranje velikih
količina podataka.
• Hadoop je nastao 2005. godine od strane
Doug Cutting i Mike Cafarella.
• Ime je dobio po slonu igrački Cutting-ovog
sina.
• Napisan je u Java programskom jeziku.
7. Hadoop Ekosistem
• Hadoop je moguće nadograditi brojnim alatima
kojima sa poboljšavaju mogućnosti i efikasnost
obrade podataka.
• Dele se na alate za prenošenje podataka, analizu
podataka, upravljanje klasterom…
• Neki od alata koji se grade na Hadoop su:
– Apache Hive
– Apache Pig
– Apache Flume
– Apache Hue
– Apache HCatalog
– ……
8. Hadoop – Elab klaster
• Master node, Slave1 node, Slave2 node
– 27 Cores (CPU)
– 60 GB RAM
– 1TB +++
• Test klaster na privatnom Cloud-u, realizovan
uz pomoć OpenStack softvera.
– 32 Cores (CPU)
– 64 GB RAM
– 2TB +++
9. Hadoop – Za šta se koristi
• Prikupljanje i analiza
– Moodle podaci
– Twitter podaci
– Senzorski podaci
• Integracija sa drugim servisima
– Sharepoint
• Edukativne svrhe
10. Projekat Slonče i Malina
• Skupljanje i analiza senzorskih podataka iz
pametnog okruženja.
• Poboljšanje algoritma za upravljačke akcije.
• Generisanje izveštaja radi donošenja boljih
odluka.
• Praćenje u realnom vremenu.
11. Zašto Hadoop
• Velika brzina pristizanja novih podataka,
upisivanje novih podataka na 2 do 3 sekunde.
• Raznolikost podataka, senzorski podaci.
• Velika količina podataka, mogućnost za
dugotrajno skladištenje.
15. Apache Flume
• Brz transfer podataka u Hadoop HDFS
• Sources – izvor podataka
• Channels – kanal prenosa podataka
• Sinks - izvor
16. Apache Flume
• Koristi se za najčešće za log podatke,
serijalizovane podatke, podatke sa društvenih
mreža…..
• Namenjen je isključivo za transfer podataka, u
slučaju obrade podataka prilikom transfera
koristi se Apache Storm.
• Ne koristi se za struktuirane podatke, za
prenos relacione baze u HDFS se koristi Sqoop.
19. Hive nastanak
• Uvođenje Hadoop-a
• Potreba za MapReduce-om
• 30PB podataka na klasteru 2011-te
• Korisnici – marketing stručnjaci
• Nedostaci – napredno poznavanje Java
programskog jezika, teško čitljive šeme
podataka
20. Šta je Hive?
• Hive – data warehousing infrastruktura za
Hadoop
• HiveQL zasnovan na SQL-u
• Jednostavnije pisanje MapReduce programa
• Primena:
– Analiza log podataka
– Obrada teksta
– Indeksiranje dokumenata
– Statističke analize, Business Intelligence
21. Hive komponente
• Shell – interakcija sa korisnikom
• Driver – upravljanje Hive engine-om
• Compiler
• Execution engine – izvršavanje
• Meta Store – šema tabela + SerDe
22. Hive vs OLAP
• Skaliranje i za više od 10.000 mašina u klasteru
• Obrada >1TB podataka
• Nema izmene podataka
• Male promene na podacima imaju mali značaj