Início
Conheça mais
Enviar pesquisa
Carregar
Entrar
Cadastre-se
Anúncio
Check these out next
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Mobin Ranjbar
کلان داده کاربردها و چالش های آن
Hamed Azizi
مقدمه ای بر داده کاوی
data scientist
What is big data and how use that
shohreh deldari
داده های عظیم چگونه دنیا را تغییر خواهند داد
Farzad Khandan
Bi and data mining with Oracle
ghanadbashi
سیستم فایل HDFS
nasser rezaei
داده کاوی
Taha Mokfi
1
de
81
Top clipped slide
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
26 de Mar de 2017
•
0 gostou
5 gostaram
×
Seja o primeiro a gostar disto
mostrar mais
•
2,197 visualizações
visualizações
×
Vistos totais
0
No Slideshare
0
De incorporações
0
Número de incorporações
0
Baixar agora
Baixar para ler offline
Denunciar
Dados e análise
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران www.hadoop.ir
Farafekr Technology
Seguir
Farafekr Technology
Anúncio
Anúncio
Anúncio
Recomendados
بیگ دیتا
Hamed Azizi
4.5K visualizações
•
27 slides
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Mobin Ranjbar
497 visualizações
•
79 slides
تشخیص انجمن در مقیاس کلان داده
Navid Sedighpour
955 visualizações
•
37 slides
Big Data Processing in Cloud Computing Environments
Farzad Nozarian
4.6K visualizações
•
39 slides
داده، dikw ، داده بزرگ و علم داده
fatemeh zatajam
371 visualizações
•
17 slides
Big Data and select suitable tools
Meghdad Hatami
4.1K visualizações
•
43 slides
Mais conteúdo relacionado
Apresentações para você
(20)
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Mobin Ranjbar
•
11.9K visualizações
کلان داده کاربردها و چالش های آن
Hamed Azizi
•
10.9K visualizações
مقدمه ای بر داده کاوی
data scientist
•
2.2K visualizações
What is big data and how use that
shohreh deldari
•
413 visualizações
داده های عظیم چگونه دنیا را تغییر خواهند داد
Farzad Khandan
•
1.9K visualizações
Bi and data mining with Oracle
ghanadbashi
•
221 visualizações
سیستم فایل HDFS
nasser rezaei
•
378 visualizações
داده کاوی
Taha Mokfi
•
4K visualizações
Big data ppt
Behnam Sedaghat Mansouri
•
296 visualizações
Opendata and business - داده های باز و کسب و کار
efazati
•
147 visualizações
(داده های زمینه ای) Contextual data
Hosseinieh Ershad Public Library
•
119 visualizações
دادهکاوی و زبان برنامهنویسی R
جشنوارهٔ روز آزادی نرمافزار تهران
•
854 visualizações
آموزش Sql
aminifar
•
159 visualizações
آموزش Sql
aminifar
•
161 visualizações
Big data
Mohammad Hossein Mohammadi
•
14 visualizações
فناوریهای حوزهی کلان داده - Introduction to Big Data Technologies
Ehsan Asgarian
•
368 visualizações
Data streaming & kafka
mohadesedashti
•
83 visualizações
Big data related to BI
data scientist
•
454 visualizações
BI (Business Intelligence)
poorya davachi
•
740 visualizações
Ibm modeler
Esmaeil Hadavandi
•
667 visualizações
Destaque
(12)
CloudFoundry-summit-2015-a-look-back
Krishna-Kumar
•
1.5K visualizações
اسلاید وبینار آشنایی با اسپارک - Introduction to Apache Spark in Persian
Farafekr Technology
•
641 visualizações
Edms hamara 2017
danesh hamara
•
240 visualizações
Webmining
Mohammadhiwa Abdekhoda
•
305 visualizações
Neural networks
Meysam Asadi
•
525 visualizações
شبکه های عصبی مصنوعی
dataminers.ir
•
12.6K visualizações
Big Data - 25 Amazing Facts Everyone Should Know
Bernard Marr
•
484.7K visualizações
Introduction to Big Data/Machine Learning
Lars Marius Garshol
•
306.4K visualizações
Big Data Analytics with Hadoop
Philippe Julio
•
441K visualizações
Big data ppt
Nasrin Hussain
•
546.1K visualizações
What is big data?
David Wellman
•
184K visualizações
What is Big Data?
Bernard Marr
•
584.3K visualizações
Anúncio
Similar a 1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
(20)
Rbdmap ceph realease 0.2
Yashar Esmaildokht
•
51 visualizações
rbdmap in ceph
Yashar Esmaildokht
•
312 visualizações
Sql tuning
mehrdadkarami3
•
6 visualizações
معرفي فايروال پايگاه داده
Hamid Torkashvand
•
410 visualizações
how enable ceph dashboard
Yashar Esmaildokht
•
137 visualizações
Pg autoscaling in ceph
Yashar Esmaildokht
•
278 visualizações
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
عباس بني اسدي مقدم
•
510 visualizações
Ordbms پایگاه داده شی گرا-رابطه ای
Ali Moradi
•
2.5K visualizações
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
Seied Mahdi Sadat Hosseini
•
96 visualizações
Data cleansing
SiminZolfi
•
90 visualizações
how upgrade ceph
Yashar Esmaildokht
•
116 visualizações
Microsoft BI Sumery
Reza Bahadorizadeh
•
64 visualizações
Crisp dm.1.0
ali ahmadi
•
188 visualizações
Cisco Exploration 2 In Persion-Muhibullah Aman
Muhibullah Aman
•
599 visualizações
مسیردهی و پروتوکولهای مسیریابی
Muhibullah Aman
•
701 visualizações
Introduction to oracle
Ehsan Hamzei
•
219 visualizações
سیستم عامل جلد اول
iuvmtech
•
69 visualizações
Raid type, Raid تکنولوژی ,
abbas pirnazaraine
•
79 visualizações
an introduction to Web 3.0 - Semantic Web
Hossein sharafi
•
413 visualizações
IranOUG_Oracle_Multitenant
Oracle Freelancer
•
22 visualizações
Último
(17)
BDIReplacement_Edited_V.1.0.pptx
HesamSolhi1
•
1 visão
ارائه ابزار.pptx
aminnezarat
•
3 visualizações
پروژه هوش مصنوعی دیتاهاب .pptx
textxra
•
4 visualizações
Nfs Acl
Yashar Esmaildokht
•
94 visualizações
استفاده از دادههای تجربی برای پشتیبانی از انتخاب فناوری در تصمیمگیری معماری...
S. M. Masoud Sadrnezhaad
•
7 visualizações
Antiparasitic+Agents.ppt
Sourena2
•
1 visão
qrcode.pdf
EfrenPM1
•
3 visualizações
ch1-hri.pdf
RahaHesari
•
1 visão
cachefs
Yashar Esmaildokht
•
31 visualizações
Untitled1.pdf
Innozant Infotech Pvt Ltd
•
14 visualizações
پروژه متن فارسی دیتاهاب.pptx
textxra
•
3 visualizações
پروژه هوش مصنوعی دیتاهاب .pptx
textxra
•
2 visualizações
پروژه هوش مصنوعی دیتاهاب .pptx
textxra
•
5 visualizações
پروژه هوش مصنوعی دیتاهاب 3.pptx
textxra
•
3 visualizações
دیتاهاب.pptx
textxra
•
4 visualizações
آموزش متن کاوی دیتاهاب
textxra
•
5 visualizações
Hrm_kpi vs okr.pptx
noormehr
•
2 visualizações
Anúncio
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
عملی کارگاه هدوپ آموزش } حمایت
با ایران اطلعات فناوری سازمان ایران هدوپ مرجع w . . . .ww hadoop ir www farafekr co hello@had . .oop ir info@farafekr co فرافکر پردازان ایده افزارنرم مهندسی شرکت
ساده زبان به
هدوپ اول فصل
جدید های چالش = جدید
هایحل راه از خارج هاآن پردازش و مدیریت که شودمی گفته هاییداده به .است موجود هایسیستم و هاحل راه توانایی چیست؟ داده کلن
در مجازی فضای۶۰ثانیه چیست؟
داده کلن
ها داده رشد 2013
2015 Unstructured Data 88% 300 Exabytes 80 Exabytes Structured Data 12% DatabaseApplicaton Backup & Archive Backup Storage Optons چیست؟ داده کلن
چیست؟ داده کلن یاد
به شنوند می را واژه این که زمانی افراد از بسیاری زیاد وسعتیا وهمانزیاد حجم.افتندمی کلن هایداده درفقطمو.نیست مطرح حجم ضوع
اصلی فرعی ارزشدرستیتنوعسرعتحجم چیست؟ داده
کلن
کلن هایداده بندی
طبقه چیست؟ داده کلن
سازی ذخیره و
تحلیل هایسیستم
ای غیررابطه و
ایرابطه هایداده پایگاه ) ایرابطه داده پایگاهRelational databasesهایپایگاه از دسته آن به ( .باشند شده ایجاد و طراحی ایرابطه مدل اساس بر که شودمی اطلقا داده تولد سال پدر نام شماره دانشجویی کامل نام 13۶5 جعفر 9۰45879 احمدیان علی 13۶۶ ایمان 89۶5479 بهرامی میلد 13۶8 مهدی 9245789 علوی علیرضا
ای غیررابطه و
ایرابطه هایداده پایگاه مقایسه ) ایغیررابطه داده پایگاه-Non Relational databasesاز ایدسته به ( نحوه و ایرابطه مدل از هاداده سازی ذخیره برای که شودمی گفته هاداده پایگاه .نکند استفاده جدول صورت به هاداده نمایش { _id:147963658, Name:'abc', Contact:{ Phone:'8984577', Email:'test@test.com' }, Address:{ address:'Fanavaran Street', City:'Tehran' } }
معایب و مزایا ایرابطه
داده پایگاه :مزایا 1.ساختار با هایداده پردازش و ذخیره در قبول قابل کارایی . 2.شده اثبات و شده شناخته متنوع ابزارهای وجود . :معایب 1.ضعیف پذیری توسعه . 2.ثابت ایداده ساختار .
معایب و مزایا ایغیررابطه
داده پایگاه :مزایا 1.ساختار بی هایداده سازی ذخیره و پردازش در عالی کارایی . 2.داده پایگاه در مکرر تغییر تحمل توانایی . 3.ابری و شده توزیع هایسیستم در کارایی بهترین . :معایب 1.رشد حال در همچنان موردنیاز ابزارهای و اندازی،نصب راه . 2.خاص مسائل در پایین دهی پاسخ زمان .
است؟ بهتر مدل
کدام !کدام هیچ
کنیم؟ استفاده ای
رابطه ای داده های پایگاه از زمانی چه 1.دارید جدول به نیاز . 2.هستند روشن و ساده شما های داده . 3.است مقداری تک جداول های فیلد . 4.دارد یکپارچه و یکتا ساختاری شما های داده .
کنیم؟ استفاده ای
غیررابطه ای داده های پایگاه از زمانی چه 1.رسد می بزرگی مقیاس به ثانیه از کسری در شما های داده . 2.است پراکنده و ساختار بدون شما های داده . 3به تبدیل ای داده فیلد هر است ممکن لحظه هر .2،3بیشتر یا و .شود 4.است شده تشکیل مقادیر از ای آرایه از ای داده فیلد هر . 5.هستید ها داده تداوم و پایداری نگران . ۶.هستید سرور شدن دسترس از خارج نگران . 7از میخواهید و است شده ذخیره ابری بستر در شما های داده . .کنید استفاده شده توزیع های دیتابیس
کنیم؟ استفاده ای
رابطه ای داده های پایگاه از زمانی چه 1.دارید جدول به نیاز . 2.هستند روشن و ساده شما های داده . 3.است مقداری تک جداول های فیلد . 4.دارد یکپارچه و یکتا ساختاری شما های داده .
A C P )پذیری دسترسAvailability:( هم
همواره را هاداده بتواند کلینت هر .بنویسد هم و بخواند )پذیری بخش تحملPartition Tolerance:( شبکه فیزیکی شدن تقسیم رغم به سیستم .کند کار خوبی مختلف،به هایقسمت به )ثباتConsistency:( های نسخه به همواره ها کلینت تمامی .باشند داشته دسترسی داده از یکسانی CA CP BigTable HyperTable HBase MongoDB TerraStore Scalaris BerkeleyDB MemcacheDB Redis AP Dynamo Voldemort Tokyo Cabinet KAI Cassandra SimpleDB CouchDB Riak RDBMSs ( , , )MySQLPostgresetc Aster Data Greenplum Vertica کنید انتخاب را مورد دو نظریهCAP
:ای غیررابطه هایداده
پایگاه انواع 1یا کلید-مقدار .-Key Value 2یا سندگرا .-Document Oriented 3یا گرا ستون .-Column Oriented 4یا گراف بر مبتنی .-Graph based 5یا ترکیبی .Multi Model
کلید-مقدار هایداده پایگاه هایجفت
صورت به مقادیر تمامی کلید-مقدار هایداده پایگاه در کلید یک دارای مقدار هر که صورت این به .هستند مقدار و کلید .است
کلید-مقدار هایداده پایگاه
سندگرا هایداده پایگاه یک
عنوان به ما داده سطرهای تمامی سندگرا هایداده پایگاه در ایمجموعه از شده تشکیل اسناد این تمامی و شوندمی شناخته سند .هستند کلید-مقدارها { _id:147963658, Name:'abc', Contact:{ Phone:'8984577', Email:'test@test.com' }, Address:{ address:'Fanavaran Street', City:'Tehran' } }
سندگرا هایداده پایگاه
گرا ستون هایداده
پایگاه ،سطر جای به ،ستون قالب در را محتوایش گرا ستون هایداده پایگاه را خود خاص هایستون داده از سطر هر به توانمی .نمایدمی ذخیره .داد نسبت
گرا ستون هایداده
پایگاه
گراف بر مبتنی
هایداده پایگاه که کندمی پیروی گراف تئوری از گراف بر مبتنی هایداده پایگاه توسط هاآن بین ارتباط و هاگره همان یا داده نقاط براساس هاداده .آیندمی در نمایش به ها یال
گراف بر مبتنی
هایداده پایگاه
ترکیبی هایداده پایگاه هاداده
و شوندنمی خاصی مدل به محدود هاداده پایگاه از نوع این .کرد ذخیره مختلفی انواع به توانمی را
خلصه صورت به
هدوپ هدوپ توانمی را داده تحلیلی هایچهارچوب ترین بزرگ و ترینمهم از یکی .نامید که است هایی کتابخانه و افزارها نرم از ای مجموعه یا ورک فریم یک هدوپ در .میکند فراهم را شده توزیع های داده از عظیمی حجم پردازش کار و ساز واقعHadoopتا شده طراحی که کرد تشبیه عامل سیستم یک به توان می را مدیریت و پردازش مختلف های ماشین روی بر را ها داده از زیادی حجم بتواند از استفاده با توان می و نیست قیمت گران کامپیوترهای نیازمند هدوپ .کند .گیرد قرار استفاده مورد معمول و ارزان کامپیوترهای
خلصه صورت به
هدوپ
دوم فصل نگاشت،کاهش مدل MapReduce
ای داده مدل یا
نگاشت،کاهشMapReduceهای داده پردازش برای نویسی برنامه مدل یک تواند می ،سادگی عین در مدل این .باشد می موازی و شده توزیع صورت به کلن ،مختلف های الگوریتم در ساختار پیچیدگی دلیل به زیرا .باشد پیچیده بسیار .شود می غیرممکن مدل این از استفاده با سازی پیاده توانایی یا نگاشت،کاهشMapReduceهای داده پردازش برای نویسی برنامه مدل یک تواند می ،سادگی عین در مدل این .باشد می موازی و شده توزیع صورت به کلن ،مختلف های الگوریتم در ساختار پیچیدگی دلیل به زیرا .باشد پیچیده بسیار .شود می غیرممکن مدل این از استفاده با سازی پیاده توانایی مدلMRبه را مسئله2اصلی فازMapوReduceاز هرکدام .کند می تقسیم توسط آنها نوع که باشد می خروجی و ورودی کلید-مقدارهای جفت دارای فازها این توابع بایست می نویس برنامه همچنین .گردد می تعیین نویس برنامهMapو Reduce.کند سازی پیاده هم را
نگاه یک در
نگاشت،کاهش مدل
یا نگاشت متدMap توسط
شده تعیین اندازه به را ورودی داده هدوپInput Splitو کندمی تقسیم یا نگاشت متد ،هاقسمت این از هرکدام برایMapنوشته کاربر توسط که ای .کندمی ایجاد را است شده اندازهInput Splitکل کارایی درJobمتعادل مقدار این اگر .دارد زیادی تأثیر ،باشد کم بسیار میزان این اگر اما .یافت خواهد افزایش موازی بار توازن باشد مدیریتTaskکارایی ورودی هایتکه و هاJob.دهدمی کاهش را میزان بهترینInput Split) داده بلوک یک اندازه به128.باشدمی (مگابایت یا تکه هر برای که زیراSplitمتد یکMap.شودمی ایجاد
مفهومDLOداده محلی سازی
بهینه یا متد که کند می تلش هدوپMapپردازشی داده که کند اجرا ماشینی برروی را رفتن هدر به از موضوع این که زیرا .باشد داشته وجود سیستم همان برروی آن مفهوم این به .کند می جلوگیری شبکه ارزش با باند پهنایداده محلی سازی بهینه .شود می گفته متد اجرای هنگام در که صورت این بهMapآن توسط بایست می که هایی داده .است موجود محلی ماشین در گیرد قرار پردازش مورد متد متد در فقط مکانیزم این که کنید توجهMapمتد و دارد وجودReduceبه قادر .نیست اینکار انجام
یا کاهش متدReduce یا
کاهش متد درReduceمتد خروجیMapشود می دریافت ورودی عنوان به متد یک اگر که صورت این بهReduceهمه خروجی باشیم داشتهMapبه ها متد یکReduce.شود می ارسال ماشین یک برروی متد چند اگر اماReduceهر خروجی ،شود اجراMapمتدهای بینReduce شود سازی پیاده نویس برنامه توسط بایست می نیز متد این .شود می کپی و توزیع برروی متد این خروجی نهایت در وHDFS.میگیرد قرار
یا کاهش متدReduce برنامه
یکMapReduceکاهش متد یک با
یا کاهش متدReduce برنامه
یکMapReduceکاهش متد چند با
یا کاهش متدReduce برنامه
یکMapReduceکاهش متد بدون
توابعCombiner های برنامهMapReduceو هستند
محدود کلستر در موجود باند پهنای لحاظ از وظایف بین ها داده تبادل میزان بایست میMapوReduce.رسد حداقل به تابع تا دهد می را امکان این کاربر به هدوپCombinerخروجی بررویMap متد ورودی و شود اجراReduceواقع در .کند پردازش رسیدن از پیش را بار چند تابع این که دهد نمی تضمین هدوپ ولی است سازی بهینه تابع این وظیفه هر خروجی بررویMap.شود می اجرا تابع واقع درCombinerتوابع خروجیMapکاری و کند می پردازش پیش را فاز مشابهReduce.دهد می انجام را
عمل در کاهش
و نگاشت برنامه یک اجرای
جاوا غیر هایزبان
در کاهش ،نگاشت مدل کتابخانه استفاده باHadoop Streamingهای برنامه توان میMapReduce از کتابخانه این .کرد سازی پیاده هدوپ برای جاوا از غیر نویسی برنامه زبان هر با را استاندارد جریان واسطUnixخروجی و ورودی که صورت این به کند می استفاده برنامهMapReduceطریق از بایست می شماStandard Inputیاstdinو Standard Outputیاstdout.شود پردازش و دریافت
جاوا غیر هایزبان
در کاهش ،نگاشت مدل import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print '%st%s' % (word,1) زیر صورت به (کلمات شمارش پایتون)مثال نویسی برنامه زبان در نگاشت متد ساختار :است
جاوا غیر هایزبان
در کاهش ،نگاشت مدل from operator import itemgetter import sys current_word = None current_count = 0 word = None for line in sys.stdin: line = line.strip() word, count = line.split('t', 1) try: count = int(count) except ValueError: continue if current_word == word: current_count += count else: if current_word: print '%st%s' % (current_word, current_count) current_count = count current_word = word if current_word == word: print '%st%s' % (current_word, current_count) زیر صورت به (کلمات شمارش پایتون)مثال نویسی برنامه زبان در کاهش متد ساختار :است
جاوا غیر هایزبان
در کاهش ،نگاشت مدل فایل دو اجرای برای.mapper pyو.reducer py:میکنیم عمل زیر صورت به hadoop jar hadoop-*streaming*.jar -file /home/hduser/mapper.py -mapper /home/hduser/mapper.py -file /home/hduser/reducer.py -reducer /home/hduser/reducer.py -input /user/hduser/myinput/* -output /user/hduser/myoutput
سوم فصل هدوپ شده
توزیع فایل سیستم HDFS
مفهومHDFS با را بزرگ
بسیار های فایل تا است شده طراحی هدوپ شده توزیع فایل سیستم های فایل از منظور .کند اجرا معمولی کامپیوترهای برروی ،جریانی دسترسی الگوی بر بالغ حجمی ،بزرگ1۰۰از منظور و است پتابایت و ترابایت و گیگابایت ،مگابایت ها یک .است بار چند خواندن و بار یک نوشتن الگوی ، ها داده جریانی دسترسی الگوی های تحلیل آن برروی سپس و شود می کپی یا و آوری جمع معمول طور به دیتاست .شود می انجام مشخصی زمانی های بازه در مختلفی .نیست قدیمی و قیمت ارزان کامپیوترهای ،معمولی کامپیوترهای از منظور همچنین .نیست بال اعتماد قابلیت با قیمت گران سرورهای یا و کامپیوترها به نیاز هدوپ دارد وجود بازار که معمولی سرورهای و کامپیوترها برروی تا است شده طراحی هدوپ .کند کار کلی تعریفHDFS
مفهومHDFS ●ها ده حدود
تاخیر)در با دسترسی نیازمند که هایی برنامه : کم تأخیر با دسترسی که باشید داشته دقت .باشد می (ثانیه میلیHDFSعملیاتی توان افزایش برای و بسیاربال سرعت نیازمند که هایی برنامه در آن از توان نمی و است شده طراحی .کرد استفاده هستند تاخیرکم ●هدوپ)به بلک یک از کوچکتر اندازه با فایلی به کوچک فایل یک : کوچک هایفایل فرض پیش صورت۶4خواندن عملیات اینکه دلیل به .شود می گفته (مگابایت نیازمندSeekاست داده های گره از زیادی های بازخوانی وHDFSکارایی .داشت نخواهد مناسبی ●در ها فایل : همزمان نوشتنHDFSبه شود نوشته تواند می نویسنده یک توسط تغییرات آنها در و بازکرد نویسنده چند توسط را فایل یک توان نمی که صورت این .شود پیشتیبانی آینده در است ممکن ویژگی این .کرد ایجاد زمانی چهHDFSنیست؟ مناسبی انتخاب
مفهومHDFS ها بلک است داده
از حداقلی میزان بلک هر واقع در .باشد می بلک اندازه دارای دیسک هر کیلوبایت چند از معمول سیستم فایل های بلک .شود نوشته یا خوانده تواند می که .بنویسد و بخواند را ها فایل تواند می سیستم فایل که شود می تشکیل درHDFSدر بلک اندازه که تفاوت این با دارد وجود بلک مقوله همHDFSبزرگ فرض پیش صورت تر)به128ها فایل ،معمولی سیستم فایل مثل .باشد می (مگابایت درHDFSفایل برعکس .شوند می شکسته ثابت اندازه با مستقل های بلک به در فایل یک که زمانی ،معمولی های سیستمHDFS،باشد کوچکتر بلک یک اندازه از فایل یک مثال طور به .کند نمی اشغال را بلک یک فضای کل1در مگابایتیHDFS بلک یک در که128حجم شود می ذخیره مگابایتی1نه و کند می اشغال را مگابایت 128.مگابایت
مفهومHDFS ها بلک در هافایل
های بلک لیست زیر دستورHDFS:دهدمی نشان را $ hdfs fsck / -files -blocks
ورودی فایل ) داده
گره و نام گرهNameNodeوDataNode(
) داده گره
و نام گرهNameNodeوDataNode(
) داده گره
و نام گرهNameNodeوDataNode(
فرمان خط واسط
با کارHDFS
از خواندن عملیات
بررسیHDFS
در نوشتن عملیات
بررسیHDFS
چهارم فصل بند زمانYARN
بند زمانYARN بند زمانYARNنسخه
در که باشد می هدوپ کلستر منابع مدیریت سیستم2 نویسی برنامه مدل سازی بهینه و توسعه برای هدوپMapReduce.شد ارائه مثل پردازشی موتورهای دیگر از سیستم این همچنینSparkوTezپشتیبانی ...و .کند می ساختارYARN
بند زمانYARN در برنامه
اجرای ساختارYARN
بند زمانYARN ها برنامه
سازیپیاده در هابرنامه سازیپیاده و ساخت در پیچیدگی وجود دلیل بهYARNاز استفاده با ،2 برای نخی تک نویسی برنامه همانند توانمی زیر ابزارYARN:نوشت برنامه ●Apache Slider: مثل آماده شده توزیع های برنامه انتقال برای افزاری نرمHBaseبررویYARN .باشد می دارا را گیری گزارش و مانیتورینگ همچون امکاناتی و باشد می ●Apache Twill: افزارهای نرم سازی پیاده و ساخت فرآیند که است هدوپ برای انتزاعی سطحی برروی شده توزیعYARN.کند می ساده را
بند زمانYARN بندی زمان
اصول بندی زمانFIFO:
بند زمانYARN بندی زمان
اصول بندی زمانCapacity: (فرض )پیش
بند زمانYARN بندی زمان
اصول بندی زمانFair:
<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager. scheduler.fair.FairScheduler</value> </property> بند زمانYARN بندی زمان
اصول تنظیمات در بند زمان نوع انتخاب برای- .yarn site xmlکلید بایست می : نمایید وارد را زیر
پنجم فصل پردازشی موتور Apache
Spark
پردازشی موتورApache Spark اولیه
تعریف برای که باشد می شده توزیع پردازش های پلتفرم از یکی اسپارک آپاچی .است شده طراحی (جریانی بال)داده سرعت با پردازشی عملیات اجرای
پردازشی موتورApache Spark اسپارک
در برنامه اجرای روند
lines = sc.textFile("README.md") lines.count() 127 lines.first() u'#
Apache Spark' پردازشی موتورApache Spark مفهومRDD یکRDDبه شبکه هایماشین برروی که است ایداده اقلم از مجموعه .میگیرد قرار شده توزیع صورت
rdd = sc.textFile("s3://...") words
= rdd.flatMap(lambda x: x.split(" ")) result = words.map(lambda x: (x,1)).reduceByKey(lambda x, y: x + y) result.saveAsTextFile(outputFile) پردازشی موتورApache Spark مفهومRDDها داده بازیابی و ذخیره – پایتون در اسپارک از استفاده با کلمات تعداد شمارش مثال
عمل در اسپارک
آپاچی با کار
ششم فصل داده انباره Hive
داده انبارهHive اولیه تعریف داده
انبارهHiveقابلیت ایجاد برایSQLساختارمند های داده برروی در شده ذخیرهHDFSتر ساده بیان به .آمد بوجودHiveبرای ابزاری دستورات تبدیلSQLعملیات بهMapReduce.باشد می
داده انبارهHive مفهومMetastore منبعMetastoreهای ابرداده
برای سازی ذخیره فضایHive.باشد می Metastoreپیش طور کوچک)به ای رابطه دیتابیس یک خود درون در فرضApache Derby.شود می ذخیره آن در مربوطه های داده که دارد (
با کارHiveعمل در
هفتم فصل نویسی اسکریپت
زبان Pig
نویسی اسکریپت زبانPig اولیه
تعریف نویسی اسکریپت زبانPigانتزاع از سطحیMapReduceبه که است طریق از داده پردازش های چرخه تولید تا دهد می اجازه نویس برنامه MapReduceنام به زبانی از استفاده با راPig Latinطور به .کند تولید برای اسکریپتی توان می مثالJoin.نوشت طریق این از ها داده کردن
نویسی اسکریپت زبانPig از
استفاده با کلمات تعداد شمارش سازیپیاده مثالPig myinput = LOAD '/user/mytext.txt' USING TextLoader AS (line:CHARARRAY); words = FOREACH myinput GENERATE FLATTEN(TOKENIZE(REPLACE(LOWER(TRIM(line)),'[p{Punct},p{Cntrl}]',''))); grpd = GROUP words BY $0; cntd = FOREACH grpd GENERATE $0, COUNT($1); unmix = ORDER cntd BY $1 DESC, $0 ASC; DUMP unmix;
با کارPigعمل در
هدوپ آزمایشگاه
پاسخ و پرسش
بخش
پایان
Anúncio