SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
‫دهنده‬ ‫ارائه‬:‫عسگریان‬ ‫احسان‬
9/16/2016
1
9/16/20162
9/16/20163
From the dawn of civilization until
2003, humankind generated five
exabytes of data. Now we produce
five exabytes every two days…and
the pace is accelerating.
Eric Schmidt,
Executive Chairman, Google
9/16/20164
9/16/20165
9/16/20166
The ‘Datafication’
of our World;
• Activities
• Conversations
• Words
• Voice
• Social Media
• Browser logs
• Photos
• Videos
• Sensors
• Etc.
Volume
Variety
Velocity
Analysing
Big Data:
• Text analytics
• Sentiment analysis
• Face recognition
• Voice analytics
• Movement analytics
• Etc.
Value
9/16/20167
9/16/20168
9/16/2016
10
9/16/201611
9/16/201612
9/16/201613
 Ambari™: A web-based tool for provisioning, managing, and monitoring Apache
Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive,
HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop.
 Hue : a web interface for Hadoop projects, supports many of the more widely used
 components of the Hadoop ecosystem. It features file browsers for HDFS and HBase
and a job browser for MapReduce/YARN.
 ZooKeeper™: is a service for coordination and synchronization of distributed systems.
 Mahout™: A Scalable machine learning and data mining library.
9/16/201615
9/16/201616
9/16/201617
9/16/201618
9/16/201619
9/16/201620
9/16/201621
9/16/2016
22
9/16/201623
9/16/201624
‫های‬‫داده‬ ‫پایگاه‬ ‫مزایای‬NoSql:
o‫اطالعات‬ ‫درج‬ ‫بیشتر‬ ‫سرعت‬
o‫گسترش‬ ‫امکان‬ ‫و‬ ‫پذیر‬ ‫مقیاس‬‫راحت‬‫تر‬
o‫برای‬ ‫شده‬ ‫بهینه‬ ‫و‬ ‫مناسب‬‫مشخص‬ ‫های‬‫قالب‬‫داده‬
(‫کلید‬ ،‫گراف‬-‫مقدار‬)‫غیرساختیافته‬ ‫های‬‫داده‬ ‫و‬
‫نقاط‬‫های‬‫داده‬ ‫پایگاه‬ ‫ضعف‬NoSql:
o‫از‬ ‫آنها‬ ‫پشتیبانی‬ ‫عدم‬‫تمام‬‫ویژگی‬‫های‬ACID
o‫نامناسب‬‫برای‬join‫داده‬
o‫بازیابی‬ ‫سرعت‬(select)‫نرمال‬ ‫های‬‫داده‬(‫ایندکس‬ ‫و‬
‫شده‬)‫قاب‬ ‫بطور‬ ‫ای‬‫رابطه‬ ‫های‬‫داده‬ ‫پایگاه‬ ‫به‬ ‫نسبت‬‫ل‬
‫هست‬ ‫تر‬‫پایین‬ ‫مالحظه‬.
o‫از‬ ‫پشتیبانی‬ ‫عدم‬trigger
9/16/201625
https://en.wikipedia.org/wiki/NoSQL
http://nosql-database.org/
9/16/2016
27
9/16/201628
9/16/201629
9/16/201630
9/16/201631
9/16/201632
9/16/201633
9/16/201638
9/16/201640
9/16/2016
41
9/16/201642
9/16/201644
9/16/201645
9/16/201646
Tehran
MSTT Data
Warehouse
(18M data per
day)
AVL
6M locations a
day
BluetoothS
ensors
1.2M vehicles a
day
SCATS
log files
2M log a day of
1400 approaches
Speed
Cameras
5M vehicles a day
e-Ticket
4M transactions a
day
Traffic Zone
Cameras
300K vehicles a
day
‫الگ‬ ‫داده‬ ‫هزاران‬ ‫روزانه‬ ‫تولید‬
‫شهرسازی‬ ‫سیستم‬‫شهرداری‬
‫روزانه‬ ‫تولید‬‫داده‬ ‫میلیون‬ ‫چند‬
‫مختلف‬ ‫منابع‬ ‫از‬ ‫ترافیکی‬
‫تولید‬‫روزانه‬‫صدها‬‫داد‬ ‫میلیون‬‫ه‬
CDR‫و‬ADSL‫در‬‫مخابرات‬
‫مناسب‬ ‫داده‬ ‫کالن‬ ‫های‬‫تکنولوژی‬ ‫با‬ ‫ها‬‫داده‬ ‫سازی‬‫ذخیره‬:
‫داده‬ ‫کالن‬ ‫زمینه‬ ‫در‬ ‫متخصصین‬ ‫کمبود‬ ‫و‬ ‫داده‬ ‫کالن‬ ‫بستر‬ ‫نگهداری‬ ‫و‬ ‫ایجاد‬ ‫باالی‬ ‫هزینه‬
‫پتا‬ ‫های‬‫داده‬ ‫حجم‬ ‫روی‬ ‫گزارش‬ ‫به‬ ‫نیاز‬-‫بایت‬
‫قبیل‬ ‫از‬ ‫ای‬‫رابطه‬ ‫های‬‫داده‬ ‫پایگاه‬ ‫و‬ ‫داده‬ ‫انباره‬ ‫های‬‫تکنولوژی‬Oracle‫و‬SQL Server‫نیستند‬ ‫جوابگو‬
‫غیرساختیافته‬ ‫های‬‫داده‬ ‫یا‬ ‫ها‬‫داده‬ ‫انواع‬ ‫در‬ ‫تنوع‬(‫متن‬ ‫مانند‬)
‫باشد‬ ‫داشته‬ ‫کاربرد‬ ‫میتواند‬ ‫که‬ ‫موارد‬ ‫برخی‬:
‫های‬‫داده‬‫بانکی‬ ‫های‬‫تراکنش‬
‫مخابرات‬ ‫مشتریان‬ ‫کارکرد‬ ‫های‬‫داده‬(CDR‫و‬ADSL)
‫وب‬ ‫های‬‫داده‬(‫جو‬‫پارسی‬ ‫جستجوی‬ ‫موتور‬)
‫الگ‬ ‫های‬‫داده‬(‫و‬ ‫سرورها‬)...
‫برای‬ ‫مناسب‬ ‫داده‬ ‫کالن‬ ‫های‬‫تکنولوژی‬ ‫با‬ ‫ها‬‫داده‬ ‫پردازش‬:
‫ها‬‫داده‬ ‫ای‬‫دسته‬ ‫تحلیل‬(Batch Processing:)‫و‬ ‫ماشین‬ ‫یادگیری‬...‫زیاد‬ ‫حجم‬ ‫روی‬(‫گیگابایت‬)‫داده‬
‫ها‬‫داده‬ ‫جریان‬ ‫تحلیل‬(Stream Real-time Processing:)‫و‬ ‫رویداد‬ ‫تشخیص‬( ...‫تصمیم‬ ‫که‬ ‫مواردی‬
‫شوند‬‫می‬ ‫ایجاد‬ ‫زیاد‬ ‫سرعت‬ ‫با‬ ‫که‬ ‫های‬‫داده‬ ‫روی‬ ‫ای‬‫لحظه‬)
9/16/201647
48 9/16/2016

Mais conteúdo relacionado

Mais procurados

Big Data and select suitable tools
Big Data and select suitable toolsBig Data and select suitable tools
Big Data and select suitable toolsMeghdad Hatami
 
What is big data and how use that
What is big data and how use thatWhat is big data and how use that
What is big data and how use thatshohreh deldari
 
Big data بزرگ داده ها
Big data بزرگ داده هاBig data بزرگ داده ها
Big data بزرگ داده هاOmid Sohrabi
 
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازIntroduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازMobin Ranjbar
 
داده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم دادهداده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم دادهfatemeh zatajam
 
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهرانFarafekr Technology
 

Mais procurados (6)

Big Data and select suitable tools
Big Data and select suitable toolsBig Data and select suitable tools
Big Data and select suitable tools
 
What is big data and how use that
What is big data and how use thatWhat is big data and how use that
What is big data and how use that
 
Big data بزرگ داده ها
Big data بزرگ داده هاBig data بزرگ داده ها
Big data بزرگ داده ها
 
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازIntroduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
 
داده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم دادهداده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم داده
 
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
 

Destaque

کلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آنکلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آنHamed Azizi
 
Internet of Things Security Challlenges
Internet of Things Security ChalllengesInternet of Things Security Challlenges
Internet of Things Security Challlengesquickheal_co_ir
 
تشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان دادهتشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان دادهNavid Sedighpour
 
A Story of Big Data:Introduction
A Story of Big Data:IntroductionA Story of Big Data:Introduction
A Story of Big Data:IntroductionMobin Ranjbar
 
عصر کلان داده، چرا و چگونه؟
عصر کلان داده، چرا و چگونه؟عصر کلان داده، چرا و چگونه؟
عصر کلان داده، چرا و چگونه؟datastack
 
اینترنت اشیا در 10 دقیقه
اینترنت اشیا در 10 دقیقهاینترنت اشیا در 10 دقیقه
اینترنت اشیا در 10 دقیقهMahmood Neshati (PhD)
 
(3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده
 (3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده
(3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌دادهMohsen Fayyaz
 
مروی بر استارترکیتها و پلتفرمهای اینترنت اشیاء
مروی بر استارترکیتها و پلتفرمهای اینترنت اشیاءمروی بر استارترکیتها و پلتفرمهای اینترنت اشیاء
مروی بر استارترکیتها و پلتفرمهای اینترنت اشیاءstartupIoT
 
راهنمای سریع گذار به وب ۳ از منظر کلان داده
راهنمای سریع گذار به وب ۳ از منظر کلان دادهراهنمای سریع گذار به وب ۳ از منظر کلان داده
راهنمای سریع گذار به وب ۳ از منظر کلان دادهWeb Standards School
 

Destaque (11)

کلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آنکلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آن
 
Internet of Things Security Challlenges
Internet of Things Security ChalllengesInternet of Things Security Challlenges
Internet of Things Security Challlenges
 
تشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان دادهتشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان داده
 
داده های جریانی streaming data
داده های جریانی streaming dataداده های جریانی streaming data
داده های جریانی streaming data
 
A Story of Big Data:Introduction
A Story of Big Data:IntroductionA Story of Big Data:Introduction
A Story of Big Data:Introduction
 
عصر کلان داده، چرا و چگونه؟
عصر کلان داده، چرا و چگونه؟عصر کلان داده، چرا و چگونه؟
عصر کلان داده، چرا و چگونه؟
 
اینترنت اشیا در 10 دقیقه
اینترنت اشیا در 10 دقیقهاینترنت اشیا در 10 دقیقه
اینترنت اشیا در 10 دقیقه
 
(3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده
 (3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده
(3) تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده
 
مروی بر استارترکیتها و پلتفرمهای اینترنت اشیاء
مروی بر استارترکیتها و پلتفرمهای اینترنت اشیاءمروی بر استارترکیتها و پلتفرمهای اینترنت اشیاء
مروی بر استارترکیتها و پلتفرمهای اینترنت اشیاء
 
راهنمای سریع گذار به وب ۳ از منظر کلان داده
راهنمای سریع گذار به وب ۳ از منظر کلان دادهراهنمای سریع گذار به وب ۳ از منظر کلان داده
راهنمای سریع گذار به وب ۳ از منظر کلان داده
 
Streaming data
Streaming data Streaming data
Streaming data
 

فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies

  • 3. 9/16/20163 From the dawn of civilization until 2003, humankind generated five exabytes of data. Now we produce five exabytes every two days…and the pace is accelerating. Eric Schmidt, Executive Chairman, Google
  • 6. 9/16/20166 The ‘Datafication’ of our World; • Activities • Conversations • Words • Voice • Social Media • Browser logs • Photos • Videos • Sensors • Etc. Volume Variety Velocity Analysing Big Data: • Text analytics • Sentiment analysis • Face recognition • Voice analytics • Movement analytics • Etc. Value
  • 12. 9/16/201613  Ambari™: A web-based tool for provisioning, managing, and monitoring Apache Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop.  Hue : a web interface for Hadoop projects, supports many of the more widely used  components of the Hadoop ecosystem. It features file browsers for HDFS and HBase and a job browser for MapReduce/YARN.  ZooKeeper™: is a service for coordination and synchronization of distributed systems.  Mahout™: A Scalable machine learning and data mining library.
  • 22. 9/16/201624 ‫های‬‫داده‬ ‫پایگاه‬ ‫مزایای‬NoSql: o‫اطالعات‬ ‫درج‬ ‫بیشتر‬ ‫سرعت‬ o‫گسترش‬ ‫امکان‬ ‫و‬ ‫پذیر‬ ‫مقیاس‬‫راحت‬‫تر‬ o‫برای‬ ‫شده‬ ‫بهینه‬ ‫و‬ ‫مناسب‬‫مشخص‬ ‫های‬‫قالب‬‫داده‬ (‫کلید‬ ،‫گراف‬-‫مقدار‬)‫غیرساختیافته‬ ‫های‬‫داده‬ ‫و‬ ‫نقاط‬‫های‬‫داده‬ ‫پایگاه‬ ‫ضعف‬NoSql: o‫از‬ ‫آنها‬ ‫پشتیبانی‬ ‫عدم‬‫تمام‬‫ویژگی‬‫های‬ACID o‫نامناسب‬‫برای‬join‫داده‬ o‫بازیابی‬ ‫سرعت‬(select)‫نرمال‬ ‫های‬‫داده‬(‫ایندکس‬ ‫و‬ ‫شده‬)‫قاب‬ ‫بطور‬ ‫ای‬‫رابطه‬ ‫های‬‫داده‬ ‫پایگاه‬ ‫به‬ ‫نسبت‬‫ل‬ ‫هست‬ ‫تر‬‫پایین‬ ‫مالحظه‬. o‫از‬ ‫پشتیبانی‬ ‫عدم‬trigger
  • 37. 9/16/201646 Tehran MSTT Data Warehouse (18M data per day) AVL 6M locations a day BluetoothS ensors 1.2M vehicles a day SCATS log files 2M log a day of 1400 approaches Speed Cameras 5M vehicles a day e-Ticket 4M transactions a day Traffic Zone Cameras 300K vehicles a day ‫الگ‬ ‫داده‬ ‫هزاران‬ ‫روزانه‬ ‫تولید‬ ‫شهرسازی‬ ‫سیستم‬‫شهرداری‬ ‫روزانه‬ ‫تولید‬‫داده‬ ‫میلیون‬ ‫چند‬ ‫مختلف‬ ‫منابع‬ ‫از‬ ‫ترافیکی‬ ‫تولید‬‫روزانه‬‫صدها‬‫داد‬ ‫میلیون‬‫ه‬ CDR‫و‬ADSL‫در‬‫مخابرات‬
  • 38. ‫مناسب‬ ‫داده‬ ‫کالن‬ ‫های‬‫تکنولوژی‬ ‫با‬ ‫ها‬‫داده‬ ‫سازی‬‫ذخیره‬: ‫داده‬ ‫کالن‬ ‫زمینه‬ ‫در‬ ‫متخصصین‬ ‫کمبود‬ ‫و‬ ‫داده‬ ‫کالن‬ ‫بستر‬ ‫نگهداری‬ ‫و‬ ‫ایجاد‬ ‫باالی‬ ‫هزینه‬ ‫پتا‬ ‫های‬‫داده‬ ‫حجم‬ ‫روی‬ ‫گزارش‬ ‫به‬ ‫نیاز‬-‫بایت‬ ‫قبیل‬ ‫از‬ ‫ای‬‫رابطه‬ ‫های‬‫داده‬ ‫پایگاه‬ ‫و‬ ‫داده‬ ‫انباره‬ ‫های‬‫تکنولوژی‬Oracle‫و‬SQL Server‫نیستند‬ ‫جوابگو‬ ‫غیرساختیافته‬ ‫های‬‫داده‬ ‫یا‬ ‫ها‬‫داده‬ ‫انواع‬ ‫در‬ ‫تنوع‬(‫متن‬ ‫مانند‬) ‫باشد‬ ‫داشته‬ ‫کاربرد‬ ‫میتواند‬ ‫که‬ ‫موارد‬ ‫برخی‬: ‫های‬‫داده‬‫بانکی‬ ‫های‬‫تراکنش‬ ‫مخابرات‬ ‫مشتریان‬ ‫کارکرد‬ ‫های‬‫داده‬(CDR‫و‬ADSL) ‫وب‬ ‫های‬‫داده‬(‫جو‬‫پارسی‬ ‫جستجوی‬ ‫موتور‬) ‫الگ‬ ‫های‬‫داده‬(‫و‬ ‫سرورها‬)... ‫برای‬ ‫مناسب‬ ‫داده‬ ‫کالن‬ ‫های‬‫تکنولوژی‬ ‫با‬ ‫ها‬‫داده‬ ‫پردازش‬: ‫ها‬‫داده‬ ‫ای‬‫دسته‬ ‫تحلیل‬(Batch Processing:)‫و‬ ‫ماشین‬ ‫یادگیری‬...‫زیاد‬ ‫حجم‬ ‫روی‬(‫گیگابایت‬)‫داده‬ ‫ها‬‫داده‬ ‫جریان‬ ‫تحلیل‬(Stream Real-time Processing:)‫و‬ ‫رویداد‬ ‫تشخیص‬( ...‫تصمیم‬ ‫که‬ ‫مواردی‬ ‫شوند‬‫می‬ ‫ایجاد‬ ‫زیاد‬ ‫سرعت‬ ‫با‬ ‫که‬ ‫های‬‫داده‬ ‫روی‬ ‫ای‬‫لحظه‬) 9/16/201647