SlideShare a Scribd company logo
1 of 40
Data Cleansing
‫دهنده‬ ‫ارائه‬:‫زلفی‬ ‫سیمین‬
‫مربوطه‬ ‫استاد‬:‫دوست‬ ‫عدل‬ ‫حمید‬
‫فن‬ ‫دانشکده‬ ، ‫افزار‬ ‫نرم‬ ‫رشته‬ ، ‫کاردانی‬
2
‫فهرست‬
Data Cleansing(‫ها‬ ‫داده‬ ‫پاکسازی‬)‫چیست‬
‫؟‬
‫مخاطره‬ ‫به‬ ‫را‬ ‫داده‬ ‫کیفیت‬ ‫که‬ ‫مشکالتی‬
‫اندازد‬ ‫می‬!
‫پاکسازی‬ ‫برای‬ ‫مجانی‬ ‫های‬ ‫ابزار‬ ‫معرفی‬
‫آنها‬ ‫آنالیز‬ ‫و‬ ‫تصویرسازی‬ ‫ها‬ ‫داده‬
‫با‬ ‫آشنایی‬OpenRefine‫پیش‬ ‫برای‬ ‫ابزاری‬
‫پاکسازی‬ ‫و‬ ‫پردازش‬
‫ها‬ ‫داده‬
3
Data Cleansing‫ها‬ ‫داده‬ ‫پاکسازی‬
،‫ها‬ ‫داده‬ ‫سازی‬ ‫درآماده‬ ‫مهم‬ ‫مراحل‬ ‫از‬ ‫یکی‬
‫باشد‬ ‫می‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫مرحله‬.‫واقع‬ ‫در‬
‫بودن‬ ‫پایین‬ ‫ها‬ ‫داده‬ ‫شایع‬ ‫مشکالت‬ ‫از‬ ‫یکی‬
‫آنهاست‬ ‫کیفیت‬‫برطرف‬ ‫به‬ ‫که‬ ‫عملیاتی‬ ‫به‬ ،
‫انجامد‬ ‫می‬ ‫ها‬ ‫داده‬ ‫کیفیت‬ ‫مشکل‬ ‫شدن‬
‫شود‬ ‫می‬ ‫گفته‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬.‫ابتدا‬
‫را‬ ‫داده‬ ‫کیفیت‬ ‫که‬ ‫مشکالتی‬ ‫انواع‬ ‫با‬ ‫باید‬
‫سپس‬ ‫و‬ ‫شویم‬ ‫آشنا‬ ‫اندازد‬ ‫می‬ ‫مخاطره‬ ‫به‬
‫را‬ ‫مشکالت‬ ‫این‬ ‫چگونه‬ ‫که‬ ‫بگیریم‬ ‫یاد‬
‫کنیم‬ ‫برطرف‬ ‫را‬ ‫آنها‬ ‫نهایت‬ ‫در‬ ‫و‬ ‫شناسایی‬.
4
‫مخاطره‬ ‫به‬ ‫را‬ ‫داده‬ ‫کیفیت‬ ‫که‬ ‫مشکالتی‬
‫از‬ ‫عبارتند‬ ‫اندازد‬ ‫می‬:
‫نویز‬Noise Values
‫پرت‬ ‫های‬ ‫داده‬Outlier Values
‫رفته‬ ‫دست‬ ‫از‬ ‫مقادیر‬Missing Values
‫تکراری‬ ‫مقادیر‬Duplicate Values
5
‫وجود‬ ‫ها‬ ‫داده‬ ‫در‬ ‫اشکاالت‬ ‫مهمترین‬ ‫از‬ ‫یکی‬
‫پاکسازی‬ ‫مرحله‬ ‫در‬ ‫باید‬ ‫که‬ ‫آنهاست‬ ‫در‬ ‫نویز‬
‫آنها‬ ‫کردن‬ ‫مدیریت‬ ‫جهت‬ ‫حلی‬ ‫راه‬ ‫ها‬ ‫داده‬
‫کنیم‬ ‫پیدا‬.
‫داده‬ ‫مقادیر‬ ‫در‬ ‫تخریب‬ ‫و‬ ‫تغییر‬ ‫هرگونه‬ ‫به‬
‫طور‬ ‫به‬ ‫و‬ ‫پذیرد‬ ‫صورت‬ ‫عمدی‬ ‫غیر‬ ‫صورت‬ ‫به‬ ‫که‬
‫داده‬ ‫اصل‬ ‫به‬ ‫شود‬ ‫باعث‬ ‫که‬ ‫چیزی‬ ‫هر‬ ‫به‬ ‫کلی‬
‫در‬ ، ‫میشود‬ ‫گفته‬ ‫نویز‬ ‫باشیم‬ ‫نداشته‬ ‫دسترسی‬
‫با‬ ‫که‬ ‫است‬ ‫کوچک‬ ‫خیلی‬ ‫مقدار‬ ‫یک‬ ‫نویز‬ ‫واقع‬
‫شود‬ ‫می‬ ‫تفریق‬ ‫یا‬ ‫جمع‬ ‫اصلی‬ ‫های‬ ‫داده‬‫به‬ ،
‫مقادیر‬ ‫در‬ ‫اعشاری‬ ‫مقدار‬ ‫داشتن‬ ‫مثال‬ ‫عنوان‬
‫می‬ ‫حساب‬ ‫به‬ ‫نویز‬ ‫یک‬ ‫افراد‬ ‫سن‬ ‫به‬ ‫مربوط‬
‫آید‬.
6
‫پرت‬ ‫های‬ ‫داده‬:
‫ها‬ ‫داده‬ ‫در‬ ‫موجود‬ ‫اشکال‬ ‫از‬ ‫مورد‬ ‫دومین‬
‫محدوده‬ ‫از‬ ‫خارج‬ ‫یا‬ ‫پرت‬ ‫های‬ ‫داده‬ ‫وجود‬
‫مرحله‬ ‫در‬ ‫باید‬ ‫که‬ ‫آنهاست‬ ‫در‬ ‫نرمال‬
‫مدیریت‬ ‫جهت‬ ‫حلی‬ ‫راه‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬
‫کنیم‬ ‫پیدا‬ ‫آنها‬ ‫کردن‬.
‫جدول‬ ‫یک‬ ‫در‬ ‫پرت‬ ‫های‬ ‫داده‬‫هایی‬ ‫رکورد‬
‫نسبت‬ ‫آنها‬ ‫های‬ ‫ویژگی‬ ‫مقادیر‬ ‫که‬ ‫هستند‬
، ‫است‬ ‫متفاوت‬ ‫بسیار‬ ‫ها‬ ‫رکورد‬ ‫سایر‬ ‫به‬
‫چند‬ ‫فضای‬ ‫در‬ ‫که‬ ‫شود‬‫می‬ ‫سبب‬ ‫تفاوت‬ ‫این‬
‫نمونه‬ ‫گرفتن‬ ‫قرار‬ ‫محل‬ ، ‫ها‬ ‫ویژگی‬ ‫بعدی‬
‫بسیار‬ ‫ها‬ ‫رکورد‬ ‫سایر‬ ‫به‬ ‫نسبت‬ ‫پرت‬ ‫های‬
‫یافتن‬ ‫امکان‬ ‫نتیجه‬ ‫در‬ ‫و‬ ‫باشد‬ ‫متفاوت‬
7
•‫سن‬ ‫ویژگی‬ ‫مورد‬ ‫در‬ ‫مثال‬ ‫عنوان‬ ‫به‬
‫مانند‬ ‫مقادیر‬ ‫داشتن‬150‫یا‬
200‫می‬ ‫محسوب‬ ‫پرت‬ ‫داده‬ ‫عنوان‬ ‫به‬
‫راهکاری‬ ‫بایستی‬ ‫نویز‬ ‫همانند‬ ، ‫شود‬
‫پیدا‬ ‫پرت‬ ‫های‬ ‫داده‬ ‫مدیریت‬ ‫جهت‬
‫با‬ ‫توان‬ ‫می‬ ‫آماری‬ ‫نظر‬ ‫از‬ ، ‫کنیم‬
‫داده‬ ‫ای‬ ‫نمودارجعبه‬ ‫از‬ ‫استفاده‬
‫با‬ ‫که‬ ‫کرد‬ ‫مشخص‬ ‫را‬ ‫پرت‬ ‫های‬
‫کار‬ ‫این‬ ‫پایتون‬ ‫زبان‬ ‫از‬ ‫استفاده‬
‫داد‬ ‫انجام‬ ‫توان‬ ‫رامی‬.
8
‫رفته‬ ‫دست‬ ‫از‬ ‫مقادیر‬:
‫داده‬ ‫در‬ ‫موجود‬ ‫اشکال‬ ‫از‬ ‫مورد‬ ‫سومین‬
‫آنهاست‬ ‫در‬ ‫تکراری‬ ‫های‬ ‫داده‬ ‫وجود‬ ‫ها‬
‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫مرحله‬ ‫در‬ ‫باید‬ ‫که‬
‫پیدا‬ ‫ها‬ ‫داده‬ ‫این‬ ‫حذف‬ ‫جهت‬ ‫حلی‬ ‫راه‬
‫کنیم‬.
‫نمونه‬ ‫به‬ ‫مربوط‬ ‫اطالعات‬ ‫که‬ ‫زمانی‬
‫کنیم‬ ‫می‬ ‫بررسی‬ ‫را‬ ‫ها‬ ‫ازداده‬ ‫هایی‬
‫مقدار‬ ‫ها‬ ‫رکورد‬ ‫از‬ ‫برخی‬ ‫در‬ ‫است‬ ‫ممکن‬
ً‫مثال‬ ، ‫باشد‬ ‫خالی‬ ‫ها‬ ‫ویژگی‬ ‫از‬ ‫بعضی‬
، ‫کشور‬ ‫به‬ ‫مربوط‬ ‫اطالعات‬ ‫که‬ ‫جدولی‬ ‫در‬
‫شده‬ ‫ذخیره‬ ‫آن‬ ‫در‬ ‫حقوق‬ ‫میزان‬ ‫و‬ ‫سن‬
9
‫در‬ ‫ها‬ ‫ویژگی‬ ‫این‬ ‫مقدار‬ ‫بودن‬ ‫خالی‬ ‫که‬ ‫آنجایی‬ ‫از‬
‫می‬ ‫مشکل‬ ‫دچار‬ ‫را‬ ‫ما‬ ‫ها‬ ‫الگوریتم‬ ‫سازی‬ ‫پیاده‬ ‫حین‬
، ‫کنیم‬ ‫پیدا‬ ‫مسئله‬ ‫این‬ ‫حل‬ ‫برای‬ ‫راهکاری‬ ‫باید‬ ‫کند‬
‫توزیع‬ ‫و‬ ‫مسئله‬ ‫نوع‬ ‫به‬ ‫توجه‬ ‫با‬‫ویژگی‬ ‫بودن‬ ‫خالی‬
‫است‬ ‫استفاده‬ ‫قابل‬ ‫مختلفی‬ ‫راهکارهای‬ ، ‫ها‬.ً‫مثال‬
‫یک‬ ‫پرسنل‬ ‫سوابق‬ ‫به‬ ‫مربوط‬ ‫اطالعات‬ ‫در‬ ‫است‬ ‫ممکن‬
، ‫سازمانی‬ ‫خارج‬ ‫کار‬ ‫سابقه‬ ‫به‬ ‫مربوط‬ ‫ستون‬ ‫سازمان‬
‫بهتر‬ ‫حالت‬ ‫این‬ ‫در‬ ‫باشد‬ ‫خالی‬ ‫ها‬ ‫رکورد‬ ‫اکثر‬ ‫برای‬
‫نظر‬ ‫صرف‬ ‫سازمانی‬ ‫خارج‬ ‫کار‬ ‫سابقه‬ ‫ویژگی‬ ‫از‬ ‫که‬ ‫است‬
‫ویژگی‬ ‫این‬ ‫از‬ ‫ها‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫در‬ ‫و‬ ‫کنیم‬
‫نکنیم‬ ‫استفاده‬.
‫خیلی‬ ‫ویژگی‬ ‫بودن‬ ‫خالی‬ ‫آن‬ ‫در‬ ‫که‬ ‫دیگری‬ ‫حالت‬
‫توان‬‫می‬ ً‫مثال‬ ‫دارد‬ ‫دیگری‬ ‫راهکارهای‬ ، ‫نیست‬ ‫گسترده‬
‫های‬ ‫رکورد‬ ‫مقادیر‬ ‫میانگین‬ ‫خالی‬ ‫مقدار‬ ‫جای‬ ‫به‬
‫مقدار‬ ‫یک‬ ‫از‬ ‫اینکه‬ ‫یا‬ ‫و‬ ‫کرد‬ ‫جایگزین‬ ‫را‬ ‫دیگر‬
‫نحوه‬ ‫کرد‬ ‫استفاده‬ ‫خالی‬ ‫مقادیر‬ ‫کردن‬ ‫پر‬ ‫برای‬ ‫ثابت‬
‫امکان‬ ‫پایتون‬ ‫زبان‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫کار‬ ‫این‬ ‫انجام‬
‫است‬ ‫پذیر‬.
10
‫تکراری‬ ‫مقادیر‬:
‫قسمت‬ ‫این‬ ‫در‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫در‬ ‫که‬ ‫حالتی‬ ‫آخرین‬
‫است‬ ‫تکراری‬ ‫مقادیر‬ ‫مدیریت‬ ‫پردازیم‬ ‫می‬ ‫آن‬ ‫به‬
‫به‬ ‫است‬ ‫مشخص‬ ‫نامشان‬ ‫از‬ ‫که‬ ‫طور‬ ‫همان‬ ‫مقادیر‬ ‫،این‬
، ‫اند‬‫شده‬ ‫تکرار‬ ً‫عینا‬ ‫که‬ ‫شود‬ ‫می‬ ‫گفته‬ ‫هایی‬ ‫رکورد‬
‫رکورد‬ ‫یک‬ ‫تکراری‬ ‫مقادیر‬ ‫بین‬ ‫از‬ ‫باید‬ ‫بنابراین‬
‫کنیم‬ ‫انتخاب‬ ‫را‬.
11
‫پاکسازی‬ ‫مرحله‬ ‫فوق‬ ‫مراحل‬ ‫انجام‬ ‫با‬
‫شویم‬ ‫می‬ ‫آماده‬ ‫و‬ ‫شود‬ ‫می‬ ‫کامل‬ ‫داده‬
‫کم‬ ‫کم‬ ‫و‬ ‫شده‬ ‫بعدی‬ ‫مراحل‬ ‫وارد‬ ‫تا‬
‫های‬ ‫الگوریتم‬ ‫به‬ ‫ورود‬ ‫جهت‬ ‫را‬ ‫داده‬
‫نحوه‬ ‫کنیم‬ ‫آماده‬ ‫ماشین‬ ‫یادگیری‬
‫به‬ ‫که‬ ‫را‬ ‫مراحلی‬ ‫از‬ ‫یک‬ ‫هر‬ ‫انجام‬
‫با‬ ‫انجام‬ ‫امکان‬ ‫شده‬ ‫اشاره‬ ‫آنها‬
‫دارند‬ ‫پایتون‬ ‫زبان‬.
12
13
‫پاکسازی‬ ‫برای‬ ‫مجانی‬ ‫های‬ ‫ابزار‬ ‫معرفی‬
‫ها‬ ‫داده‬
‫آنها‬ ‫آنالیز‬ ‫و‬ ‫تصویرسازی‬
DataWrangler:‫فضای‬ ‫بر‬ ‫مبتنی‬ ‫سرویسی‬
‫دانشگاه‬ ‫سازی‬ ‫تصویر‬ ‫گروه‬ ‫توسط‬ ‫که‬ ‫وب‬
‫پاک‬ ‫برای‬ ‫و‬ ‫است‬ ‫شده‬ ‫طراحی‬ ‫استنفورد‬
‫استفاده‬ ‫اطالعات‬ ‫دوباره‬ ‫آرایش‬ ‫و‬ ‫سازی‬
‫میشود‬.
Google Refine:‫با‬ ‫کار‬ ‫برای‬ ‫ابزاری‬
‫همزمان‬ ‫طور‬ ‫به‬ ‫عددی‬ ‫های‬ ‫داده‬ ‫و‬ ‫متن‬.
14‫و‬ ‫آماری‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫های‬ ‫ابزار‬
‫اطالعات‬ ‫سازی‬ ‫تصویر‬
•The R Project for Statistical Computing
•Google Fusion Tables
•Tableau Public
•VIDI
‫اب‬‫دان‬ ‫نیازمند‬ ‫که‬ ‫ای‬ ‫حرفه‬ ‫های‬ ‫زار‬
‫هستند‬ ‫زدن‬ ‫کد‬:
•Exhibit
•Google Chart Tools
15
OpenRefine
16
‫ترین‬ ‫گیر‬ ‫وقت‬ ‫از‬ ‫یکی‬ ‫میدانید‬ ‫که‬ ‫همانطور‬
‫ساخت‬ ‫و‬ ‫داده‬ ‫پردازش‬ ‫عملیات‬ ‫در‬ ‫کارها‬
‫پاکسازی‬ ،‫آنها‬ ‫روی‬ ‫ماشین‬ ‫یادگیری‬ ‫مدلهای‬
‫هاست‬ ‫داده‬ ‫پردازش‬ ‫پیش‬ ‫و‬.‫به‬ ‫آموزش‬ ‫این‬
‫افزار‬ ‫نرم‬ ‫معرفی‬OpenRefine‫با‬ ً‫قبال‬ ‫که‬
‫نام‬Google Refine‫شناخته‬‫عنوان‬ ‫به‬ ،‫میشد‬
‫پیش‬ ‫و‬ ‫پاکسازی‬ ‫باز‬ ‫متن‬ ‫ابزارهای‬ ‫از‬ ‫یکی‬
‫پردازد‬ ‫می‬ ‫ها‬ ‫داده‬ ‫پردازش‬.
‫افزارهای‬ ‫نرم‬ ‫امروزه‬ ‫منظور‬ ‫این‬ ‫برای‬
‫هم‬ ‫بازی‬ ‫متن‬ ‫و‬ ‫رایگان‬ ً‫گاها‬ ‫و‬ ‫زیاد‬ ‫بسیار‬
‫به‬ ‫توان‬ ‫می‬ ‫آنها‬ ‫بین‬ ‫از‬ ‫که‬ ‫دارند‬ ‫وجود‬
Talend Data Preparation‫و‬Trifacta‫کرد‬ ‫اشاره‬
‫در‬ ‫محدودیت‬ ‫عدم‬ ‫و‬ ‫بودن‬ ‫حجم‬ ‫کم‬ ،‫سادگی‬ ‫اما‬
،‫مرورگر‬ ‫بر‬ ‫مبتنی‬ ‫اجرای‬ ‫و‬ ‫رکوردها‬ ‫تعداد‬
17
‫اندازی‬ ‫راه‬ ‫و‬ ‫نصب‬OpenRefine
‫رسمی‬ ‫سایت‬ ‫از‬OpenRefine،‫آن‬ ‫نسخه‬ ‫آخرین‬
‫را‬‫خارج‬ ‫زیپ‬ ‫حالت‬ ‫از‬ ‫و‬ ‫کرده‬ ‫بارگذاری‬
‫کنید‬.‫روی‬ ‫بر‬ ‫کلیک‬ ‫با‬openrefine.exe‫نرم‬
‫با‬ ‫مرورگر‬ ‫پنجره‬ ‫و‬ ‫شده‬ ‫اجرا‬ ‫افزار‬
‫آدرس‬http://127.0.0.1:3333‫شد‬ ‫خواهد‬ ‫باز‬.
18
‫نیاز‬ ‫مورد‬ ‫های‬ ‫داده‬ ‫تهیه‬
‫ویکی‬ ‫های‬ ‫داده‬ ‫بررسی‬ ‫با‬ ‫خواهیم‬ ‫می‬ ،‫آموزش‬ ‫این‬ ‫در‬
‫دانشجو‬ ‫تعداد‬ ‫بین‬ ‫ارتباط‬،‫جهان‬ ‫های‬ ‫دانشگاه‬ ‫پدیای‬
‫بررسی‬ ‫آنها‬ ‫در‬ ‫را‬ ‫مردمی‬ ‫های‬ ‫کمک‬ ‫جذب‬ ‫میزان‬ ‫و‬
‫دهیم‬ ‫نمایش‬ ‫گرافیکی‬ ‫صورت‬ ‫به‬ ‫را‬ ‫نتابج‬ ‫و‬ ‫کنیم‬.
‫این‬ ‫از‬ ‫را‬ ‫ها‬ ‫داده‬‫آدرس‬‫بارگیری‬ ،(‫دانلود‬)
‫کنید‬.‫با‬ ‫فایلی‬ ،‫زیپ‬ ‫فایل‬ ‫این‬ ‫درون‬
‫نام‬universityData.csv‫دارد‬ ‫وجود‬.‫زیپ‬ ‫حالت‬ ‫از‬ ‫آنرا‬
‫باشد‬ ‫آماده‬ ،‫بعد‬ ‫مراحل‬ ‫برای‬ ‫تا‬ ‫کنید‬ ‫خارج‬( .‫این‬
‫است؟‬ ‫آمده‬ ‫دست‬ ‫به‬ ‫کجا‬ ‫از‬ ‫ها‬ ‫داده‬)
‫ایرادات‬ ،‫ها‬ ‫دانشگاه‬ ‫از‬ ‫شده‬ ‫استخراج‬ ‫های‬ ‫داده‬
‫این‬ ‫انتهای‬ ‫در‬ ‫که‬ ‫دارند‬ ‫رفعی‬ ‫به‬ ‫نیاز‬ ‫و‬ ‫کوچک‬
‫داده‬ ‫بین‬ ‫روابط‬ ،‫کرده‬ ‫برطرف‬ ‫را‬ ‫آنها‬ ‫تمام‬ ،‫آموزش‬
‫جانمایی‬ ‫برای‬ ‫نقشه‬ ‫از‬ ‫و‬ ‫داده‬ ‫نمایش‬ ‫را‬ ‫ها‬
‫کرد‬ ‫خواهیم‬ ‫استفاده‬ ‫ها‬ ‫دانشگاه‬.
19
‫رفع‬ ‫باید‬ ‫که‬ ‫ایراداتی‬ ‫از‬ ‫برخی‬
‫است‬ ‫زیر‬ ‫قرار‬ ‫از‬ ‫شوند‬:
‫های‬ ‫داده‬ ‫ناسازگاری‬ ‫و‬ ‫امالیی‬ ‫ایرادات‬
‫مانند‬ ‫همسان‬USA,U.S.A,US,United States‫که‬
‫شوند‬ ‫تبدیل‬ ‫مقدار‬ ‫یک‬ ‫به‬ ‫باید‬ ‫همه‬.
ً‫مثال‬ ‫متنی‬ ‫صورت‬ ‫به‬ ‫عددی‬ ‫های‬ ‫داده‬ ‫نمایش‬
۱۲۳Milion‫به‬ ‫باید‬۱۲۳٫۰۰۰٫۰۰۰‫تبدیل‬
‫شود‬.
‫تاریخ‬ ‫و‬ ‫زمان‬ ‫های‬ ‫داده‬ ‫اصالح‬ ‫و‬ ‫استخراج‬
.‫حذف‬ ‫تاریخها‬ ‫از‬ ‫زمان‬ ‫و‬ ‫ساعت‬ ً‫مثال‬
‫شود‬.
‫تکراری‬ ‫سطرهای‬ ‫حذف‬
20
‫پروژه‬ ‫ساخت‬ ‫و‬ ‫ها‬ ‫داده‬ ‫بارگذاری‬
‫آدرس‬ ‫از‬Create Project->Get Data From -> This Computer‫گزینه‬
Choose File‫کنید‬ ‫انتخاب‬ ‫را‬.‫اید‬ ‫کرده‬ ‫دانلود‬ ‫قبل‬ ‫مرحله‬ ‫در‬ ‫که‬ ‫فایلی‬ ‫آدرس‬‫در‬ ‫را‬
‫گزینه‬ ‫و‬ ‫کنید‬ ‫وارد‬ ‫بخش‬ ‫این‬Next‫بزنید‬ ‫را‬( .‫زیر‬ ‫شکل‬)
21
‫شده‬ ‫خوانده‬ ‫اشکال‬ ‫بدون‬ ‫باید‬ ‫ها‬ ‫داده‬
‫بارگذاری‬ ‫آخر‬ ‫گام‬ ،‫بعد‬ ‫صفحه‬ ‫در‬ ‫و‬
‫شود‬ ‫داده‬ ‫نمایش‬ ‫ها‬ ‫داده‬:
‫سطرهایی‬ ‫تعداد‬ ،‫فایل‬ ‫نوع‬ ‫مانند‬ ‫تنظیماتی‬
‫نام‬ ،‫شوند‬ ‫جاگذاشته‬ ‫باید‬ ‫فایل‬ ‫اول‬ ‫از‬ ‫که‬
‫آن‬ ‫مانند‬ ‫و‬ ‫پروژه‬.
‫گزینه‬ ‫که‬ ‫نرود‬ ‫یادتان‬Parse cell text into
numbers,dates, etc‫تا‬ ‫که‬ ‫بزنید‬ ‫تیک‬ ً‫حتما‬ ‫را‬
‫امکان‬ ‫حد‬OpenRefine‫نوع‬ ،‫ها‬ ‫داده‬ ‫روی‬ ‫از‬
‫بزند‬ ‫حدس‬ ‫را‬ ‫آنها‬.‫دکمه‬ ‫زدن‬ ‫با‬Create Projet
‫و‬ ‫رسید‬ ‫خواهد‬ ‫اتمام‬ ‫به‬ ‫مرحله‬ ‫این‬‫اکنون‬
‫هستید‬ ‫ها‬ ‫داده‬ ‫اولیه‬ ‫پردازش‬ ‫آماده‬.‫این‬
22
23
‫کشورها‬ ‫نام‬ ‫سازی‬ ‫یکسان‬
‫شده‬ ‫بارگیری‬ ‫ها‬ ‫داده‬ ‫که‬ ‫اکنون‬
‫به‬ ‫سرسری‬ ‫نگاه‬ ‫یک‬ ‫توانید‬ ‫می‬ ،‫اند‬
‫کار‬ ‫کلیت‬ ‫با‬ ‫تا‬ ‫بیندازید‬ ‫ها‬ ‫داده‬
‫شوید‬ ‫آشنا‬.‫به‬ ،‫کار‬ ‫اولین‬ ‫برای‬
‫ستون‬Country‫کشورهاست‬ ‫نام‬ ‫حاوی‬ ‫که‬
‫بیندازید‬ ‫نگاه‬ ‫یک‬.‫می‬ ‫که‬ ‫همانطور‬
‫دونام‬ ‫با‬ ‫آمریکا‬ ‫کشور‬ ‫بینید‬United
States‫و‬USA‫که‬ ‫است‬ ‫شده‬ ‫ذخیره‬
‫شود‬ ‫اصالح‬ ‫باید‬.‫است‬ ‫ممکن‬ ‫امر‬ ‫این‬
24
‫نام‬ ‫به‬ ‫داریم‬ ‫ای‬ ‫اینکار،گزینه‬ ‫برای‬
Cluster & Edit‫را‬ ‫ها‬ ‫داده‬ ‫مقادیر‬ ‫که‬
‫که‬ ‫هایی‬ ‫الگوریتم‬ ‫اساس‬ ‫بر‬
‫کاربر‬ ‫توسط‬ ‫هم‬ ‫آنها‬ ‫پارامترهای‬
‫و‬ ‫کرده‬ ‫بررسی‬ ،‫است‬ ‫تغییر‬ ‫قابل‬
‫هستند‬ ‫شبیه‬ ‫بهم‬ ‫تاحدودی‬ ‫که‬ ‫آنهایی‬
‫توانیم‬ ‫می‬ ‫و‬ ‫کند‬ ‫می‬ ‫اعالم‬ ‫ما‬ ‫به‬ ‫را‬
‫سازی‬ ‫یکسان‬ ، ‫کرده‬ ‫ویرایش‬ ‫را‬ ‫آنها‬
‫دهیم‬ ‫انجام‬ ‫را‬ ‫الزم‬.‫ستون‬ ‫روی‬
Country‫منوی‬ ‫از‬ ‫و‬ ‫کنید‬ ‫کلیک‬Edit
Cells‫و‬ ‫کرده‬ ‫پیدا‬ ‫را‬ ‫گزینه‬ ‫این‬
25
‫گروه‬ ‫سه‬ ‫بینید‬ ‫می‬ ‫زیر‬ ‫در‬ ‫که‬ ‫همانطور‬
‫آنها‬ ‫کشور‬ ‫که‬ ‫هایی‬ ‫داده‬ ‫از‬ ‫مختلف‬
‫توسط‬ ،‫دارند‬ ‫متفاوتی‬ ‫امالی‬ ‫اما‬ ‫آمریکاست‬
‫است‬ ‫شده‬ ‫شناسایی‬ ‫افزار‬ ‫نرم‬ ‫این‬.‫مقدار‬
‫را‬ ‫اینها‬ ‫همه‬United States، ‫بگذارید‬
‫تیک‬Merge‫گزینه‬ ‫و‬ ‫زده‬ ‫را‬ ‫ادغام‬ ‫یا‬Merge
Selected & Re-Cluster‫کنید‬ ‫انتخاب‬ ‫را‬.‫اکنون‬
‫هنوز‬ ‫اما‬ ‫شدند‬ ‫سازی‬ ‫یکسان‬ ‫ها‬ ‫داده‬ ‫این‬
‫آمریکا‬ ‫کشور‬ ‫های‬ ‫داده‬ ‫در‬ ‫دیگر‬ ‫مشکل‬ ‫یک‬
‫دارد‬ ‫وجود‬(۶۱۵‫مقدار‬ ‫حاوی‬ ‫سطر‬United
States of America‫هستند‬)!‫و‬‫کشورها‬ ‫سایر‬
‫دارند‬ ‫اصالح‬ ‫به‬ ‫نیاز‬ ‫هم‬(Rossija‫و‬Russia
‫شوند‬ ‫یکسان‬ ‫باید‬)‫وارد‬ ‫وقتی‬ ‫کافیست‬ ‫که‬
26
27
‫دانشجویان‬ ‫تعداد‬ ‫تمیزکاری‬
‫کمی‬ ‫به‬ ‫نیاز‬ ، ‫دانشجویان‬ ‫تعداد‬ ‫ستون‬
‫کنار‬ ،‫سطرها‬ ‫بعضی‬ ‫در‬ ‫چون‬ ‫دارد‬ ‫اصالح‬
‫غیر‬ ‫و‬ ‫ای‬ ‫رشته‬ ‫مقدار‬ ‫آن‬ ‫عددی‬ ‫مقدار‬
‫باید‬ ‫که‬ ‫است‬ ‫گرفته‬ ‫قرار‬ ‫هم‬ ‫عددی‬
‫شود‬ ‫تمیزکاری‬.‫چه‬ ‫که‬ ‫این‬ ‫یافتن‬ ‫برای‬
‫از‬ ،‫شوند‬ ‫اصالح‬ ‫باید‬ ‫سطرهایی‬Numerical
Facets‫کنیم‬ ‫می‬ ‫استفاده‬( .Facet‫به‬
‫است‬ ‫شکل‬ ‫و‬ ‫منظر‬ ،‫وجه‬ ‫معنای‬.)‫روی‬
‫ستون‬numStudents، ‫کرده‬ ‫کلیک‬Facet‫و‬
‫سپس‬Numerical Facet‫کنید‬ ‫انتخاب‬ ‫را‬.
(‫زیر‬ ‫شکل‬ ‫مطابق‬)
28
29
‫گزینه‬ ‫انتخاب‬ ‫از‬ ‫بعد‬ ‫که‬ ‫کنید‬ ‫دقت‬Numerical
Facets‫تیک‬ ‫فقط‬ ، ‫چپ‬ ‫سمت‬ ‫منوی‬ ‫از‬Non Numeric
‫ستون‬ ‫در‬ ‫عددی‬ ‫غیر‬ ‫های‬ ‫داده‬ ‫فقط‬ ‫که‬ ‫بزنید‬ ‫را‬
numStudents‫شود‬ ‫داده‬ ‫نمایش‬.
30
‫غیر‬ ‫مقادیر‬ ‫با‬ ‫سطرهایی‬ ‫اینکار،فقط‬ ‫با‬
‫ترتیب‬ ‫به‬ ‫که‬ ‫شوند‬ ‫می‬ ‫داده‬ ‫نمایش‬ ‫عددی‬
‫کنیم‬ ‫می‬ ‫آنها‬ ‫اصالح‬ ‫به‬ ‫شروع‬.‫مرحله‬ ‫در‬
‫مقادیر‬ ،‫اول‬~‫یا‬+‫و‬–‫ها‬ ‫داده‬ ‫این‬ ‫از‬ ‫را‬
‫کنیم‬ ‫می‬ ‫حذف‬.‫ستون‬ ‫روی‬numStudents‫کلیک‬
‫گزینه‬ ، ‫کرده‬Edit Cells‫گزینه‬ ‫بعد‬ ‫و‬
Transform…‫کنیم‬ ‫می‬ ‫انتخاب‬ ‫را‬.
31
‫گزینه‬ ‫انتخاب‬ ‫با‬Transform‫خوا‬ ‫ظاهر‬ ‫زیر‬ ‫صفحه‬
32
‫کد‬ ‫به‬ ‫دست‬ ‫کمی‬ ‫باید‬ ‫مرحله‬ ‫این‬ ‫در‬
‫از‬ ‫جزئی‬ ‫که‬ ‫توابعی‬ ‫کمک‬ ‫به‬ ‫و‬ ‫شوید‬
General Refine Expression Language‫زبان‬ ‫یا‬
‫توصیف‬ ‫عمومی‬OpenRefine‫این‬ ، ‫هستند‬
‫کنید‬ ‫اصالح‬ ‫را‬ ‫مقادیر‬.‫این‬ ‫شروع‬ ‫برای‬
‫کنید‬ ‫وارد‬ ‫را‬ ‫مقدار‬:
33
‫تمام‬ ،‫شده‬ ‫انتخاب‬ ‫ستون‬ ‫مقادیر‬ ‫درون‬ ‫که‬
+‫میکند‬ ‫جایگزین‬ ‫خالی‬ ‫رشته‬ ‫با‬ ‫را‬ ‫ها‬
(‫کند‬ ‫می‬ ‫حذف‬ ‫را‬ ‫آنها‬ ‫عبارتی‬ ‫به‬. )‫می‬
‫و‬ ‫ای‬ ‫زنجیره‬ ‫صورت‬ ‫به‬ ‫را‬ ‫عمل‬ ‫این‬ ‫توانید‬
‫نشوید‬ ‫مجبور‬ ‫تا‬ ‫دهید‬ ‫انجام‬ ‫دستور‬ ‫یک‬ ‫در‬
‫از‬ ‫را‬ ‫مسیر‬ ‫این‬ ‫ساده‬ ‫جایگزینی‬ ‫هر‬ ‫برای‬
‫کنید‬ ‫طی‬ ‫اول‬:
34
‫به‬ ‫کار‬ ‫ادامه‬ ‫از‬ ‫قبل‬‫اصالح‬ ‫برای‬ ‫نیاز‬ ‫مورد‬ ‫توابع‬ ‫لیست‬
‫ها‬ ‫رشته‬‫بیندازید‬ ‫نگاه‬ ‫یک‬ ً‫حتما‬.‫توابع‬ ‫این‬
‫ها‬ ‫داده‬ ‫روی‬ ‫را‬ ‫زیادی‬ ‫بسیار‬ ‫مانور‬ ‫قدرت‬ ،
‫دهند‬ ‫می‬ ‫شما‬ ‫به‬.‫های‬ ‫داده‬ ‫از‬ ‫خیلی‬ ً‫مثال‬
‫هایی‬ ‫رشته‬ ‫حاوی‬ ،‫اینترنت‬ ‫از‬ ‫شده‬ ‫استخراج‬
‫هستند‬ ‫این‬ ‫به‬ ‫شبیه‬:Lumi%C3%A8re University
Lyon 2‫شکل‬ ‫به‬ ‫و‬ ‫اصالح‬ ‫راحتی‬ ‫به‬ ‫تابع‬ ‫با‬ ‫که‬
‫مناسب‬Lumière University Lyon 2”)“)‫خواهند‬ ‫در‬
‫آمد‬.
35
‫تبدیال‬ ‫از‬ ،‫شده‬ ‫اصالح‬ ‫های‬ ‫داده‬ ‫حذف‬ ‫برای‬ ،‫تمیزکاری‬ ‫هر‬ ‫انجام‬ ‫از‬ ‫بعد‬‫ت‬
‫برسید‬ ‫مشکالت‬ ‫سایر‬ ‫به‬ ‫بتوانید‬ ‫تا‬ ‫کنید‬ ‫استفاده‬ ‫باید‬ ‫مناسبی‬.‫و‬ ‫مثال‬ ‫این‬ ‫در‬
‫و‬ ‫هستند‬ ‫متن‬ ‫قالب‬ ‫در‬ ‫هنوز‬ ،‫اند‬ ‫شده‬ ‫اصالح‬ ‫که‬ ‫هایی‬ ‫داده‬ ،‫مرحله‬ ‫این‬ ‫در‬
‫شوند‬ ‫تبدیل‬ ‫عدد‬ ‫به‬ ‫باید‬.‫هستند‬ ‫موجود‬ ‫هم‬ ‫عدد‬ ‫به‬ ‫متن‬ ‫تبدیل‬ ‫توابع‬ ‫چند‬ ‫هر‬
value.toNumber))‫روی‬ ‫بر‬ ‫کلیک‬ ‫با‬ ‫که‬ ‫است‬ ‫این‬ ‫تر‬ ‫راحت‬ ‫اما‬
numStudents‫گزینه‬Edit Cells،‫گزینه‬Common Transforms،
‫گزینه‬To number‫فیلتر‬ ‫از‬ ‫شما‬ ‫عددی‬ ‫های‬ ‫داده‬ ‫تا‬ ‫کنید‬ ‫انتخاب‬ ‫را‬
Non-Numeric Facet‫را‬ ‫مشکالت‬ ‫سایر‬ ‫بتوانید‬ ‫و‬ ‫شوند‬ ‫حذف‬ ‫شما‬
‫کنید‬ ‫بررسی‬.
36
‫به‬ ‫نیاز‬ ً‫احتماال‬ ‫شما‬ ،‫اصالحات‬ ‫بقیه‬ ‫برای‬
‫توابع‬ ‫از‬ ‫استفاده‬Regex‫که‬ ‫داشت‬ ‫خواهید‬
‫را‬ ‫اعداد‬ ، ‫ای‬ ‫رشته‬ ‫های‬ ‫داده‬ ‫بین‬ ‫در‬
‫جایگزین‬ ،‫رشته‬ ‫کل‬ ‫با‬ ‫را‬ ‫آنها‬ ‫و‬ ‫یافته‬
‫کند‬.‫تا‬ ‫توابع‬ ‫این‬ ‫با‬ ‫آموزش‬ ‫ادامه‬ ‫در‬
‫ادامه‬ ‫برای‬ ‫اما‬ ‫شد‬ ‫خواهیم‬ ‫آشنا‬ ‫حدودی‬
‫داده‬ ‫که‬ ‫سطرهایی‬ ‫تمام‬ ‫خواهیم‬ ‫می‬ ،‫کار‬
‫خالی‬ ‫نیز‬ ‫و‬ ‫غیرعددی‬ ‫های‬(Blank)‫برای‬
‫شوند‬ ‫حذف‬ ،‫دارند‬ ‫خود‬ ‫دانشجویان‬ ‫تعداد‬.
‫گزینه‬،‫چپ‬ ‫سمت‬ ‫از‬ ‫ابتدا‬ ‫بنابراین‬Blank‫را‬
‫بزنید‬ ‫تیک‬ ‫هم‬.
37
‫نام‬ ‫که‬ ‫اول‬ ‫ستون‬ ‫روی‬ ،‫شده‬ ‫فیلتر‬ ‫های‬ ‫داده‬ ‫تمام‬ ‫حذف‬ ‫برای‬ ‫حال‬ALL
‫و‬ ‫کنید‬ ‫کلیک‬،‫دارد‬All -> Edit rows -> Remove all matching rows‫را‬
‫بزنید‬( .‫زیر‬ ‫شکل‬ ‫مطابق‬)
38
‫شده‬ ‫حذف‬ ‫های‬ ‫داده‬ ‫تعداد‬ ،‫کار‬ ‫ازاین‬ ‫بعد‬
‫سطری‬ ‫هیچ‬ ‫و‬ ‫شد‬ ‫خواهد‬ ‫داده‬ ‫نمایش‬ ‫شما‬ ‫به‬
‫دید‬ ‫نخواهید‬ ‫هم‬.‫زبانه‬ ‫یا‬ ‫تب‬ ‫از‬Facet/Filter
،‫گزینه‬Remove All‫تمام‬ ‫تا‬ ‫بزنید‬ ‫را‬
‫اصلی‬ ‫های‬ ‫داده‬ ً‫مجددا‬ ‫و‬ ‫شده‬ ‫حذف‬ ‫فیلترها‬
‫شوند‬ ‫داده‬ ‫نمایش‬ ‫شما‬ ‫به‬.
39
WHAT WHY WHERE WHEN WHO HOW
Any Question ???
THANKS FOR WATCH !!!

More Related Content

Similar to Data cleansing

معرفي فايروال پايگاه داده
معرفي فايروال پايگاه دادهمعرفي فايروال پايگاه داده
معرفي فايروال پايگاه داده
Hamid Torkashvand
 
امتحان دی ماه وب مقدماتی
امتحان دی ماه وب مقدماتیامتحان دی ماه وب مقدماتی
امتحان دی ماه وب مقدماتی
somayeh daneshparvar
 
Rezome.Ali.Bagheri
Rezome.Ali.BagheriRezome.Ali.Bagheri
Rezome.Ali.Bagheri
Ali Bagheri
 

Similar to Data cleansing (20)

کتاب امنیت
کتاب امنیتکتاب امنیت
کتاب امنیت
 
سی پلاس پلاس به عنوان زبان دومی برای یادگیری شی گرایی
سی پلاس پلاس به عنوان زبان دومی  برای یادگیری شی گراییسی پلاس پلاس به عنوان زبان دومی  برای یادگیری شی گرایی
سی پلاس پلاس به عنوان زبان دومی برای یادگیری شی گرایی
 
Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار
 
Efazati opendata slides
Efazati opendata slidesEfazati opendata slides
Efazati opendata slides
 
Voic maning
Voic maningVoic maning
Voic maning
 
how enable ceph dashboard
how enable  ceph dashboardhow enable  ceph dashboard
how enable ceph dashboard
 
Crisp dm.1.0
Crisp dm.1.0Crisp dm.1.0
Crisp dm.1.0
 
Rbdmap ceph realease 0.2
Rbdmap ceph realease 0.2Rbdmap ceph realease 0.2
Rbdmap ceph realease 0.2
 
معرفي فايروال پايگاه داده
معرفي فايروال پايگاه دادهمعرفي فايروال پايگاه داده
معرفي فايروال پايگاه داده
 
Sql tuning
Sql tuningSql tuning
Sql tuning
 
Oracle Data Integrator (persian)
Oracle Data Integrator (persian)Oracle Data Integrator (persian)
Oracle Data Integrator (persian)
 
سیستم عامل جلد اول
سیستم عامل جلد اولسیستم عامل جلد اول
سیستم عامل جلد اول
 
امتحان دی ماه وب مقدماتی
امتحان دی ماه وب مقدماتیامتحان دی ماه وب مقدماتی
امتحان دی ماه وب مقدماتی
 
نمونه سوال سیستم عامل نظری ج1 -الهام جهانپور
نمونه سوال سیستم عامل  نظری ج1 -الهام جهانپورنمونه سوال سیستم عامل  نظری ج1 -الهام جهانپور
نمونه سوال سیستم عامل نظری ج1 -الهام جهانپور
 
Instructions for Big data analysis and modelling
Instructions for Big data analysis and modellingInstructions for Big data analysis and modelling
Instructions for Big data analysis and modelling
 
Software methodologies, Chapter 29, Kaizen
Software methodologies, Chapter 29, KaizenSoftware methodologies, Chapter 29, Kaizen
Software methodologies, Chapter 29, Kaizen
 
Design Patterns چیست و به چه دردی می خورد؟ (persian)
Design Patterns  چیست و به چه دردی می خورد؟ (persian)Design Patterns  چیست و به چه دردی می خورد؟ (persian)
Design Patterns چیست و به چه دردی می خورد؟ (persian)
 
Aliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docxAliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docx
 
Rezome.Ali.Bagheri
Rezome.Ali.BagheriRezome.Ali.Bagheri
Rezome.Ali.Bagheri
 
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
 

Data cleansing

  • 1. Data Cleansing ‫دهنده‬ ‫ارائه‬:‫زلفی‬ ‫سیمین‬ ‫مربوطه‬ ‫استاد‬:‫دوست‬ ‫عدل‬ ‫حمید‬ ‫فن‬ ‫دانشکده‬ ، ‫افزار‬ ‫نرم‬ ‫رشته‬ ، ‫کاردانی‬
  • 2. 2 ‫فهرست‬ Data Cleansing(‫ها‬ ‫داده‬ ‫پاکسازی‬)‫چیست‬ ‫؟‬ ‫مخاطره‬ ‫به‬ ‫را‬ ‫داده‬ ‫کیفیت‬ ‫که‬ ‫مشکالتی‬ ‫اندازد‬ ‫می‬! ‫پاکسازی‬ ‫برای‬ ‫مجانی‬ ‫های‬ ‫ابزار‬ ‫معرفی‬ ‫آنها‬ ‫آنالیز‬ ‫و‬ ‫تصویرسازی‬ ‫ها‬ ‫داده‬ ‫با‬ ‫آشنایی‬OpenRefine‫پیش‬ ‫برای‬ ‫ابزاری‬ ‫پاکسازی‬ ‫و‬ ‫پردازش‬ ‫ها‬ ‫داده‬
  • 3. 3 Data Cleansing‫ها‬ ‫داده‬ ‫پاکسازی‬ ،‫ها‬ ‫داده‬ ‫سازی‬ ‫درآماده‬ ‫مهم‬ ‫مراحل‬ ‫از‬ ‫یکی‬ ‫باشد‬ ‫می‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫مرحله‬.‫واقع‬ ‫در‬ ‫بودن‬ ‫پایین‬ ‫ها‬ ‫داده‬ ‫شایع‬ ‫مشکالت‬ ‫از‬ ‫یکی‬ ‫آنهاست‬ ‫کیفیت‬‫برطرف‬ ‫به‬ ‫که‬ ‫عملیاتی‬ ‫به‬ ، ‫انجامد‬ ‫می‬ ‫ها‬ ‫داده‬ ‫کیفیت‬ ‫مشکل‬ ‫شدن‬ ‫شود‬ ‫می‬ ‫گفته‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬.‫ابتدا‬ ‫را‬ ‫داده‬ ‫کیفیت‬ ‫که‬ ‫مشکالتی‬ ‫انواع‬ ‫با‬ ‫باید‬ ‫سپس‬ ‫و‬ ‫شویم‬ ‫آشنا‬ ‫اندازد‬ ‫می‬ ‫مخاطره‬ ‫به‬ ‫را‬ ‫مشکالت‬ ‫این‬ ‫چگونه‬ ‫که‬ ‫بگیریم‬ ‫یاد‬ ‫کنیم‬ ‫برطرف‬ ‫را‬ ‫آنها‬ ‫نهایت‬ ‫در‬ ‫و‬ ‫شناسایی‬.
  • 4. 4 ‫مخاطره‬ ‫به‬ ‫را‬ ‫داده‬ ‫کیفیت‬ ‫که‬ ‫مشکالتی‬ ‫از‬ ‫عبارتند‬ ‫اندازد‬ ‫می‬: ‫نویز‬Noise Values ‫پرت‬ ‫های‬ ‫داده‬Outlier Values ‫رفته‬ ‫دست‬ ‫از‬ ‫مقادیر‬Missing Values ‫تکراری‬ ‫مقادیر‬Duplicate Values
  • 5. 5 ‫وجود‬ ‫ها‬ ‫داده‬ ‫در‬ ‫اشکاالت‬ ‫مهمترین‬ ‫از‬ ‫یکی‬ ‫پاکسازی‬ ‫مرحله‬ ‫در‬ ‫باید‬ ‫که‬ ‫آنهاست‬ ‫در‬ ‫نویز‬ ‫آنها‬ ‫کردن‬ ‫مدیریت‬ ‫جهت‬ ‫حلی‬ ‫راه‬ ‫ها‬ ‫داده‬ ‫کنیم‬ ‫پیدا‬. ‫داده‬ ‫مقادیر‬ ‫در‬ ‫تخریب‬ ‫و‬ ‫تغییر‬ ‫هرگونه‬ ‫به‬ ‫طور‬ ‫به‬ ‫و‬ ‫پذیرد‬ ‫صورت‬ ‫عمدی‬ ‫غیر‬ ‫صورت‬ ‫به‬ ‫که‬ ‫داده‬ ‫اصل‬ ‫به‬ ‫شود‬ ‫باعث‬ ‫که‬ ‫چیزی‬ ‫هر‬ ‫به‬ ‫کلی‬ ‫در‬ ، ‫میشود‬ ‫گفته‬ ‫نویز‬ ‫باشیم‬ ‫نداشته‬ ‫دسترسی‬ ‫با‬ ‫که‬ ‫است‬ ‫کوچک‬ ‫خیلی‬ ‫مقدار‬ ‫یک‬ ‫نویز‬ ‫واقع‬ ‫شود‬ ‫می‬ ‫تفریق‬ ‫یا‬ ‫جمع‬ ‫اصلی‬ ‫های‬ ‫داده‬‫به‬ ، ‫مقادیر‬ ‫در‬ ‫اعشاری‬ ‫مقدار‬ ‫داشتن‬ ‫مثال‬ ‫عنوان‬ ‫می‬ ‫حساب‬ ‫به‬ ‫نویز‬ ‫یک‬ ‫افراد‬ ‫سن‬ ‫به‬ ‫مربوط‬ ‫آید‬.
  • 6. 6 ‫پرت‬ ‫های‬ ‫داده‬: ‫ها‬ ‫داده‬ ‫در‬ ‫موجود‬ ‫اشکال‬ ‫از‬ ‫مورد‬ ‫دومین‬ ‫محدوده‬ ‫از‬ ‫خارج‬ ‫یا‬ ‫پرت‬ ‫های‬ ‫داده‬ ‫وجود‬ ‫مرحله‬ ‫در‬ ‫باید‬ ‫که‬ ‫آنهاست‬ ‫در‬ ‫نرمال‬ ‫مدیریت‬ ‫جهت‬ ‫حلی‬ ‫راه‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫کنیم‬ ‫پیدا‬ ‫آنها‬ ‫کردن‬. ‫جدول‬ ‫یک‬ ‫در‬ ‫پرت‬ ‫های‬ ‫داده‬‫هایی‬ ‫رکورد‬ ‫نسبت‬ ‫آنها‬ ‫های‬ ‫ویژگی‬ ‫مقادیر‬ ‫که‬ ‫هستند‬ ، ‫است‬ ‫متفاوت‬ ‫بسیار‬ ‫ها‬ ‫رکورد‬ ‫سایر‬ ‫به‬ ‫چند‬ ‫فضای‬ ‫در‬ ‫که‬ ‫شود‬‫می‬ ‫سبب‬ ‫تفاوت‬ ‫این‬ ‫نمونه‬ ‫گرفتن‬ ‫قرار‬ ‫محل‬ ، ‫ها‬ ‫ویژگی‬ ‫بعدی‬ ‫بسیار‬ ‫ها‬ ‫رکورد‬ ‫سایر‬ ‫به‬ ‫نسبت‬ ‫پرت‬ ‫های‬ ‫یافتن‬ ‫امکان‬ ‫نتیجه‬ ‫در‬ ‫و‬ ‫باشد‬ ‫متفاوت‬
  • 7. 7 •‫سن‬ ‫ویژگی‬ ‫مورد‬ ‫در‬ ‫مثال‬ ‫عنوان‬ ‫به‬ ‫مانند‬ ‫مقادیر‬ ‫داشتن‬150‫یا‬ 200‫می‬ ‫محسوب‬ ‫پرت‬ ‫داده‬ ‫عنوان‬ ‫به‬ ‫راهکاری‬ ‫بایستی‬ ‫نویز‬ ‫همانند‬ ، ‫شود‬ ‫پیدا‬ ‫پرت‬ ‫های‬ ‫داده‬ ‫مدیریت‬ ‫جهت‬ ‫با‬ ‫توان‬ ‫می‬ ‫آماری‬ ‫نظر‬ ‫از‬ ، ‫کنیم‬ ‫داده‬ ‫ای‬ ‫نمودارجعبه‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫که‬ ‫کرد‬ ‫مشخص‬ ‫را‬ ‫پرت‬ ‫های‬ ‫کار‬ ‫این‬ ‫پایتون‬ ‫زبان‬ ‫از‬ ‫استفاده‬ ‫داد‬ ‫انجام‬ ‫توان‬ ‫رامی‬.
  • 8. 8 ‫رفته‬ ‫دست‬ ‫از‬ ‫مقادیر‬: ‫داده‬ ‫در‬ ‫موجود‬ ‫اشکال‬ ‫از‬ ‫مورد‬ ‫سومین‬ ‫آنهاست‬ ‫در‬ ‫تکراری‬ ‫های‬ ‫داده‬ ‫وجود‬ ‫ها‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫مرحله‬ ‫در‬ ‫باید‬ ‫که‬ ‫پیدا‬ ‫ها‬ ‫داده‬ ‫این‬ ‫حذف‬ ‫جهت‬ ‫حلی‬ ‫راه‬ ‫کنیم‬. ‫نمونه‬ ‫به‬ ‫مربوط‬ ‫اطالعات‬ ‫که‬ ‫زمانی‬ ‫کنیم‬ ‫می‬ ‫بررسی‬ ‫را‬ ‫ها‬ ‫ازداده‬ ‫هایی‬ ‫مقدار‬ ‫ها‬ ‫رکورد‬ ‫از‬ ‫برخی‬ ‫در‬ ‫است‬ ‫ممکن‬ ً‫مثال‬ ، ‫باشد‬ ‫خالی‬ ‫ها‬ ‫ویژگی‬ ‫از‬ ‫بعضی‬ ، ‫کشور‬ ‫به‬ ‫مربوط‬ ‫اطالعات‬ ‫که‬ ‫جدولی‬ ‫در‬ ‫شده‬ ‫ذخیره‬ ‫آن‬ ‫در‬ ‫حقوق‬ ‫میزان‬ ‫و‬ ‫سن‬
  • 9. 9 ‫در‬ ‫ها‬ ‫ویژگی‬ ‫این‬ ‫مقدار‬ ‫بودن‬ ‫خالی‬ ‫که‬ ‫آنجایی‬ ‫از‬ ‫می‬ ‫مشکل‬ ‫دچار‬ ‫را‬ ‫ما‬ ‫ها‬ ‫الگوریتم‬ ‫سازی‬ ‫پیاده‬ ‫حین‬ ، ‫کنیم‬ ‫پیدا‬ ‫مسئله‬ ‫این‬ ‫حل‬ ‫برای‬ ‫راهکاری‬ ‫باید‬ ‫کند‬ ‫توزیع‬ ‫و‬ ‫مسئله‬ ‫نوع‬ ‫به‬ ‫توجه‬ ‫با‬‫ویژگی‬ ‫بودن‬ ‫خالی‬ ‫است‬ ‫استفاده‬ ‫قابل‬ ‫مختلفی‬ ‫راهکارهای‬ ، ‫ها‬.ً‫مثال‬ ‫یک‬ ‫پرسنل‬ ‫سوابق‬ ‫به‬ ‫مربوط‬ ‫اطالعات‬ ‫در‬ ‫است‬ ‫ممکن‬ ، ‫سازمانی‬ ‫خارج‬ ‫کار‬ ‫سابقه‬ ‫به‬ ‫مربوط‬ ‫ستون‬ ‫سازمان‬ ‫بهتر‬ ‫حالت‬ ‫این‬ ‫در‬ ‫باشد‬ ‫خالی‬ ‫ها‬ ‫رکورد‬ ‫اکثر‬ ‫برای‬ ‫نظر‬ ‫صرف‬ ‫سازمانی‬ ‫خارج‬ ‫کار‬ ‫سابقه‬ ‫ویژگی‬ ‫از‬ ‫که‬ ‫است‬ ‫ویژگی‬ ‫این‬ ‫از‬ ‫ها‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫در‬ ‫و‬ ‫کنیم‬ ‫نکنیم‬ ‫استفاده‬. ‫خیلی‬ ‫ویژگی‬ ‫بودن‬ ‫خالی‬ ‫آن‬ ‫در‬ ‫که‬ ‫دیگری‬ ‫حالت‬ ‫توان‬‫می‬ ً‫مثال‬ ‫دارد‬ ‫دیگری‬ ‫راهکارهای‬ ، ‫نیست‬ ‫گسترده‬ ‫های‬ ‫رکورد‬ ‫مقادیر‬ ‫میانگین‬ ‫خالی‬ ‫مقدار‬ ‫جای‬ ‫به‬ ‫مقدار‬ ‫یک‬ ‫از‬ ‫اینکه‬ ‫یا‬ ‫و‬ ‫کرد‬ ‫جایگزین‬ ‫را‬ ‫دیگر‬ ‫نحوه‬ ‫کرد‬ ‫استفاده‬ ‫خالی‬ ‫مقادیر‬ ‫کردن‬ ‫پر‬ ‫برای‬ ‫ثابت‬ ‫امکان‬ ‫پایتون‬ ‫زبان‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫کار‬ ‫این‬ ‫انجام‬ ‫است‬ ‫پذیر‬.
  • 10. 10 ‫تکراری‬ ‫مقادیر‬: ‫قسمت‬ ‫این‬ ‫در‬ ‫ها‬ ‫داده‬ ‫پاکسازی‬ ‫در‬ ‫که‬ ‫حالتی‬ ‫آخرین‬ ‫است‬ ‫تکراری‬ ‫مقادیر‬ ‫مدیریت‬ ‫پردازیم‬ ‫می‬ ‫آن‬ ‫به‬ ‫به‬ ‫است‬ ‫مشخص‬ ‫نامشان‬ ‫از‬ ‫که‬ ‫طور‬ ‫همان‬ ‫مقادیر‬ ‫،این‬ ، ‫اند‬‫شده‬ ‫تکرار‬ ً‫عینا‬ ‫که‬ ‫شود‬ ‫می‬ ‫گفته‬ ‫هایی‬ ‫رکورد‬ ‫رکورد‬ ‫یک‬ ‫تکراری‬ ‫مقادیر‬ ‫بین‬ ‫از‬ ‫باید‬ ‫بنابراین‬ ‫کنیم‬ ‫انتخاب‬ ‫را‬.
  • 11. 11 ‫پاکسازی‬ ‫مرحله‬ ‫فوق‬ ‫مراحل‬ ‫انجام‬ ‫با‬ ‫شویم‬ ‫می‬ ‫آماده‬ ‫و‬ ‫شود‬ ‫می‬ ‫کامل‬ ‫داده‬ ‫کم‬ ‫کم‬ ‫و‬ ‫شده‬ ‫بعدی‬ ‫مراحل‬ ‫وارد‬ ‫تا‬ ‫های‬ ‫الگوریتم‬ ‫به‬ ‫ورود‬ ‫جهت‬ ‫را‬ ‫داده‬ ‫نحوه‬ ‫کنیم‬ ‫آماده‬ ‫ماشین‬ ‫یادگیری‬ ‫به‬ ‫که‬ ‫را‬ ‫مراحلی‬ ‫از‬ ‫یک‬ ‫هر‬ ‫انجام‬ ‫با‬ ‫انجام‬ ‫امکان‬ ‫شده‬ ‫اشاره‬ ‫آنها‬ ‫دارند‬ ‫پایتون‬ ‫زبان‬.
  • 12. 12
  • 13. 13 ‫پاکسازی‬ ‫برای‬ ‫مجانی‬ ‫های‬ ‫ابزار‬ ‫معرفی‬ ‫ها‬ ‫داده‬ ‫آنها‬ ‫آنالیز‬ ‫و‬ ‫تصویرسازی‬ DataWrangler:‫فضای‬ ‫بر‬ ‫مبتنی‬ ‫سرویسی‬ ‫دانشگاه‬ ‫سازی‬ ‫تصویر‬ ‫گروه‬ ‫توسط‬ ‫که‬ ‫وب‬ ‫پاک‬ ‫برای‬ ‫و‬ ‫است‬ ‫شده‬ ‫طراحی‬ ‫استنفورد‬ ‫استفاده‬ ‫اطالعات‬ ‫دوباره‬ ‫آرایش‬ ‫و‬ ‫سازی‬ ‫میشود‬. Google Refine:‫با‬ ‫کار‬ ‫برای‬ ‫ابزاری‬ ‫همزمان‬ ‫طور‬ ‫به‬ ‫عددی‬ ‫های‬ ‫داده‬ ‫و‬ ‫متن‬.
  • 14. 14‫و‬ ‫آماری‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫های‬ ‫ابزار‬ ‫اطالعات‬ ‫سازی‬ ‫تصویر‬ •The R Project for Statistical Computing •Google Fusion Tables •Tableau Public •VIDI ‫اب‬‫دان‬ ‫نیازمند‬ ‫که‬ ‫ای‬ ‫حرفه‬ ‫های‬ ‫زار‬ ‫هستند‬ ‫زدن‬ ‫کد‬: •Exhibit •Google Chart Tools
  • 16. 16 ‫ترین‬ ‫گیر‬ ‫وقت‬ ‫از‬ ‫یکی‬ ‫میدانید‬ ‫که‬ ‫همانطور‬ ‫ساخت‬ ‫و‬ ‫داده‬ ‫پردازش‬ ‫عملیات‬ ‫در‬ ‫کارها‬ ‫پاکسازی‬ ،‫آنها‬ ‫روی‬ ‫ماشین‬ ‫یادگیری‬ ‫مدلهای‬ ‫هاست‬ ‫داده‬ ‫پردازش‬ ‫پیش‬ ‫و‬.‫به‬ ‫آموزش‬ ‫این‬ ‫افزار‬ ‫نرم‬ ‫معرفی‬OpenRefine‫با‬ ً‫قبال‬ ‫که‬ ‫نام‬Google Refine‫شناخته‬‫عنوان‬ ‫به‬ ،‫میشد‬ ‫پیش‬ ‫و‬ ‫پاکسازی‬ ‫باز‬ ‫متن‬ ‫ابزارهای‬ ‫از‬ ‫یکی‬ ‫پردازد‬ ‫می‬ ‫ها‬ ‫داده‬ ‫پردازش‬. ‫افزارهای‬ ‫نرم‬ ‫امروزه‬ ‫منظور‬ ‫این‬ ‫برای‬ ‫هم‬ ‫بازی‬ ‫متن‬ ‫و‬ ‫رایگان‬ ً‫گاها‬ ‫و‬ ‫زیاد‬ ‫بسیار‬ ‫به‬ ‫توان‬ ‫می‬ ‫آنها‬ ‫بین‬ ‫از‬ ‫که‬ ‫دارند‬ ‫وجود‬ Talend Data Preparation‫و‬Trifacta‫کرد‬ ‫اشاره‬ ‫در‬ ‫محدودیت‬ ‫عدم‬ ‫و‬ ‫بودن‬ ‫حجم‬ ‫کم‬ ،‫سادگی‬ ‫اما‬ ،‫مرورگر‬ ‫بر‬ ‫مبتنی‬ ‫اجرای‬ ‫و‬ ‫رکوردها‬ ‫تعداد‬
  • 17. 17 ‫اندازی‬ ‫راه‬ ‫و‬ ‫نصب‬OpenRefine ‫رسمی‬ ‫سایت‬ ‫از‬OpenRefine،‫آن‬ ‫نسخه‬ ‫آخرین‬ ‫را‬‫خارج‬ ‫زیپ‬ ‫حالت‬ ‫از‬ ‫و‬ ‫کرده‬ ‫بارگذاری‬ ‫کنید‬.‫روی‬ ‫بر‬ ‫کلیک‬ ‫با‬openrefine.exe‫نرم‬ ‫با‬ ‫مرورگر‬ ‫پنجره‬ ‫و‬ ‫شده‬ ‫اجرا‬ ‫افزار‬ ‫آدرس‬http://127.0.0.1:3333‫شد‬ ‫خواهد‬ ‫باز‬.
  • 18. 18 ‫نیاز‬ ‫مورد‬ ‫های‬ ‫داده‬ ‫تهیه‬ ‫ویکی‬ ‫های‬ ‫داده‬ ‫بررسی‬ ‫با‬ ‫خواهیم‬ ‫می‬ ،‫آموزش‬ ‫این‬ ‫در‬ ‫دانشجو‬ ‫تعداد‬ ‫بین‬ ‫ارتباط‬،‫جهان‬ ‫های‬ ‫دانشگاه‬ ‫پدیای‬ ‫بررسی‬ ‫آنها‬ ‫در‬ ‫را‬ ‫مردمی‬ ‫های‬ ‫کمک‬ ‫جذب‬ ‫میزان‬ ‫و‬ ‫دهیم‬ ‫نمایش‬ ‫گرافیکی‬ ‫صورت‬ ‫به‬ ‫را‬ ‫نتابج‬ ‫و‬ ‫کنیم‬. ‫این‬ ‫از‬ ‫را‬ ‫ها‬ ‫داده‬‫آدرس‬‫بارگیری‬ ،(‫دانلود‬) ‫کنید‬.‫با‬ ‫فایلی‬ ،‫زیپ‬ ‫فایل‬ ‫این‬ ‫درون‬ ‫نام‬universityData.csv‫دارد‬ ‫وجود‬.‫زیپ‬ ‫حالت‬ ‫از‬ ‫آنرا‬ ‫باشد‬ ‫آماده‬ ،‫بعد‬ ‫مراحل‬ ‫برای‬ ‫تا‬ ‫کنید‬ ‫خارج‬( .‫این‬ ‫است؟‬ ‫آمده‬ ‫دست‬ ‫به‬ ‫کجا‬ ‫از‬ ‫ها‬ ‫داده‬) ‫ایرادات‬ ،‫ها‬ ‫دانشگاه‬ ‫از‬ ‫شده‬ ‫استخراج‬ ‫های‬ ‫داده‬ ‫این‬ ‫انتهای‬ ‫در‬ ‫که‬ ‫دارند‬ ‫رفعی‬ ‫به‬ ‫نیاز‬ ‫و‬ ‫کوچک‬ ‫داده‬ ‫بین‬ ‫روابط‬ ،‫کرده‬ ‫برطرف‬ ‫را‬ ‫آنها‬ ‫تمام‬ ،‫آموزش‬ ‫جانمایی‬ ‫برای‬ ‫نقشه‬ ‫از‬ ‫و‬ ‫داده‬ ‫نمایش‬ ‫را‬ ‫ها‬ ‫کرد‬ ‫خواهیم‬ ‫استفاده‬ ‫ها‬ ‫دانشگاه‬.
  • 19. 19 ‫رفع‬ ‫باید‬ ‫که‬ ‫ایراداتی‬ ‫از‬ ‫برخی‬ ‫است‬ ‫زیر‬ ‫قرار‬ ‫از‬ ‫شوند‬: ‫های‬ ‫داده‬ ‫ناسازگاری‬ ‫و‬ ‫امالیی‬ ‫ایرادات‬ ‫مانند‬ ‫همسان‬USA,U.S.A,US,United States‫که‬ ‫شوند‬ ‫تبدیل‬ ‫مقدار‬ ‫یک‬ ‫به‬ ‫باید‬ ‫همه‬. ً‫مثال‬ ‫متنی‬ ‫صورت‬ ‫به‬ ‫عددی‬ ‫های‬ ‫داده‬ ‫نمایش‬ ۱۲۳Milion‫به‬ ‫باید‬۱۲۳٫۰۰۰٫۰۰۰‫تبدیل‬ ‫شود‬. ‫تاریخ‬ ‫و‬ ‫زمان‬ ‫های‬ ‫داده‬ ‫اصالح‬ ‫و‬ ‫استخراج‬ .‫حذف‬ ‫تاریخها‬ ‫از‬ ‫زمان‬ ‫و‬ ‫ساعت‬ ً‫مثال‬ ‫شود‬. ‫تکراری‬ ‫سطرهای‬ ‫حذف‬
  • 20. 20 ‫پروژه‬ ‫ساخت‬ ‫و‬ ‫ها‬ ‫داده‬ ‫بارگذاری‬ ‫آدرس‬ ‫از‬Create Project->Get Data From -> This Computer‫گزینه‬ Choose File‫کنید‬ ‫انتخاب‬ ‫را‬.‫اید‬ ‫کرده‬ ‫دانلود‬ ‫قبل‬ ‫مرحله‬ ‫در‬ ‫که‬ ‫فایلی‬ ‫آدرس‬‫در‬ ‫را‬ ‫گزینه‬ ‫و‬ ‫کنید‬ ‫وارد‬ ‫بخش‬ ‫این‬Next‫بزنید‬ ‫را‬( .‫زیر‬ ‫شکل‬)
  • 21. 21 ‫شده‬ ‫خوانده‬ ‫اشکال‬ ‫بدون‬ ‫باید‬ ‫ها‬ ‫داده‬ ‫بارگذاری‬ ‫آخر‬ ‫گام‬ ،‫بعد‬ ‫صفحه‬ ‫در‬ ‫و‬ ‫شود‬ ‫داده‬ ‫نمایش‬ ‫ها‬ ‫داده‬: ‫سطرهایی‬ ‫تعداد‬ ،‫فایل‬ ‫نوع‬ ‫مانند‬ ‫تنظیماتی‬ ‫نام‬ ،‫شوند‬ ‫جاگذاشته‬ ‫باید‬ ‫فایل‬ ‫اول‬ ‫از‬ ‫که‬ ‫آن‬ ‫مانند‬ ‫و‬ ‫پروژه‬. ‫گزینه‬ ‫که‬ ‫نرود‬ ‫یادتان‬Parse cell text into numbers,dates, etc‫تا‬ ‫که‬ ‫بزنید‬ ‫تیک‬ ً‫حتما‬ ‫را‬ ‫امکان‬ ‫حد‬OpenRefine‫نوع‬ ،‫ها‬ ‫داده‬ ‫روی‬ ‫از‬ ‫بزند‬ ‫حدس‬ ‫را‬ ‫آنها‬.‫دکمه‬ ‫زدن‬ ‫با‬Create Projet ‫و‬ ‫رسید‬ ‫خواهد‬ ‫اتمام‬ ‫به‬ ‫مرحله‬ ‫این‬‫اکنون‬ ‫هستید‬ ‫ها‬ ‫داده‬ ‫اولیه‬ ‫پردازش‬ ‫آماده‬.‫این‬
  • 22. 22
  • 23. 23 ‫کشورها‬ ‫نام‬ ‫سازی‬ ‫یکسان‬ ‫شده‬ ‫بارگیری‬ ‫ها‬ ‫داده‬ ‫که‬ ‫اکنون‬ ‫به‬ ‫سرسری‬ ‫نگاه‬ ‫یک‬ ‫توانید‬ ‫می‬ ،‫اند‬ ‫کار‬ ‫کلیت‬ ‫با‬ ‫تا‬ ‫بیندازید‬ ‫ها‬ ‫داده‬ ‫شوید‬ ‫آشنا‬.‫به‬ ،‫کار‬ ‫اولین‬ ‫برای‬ ‫ستون‬Country‫کشورهاست‬ ‫نام‬ ‫حاوی‬ ‫که‬ ‫بیندازید‬ ‫نگاه‬ ‫یک‬.‫می‬ ‫که‬ ‫همانطور‬ ‫دونام‬ ‫با‬ ‫آمریکا‬ ‫کشور‬ ‫بینید‬United States‫و‬USA‫که‬ ‫است‬ ‫شده‬ ‫ذخیره‬ ‫شود‬ ‫اصالح‬ ‫باید‬.‫است‬ ‫ممکن‬ ‫امر‬ ‫این‬
  • 24. 24 ‫نام‬ ‫به‬ ‫داریم‬ ‫ای‬ ‫اینکار،گزینه‬ ‫برای‬ Cluster & Edit‫را‬ ‫ها‬ ‫داده‬ ‫مقادیر‬ ‫که‬ ‫که‬ ‫هایی‬ ‫الگوریتم‬ ‫اساس‬ ‫بر‬ ‫کاربر‬ ‫توسط‬ ‫هم‬ ‫آنها‬ ‫پارامترهای‬ ‫و‬ ‫کرده‬ ‫بررسی‬ ،‫است‬ ‫تغییر‬ ‫قابل‬ ‫هستند‬ ‫شبیه‬ ‫بهم‬ ‫تاحدودی‬ ‫که‬ ‫آنهایی‬ ‫توانیم‬ ‫می‬ ‫و‬ ‫کند‬ ‫می‬ ‫اعالم‬ ‫ما‬ ‫به‬ ‫را‬ ‫سازی‬ ‫یکسان‬ ، ‫کرده‬ ‫ویرایش‬ ‫را‬ ‫آنها‬ ‫دهیم‬ ‫انجام‬ ‫را‬ ‫الزم‬.‫ستون‬ ‫روی‬ Country‫منوی‬ ‫از‬ ‫و‬ ‫کنید‬ ‫کلیک‬Edit Cells‫و‬ ‫کرده‬ ‫پیدا‬ ‫را‬ ‫گزینه‬ ‫این‬
  • 25. 25 ‫گروه‬ ‫سه‬ ‫بینید‬ ‫می‬ ‫زیر‬ ‫در‬ ‫که‬ ‫همانطور‬ ‫آنها‬ ‫کشور‬ ‫که‬ ‫هایی‬ ‫داده‬ ‫از‬ ‫مختلف‬ ‫توسط‬ ،‫دارند‬ ‫متفاوتی‬ ‫امالی‬ ‫اما‬ ‫آمریکاست‬ ‫است‬ ‫شده‬ ‫شناسایی‬ ‫افزار‬ ‫نرم‬ ‫این‬.‫مقدار‬ ‫را‬ ‫اینها‬ ‫همه‬United States، ‫بگذارید‬ ‫تیک‬Merge‫گزینه‬ ‫و‬ ‫زده‬ ‫را‬ ‫ادغام‬ ‫یا‬Merge Selected & Re-Cluster‫کنید‬ ‫انتخاب‬ ‫را‬.‫اکنون‬ ‫هنوز‬ ‫اما‬ ‫شدند‬ ‫سازی‬ ‫یکسان‬ ‫ها‬ ‫داده‬ ‫این‬ ‫آمریکا‬ ‫کشور‬ ‫های‬ ‫داده‬ ‫در‬ ‫دیگر‬ ‫مشکل‬ ‫یک‬ ‫دارد‬ ‫وجود‬(۶۱۵‫مقدار‬ ‫حاوی‬ ‫سطر‬United States of America‫هستند‬)!‫و‬‫کشورها‬ ‫سایر‬ ‫دارند‬ ‫اصالح‬ ‫به‬ ‫نیاز‬ ‫هم‬(Rossija‫و‬Russia ‫شوند‬ ‫یکسان‬ ‫باید‬)‫وارد‬ ‫وقتی‬ ‫کافیست‬ ‫که‬
  • 26. 26
  • 27. 27 ‫دانشجویان‬ ‫تعداد‬ ‫تمیزکاری‬ ‫کمی‬ ‫به‬ ‫نیاز‬ ، ‫دانشجویان‬ ‫تعداد‬ ‫ستون‬ ‫کنار‬ ،‫سطرها‬ ‫بعضی‬ ‫در‬ ‫چون‬ ‫دارد‬ ‫اصالح‬ ‫غیر‬ ‫و‬ ‫ای‬ ‫رشته‬ ‫مقدار‬ ‫آن‬ ‫عددی‬ ‫مقدار‬ ‫باید‬ ‫که‬ ‫است‬ ‫گرفته‬ ‫قرار‬ ‫هم‬ ‫عددی‬ ‫شود‬ ‫تمیزکاری‬.‫چه‬ ‫که‬ ‫این‬ ‫یافتن‬ ‫برای‬ ‫از‬ ،‫شوند‬ ‫اصالح‬ ‫باید‬ ‫سطرهایی‬Numerical Facets‫کنیم‬ ‫می‬ ‫استفاده‬( .Facet‫به‬ ‫است‬ ‫شکل‬ ‫و‬ ‫منظر‬ ،‫وجه‬ ‫معنای‬.)‫روی‬ ‫ستون‬numStudents، ‫کرده‬ ‫کلیک‬Facet‫و‬ ‫سپس‬Numerical Facet‫کنید‬ ‫انتخاب‬ ‫را‬. (‫زیر‬ ‫شکل‬ ‫مطابق‬)
  • 28. 28
  • 29. 29 ‫گزینه‬ ‫انتخاب‬ ‫از‬ ‫بعد‬ ‫که‬ ‫کنید‬ ‫دقت‬Numerical Facets‫تیک‬ ‫فقط‬ ، ‫چپ‬ ‫سمت‬ ‫منوی‬ ‫از‬Non Numeric ‫ستون‬ ‫در‬ ‫عددی‬ ‫غیر‬ ‫های‬ ‫داده‬ ‫فقط‬ ‫که‬ ‫بزنید‬ ‫را‬ numStudents‫شود‬ ‫داده‬ ‫نمایش‬.
  • 30. 30 ‫غیر‬ ‫مقادیر‬ ‫با‬ ‫سطرهایی‬ ‫اینکار،فقط‬ ‫با‬ ‫ترتیب‬ ‫به‬ ‫که‬ ‫شوند‬ ‫می‬ ‫داده‬ ‫نمایش‬ ‫عددی‬ ‫کنیم‬ ‫می‬ ‫آنها‬ ‫اصالح‬ ‫به‬ ‫شروع‬.‫مرحله‬ ‫در‬ ‫مقادیر‬ ،‫اول‬~‫یا‬+‫و‬–‫ها‬ ‫داده‬ ‫این‬ ‫از‬ ‫را‬ ‫کنیم‬ ‫می‬ ‫حذف‬.‫ستون‬ ‫روی‬numStudents‫کلیک‬ ‫گزینه‬ ، ‫کرده‬Edit Cells‫گزینه‬ ‫بعد‬ ‫و‬ Transform…‫کنیم‬ ‫می‬ ‫انتخاب‬ ‫را‬.
  • 32. 32 ‫کد‬ ‫به‬ ‫دست‬ ‫کمی‬ ‫باید‬ ‫مرحله‬ ‫این‬ ‫در‬ ‫از‬ ‫جزئی‬ ‫که‬ ‫توابعی‬ ‫کمک‬ ‫به‬ ‫و‬ ‫شوید‬ General Refine Expression Language‫زبان‬ ‫یا‬ ‫توصیف‬ ‫عمومی‬OpenRefine‫این‬ ، ‫هستند‬ ‫کنید‬ ‫اصالح‬ ‫را‬ ‫مقادیر‬.‫این‬ ‫شروع‬ ‫برای‬ ‫کنید‬ ‫وارد‬ ‫را‬ ‫مقدار‬:
  • 33. 33 ‫تمام‬ ،‫شده‬ ‫انتخاب‬ ‫ستون‬ ‫مقادیر‬ ‫درون‬ ‫که‬ +‫میکند‬ ‫جایگزین‬ ‫خالی‬ ‫رشته‬ ‫با‬ ‫را‬ ‫ها‬ (‫کند‬ ‫می‬ ‫حذف‬ ‫را‬ ‫آنها‬ ‫عبارتی‬ ‫به‬. )‫می‬ ‫و‬ ‫ای‬ ‫زنجیره‬ ‫صورت‬ ‫به‬ ‫را‬ ‫عمل‬ ‫این‬ ‫توانید‬ ‫نشوید‬ ‫مجبور‬ ‫تا‬ ‫دهید‬ ‫انجام‬ ‫دستور‬ ‫یک‬ ‫در‬ ‫از‬ ‫را‬ ‫مسیر‬ ‫این‬ ‫ساده‬ ‫جایگزینی‬ ‫هر‬ ‫برای‬ ‫کنید‬ ‫طی‬ ‫اول‬:
  • 34. 34 ‫به‬ ‫کار‬ ‫ادامه‬ ‫از‬ ‫قبل‬‫اصالح‬ ‫برای‬ ‫نیاز‬ ‫مورد‬ ‫توابع‬ ‫لیست‬ ‫ها‬ ‫رشته‬‫بیندازید‬ ‫نگاه‬ ‫یک‬ ً‫حتما‬.‫توابع‬ ‫این‬ ‫ها‬ ‫داده‬ ‫روی‬ ‫را‬ ‫زیادی‬ ‫بسیار‬ ‫مانور‬ ‫قدرت‬ ، ‫دهند‬ ‫می‬ ‫شما‬ ‫به‬.‫های‬ ‫داده‬ ‫از‬ ‫خیلی‬ ً‫مثال‬ ‫هایی‬ ‫رشته‬ ‫حاوی‬ ،‫اینترنت‬ ‫از‬ ‫شده‬ ‫استخراج‬ ‫هستند‬ ‫این‬ ‫به‬ ‫شبیه‬:Lumi%C3%A8re University Lyon 2‫شکل‬ ‫به‬ ‫و‬ ‫اصالح‬ ‫راحتی‬ ‫به‬ ‫تابع‬ ‫با‬ ‫که‬ ‫مناسب‬Lumière University Lyon 2”)“)‫خواهند‬ ‫در‬ ‫آمد‬.
  • 35. 35 ‫تبدیال‬ ‫از‬ ،‫شده‬ ‫اصالح‬ ‫های‬ ‫داده‬ ‫حذف‬ ‫برای‬ ،‫تمیزکاری‬ ‫هر‬ ‫انجام‬ ‫از‬ ‫بعد‬‫ت‬ ‫برسید‬ ‫مشکالت‬ ‫سایر‬ ‫به‬ ‫بتوانید‬ ‫تا‬ ‫کنید‬ ‫استفاده‬ ‫باید‬ ‫مناسبی‬.‫و‬ ‫مثال‬ ‫این‬ ‫در‬ ‫و‬ ‫هستند‬ ‫متن‬ ‫قالب‬ ‫در‬ ‫هنوز‬ ،‫اند‬ ‫شده‬ ‫اصالح‬ ‫که‬ ‫هایی‬ ‫داده‬ ،‫مرحله‬ ‫این‬ ‫در‬ ‫شوند‬ ‫تبدیل‬ ‫عدد‬ ‫به‬ ‫باید‬.‫هستند‬ ‫موجود‬ ‫هم‬ ‫عدد‬ ‫به‬ ‫متن‬ ‫تبدیل‬ ‫توابع‬ ‫چند‬ ‫هر‬ value.toNumber))‫روی‬ ‫بر‬ ‫کلیک‬ ‫با‬ ‫که‬ ‫است‬ ‫این‬ ‫تر‬ ‫راحت‬ ‫اما‬ numStudents‫گزینه‬Edit Cells،‫گزینه‬Common Transforms، ‫گزینه‬To number‫فیلتر‬ ‫از‬ ‫شما‬ ‫عددی‬ ‫های‬ ‫داده‬ ‫تا‬ ‫کنید‬ ‫انتخاب‬ ‫را‬ Non-Numeric Facet‫را‬ ‫مشکالت‬ ‫سایر‬ ‫بتوانید‬ ‫و‬ ‫شوند‬ ‫حذف‬ ‫شما‬ ‫کنید‬ ‫بررسی‬.
  • 36. 36 ‫به‬ ‫نیاز‬ ً‫احتماال‬ ‫شما‬ ،‫اصالحات‬ ‫بقیه‬ ‫برای‬ ‫توابع‬ ‫از‬ ‫استفاده‬Regex‫که‬ ‫داشت‬ ‫خواهید‬ ‫را‬ ‫اعداد‬ ، ‫ای‬ ‫رشته‬ ‫های‬ ‫داده‬ ‫بین‬ ‫در‬ ‫جایگزین‬ ،‫رشته‬ ‫کل‬ ‫با‬ ‫را‬ ‫آنها‬ ‫و‬ ‫یافته‬ ‫کند‬.‫تا‬ ‫توابع‬ ‫این‬ ‫با‬ ‫آموزش‬ ‫ادامه‬ ‫در‬ ‫ادامه‬ ‫برای‬ ‫اما‬ ‫شد‬ ‫خواهیم‬ ‫آشنا‬ ‫حدودی‬ ‫داده‬ ‫که‬ ‫سطرهایی‬ ‫تمام‬ ‫خواهیم‬ ‫می‬ ،‫کار‬ ‫خالی‬ ‫نیز‬ ‫و‬ ‫غیرعددی‬ ‫های‬(Blank)‫برای‬ ‫شوند‬ ‫حذف‬ ،‫دارند‬ ‫خود‬ ‫دانشجویان‬ ‫تعداد‬. ‫گزینه‬،‫چپ‬ ‫سمت‬ ‫از‬ ‫ابتدا‬ ‫بنابراین‬Blank‫را‬ ‫بزنید‬ ‫تیک‬ ‫هم‬.
  • 37. 37 ‫نام‬ ‫که‬ ‫اول‬ ‫ستون‬ ‫روی‬ ،‫شده‬ ‫فیلتر‬ ‫های‬ ‫داده‬ ‫تمام‬ ‫حذف‬ ‫برای‬ ‫حال‬ALL ‫و‬ ‫کنید‬ ‫کلیک‬،‫دارد‬All -> Edit rows -> Remove all matching rows‫را‬ ‫بزنید‬( .‫زیر‬ ‫شکل‬ ‫مطابق‬)
  • 38. 38 ‫شده‬ ‫حذف‬ ‫های‬ ‫داده‬ ‫تعداد‬ ،‫کار‬ ‫ازاین‬ ‫بعد‬ ‫سطری‬ ‫هیچ‬ ‫و‬ ‫شد‬ ‫خواهد‬ ‫داده‬ ‫نمایش‬ ‫شما‬ ‫به‬ ‫دید‬ ‫نخواهید‬ ‫هم‬.‫زبانه‬ ‫یا‬ ‫تب‬ ‫از‬Facet/Filter ،‫گزینه‬Remove All‫تمام‬ ‫تا‬ ‫بزنید‬ ‫را‬ ‫اصلی‬ ‫های‬ ‫داده‬ ً‫مجددا‬ ‫و‬ ‫شده‬ ‫حذف‬ ‫فیلترها‬ ‫شوند‬ ‫داده‬ ‫نمایش‬ ‫شما‬ ‫به‬.
  • 39. 39 WHAT WHY WHERE WHEN WHO HOW Any Question ???