More Related Content
Similar to Data cleansing (20)
Data cleansing
- 2. 2
فهرست
Data Cleansing(ها داده پاکسازی)چیست
؟
مخاطره به را داده کیفیت که مشکالتی
اندازد می!
پاکسازی برای مجانی های ابزار معرفی
آنها آنالیز و تصویرسازی ها داده
با آشناییOpenRefineپیش برای ابزاری
پاکسازی و پردازش
ها داده
- 3. 3
Data Cleansingها داده پاکسازی
،ها داده سازی درآماده مهم مراحل از یکی
باشد می ها داده پاکسازی مرحله.واقع در
بودن پایین ها داده شایع مشکالت از یکی
آنهاست کیفیتبرطرف به که عملیاتی به ،
انجامد می ها داده کیفیت مشکل شدن
شود می گفته ها داده پاکسازی.ابتدا
را داده کیفیت که مشکالتی انواع با باید
سپس و شویم آشنا اندازد می مخاطره به
را مشکالت این چگونه که بگیریم یاد
کنیم برطرف را آنها نهایت در و شناسایی.
- 4. 4
مخاطره به را داده کیفیت که مشکالتی
از عبارتند اندازد می:
نویزNoise Values
پرت های دادهOutlier Values
رفته دست از مقادیرMissing Values
تکراری مقادیرDuplicate Values
- 5. 5
وجود ها داده در اشکاالت مهمترین از یکی
پاکسازی مرحله در باید که آنهاست در نویز
آنها کردن مدیریت جهت حلی راه ها داده
کنیم پیدا.
داده مقادیر در تخریب و تغییر هرگونه به
طور به و پذیرد صورت عمدی غیر صورت به که
داده اصل به شود باعث که چیزی هر به کلی
در ، میشود گفته نویز باشیم نداشته دسترسی
با که است کوچک خیلی مقدار یک نویز واقع
شود می تفریق یا جمع اصلی های دادهبه ،
مقادیر در اعشاری مقدار داشتن مثال عنوان
می حساب به نویز یک افراد سن به مربوط
آید.
- 6. 6
پرت های داده:
ها داده در موجود اشکال از مورد دومین
محدوده از خارج یا پرت های داده وجود
مرحله در باید که آنهاست در نرمال
مدیریت جهت حلی راه ها داده پاکسازی
کنیم پیدا آنها کردن.
جدول یک در پرت های دادههایی رکورد
نسبت آنها های ویژگی مقادیر که هستند
، است متفاوت بسیار ها رکورد سایر به
چند فضای در که شودمی سبب تفاوت این
نمونه گرفتن قرار محل ، ها ویژگی بعدی
بسیار ها رکورد سایر به نسبت پرت های
یافتن امکان نتیجه در و باشد متفاوت
- 7. 7
•سن ویژگی مورد در مثال عنوان به
مانند مقادیر داشتن150یا
200می محسوب پرت داده عنوان به
راهکاری بایستی نویز همانند ، شود
پیدا پرت های داده مدیریت جهت
با توان می آماری نظر از ، کنیم
داده ای نمودارجعبه از استفاده
با که کرد مشخص را پرت های
کار این پایتون زبان از استفاده
داد انجام توان رامی.
- 8. 8
رفته دست از مقادیر:
داده در موجود اشکال از مورد سومین
آنهاست در تکراری های داده وجود ها
ها داده پاکسازی مرحله در باید که
پیدا ها داده این حذف جهت حلی راه
کنیم.
نمونه به مربوط اطالعات که زمانی
کنیم می بررسی را ها ازداده هایی
مقدار ها رکورد از برخی در است ممکن
ًمثال ، باشد خالی ها ویژگی از بعضی
، کشور به مربوط اطالعات که جدولی در
شده ذخیره آن در حقوق میزان و سن
- 9. 9
در ها ویژگی این مقدار بودن خالی که آنجایی از
می مشکل دچار را ما ها الگوریتم سازی پیاده حین
، کنیم پیدا مسئله این حل برای راهکاری باید کند
توزیع و مسئله نوع به توجه باویژگی بودن خالی
است استفاده قابل مختلفی راهکارهای ، ها.ًمثال
یک پرسنل سوابق به مربوط اطالعات در است ممکن
، سازمانی خارج کار سابقه به مربوط ستون سازمان
بهتر حالت این در باشد خالی ها رکورد اکثر برای
نظر صرف سازمانی خارج کار سابقه ویژگی از که است
ویژگی این از ها تحلیل و تجزیه در و کنیم
نکنیم استفاده.
خیلی ویژگی بودن خالی آن در که دیگری حالت
توانمی ًمثال دارد دیگری راهکارهای ، نیست گسترده
های رکورد مقادیر میانگین خالی مقدار جای به
مقدار یک از اینکه یا و کرد جایگزین را دیگر
نحوه کرد استفاده خالی مقادیر کردن پر برای ثابت
امکان پایتون زبان از استفاده با کار این انجام
است پذیر.
- 10. 10
تکراری مقادیر:
قسمت این در ها داده پاکسازی در که حالتی آخرین
است تکراری مقادیر مدیریت پردازیم می آن به
به است مشخص نامشان از که طور همان مقادیر ،این
، اندشده تکرار ًعینا که شود می گفته هایی رکورد
رکورد یک تکراری مقادیر بین از باید بنابراین
کنیم انتخاب را.
- 11. 11
پاکسازی مرحله فوق مراحل انجام با
شویم می آماده و شود می کامل داده
کم کم و شده بعدی مراحل وارد تا
های الگوریتم به ورود جهت را داده
نحوه کنیم آماده ماشین یادگیری
به که را مراحلی از یک هر انجام
با انجام امکان شده اشاره آنها
دارند پایتون زبان.
- 13. 13
پاکسازی برای مجانی های ابزار معرفی
ها داده
آنها آنالیز و تصویرسازی
DataWrangler:فضای بر مبتنی سرویسی
دانشگاه سازی تصویر گروه توسط که وب
پاک برای و است شده طراحی استنفورد
استفاده اطالعات دوباره آرایش و سازی
میشود.
Google Refine:با کار برای ابزاری
همزمان طور به عددی های داده و متن.
- 14. 14و آماری تحلیل و تجزیه های ابزار
اطالعات سازی تصویر
•The R Project for Statistical Computing
•Google Fusion Tables
•Tableau Public
•VIDI
ابدان نیازمند که ای حرفه های زار
هستند زدن کد:
•Exhibit
•Google Chart Tools
- 16. 16
ترین گیر وقت از یکی میدانید که همانطور
ساخت و داده پردازش عملیات در کارها
پاکسازی ،آنها روی ماشین یادگیری مدلهای
هاست داده پردازش پیش و.به آموزش این
افزار نرم معرفیOpenRefineبا ًقبال که
نامGoogle Refineشناختهعنوان به ،میشد
پیش و پاکسازی باز متن ابزارهای از یکی
پردازد می ها داده پردازش.
افزارهای نرم امروزه منظور این برای
هم بازی متن و رایگان ًگاها و زیاد بسیار
به توان می آنها بین از که دارند وجود
Talend Data PreparationوTrifactaکرد اشاره
در محدودیت عدم و بودن حجم کم ،سادگی اما
،مرورگر بر مبتنی اجرای و رکوردها تعداد
- 17. 17
اندازی راه و نصبOpenRefine
رسمی سایت ازOpenRefine،آن نسخه آخرین
راخارج زیپ حالت از و کرده بارگذاری
کنید.روی بر کلیک باopenrefine.exeنرم
با مرورگر پنجره و شده اجرا افزار
آدرسhttp://127.0.0.1:3333شد خواهد باز.
- 18. 18
نیاز مورد های داده تهیه
ویکی های داده بررسی با خواهیم می ،آموزش این در
دانشجو تعداد بین ارتباط،جهان های دانشگاه پدیای
بررسی آنها در را مردمی های کمک جذب میزان و
دهیم نمایش گرافیکی صورت به را نتابج و کنیم.
این از را ها دادهآدرسبارگیری ،(دانلود)
کنید.با فایلی ،زیپ فایل این درون
نامuniversityData.csvدارد وجود.زیپ حالت از آنرا
باشد آماده ،بعد مراحل برای تا کنید خارج( .این
است؟ آمده دست به کجا از ها داده)
ایرادات ،ها دانشگاه از شده استخراج های داده
این انتهای در که دارند رفعی به نیاز و کوچک
داده بین روابط ،کرده برطرف را آنها تمام ،آموزش
جانمایی برای نقشه از و داده نمایش را ها
کرد خواهیم استفاده ها دانشگاه.
- 19. 19
رفع باید که ایراداتی از برخی
است زیر قرار از شوند:
های داده ناسازگاری و امالیی ایرادات
مانند همسانUSA,U.S.A,US,United Statesکه
شوند تبدیل مقدار یک به باید همه.
ًمثال متنی صورت به عددی های داده نمایش
۱۲۳Milionبه باید۱۲۳٫۰۰۰٫۰۰۰تبدیل
شود.
تاریخ و زمان های داده اصالح و استخراج
.حذف تاریخها از زمان و ساعت ًمثال
شود.
تکراری سطرهای حذف
- 20. 20
پروژه ساخت و ها داده بارگذاری
آدرس ازCreate Project->Get Data From -> This Computerگزینه
Choose Fileکنید انتخاب را.اید کرده دانلود قبل مرحله در که فایلی آدرسدر را
گزینه و کنید وارد بخش اینNextبزنید را( .زیر شکل)
- 21. 21
شده خوانده اشکال بدون باید ها داده
بارگذاری آخر گام ،بعد صفحه در و
شود داده نمایش ها داده:
سطرهایی تعداد ،فایل نوع مانند تنظیماتی
نام ،شوند جاگذاشته باید فایل اول از که
آن مانند و پروژه.
گزینه که نرود یادتانParse cell text into
numbers,dates, etcتا که بزنید تیک ًحتما را
امکان حدOpenRefineنوع ،ها داده روی از
بزند حدس را آنها.دکمه زدن باCreate Projet
و رسید خواهد اتمام به مرحله ایناکنون
هستید ها داده اولیه پردازش آماده.این
- 23. 23
کشورها نام سازی یکسان
شده بارگیری ها داده که اکنون
به سرسری نگاه یک توانید می ،اند
کار کلیت با تا بیندازید ها داده
شوید آشنا.به ،کار اولین برای
ستونCountryکشورهاست نام حاوی که
بیندازید نگاه یک.می که همانطور
دونام با آمریکا کشور بینیدUnited
StatesوUSAکه است شده ذخیره
شود اصالح باید.است ممکن امر این
- 24. 24
نام به داریم ای اینکار،گزینه برای
Cluster & Editرا ها داده مقادیر که
که هایی الگوریتم اساس بر
کاربر توسط هم آنها پارامترهای
و کرده بررسی ،است تغییر قابل
هستند شبیه بهم تاحدودی که آنهایی
توانیم می و کند می اعالم ما به را
سازی یکسان ، کرده ویرایش را آنها
دهیم انجام را الزم.ستون روی
Countryمنوی از و کنید کلیکEdit
Cellsو کرده پیدا را گزینه این
- 25. 25
گروه سه بینید می زیر در که همانطور
آنها کشور که هایی داده از مختلف
توسط ،دارند متفاوتی امالی اما آمریکاست
است شده شناسایی افزار نرم این.مقدار
را اینها همهUnited States، بگذارید
تیکMergeگزینه و زده را ادغام یاMerge
Selected & Re-Clusterکنید انتخاب را.اکنون
هنوز اما شدند سازی یکسان ها داده این
آمریکا کشور های داده در دیگر مشکل یک
دارد وجود(۶۱۵مقدار حاوی سطرUnited
States of Americaهستند)!وکشورها سایر
دارند اصالح به نیاز هم(RossijaوRussia
شوند یکسان باید)وارد وقتی کافیست که
- 27. 27
دانشجویان تعداد تمیزکاری
کمی به نیاز ، دانشجویان تعداد ستون
کنار ،سطرها بعضی در چون دارد اصالح
غیر و ای رشته مقدار آن عددی مقدار
باید که است گرفته قرار هم عددی
شود تمیزکاری.چه که این یافتن برای
از ،شوند اصالح باید سطرهاییNumerical
Facetsکنیم می استفاده( .Facetبه
است شکل و منظر ،وجه معنای.)روی
ستونnumStudents، کرده کلیکFacetو
سپسNumerical Facetکنید انتخاب را.
(زیر شکل مطابق)
- 29. 29
گزینه انتخاب از بعد که کنید دقتNumerical
Facetsتیک فقط ، چپ سمت منوی ازNon Numeric
ستون در عددی غیر های داده فقط که بزنید را
numStudentsشود داده نمایش.
- 30. 30
غیر مقادیر با سطرهایی اینکار،فقط با
ترتیب به که شوند می داده نمایش عددی
کنیم می آنها اصالح به شروع.مرحله در
مقادیر ،اول~یا+و–ها داده این از را
کنیم می حذف.ستون رویnumStudentsکلیک
گزینه ، کردهEdit Cellsگزینه بعد و
Transform…کنیم می انتخاب را.
- 32. 32
کد به دست کمی باید مرحله این در
از جزئی که توابعی کمک به و شوید
General Refine Expression Languageزبان یا
توصیف عمومیOpenRefineاین ، هستند
کنید اصالح را مقادیر.این شروع برای
کنید وارد را مقدار:
- 33. 33
تمام ،شده انتخاب ستون مقادیر درون که
+میکند جایگزین خالی رشته با را ها
(کند می حذف را آنها عبارتی به. )می
و ای زنجیره صورت به را عمل این توانید
نشوید مجبور تا دهید انجام دستور یک در
از را مسیر این ساده جایگزینی هر برای
کنید طی اول:
- 34. 34
به کار ادامه از قبلاصالح برای نیاز مورد توابع لیست
ها رشتهبیندازید نگاه یک ًحتما.توابع این
ها داده روی را زیادی بسیار مانور قدرت ،
دهند می شما به.های داده از خیلی ًمثال
هایی رشته حاوی ،اینترنت از شده استخراج
هستند این به شبیه:Lumi%C3%A8re University
Lyon 2شکل به و اصالح راحتی به تابع با که
مناسبLumière University Lyon 2”)“)خواهند در
آمد.
- 35. 35
تبدیال از ،شده اصالح های داده حذف برای ،تمیزکاری هر انجام از بعدت
برسید مشکالت سایر به بتوانید تا کنید استفاده باید مناسبی.و مثال این در
و هستند متن قالب در هنوز ،اند شده اصالح که هایی داده ،مرحله این در
شوند تبدیل عدد به باید.هستند موجود هم عدد به متن تبدیل توابع چند هر
value.toNumber))روی بر کلیک با که است این تر راحت اما
numStudentsگزینهEdit Cells،گزینهCommon Transforms،
گزینهTo numberفیلتر از شما عددی های داده تا کنید انتخاب را
Non-Numeric Facetرا مشکالت سایر بتوانید و شوند حذف شما
کنید بررسی.
- 36. 36
به نیاز ًاحتماال شما ،اصالحات بقیه برای
توابع از استفادهRegexکه داشت خواهید
را اعداد ، ای رشته های داده بین در
جایگزین ،رشته کل با را آنها و یافته
کند.تا توابع این با آموزش ادامه در
ادامه برای اما شد خواهیم آشنا حدودی
داده که سطرهایی تمام خواهیم می ،کار
خالی نیز و غیرعددی های(Blank)برای
شوند حذف ،دارند خود دانشجویان تعداد.
گزینه،چپ سمت از ابتدا بنابراینBlankرا
بزنید تیک هم.
- 37. 37
نام که اول ستون روی ،شده فیلتر های داده تمام حذف برای حالALL
و کنید کلیک،داردAll -> Edit rows -> Remove all matching rowsرا
بزنید( .زیر شکل مطابق)
- 38. 38
شده حذف های داده تعداد ،کار ازاین بعد
سطری هیچ و شد خواهد داده نمایش شما به
دید نخواهید هم.زبانه یا تب ازFacet/Filter
،گزینهRemove Allتمام تا بزنید را
اصلی های داده ًمجددا و شده حذف فیلترها
شوند داده نمایش شما به.