SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
1/14/2016
1
Data Mining in Clementine 12
‫داده‬‫ي‬‫کاو‬‫پيشرفته‬‫در‬‫نرم‬
‫افزار‬Clementine
IBM SPSS MODELER
‫هداوندی‬‫اسماعیل‬‫دکتر‬
‫دانشگاه‬‫علمی‬ ‫هیات‬‫و‬‫صنایع‬‫ی‬ ‫مهندس‬‫ای‬‫ر‬‫دکت‬
‫تخصصي‬ ‫آموزشي‬ ‫کارگاه‬:‫کلمنتاين‬ ‫افزار‬ ‫نرم‬ ‫در‬ ‫کاوي‬ ‫داده‬
1
‫الرحيم‬ ‫الرحمن‬ ‫اهلل‬ ‫بسم‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
2
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Spss Clementine 12
Spss Clementine
A data mining software for business solution
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
3
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫افزار‬ ‫نرم‬ ‫كاري‬ ‫محيط‬Clementine
•‫افزا‬ ‫نرم‬ ‫در‬ ‫شده‬ ‫سازي‬ ‫پياده‬ ‫هاي‬ ‫الگوريتم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬ ‫توسعه‬‫ر‬
•‫ها‬ ‫داده‬ ‫پردازش‬ ‫پيش‬(‫و‬ ‫فاكتور‬ ‫آناليز‬ ،‫همبستگي‬ ‫تحليل‬) ...
•‫بندي‬ ‫خوشه‬
•‫كالسبندي‬
•‫بيني‬ ‫پيش‬
•‫وابستگي‬ ‫قواعد‬
•‫و‬....
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
4
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ار‬‫ز‬‫اف‬‫نرم‬ ‫كاري‬ ‫محيط‬clementine
‫مرحله‬ ‫سه‬ ‫در‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬ ‫توسعه‬( :‫طراحي‬Data Stream)
.1‫افزار‬ ‫نرم‬ ‫در‬ ‫ها‬ ‫داده‬ ‫بارگذاري‬
.2‫مختلف‬ ‫هاي‬ ‫الگوريتم‬ ‫تركيب‬ ‫با‬ ‫كاوي‬ ‫داده‬ ‫مدل‬ ‫توسعه‬
.3‫مدلها‬ ‫خروجي‬ ‫ذخيره‬ ‫و‬ ‫نمايش‬
‫در‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬Stream Canvas‫شوند‬ ‫مي‬ ‫داده‬ ‫توسعه‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
5
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ار‬‫ز‬‫اف‬‫نرم‬ ‫كاري‬ ‫محيط‬clementine
•‫در‬ ‫شده‬ ‫سازي‬ ‫پياده‬ ‫هاي‬ ‫الگوريتم‬Clementine‫بصورت‬Node‫در‬ ‫هايي‬Nodes Palette‫قرار‬
‫دارند‬.
 Sources. Nodes bring data into Clementine.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
6
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Node palettes‫در‬Clementine
 Record Ops. Nodes perform operations on data records, such as selecting,
merging, and appending.
 Field Ops. Nodes perform operations on data fields, such as filtering, deriving new
fields, and determining the data type for given fields.
 Graphs. Nodes graphically display data before and after modeling. Graphs include
plots, histograms, web nodes, and evaluation charts.
1/14/2016
2
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
7
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Node palettes‫در‬Clementine
 Modeling. Nodes use the modeling algorithms available in Clementine, such as
neural nets, decision trees, clustering algorithms, and data sequencing.
 Output. Nodes produce a variety of output for data, charts, and model results,
which can be viewed in Clementine or sent directly to another application, such as
SPSS or Excel.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
8
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫افزار‬ ‫نرم‬ ‫مديريت‬ ‫بخش‬(Clementine Manager)
•‫از‬ ‫استفاده‬ ‫با‬Stream Tab‫كنيم‬ ‫بازيابي‬ ‫حذف‬ ، ‫ذخيره‬ ‫را‬ ‫داده‬ ‫توسعه‬ ‫مدلهاي‬ ‫توانيم‬ ‫مي‬.
•‫از‬ ‫استفاده‬ ‫با‬Output Tab‫افزار‬ ‫نرم‬ ‫توسط‬ ‫شده‬ ‫توليد‬ ‫مختلف‬ ‫هاي‬ ‫خروجي‬ ‫و‬ ‫ها‬ ‫فايل‬(‫مانن‬‫د‬
‫و‬ ‫نمودارها‬ ،‫جداول‬) ...‫كنيم‬ ‫مشاهده‬ ‫توانيم‬ ‫مي‬ ‫را‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
9
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫افزار‬ ‫نرم‬ ‫مديريت‬ ‫بخش‬(Clementine Manager)
•Model Tab‫است‬ ‫افزار‬ ‫نرم‬ ‫امكانات‬ ‫قدرتمندترين‬ ‫از‬ ‫يكي‬.
•‫كنيم‬ ‫مي‬ ‫سازي‬ ‫پياده‬ ‫ها‬ ‫داده‬ ‫روي‬ ‫بر‬ ‫افزار‬ ‫نرم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫را‬ ‫مدلي‬ ‫وقتي‬(‫دهيم‬ ‫مي‬ ‫آموزش‬)‫د‬ ‫آموزش‬ ‫مدل‬ ،‫شده‬ ‫اده‬
‫بصورت‬ ‫بخش‬ ‫اين‬ ‫در‬Node‫آيد‬ ‫مي‬ ‫بوجود‬ ‫رنگ‬ ‫زرد‬.
•‫اين‬ ‫از‬‫استفاده‬ ‫با‬Node‫داده‬ ‫براي‬ ‫نتايج‬ ‫بيني‬ ‫پيش‬ ‫همچون‬ ‫اموري‬ ‫براي‬ ‫نظر‬ ‫مورد‬ ‫مدل‬ ‫از‬ ‫توانيم‬ ‫مي‬ ‫رنگ‬ ‫زرد‬‫هاي‬
‫و‬ ‫تحليل‬ ،‫جديد‬...‫كرد‬‫استفاده‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
10
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
CRISP-DM view and Classes view of a project file
•‫كامل‬‫بطور‬‫قسمت‬ ‫اين‬‫در‬ ‫ا‬‫ر‬ ‫كاوي‬‫داده‬ ‫شده‬‫داده‬ ‫توسعه‬‫مدلهاي‬ ‫و‬‫ها‬ ‫پروژه‬ ‫توانيم‬‫مي‬(
‫و‬‫ها‬ ‫خروجي‬،‫داده‬ ‫مجموعه‬‫با‬ ‫اه‬‫ر‬‫هم‬) ...‫كنيم‬‫ذخيره‬‫يم‬‫ر‬‫بگي‬‫هايي‬ ‫ارش‬‫ز‬‫گ‬‫آنها‬‫از‬ ‫و‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
11
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Record op: Select Node
‫با‬‫بكارگيري‬Select Node‫مي‬‫توانيم‬‫ركوردهايي‬‫كه‬‫داراي‬‫شرايط‬‫تعيين‬‫شده‬
‫هستند‬‫را‬‫انتخاب‬‫و‬‫فيلتر‬‫نماييم‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
12
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Record op:Sample Node
‫با‬‫استفاده‬‫از‬‫اين‬Node‫مي‬‫توانيم‬‫به‬‫روشهاي‬‫مختلف‬‫از‬‫مجموعه‬‫داده‬‫هايمان‬‫نمونه‬
‫گيري‬‫نماييم‬.
‫با‬‫انتخاب‬‫روشهاي‬Simple‫و‬‫با‬‫انتخاب‬‫يكي‬
‫از‬‫گزينه‬‫ها‬‫مي‬‫توانيم‬‫نحوه‬‫انتخاب‬‫يک‬‫ركورد‬
‫در‬‫نمونه‬‫را‬‫مشخص‬‫نماييم‬.
‫مثال‬random‫مشخص‬‫مي‬‫كند‬‫هر‬‫ركوردبا‬‫چه‬
‫احتمالي‬‫در‬‫نمونه‬‫ما‬‫باشد‬.
‫با‬‫انتخاب‬‫روشهاي‬Complex‫مي‬‫توانيم‬‫با‬
‫روش‬stratified sampling‫كار‬‫كنيم‬
1/14/2016
3
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
13
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Record op: Sample Node
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
14
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Record op: Balance Node
‫جهت‬‫متوازن‬‫ساختن‬‫تعداد‬‫رکوردها‬‫با‬‫بکارگیری‬‫یک‬‫شرط‬‫و‬‫یک‬‫فاکتور‬‫است‬‫فاده‬‫می‬
‫شود‬.
‫رکوردهایی‬‫که‬‫می‬‫خواهیم‬‫تعدادشان‬‫متوازن‬‫شود‬‫با‬‫شرط‬‫مدنظرمان‬‫معین‬‫می‬‫ش‬‫وند‬
‫و‬‫اگر‬‫فاکتور‬‫کمتر‬‫از‬1‫بو‬‫کمتر‬‫شده‬‫و‬‫از‬‫بیشتر‬‫از‬1‫بود‬‫بیشتر‬‫می‬‫شوند‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
15
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Record op: Aggregate Node
‫جهت‬‫فراهم‬‫آوردن‬‫اطالعات‬‫خالصه‬‫و‬‫آماره‬‫هاي‬‫كليدي‬‫در‬‫مجموعه‬‫داده‬‫هايي‬‫گه‬‫با‬
‫يک‬‫كليد‬(‫مانند‬‫شماره‬‫مشتري‬‫در‬‫داده‬‫هاي‬‫بانک‬‫ها‬)‫مشخصه‬‫سازي‬‫شده‬‫اند‬‫ب‬‫ه‬‫كار‬
‫مي‬‫رود‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
16
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Record op: Distinct Node
‫براي‬‫شناسايي‬‫ركوردهايي‬‫كه‬‫در‬‫چند‬‫فيلد‬‫داراي‬‫مقاديري‬‫يكسان‬‫باشند‬‫ب‬‫كار‬‫مي‬‫رود‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
17
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Field op:Binning Node
‫رود‬ ‫مي‬ ‫بكار‬ ‫فيلد‬ ‫چند‬ ‫يا‬ ‫يک‬ ‫مقدار‬ ‫اساس‬ ‫بر‬ ‫ركوردها‬ ‫بندي‬ ‫گروه‬ ‫جهت‬
‫ثابت‬ ‫تعداد‬ ‫يا‬ ‫طول‬ ‫مانند‬ ‫دارد‬ ‫وجود‬ ‫كار‬ ‫اين‬ ‫براي‬ ‫مختلفي‬ ‫روشهاي‬..
Mean/standard deviation‫و‬...
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
18
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Field op:Partition Node
‫جهت‬‫تقسيم‬‫مجموعه‬‫داده‬‫ها‬‫به‬‫زيرمجموعه‬‫داده‬‫هاي‬‫آموزشي‬،
‫اعتبارسنجي‬‫و‬‫تست‬‫به‬‫كار‬‫مي‬‫رود‬
1/14/2016
4
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
19
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Graph: Graph board
‫ابزاری‬‫قدرتمند‬‫برای‬‫به‬‫تصویر‬‫کشیدن‬‫مجموعه‬‫داده‬‫ها‬‫با‬‫بکارگ‬‫یری‬
‫انواع‬‫نمودارها‬‫از‬‫جمله‬Scatter Plot , Parallel Coordinates
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
20
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Scatterplot Matrix
‫يک‬‫نمودار‬‫پراكندگي‬‫دوبعدي‬‫نموداري‬‫است‬‫كه‬‫توسط‬‫آن‬‫دو‬‫مشخصه‬‫كه‬‫هر‬‫كدام‬‫يكي‬‫از‬‫محو‬‫رها‬‫را‬‫به‬
‫خود‬‫اختصاص‬‫مي‬‫دهند‬‫نمايش‬‫داده‬‫مي‬‫شود‬.
‫اگر‬‫محورهاي‬X,Y‫را‬‫در‬‫نظر‬،‫بگيريم‬‫هر‬‫نقطه‬‫داده‬‫در‬‫اين‬‫نمودار‬‫زوج‬(x,y)‫در‬‫داده‬‫ها‬‫را‬‫نشان‬‫مي‬‫دهد‬.
‫از‬‫كنارهم‬‫قرار‬‫دادن‬‫نمودارهاي‬‫پراكندگي‬،‫ماتريس‬‫هاي‬‫پراكندگي‬‫ايجاد‬‫مي‬‫گردند‬.
‫پراكندگي‬‫ايجاد‬‫مي‬‫گردند‬.
‫از‬‫اين‬‫نمودار‬‫مي‬‫توان‬‫تحليل‬‫هاي‬‫فوق‬‫را‬‫استخراج‬‫كرد‬:
–‫نمايش‬‫تغييرات‬‫همزمان‬‫زوج‬‫مشخصه‬‫ها‬‫در‬‫داده‬‫ها‬
–‫تعيين‬‫رابطه‬‫ميان‬‫تغييرات‬‫همزمان‬‫زوج‬‫مشخصه‬‫ها‬
–‫بدست‬‫آوردن‬‫همبستگي‬‫هاي‬‫ميان‬‫زوج‬‫مشخصه‬‫ها‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
21
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Parallel Coordinates plot
‫اين‬‫نمودار‬‫شيوه‬‫اي‬‫براي‬‫تصويرسازي‬‫و‬‫تحليل‬‫داده‬‫هاي‬‫چندمشخصه‬‫اي‬‫و‬‫در‬‫ابعاد‬‫باالست‬.
‫براي‬‫نمايش‬‫مجموعه‬‫اي‬‫از‬‫نقاط‬‫در‬‫فضاي‬n-‫بعدي؛‬‫صفحه‬‫اي‬‫شامل‬n‫خط‬‫موازي‬‫و‬‫عمودي‬‫را‬‫در‬‫نظر‬
‫مي‬‫گيريم‬.‫يک‬‫نقطه‬‫در‬‫فضاي‬n-‫بعدي‬‫بصورت‬‫بصورت‬‫يک‬‫چندخطي‬‫با‬‫نقاطي‬‫روي‬‫محورهاي‬
‫موازي‬‫نمايش‬‫داده‬‫مي‬‫شود‬‫كه‬‫موقعيت‬‫نقطه‬‫در‬ith‫محور‬‫متناظر‬‫مقدار‬ith‫مشخصه‬‫نقطه‬‫فوق‬‫است‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
22
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫در‬ ‫مدلسازي‬‫اصلي‬‫ايند‬‫ر‬‫ف‬Clementine
‫كاوي‬‫داده‬ ‫مسائل‬‫انواع‬
‫داده‬‫کاوي‬‫نوع‬‫دو‬‫در‬‫شده‬‫هدايت‬(supervised)‫و‬‫هدايت‬ ‫غير‬‫شده‬(unsupervised)‫مي‬‫ظاهر‬‫شود‬:
.1‫داده‬‫هدايت‬ ‫کاوي‬‫شده‬:‫هدفي‬‫اي‬‫ر‬‫دا‬‫از‬‫و‬ ‫خاص‬‫تعيين‬ ‫پيش‬‫دنبال‬‫به‬‫که‬‫است‬ ‫شده‬‫الگويي‬‫خاص‬‫مي‬‫گ‬‫که‬ ‫ردد‬
‫ورودي‬‫به‬ ‫ا‬‫ر‬‫ها‬‫خروجي‬‫نگاشت‬‫هدف‬‫مي‬‫کند‬.
‫مثال‬:‫مشتريان‬‫اعتبار‬‫بندي‬‫رتبه‬(‫ها‬‫ورودي‬:‫و‬ ‫مالي‬ ‫مشخصات‬،‫شخصيتي‬ ‫مشخصات‬...‫خروجي‬ ‫و‬:‫وضعيت‬‫مشتري‬
‫وام‬‫بازپرداخت‬ ‫در‬)
.1‫داده‬‫هدايت‬ ‫غير‬ ‫کاوي‬‫شده‬:‫يافتن‬‫و‬ ‫الگوها‬‫يا‬‫تشابهات‬‫گروههايي‬ ‫بين‬‫داشتن‬‫بدون‬‫اطالعات‬‫از‬‫هدف‬‫ي‬‫و‬ ‫خاص‬‫يا‬
‫و‬ ‫ها‬ ‫دسته‬‫الگوهاي‬‫از‬‫تعيين‬ ‫پيش‬‫شده‬‫مي‬‫باشد‬.
‫مثال‬:‫انها‬ ‫مشخصات‬ ‫مبناي‬ ‫بر‬‫بانك‬ ‫يك‬‫مشتريان‬‫بندي‬ ‫دسته‬
‫ها‬‫داده‬‫پردازش‬‫پيش‬:‫آ‬‫مدلسازي‬ ‫ايند‬‫ر‬‫ف‬ ‫شروع‬‫اي‬‫ر‬‫ب‬ ‫ها‬‫داده‬‫سازي‬‫ماده‬
–‫داده‬‫جديد،حذف‬ ‫هاي‬‫مشخصه‬ ‫ساخت‬‫و‬ ‫ها‬‫مشخصه‬‫تركيب‬،‫معنادار‬ ‫هاي‬‫مشخصه‬‫انتخاب‬
‫هاو‬‫داده‬‫در‬ ‫خالي‬‫فيلد‬‫پركردن‬ ،‫پرت‬‫هاي‬...
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
23
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫کاوي‬ ‫داده‬ ‫مسائل‬
•‫ناظر‬ ‫با‬ ‫مساله‬ ‫یک‬ ‫های‬ ‫داده‬ ‫از‬ ‫ای‬ ‫نمونه‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
24
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫کاوي‬ ‫داده‬ ‫مسائل‬
•‫ناظر‬ ‫بدون‬ ‫مساله‬ ‫یک‬ ‫از‬ ‫ای‬ ‫نمونه‬
1/14/2016
5
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
25
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫در‬ ‫مدلسازي‬‫اصلي‬ ‫فرايند‬Clementine
‫مقاالت‬(Hadavandi 1-3)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
26
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫يك‬ ‫توسعه‬‫مدل‬(Stream)‫در‬Clementine
•‫است‬ ‫نياز‬ ‫بخش‬ ‫سه‬ ‫حداقل‬ ‫مدل‬ ‫توسعه‬ ‫براي‬:
.1‫از‬ ‫استفاده‬Node‫ها‬ ‫داده‬ ‫بارگذاري‬(‫در‬Source palette)
.2‫ها‬ ‫داده‬ ‫نوع‬ ‫تعيين‬(‫و‬ ‫خروجي‬ ‫يا‬ ‫ورودي‬ ،‫داده‬ ‫نوع‬...‫در‬Field options)
.3‫دانش‬ ‫كشف‬ ‫مدل‬(‫در‬Model palette)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
27
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing)
•‫نود‬TRANSFORM
‫مدلسازي‬ ‫در‬‫استفاده‬ ‫و‬ ‫اماري‬‫استنباط‬ ‫جهت‬ ‫شده‬ ‫تبديل‬ ‫هاي‬ ‫داده‬ ‫توزيع‬ ‫و‬ ‫ها‬ ‫داده‬ ‫توزيع‬ ‫تجسم‬
•‫نود‬Means
‫ها‬ ‫داده‬ ‫ميانگين‬ ‫آماري‬ ‫مقايسه‬(‫آماره‬t-student)
•‫نود‬Statistics
‫اساسي‬ ‫هاي‬ ‫آماره‬ ‫محاسبه‬(‫واريانس‬ ،‫ميانگين‬)...
‫متغيرها‬ ‫دوبدو‬ ‫همبستگي‬ ‫محاسبه‬
‫ها‬ ‫داده‬ ‫توزيع‬ ‫مورد‬ ‫در‬ ‫آماري‬ ‫استنباط‬ ‫جهت‬ ‫مناسب‬
‫مشخصه‬ ‫انتخاب‬ ‫براي‬ ‫مناسب‬(‫در‬ ‫يكي‬ ‫است‬ ‫بهتر‬ ،‫باشد‬ ‫باال‬ ‫متغير‬ ‫دو‬ ‫بين‬ ‫همبستگي‬ ‫اگر‬‫شود‬ ‫وارد‬ ‫مدلسازي‬)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
28
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Pearson's correlation coefficient
• Pearson's correlation coefficient when applied to a population is commonly
represented by the Greek letter ρ (rho) and may be referred to as the population
correlation coefficient or the population Pearson correlation coefficient. The
formula for ρ is:
• Statistical inference based on Pearson's correlation coefficient often focuses on
one of the following two aims:
– One aim is to test the null hypothesis that the true correlation coefficient ρ is equal to 0, based on
the value of the sample correlation coefficientr.
– The other aim is to construct a confidence interval around r that has a given probability of
containing ρ.
• http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
29
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬ ‫داده‬ ‫کیفیت‬
•‫چه‬‫نوعی‬‫از‬‫داده‬‫ها‬‫مشکالت‬‫کیفیتی‬‫دارند؟‬
•‫چگونه‬‫میتوانیم‬‫مشکالت‬‫را‬‫در‬‫داده‬‫ها‬‫شناسای‬‫کنیم؟‬
•‫فرایند‬‫برطرف‬‫کردن‬‫مشکالت‬‫فوق‬‫در‬‫داده‬‫ها‬‫چیست؟‬
•‫نمونه‬‫هایی‬‫از‬‫مشکالت‬‫کیفیت‬‫داده‬‫ها‬
-‫نویز‬‫و‬‫داده‬‫های‬‫پرت‬
-‫مقادیر‬‫گم‬‫شده‬
-‫داده‬‫های‬‫تکراری‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
30
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫پرت‬ ‫های‬ ‫داده‬
•Outliers(‫پرت‬ ‫های‬ ‫داده‬)‫که‬ ‫هستند‬ ‫هایی‬ ‫ویژگی‬ ‫با‬ ‫ای‬ ‫داده‬
‫د‬ ‫مجموعه‬ ‫در‬ ‫دیگر‬ ‫های‬ ‫داده‬ ‫از‬ ‫بسیاری‬ ‫با‬ ‫توجهی‬ ‫قابل‬ ‫بطور‬‫اده‬
‫ها‬‫متفاوت‬‫هستند‬.
1/14/2016
6
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
31
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫شده‬ ‫گم‬ ‫مقادیر‬
•‫دالیلی‬‫برای‬‫شده‬ ‫گم‬ ‫مقادیر‬:
₋‫اطالعات‬‫نشده‬ ‫آوری‬ ‫جمع‬‫است‬
(‫پذیرند‬ ‫نمی‬ ‫را‬ ‫خود‬ ‫وزن‬ ‫و‬ ‫سن‬ ‫مردم‬)
₋‫ها‬ ‫نمونه‬ ‫همه‬ ‫با‬ ‫ها‬ ‫مقیاس‬‫نیستند‬ ‫انطباق‬ ‫قابل‬
(‫نیست‬ ‫محاسبه‬ ‫قابل‬ ‫کودکان‬ ‫برای‬ ‫ساالنه‬ ‫درآمد‬)
•‫کنیم‬ ‫کار‬ ‫چه‬ ‫شده‬ ‫گم‬ ‫مقادیر‬ ‫با‬
₋‫کردن‬ ‫حذف‬‫ها‬ ‫داده‬
₋‫ت‬‫خمین‬‫شده‬ ‫گم‬ ‫مقادیر‬
₋‫پوشی‬ ‫چشم‬‫آنالیز‬ ‫طول‬ ‫در‬ ‫شده‬ ‫گم‬ ‫مقادیر‬ ‫از‬
₋‫جایگزینی‬‫ممکن‬ ‫مقادیر‬ ‫تمامی‬ ‫با‬(‫احتمالی‬ ‫مقادیر‬ ‫با‬ ‫دهی‬ ‫وزن‬)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
32
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬ ‫داده‬ ‫پردازش‬ ‫پیش‬
•‫داده‬ ‫انتخاب‬
•‫ابعاد‬ ‫کاهش‬
•‫نویز‬ ‫و‬ ‫مغشوش‬ ‫های‬ ‫داده‬ ‫حذف‬ ‫و‬ ‫شناسایی‬
•‫ها‬ ‫داده‬ ‫در‬ ‫گمشده‬ ‫مقادیر‬ ‫کردن‬ ‫پر‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
33
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مشخصه‬ ‫انتخاب‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
34
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬ ‫مشخصه‬‫انتخاب‬(Feature selection in clementine)
‫انتخاب‬‫ورودي‬‫ها‬‫يکي‬‫از‬‫مهم‬‫ترين‬‫ابزار‬‫در‬‫پيش‬‫پردازش‬‫داده‬‫هاست‬.
‫اين‬‫مساله‬‫شامل‬‫ايند‬‫ر‬‫ف‬‫تعيين‬‫ورودي‬‫هاي‬‫تبط‬‫ر‬‫م‬‫و‬‫حذف‬‫صفاتي‬‫که‬‫ائد‬‫ز‬‫بوده‬‫و‬‫اطالعات‬‫اندکي‬‫اهم‬‫ر‬‫ف‬‫مي‬‫کنند‬.
‫انجام‬‫ايند‬‫ر‬‫ف‬‫انتخاب‬‫وروديها‬‫قبل‬‫از‬‫بکارگيري‬‫يک‬‫الگوريتم‬‫يادگيري‬‫يت‬‫ز‬‫م‬‫هاي‬‫اواني‬‫ر‬‫ف‬‫دارد‬.
‫با‬‫حذف‬‫تعداد‬‫يادي‬‫ز‬‫از‬‫ورودي‬‫هاي‬،‫بوط‬‫ر‬‫نام‬‫روشهاي‬‫يادگيري‬‫ي‬ ‫آموزش‬‫ينه‬‫ز‬‫ه‬‫محاسباتي‬‫و‬‫زمان‬‫کمتري‬‫ا‬‫ر‬‫متحمل‬‫مي‬‫شون‬‫د‬.
‫همچنين‬‫مدل‬‫بدست‬‫آمده‬‫ساده‬‫تر‬‫مي‬‫شود‬‫که‬‫غالبا‬‫تفسير‬‫آن‬‫ساده‬‫تر‬‫شده‬‫و‬‫در‬‫عمل‬‫مفيدتر‬‫مي‬‫باشد‬.
‫يكي‬‫از‬‫روشهاي‬‫انتخاب‬‫مشخصه‬‫ها‬‫استفاده‬‫از‬‫اماره‬t-value‫در‬‫رگرسيون‬‫است‬.‫اگر‬P-value‫كمتر‬‫از‬‫سطح‬‫معني‬‫داري‬
‫مشخص‬‫شده‬‫باشد‬‫آن‬‫متغير‬‫از‬‫لحاظ‬‫آماري‬‫معنادار‬‫است‬.
‫با‬‫استفاده‬‫از‬‫نود‬Feature selection‫مي‬‫توان‬‫روش‬‫فوق‬‫ا‬‫ر‬‫پياده‬‫سازي‬‫كرد‬..
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
35
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬‫مشخصه‬ ‫انتخاب‬(Feature selection in clementine)
 Maximum percentage of missing values. Screens fields with too many missing values, expressed as a
percentage of the total number of records. Fields with a large percentage of missing values provide little
predictive information.
 Maximum percentage of records in a single category. Screens fields that have too many records falling
into the same category relative to the total number of records. For example, if 95% of the customers in the
database drive the same type of car, including this information is not useful in distinguishing one customer
from the next. Any fields that exceed the specified maximum are screened. This option applies to
categorical fields only.
 Maximum number of categories as a percentage of records. Screens fields with too many categories
relative to the total number of records. If a high percentage of the categories contains only a single case,
the field may be of limited use. For example, if every customer wears a different hat, this information is
unlikely to be useful in modeling patterns of behavior. This option applies to categorical fields only.
 Minimum coefficient of variation. Screens fields with a coefficient of variance less than or equal to the
specified minimum. This measure is the ratio of the predictor standard deviation to the predictor mean. If
this value is near zero, there is not much variability in the values for the variable. This option applies to
numeric range fields only.
 Minimum standard deviation. Screens fields with standard deviation less than or equal to the specified
minimum. This option applies to numeric range fields only.
 Records with missing data. Records or cases that have missing values for the target field, or missing values
for all predictors, are automatically excluded from all computationsused in the rankings.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
36
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬‫مشخصه‬ ‫انتخاب‬(Feature selection in clementine)
 All categorical. When all predictors and the target are categorical, importance can be
ranked based on any of four measures:
 Pearson chi-square. Tests for independence of the target and the predictor without indicating
the strength or direction of any existing relationship.
 Likelihood-ratio chi-square. Similar to Pearson's chi-square but also tests for target-predictor
independence.
 Cramer's V. A measure of association based on Pearson's chi-square statistic. Values range
from 0, which indicates no association, to 1, which indicatesperfect association.
 Lambda. A measure of association reflecting the proportional reduction in error when the
variable is used to predict the target value. A value of 1 indicates the predictor perfectly
predicts the target, while a value of 0 means the predictor provides no useful information
about the target.
 Some categorical. When some—but not all—predictors are categorical and the target is also
categorical, importance can be ranked based on either the Pearson or likelihood-ratio chi-
square. (Cramer's V and lambda are not available unless all predictors are categorical.)
1/14/2016
7
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
37
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مشخصه‬ ‫استخراج‬ ‫مساله‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
38
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing)
‫اصلي‬‫مولفه‬‫تحليل‬(PCA)
‫مدلسازي‬ ‫كاربردهاي‬ ‫در‬‫ورودي‬ ‫هاي‬ ‫داده‬‫ابعاد‬ ‫كاهش‬‫جهت‬
‫اصلي‬ ‫هاي‬‫مشخصه‬‫تركيب‬ ‫با‬‫جديد‬ ‫هاي‬‫مشخصه‬ ‫ساخت‬
‫ها‬ ‫داده‬ ‫تجسم‬ ‫و‬‫نمايش‬‫جهت‬
‫ها‬‫داده‬ ‫سازي‬‫مجسم‬
‫اوليه‬ ‫هاي‬ ‫تحليل‬‫انجام‬‫جهت‬(‫و‬ ‫نويز‬ ‫موارد‬‫حذف‬ ‫مثال‬)...
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
39
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
PCA Application: Bank Card
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
40
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
PCA Application: Bank Card
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
41
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing)
‫مغشوش‬ ‫هاي‬ ‫نمونه‬‫اصالح‬‫و‬‫شناسايي‬(outlier detection)
Outlier data(‫مغشوش‬ ‫داده‬)‫ط‬‫غير‬ ‫موارد‬‫يا‬‫و‬ ‫محاسبه‬‫در‬‫خطا‬‫از‬‫ي‬ ‫ناش‬ ‫تواند‬‫مي‬ ‫كه‬‫دارد‬‫ديگر‬‫هاي‬ ‫داده‬‫با‬‫زيادي‬‫تفاوت‬‫كه‬ ‫است‬‫اي‬‫داده‬‫بيعي‬
‫شود‬‫ايجاد‬‫دهد‬‫رخ‬‫سيستم‬‫يك‬‫در‬‫تواند‬‫مي‬‫كه‬.
‫هاي‬‫نمونه‬‫روي‬‫بر‬ ‫ات‬‫ر‬‫تغيي‬‫اعمال‬‫و‬‫شناسايي‬‫باشند‬‫مي‬‫خطا‬‫و‬‫نويز‬‫اي‬‫ر‬‫دا‬‫كه‬‫هايي‬‫نمونه‬‫و‬ ‫ائد‬‫ز‬‫ي‬ ‫آموزش‬‫د‬‫ايش‬‫ز‬‫اف‬ ‫ا‬‫ر‬‫مدل‬‫دقت‬ ‫تواند‬‫مي‬‫هد‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
42
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مغشوش‬ ‫هاي‬ ‫نمونه‬‫اصالح‬‫و‬ ‫شناسايي‬(outlier detection)
 HandlingOutliers and Extreme Values
 The audit report lists number of outliers and extremes is listed for each field based on the
detection options specified in the Data Audit node. You can choose to coerce, discard, or
nullify these values for specific fields as appropriate, and then generate a SuperNode to apply
the transformations.
 In the Action column, specify handlingfor outliers and extremes for specific fields as desired.
 Show details Hide details
 The following actions are available for handlingoutliers and extremes:
 Coerce. Replaces outliers and extreme values with the nearest value that would not be
considered extreme. For example if an outlier is defined to be anythingaboveor below
three standard deviations, then all outliers would be replaced with the highest or lowest
value within this range.
 Discard. Discards records with outlying or extreme values for the specified field.
 Nullify. Replaces outliers and extremes with the null or system-missingvalue.
 Coerce outliers / discard extremes. Discards extreme values only.
 Coerce outliers / nullify extremes. Nullifies extreme values only.
1/14/2016
8
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
43
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing)
‫ها‬‫داده‬‫در‬ ‫خالي‬‫هاي‬ ‫فيلد‬‫پردازش‬(Missing value handling)
‫است‬‫ضروري‬‫مدلسازي‬ ‫شروع‬‫از‬ ‫قبل‬ ‫داده‬‫پايگاه‬ ‫در‬‫خالي‬ ‫هاي‬‫فيلد‬ ‫پركردن‬.
‫كار‬‫اين‬ ‫اي‬‫ر‬‫ب‬Clementine‫دارد‬‫داده‬ ‫پايگاه‬ ‫هاي‬ ‫متغير‬ ‫هاي‬‫فيلد‬‫هوشمند‬ ‫پركردن‬ ‫اي‬‫ر‬‫ب‬ ‫مختلفي‬‫روشهاي‬.
‫نماد‬‫بايد‬‫ابتدا‬ ‫كار‬‫اين‬ ‫اي‬‫ر‬‫ب‬Missing value‫به‬ ‫داده‬‫پايگاه‬ ‫در‬‫ا‬‫ر‬Clementine‫نود‬ ‫در‬‫كه‬‫كنيد‬‫معرفي‬type
‫گيرد‬ ‫مي‬ ‫صورت‬ ‫امر‬‫اين‬(.‫فرض‬ ‫پيش‬Blank‫در‬‫ا‬‫ر‬‫آن‬ ‫نماد‬ ‫توان‬ ‫مي‬‫ولي‬‫است‬Specify‫كرد‬ ‫مشخص‬)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
44
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫انواع‬Missing value
 There are several types of missing values recognized by Clementine:
 Null or system-missing values. These are nonstring values that have been left blank in
the database or source file and have not been specifically defined as "missing" in a
source or Type node. System-missing values are displayed as $null$. Note that empty
strings are not considered nulls in Clementine, although they may be treated as nulls by
certain databases.
 Empty strings and white space. Empty string values and white space (strings with no
visible characters) are treated as distinct from null values. Empty strings are treated as
equivalent to white space for most purposes. For example, if you select the option to
treat white space as blanks in a source or Type node, this setting applies to empty
strings as well.
 Blank or user-defined missing values. These are values such as unknown, 99, or –1 that
are explicitly defined in a source node or Type node as missing. Optionally, you can also
choose to treat nulls and white space as blanks, which allows them to be flagged for
special treatment and to be excluded from most calculations. For example, you can use
the @BLANK function to treat these values, along with other types of missing values, as
blanks.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
45
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Missing value handling
‫نود‬‫اجراي‬‫ار‬ ‫بعد‬Data audit‫بخش‬‫در‬ ‫بايست‬‫مي‬،Quality،Action‫پردازش‬‫براي‬‫را‬‫نظر‬‫مورد‬missing
value‫كنيم‬‫انتخاب‬ ‫ها‬.
 Fixed. Substitutes a fixed value (either the field mean, midpoint of the range, or a constant that you
specify).
 Random. Substitutes a random value based on a normal or uniform distribution.
 Expression. Allows you to specify a custom expression. For example, you could replace values with a global
variable created by the Set Globals node.
 Algorithm. Substitutes a value predicted by a model based on the C&RT algorithm. For each field imputed
using this method, there will be a separate C&RT model, along with a Filler node that replaces blanks and
nulls with the value predicted by the model. A Filter node is then used to remove the prediction fields
generated by the model.
‫بعد‬‫ار‬‫انتخاب‬‫روش‬،node‫نشان‬‫دهنده‬‫روش‬‫فوق‬‫ا‬‫ر‬‫مي‬‫سازيم‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
46
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Missing value handling
•‫هوشمند‬‫بصورت‬ ‫خالي‬ ‫هاي‬‫فيلد‬ ‫كردن‬ ‫پر‬ ‫اي‬‫ر‬‫ب‬‫تصميم‬ ‫درخت‬‫الگوريتم‬‫از‬ ‫استفاده‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
47
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫با‬ ‫ها‬‫داده‬ ‫بندي‬ ‫خوشه‬Clementine
‫كاوي‬‫داده‬ ‫مساله‬
‫نمايند‬‫بندي‬‫تقسيم‬‫گروه‬ ‫چند‬‫در‬‫ا‬‫ر‬‫خود‬‫يان‬‫ر‬‫مشت‬‫ند‬‫ر‬‫دا‬ ‫قصد‬‫بانكي‬‫يابي‬‫ر‬‫ا‬‫ز‬‫با‬‫ان‬‫ر‬‫مدي‬.
‫گرفت‬‫خواهد‬‫انجام‬‫است‬ ‫موجود‬‫بانك‬‫داده‬‫پايگاه‬‫در‬‫كه‬‫بانك‬‫يان‬‫ر‬‫مشت‬‫هاي‬‫مشخصه‬‫اساس‬ ‫بر‬‫بندي‬ ‫تقسيم‬‫اين‬.
‫ب‬‫كمي‬‫شباهت‬‫مختلف‬‫كالسهاي‬‫يان‬‫ر‬‫مشت‬‫و‬‫باشند‬‫هم‬‫به‬‫شبيه‬‫ند‬‫ر‬‫گي‬ ‫مي‬‫ار‬‫ر‬‫ق‬‫كالس‬ ‫يك‬‫ر‬‫د‬‫كه‬‫ياني‬‫ر‬‫مشت‬‫كه‬‫است‬‫اين‬‫هدف‬‫داشته‬ ‫هم‬‫ا‬
‫باشند‬.
‫است‬‫بندي‬‫خوشه‬‫مساله‬‫يك‬‫فوق‬‫مساله‬.‫بندي‬ ‫خوشه‬‫مدلهاي‬ ‫از‬‫استفاده‬ ‫با‬Clementine‫به‬‫ها‬‫خوشه‬‫مناسب‬‫تعداد‬‫توانيم‬ ‫مي‬
‫بياوريم‬‫بدست‬‫ا‬‫ر‬‫ها‬‫خوشه‬‫خود‬‫اه‬‫ر‬‫هم‬.
‫مسير‬‫از‬files-open stream-3 clustering methods-bank customers.str“‫كنيم‬ ‫مي‬‫اخواني‬‫ر‬‫ف‬‫ا‬‫ر‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
48
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫با‬ ‫ها‬‫داده‬ ‫بندي‬ ‫خوشه‬Clementine
•‫روشهاي‬‫خوشه‬‫بندي‬‫داده‬‫ها‬
‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬
–‫در‬‫اين‬‫نوع‬‫از‬‫روشهاي‬‫خوشه‬،‫بندي‬‫داده‬‫ها‬‫در‬‫درختي‬‫از‬‫خوشه‬‫ها‬‫گروه‬‫بندي‬‫مي‬‫شوند‬.
–‫به‬‫طور‬‫کلي‬‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬‫ا‬‫ر‬‫مي‬‫توان‬‫به‬‫دو‬‫دسته‬‫تقسيم‬‫کرد‬:‫روشهاي‬‫جمع‬‫کننده‬‫و‬‫روشهاي‬‫تقسيم‬‫کنن‬‫ده‬.
–‫روشهاي‬‫جمع‬‫کننده‬(AGGLOMERATIVE)‫در‬‫ابتدا‬‫هر‬‫داده‬‫ا‬‫ر‬‫در‬‫خوشه‬‫اي‬‫جداگانه‬‫ار‬‫ر‬‫ق‬‫مي‬‫دهند‬.‫سپس‬‫خوشه‬‫ها‬‫ا‬‫ر‬‫با‬‫هم‬
‫ادغام‬‫کرده‬‫و‬‫خوشه‬‫هاي‬‫بزرگتري‬‫ايجاد‬‫مي‬‫کنند‬.‫اين‬‫کار‬‫تا‬‫زماني‬‫ادامه‬‫مي‬‫يابد‬‫که‬‫يا‬‫تمام‬‫داده‬‫ها‬‫در‬‫يک‬‫خوشه‬‫واحد‬‫ار‬‫ر‬‫ق‬‫گ‬‫ند‬‫ر‬‫ي‬‫و‬‫يا‬
‫شرط‬‫معيني‬‫ار‬‫ر‬‫برق‬،‫شود‬‫مثال‬‫تعداد‬‫خوشه‬‫ها‬‫به‬‫مقدار‬‫دلخواه‬‫برسد‬.‫در‬‫هر‬‫مرحله‬‫خوشه‬‫هايي‬‫به‬‫هم‬‫متصل‬‫مي‬‫شوند‬‫ک‬‫ه‬‫ين‬‫ر‬‫بيشت‬
‫شباهت‬‫ا‬‫ر‬‫با‬‫هم‬‫ند‬‫ر‬‫دا‬.‫اي‬‫ر‬‫ب‬‫ي‬ ‫بررس‬‫ان‬‫ز‬‫مي‬‫شباهت‬‫خوشه‬‫ها‬‫الگوريتم‬‫هاي‬‫مختلفي‬‫وجود‬‫دارد‬.
–‫دسته‬‫دوم‬‫که‬‫روشهاي‬‫تقسيم‬‫کننده‬(DIVISVIVE)‫ناميده‬‫مي‬‫شوند‬‫عکس‬‫روش‬‫فوق‬‫ا‬‫ر‬‫اعمال‬‫مي‬‫کنند‬‫يعني‬‫درخت‬‫ا‬‫ر‬‫از‬‫باال‬‫به‬
‫پايين‬‫مي‬‫ند‬‫ز‬‫سا‬.
‫روشهاي‬‫تيشن‬‫ر‬‫پا‬‫بندي‬
–‫اين‬‫روشها‬‫تعداد‬‫خوشه‬‫ها‬‫ا‬‫ر‬‫به‬‫عنوان‬‫امتر‬‫ر‬‫پا‬‫ورودي‬‫يافت‬‫ر‬‫د‬‫مي‬‫كنند‬‫و‬‫بر‬‫مبناي‬‫شباهت‬‫بين‬‫داده‬‫ها‬،‫داده‬‫ها‬‫در‬‫خوشه‬‫ه‬‫ا‬‫ار‬‫ر‬‫ق‬
‫مي‬‫ند‬‫ر‬‫گي‬.
‫در‬‫ادبيات‬‫موضوعات‬‫و‬‫بردهاي‬‫ر‬‫كا‬‫خوشه‬‫بندي‬‫از‬‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬‫اي‬‫ر‬‫ب‬‫تعيين‬‫تعداد‬‫خوشه‬‫ها‬‫استفاده‬‫مي‬‫شود‬‫س‬‫پس‬‫تعداد‬
‫فوق‬‫به‬‫عنوان‬‫ورودي‬‫به‬‫الگوريتم‬‫هاي‬‫تيشن‬‫ر‬‫پا‬‫بندي‬‫داده‬‫مي‬‫شود‬‫تا‬‫خوشه‬‫بندي‬‫ا‬‫ر‬‫انجام‬‫دهند‬.‫هر‬‫دو‬‫اين‬‫روشها‬‫در‬
clementine‫وجود‬‫ند‬‫ر‬‫دا‬.
1/14/2016
9
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
49
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫با‬‫ها‬ ‫داده‬‫بندي‬‫خوشه‬Clementine
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
50
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬‫داده‬‫بندي‬ ‫خوشه‬‫با‬Clementine
•‫ها‬ ‫خوشه‬‫مناسب‬‫تعداد‬‫تعيين‬
‫بياوريم‬ ‫بدست‬‫ا‬‫ر‬ ‫ها‬‫خوشه‬ ‫مناسب‬‫تعداد‬ ‫توانيم‬ ‫مي‬ ‫فوق‬ ‫نود‬‫از‬ ‫استفاده‬ ‫با‬.
‫داده‬ ‫هاي‬‫مشخصه‬ ‫به‬‫مربوط‬ ‫هاي‬ ‫ميانگين‬ ‫بين‬‫اختالف‬‫آماري‬‫معناداري‬ ‫خود‬‫خروجي‬‫در‬‫بندي‬‫خوشه‬ ‫هاي‬‫الگوريتم‬‫هاي‬
‫دهند‬‫مي‬‫ائه‬‫ر‬‫ا‬ ‫و‬‫ي‬ ‫بررس‬ ‫ا‬‫ر‬ ‫ها‬ ‫خوشه‬ ‫در‬‫موجود‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
51
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫هاي‬‫الگوريتم‬‫از‬‫استفاده‬ ‫با‬‫مشتريان‬ ‫بندي‬‫خوشه‬K-means , SOM
•‫خو‬‫از‬‫استفاده‬ ‫با‬‫بندي‬‫شه‬K-means
•‫نود‬‫از‬ ‫استفاده‬ ‫با‬ ‫ها‬ ‫خوشه‬‫تعداد‬ ‫شدن‬‫مشخص‬‫از‬‫بعد‬Two step‫از‬ ‫استفاده‬ ‫با‬ ‫توانيم‬ ‫مي‬K-mean‫ا‬‫ر‬ ‫ها‬ ‫خوشه‬
‫آوريم‬‫بدست‬.
‫ورودي‬:K‫ها‬ ‫خوشه‬ ‫تعداد‬ ،.‫داده‬ ‫پایگاه‬X‫شامل‬n، ‫شیء‬X=x1,x2,…,xn, xiϵRm
‫خروجي‬:‫از‬ ‫مجموعه‬ ‫یک‬K‫می‬ ‫حداقل‬ ‫را‬ ‫خطا‬ ‫مربع‬ ‫معیار‬ ‫که‬ ‫خوشه‬‫کند‬.
‫الگوريتم‬:
•‫تصادفی‬ ‫بصورت‬K‫خوشه‬ ‫مراکز‬ ‫عنوان‬ ‫به‬ ‫را‬ ‫دلخواه‬ ‫داده‬‫می‬ ‫انتخاب‬ ‫ابتدایی‬ ‫های‬‫کنیم‬(‫این‬K‫از‬ ‫تصادف‬ ‫به‬ ‫داده‬n‫انتخاب‬ ‫ورودی‬ ‫داده‬
‫می‬‫شوند‬).
•‫خوشه‬ ‫مراکز‬ ‫به‬ ‫آن‬ ‫نزدیکی‬ ‫به‬ ‫توجه‬ ‫با‬ ‫را‬ ‫داده‬ ‫هر‬‫خوشه‬ ‫به‬ ،‫ها‬‫می‬ ‫تخصیص‬ ‫ها‬‫دهیم‬.‫نظ‬ ‫در‬ ‫اقلیدوسی‬ ‫فاصله‬ ‫را‬ ‫نزدیکی‬ ‫معیار‬‫می‬ ‫ر‬‫گیریم‬
‫می‬ ‫بدست‬ ‫زیر‬ ‫رابطه‬ ‫از‬ ‫که‬‫آید‬:
‫آن‬ ‫در‬ ‫که‬xi،i‫و‬ ‫ورودی‬ ‫داده‬ ‫مین‬mj‫مرکز‬(‫میانگین‬)‫خوشه‬j‫است‬ ‫ام‬.‫خوشه‬ ‫در‬ ‫فوق‬ ‫داده‬‫مری‬ ‫قررار‬ ‫ای‬‫کره‬ ‫گیررد‬
‫باشد‬ ‫داشته‬ ‫خوشه‬ ‫آن‬ ‫مرکز‬ ‫با‬ ‫را‬ ‫فاصله‬ ‫کمترین‬.‫داده‬ ‫حسابی‬ ‫میانگین‬ ‫نیز‬ ‫خوشه‬ ‫مرکز‬‫می‬ ‫خوشه‬ ‫آن‬ ‫های‬‫باشد‬.
•‫آوریم‬ ‫می‬ ‫بدست‬ ‫را‬ ‫خوشه‬ ‫اعضای‬ ‫میانگین‬ ‫خوشه‬ ‫هر‬ ‫برای‬ ‫یعنی‬ ‫کنیم‬ ‫می‬ ‫روز‬ ‫به‬ ‫را‬ ‫ها‬ ‫خوشه‬ ‫مراکز‬.
•‫مرحله‬ ‫به‬ ‫ها‬ ‫خوشه‬ ‫جدید‬ ‫مراکز‬ ‫به‬ ‫توجه‬ ‫با‬2‫برمی‬‫می‬ ‫ادامه‬ ‫جایی‬ ‫تا‬ ‫را‬ ‫فوق‬ ‫فرایند‬ ‫و‬ ‫گردیم‬‫خوشه‬ ‫در‬ ‫تغییری‬ ‫هیچ‬ ‫که‬ ‫دهیم‬‫ندهد‬ ‫رخ‬ ‫ها‬
(.‫است‬ ‫یافته‬ ‫پایان‬ ‫الگوریتم‬ ‫حالت‬ ‫این‬ ‫در‬)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
52
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫هاي‬‫الگوريتم‬‫از‬‫استفاده‬ ‫با‬‫مشتريان‬ ‫بندي‬‫خوشه‬K-means , SOM
•‫نقشه‬‫هاي‬‫سازمانده‬‫خود‬(SOM)
•‫نقشه‬‫هاي‬‫و‬‫خودسازمان‬‫يا‬‫ار‬‫ز‬‫اب‬‫خودسازمانده‬‫خوشه‬ ‫اي‬‫ر‬‫ب‬‫قدرتمندي‬‫بندي‬‫و‬‫پيش‬‫داده‬‫پردازش‬‫و‬ ‫ها‬‫الگوريتم‬ ‫يک‬‫يادگيري‬
‫ناظر‬‫بدون‬‫مي‬‫باشند‬.(segmentation—cluster)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
53
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫اعتباري‬ ‫ريسك‬‫مبناي‬‫بر‬ ‫بانك‬‫مشتريان‬ ‫بندي‬‫دسته‬(Credit scoring modeling )
‫مدلسازي‬‫ريسك‬‫اعتباري‬‫يك‬‫مساله‬‫كالسبندي‬‫است‬.
‫مشتريان‬‫بر‬‫مبناي‬‫مشخصات‬‫اجتماعي‬‫و‬‫اكنش‬‫ر‬‫ت‬‫هايي‬‫كه‬‫با‬‫بانك‬‫داشته‬‫اند‬‫به‬‫كالسهاي‬‫مختلف‬‫ريسك‬‫اخت‬‫صاص‬‫مي‬‫يابند‬.
‫آنچه‬‫برای‬‫بانک‬‫اهمیت‬‫دارد‬‫این‬‫است‬‫که‬‫قبل‬‫از‬‫اعطای‬‫تسهیالت‬،‫احتمال‬‫عدم‬‫بازپرداخت‬‫از‬‫سوی‬‫مشتری‬‫ان‬‫را‬
‫ارزیابی‬‫و‬‫گروهی‬‫را‬‫انتخاب‬‫نماید‬.
‫رتبه‬‫بندی‬،‫اعتباری‬‫نظامی‬‫است‬‫که‬‫به‬‫وسیله‬‫آن‬‫بانک‬‫ها‬‫و‬‫مؤسسات‬‫اعتباری‬‫با‬‫استفاده‬‫از‬‫اطالعات‬‫ح‬‫ال‬‫و‬
‫گذشته‬،‫متقاضی‬‫احتمال‬‫عدم‬‫بازپرداخت‬‫وام‬‫توسط‬‫وی‬‫را‬‫ارزیابی‬‫می‬‫کنند‬.
‫مدلهای‬‫رتبه‬‫بندی‬‫اعتبار‬(CS)‫با‬‫استفاده‬‫از‬‫پارامترهای‬‫متعدد‬‫مبتنی‬‫بر‬‫اطالعات‬‫هویتی‬،‫اطالعات‬‫اعتباری‬،
‫سوابق‬‫تسهیالت‬‫بانکی‬،‫اطالعات‬‫قضایی‬،‫ویژگیها‬‫و‬‫عملکرد‬‫وامهای‬‫قبلی‬‫را‬‫مدلسازی‬‫می‬‫نمایند‬‫ت‬‫ا‬‫عملکرد‬‫آتی‬
‫وامهای‬‫با‬‫مشخصات‬‫مشابه‬‫را‬‫پیش‬‫بینی‬‫کنند‬.
‫در‬CS،‫یک‬‫نمره‬‫به‬‫هر‬‫مشتری‬‫اختصاص‬‫داده‬‫می‬‫شود‬‫که‬‫این‬‫نمره‬‫به‬‫عنوان‬‫شاخصی‬‫از‬‫ریسک‬‫مشتریان‬‫ا‬‫ست‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
54
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مشتري‬‫اعتباري‬ ‫ريسك‬‫بر‬‫گذار‬‫تاثير‬‫متغيرهاي‬
‫متغير‬‫پاسخ‬(‫خروجي‬)‫وضعيت‬‫بازپرداخت‬‫وام‬‫توسط‬‫مشتري‬‫است‬‫كه‬‫مي‬‫تواند‬0‫يا‬1‫باشد‬.‫به‬‫معني‬‫عدم‬‫بازپرداخت‬‫و‬
‫بازپرداخت‬‫كامل‬‫است‬.
1/14/2016
10
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
55
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling )
‫در‬‫كالسبند‬‫مدلهاي‬‫از‬ ‫استفاده‬ ‫با‬Clementine‫پيش‬‫و‬ ‫تحليل‬ ‫اي‬‫ر‬‫ب‬‫آن‬‫از‬ ‫و‬ ‫كرد‬‫مشخص‬‫ا‬‫ر‬ ‫فوق‬ ‫هاي‬ ‫دسته‬‫توان‬ ‫مي‬
‫كرد‬ ‫استفاده‬ ‫بيني‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
56
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫كالسبندي‬‫روش‬‫تصميم‬‫درخت‬
‫درخت‬‫تصميم‬‫گيري‬‫يك‬‫ساختار‬‫درختي‬‫شبيه‬‫فلوچارت‬‫است‬‫كه‬‫هر‬‫گره‬‫داخلي‬،‫تستي‬‫ا‬‫ر‬‫بر‬‫روي‬‫هر‬‫ويژگي‬‫مش‬‫خص‬‫مي‬‫كند‬‫و‬
‫هر‬‫شاخه‬‫دستاورد‬‫تست‬‫ا‬‫ر‬‫نشان‬‫مي‬‫دهد‬.
‫در‬‫اين‬‫حالت‬‫هر‬‫گره‬‫داخلي‬‫نمايانگر‬‫يکي‬‫از‬‫متغيرهاي‬‫ورودي‬‫است‬‫که‬‫از‬‫آن‬‫شاخه‬‫ها‬‫با‬‫مقادير‬‫ممکن‬‫اي‬‫ر‬‫ب‬‫مقادير‬‫ورودي‬
‫ايجاد‬‫مي‬‫شوند‬.
‫باالترين‬‫گره‬‫در‬‫درخ‬،‫ت‬‫يشه‬‫ر‬‫نام‬‫دارد‬.‫هر‬‫برگ‬‫نيز‬‫نمايشگر‬‫مقدار‬‫متغير‬‫هدف‬‫به‬‫اي‬‫ز‬‫ا‬‫متغيرهاي‬‫ورودي‬‫است‬‫ک‬‫ه‬‫در‬‫مسير‬
‫ريشه‬‫تا‬‫برگ‬‫مدنظر‬‫اشاره‬‫شده‬‫اند‬.
‫شکل‬‫ي‬ ‫نمايش‬‫از‬‫يک‬‫درخت‬‫تصميم‬‫ا‬‫ر‬‫نشان‬‫مي‬‫دهد‬‫كه‬‫با‬‫توجه‬‫به‬‫ي‬ ‫بررس‬‫هاي‬‫ان‬‫ر‬‫مدي‬‫يک‬‫پايگاه‬‫فروش‬‫مجازي‬‫ق‬‫طعات‬
‫کامپيوتر‬،‫بينندگان‬‫سايت‬‫آيا‬‫ي‬ ‫متقاض‬‫خريد‬‫نيز‬‫مي‬‫گردند‬‫يا‬‫نه؟‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
57
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫تصميم‬‫درخت‬‫يك‬‫آموزش‬‫مراحل‬
‫دو‬‫مرحله‬‫عمده‬‫تکميل‬‫درختان‬‫تصميم‬:‫مرحله‬‫گسترش‬‫درخت‬‫و‬‫هرس‬‫کردن‬‫آن‬‫مي‬‫باشد‬.
‫در‬‫مرحله‬‫گسترش‬‫درخت‬‫با‬‫دخيل‬‫کردن‬‫متغيرهاي‬‫تصميم‬‫و‬‫انتخاب‬‫نقطه‬‫شكست‬‫و‬‫انشعاب‬‫اي‬‫ر‬‫ب‬‫آنها‬‫درخت‬‫به‬‫طرح‬‫اوليه‬‫خود‬‫دست‬‫مي‬‫ي‬‫ابد‬.
‫دور‬‫انداختن‬‫يك‬‫يا‬‫چند‬‫زير‬‫درخت‬‫و‬‫جايگزيني‬‫آنها‬‫با‬،‫برگها‬‫درخت‬‫تصميم‬‫گيري‬‫ا‬‫ر‬‫ساده‬‫مي‬‫سازد‬‫كه‬‫توجه‬‫به‬‫اين‬‫مساله‬‫همان‬‫وظيفه‬‫ا‬‫صلي‬‫در‬‫هرس‬
‫كردن‬‫درخت‬‫تصميم‬‫گيري‬‫است‬.
‫انتخاب‬‫نقطه‬‫شكست‬‫و‬‫انشعاب‬
‫درخت‬‫در‬‫زمان‬‫آموزش‬‫تا‬‫زماني‬‫شاخه‬‫مي‬‫خورد‬‫و‬‫اي‬‫ر‬‫ب‬‫آن‬‫نقطه‬‫انشعاب‬‫تعريف‬‫مي‬‫گردد‬‫که‬‫يا‬‫تمام‬‫مقادير‬‫زيرمجموع‬‫ه‬‫يک‬
‫گره‬‫در‬‫مقدار‬‫هدف‬‫هم‬‫مقدار‬‫باشند‬‫يا‬‫آنکه‬‫انتخاب‬‫معياري‬‫مانند‬‫حداکثر‬‫تعداد‬‫اليه‬،‫از‬‫شاخه‬‫زني‬‫بيشتر‬‫آن‬‫جل‬‫وگيري‬‫کند‬.
‫الگوريتم‬‫هاي‬‫ايجاد‬‫درخت‬‫تصميم‬‫عموما‬‫از‬‫يک‬‫روش‬‫محاسبه‬‫مقداري‬‫اي‬‫ر‬‫ب‬‫انتخاب‬‫بهترين‬‫شاخه‬‫زني‬‫ممکن‬‫در‬‫ه‬‫ر‬‫گام‬
‫استفاده‬‫مي‬‫کنند‬.
‫ي‬ ‫ناخالص‬‫جين‬‫ي‬(Gini impurity)
‫اين‬‫مقدار‬‫در‬‫الگوريتم‬‫معروف‬‫کرت‬‫استفاده‬‫مي‬‫گردد‬.‫در‬‫اين‬‫حالت‬‫فرض‬‫اوليه‬‫بر‬‫تخصيص‬‫احتمالي‬‫ليبل‬‫ها‬‫ب‬‫ه‬‫مجموعه‬
‫هاست‬.‫با‬‫اين‬‫فرض‬‫احتمال‬‫غلط‬‫ليبل‬‫زدن‬‫اي‬‫ر‬‫ب‬‫کليه‬‫برگ‬‫ها‬‫در‬‫هر‬‫گره‬‫محاسبه‬‫مي‬‫گردد‬‫و‬‫نهايتا‬‫گره‬‫با‬‫بيش‬‫ين‬‫ر‬‫ت‬‫مقدار‬
‫کانديداي‬‫انشعاب‬‫مي‬‫گردد‬.
  

m
i
m
i
iiiG ppppI
1 1
2
1)1()(
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
58
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling )
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
59
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مشتريان‬ ‫اعتباري‬ ‫بندي‬ ‫رتبه‬ ‫در‬ ‫پذير‬ ‫تفسیر‬ ‫قوانین‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
60
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مشتريان‬ ‫اعتباري‬ ‫بندي‬ ‫رتبه‬ ‫در‬ ‫پذير‬ ‫تفسیر‬ ‫قوانین‬
1/14/2016
11
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
61
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬‫مدل‬‫ارزيابي‬
•‫شود‬‫مي‬ ‫استفاده‬ ‫ير‬‫ز‬ ‫معيارهاي‬‫از‬ ‫مدلها‬‫ارزيابي‬ ‫اي‬‫ر‬‫ب‬.
.1‫نظمي‬‫بي‬ ‫يس‬‫ر‬‫مات‬(Confusion Matrix)
‫كند‬ ‫مي‬‫ايجاد‬‫ا‬‫ر‬ ‫آنها‬‫بندي‬‫دسته‬‫مدل‬‫يك‬‫احتماال‬‫كه‬‫پردازد‬‫مي‬‫خطاهايي‬‫انواع‬‫سازي‬‫خالصه‬‫به‬‫يس‬‫ر‬‫مات‬‫اين‬.
‫ي‬‫ر‬‫ط‬‫از‬‫ق‬‫نود‬Analysis‫يافت‬‫دست‬‫آن‬ ‫به‬‫توان‬ ‫مي‬.
.2‫حاصل‬(Gain)
.1‫بين‬‫پيش‬‫نرخ‬‫به‬‫توجه‬‫با‬‫ا‬‫ر‬‫بهبود‬‫و‬‫پردازد‬‫مي‬‫جامعه‬‫هاي‬‫بخش‬‫درون‬‫در‬ ‫موجود‬‫مثبت‬‫هاي‬‫بيني‬‫پيش‬‫گيري‬‫اندازه‬‫به‬‫در‬‫مثبت‬‫هاي‬‫ي‬
‫كند‬ ‫مي‬‫گيري‬‫اندازه‬‫جامعه‬‫كل‬.
.2‫هرچه‬Gain‫به‬ ‫نزديكتر‬‫و‬‫بيشتر‬100‫است‬ ‫بهتر‬‫مدل‬‫باشد‬.
.3‫از‬‫استفاده‬ ‫با‬evaluation node‫در‬graph
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
62
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬‫مدل‬ ‫ارزيابي‬
 Gains charts. Cumulative gains charts always start at 0% and end at 100% as you go from left to right. For a good model, the
gains chart will rise steeply toward 100% and then level off. A model that provides no information will follow the diagonal
from lower left to upper right (shown in the chart if Include baseline is selected).
 Lift charts. Cumulative lift charts tend to start above 1.0 and gradually descend until they reach 1.0 as you go from left to
right. The right edge of the chart represents the entire dataset, so the ratio of hits in cumulative quantiles to hits in data is
1.0. For a good model, lift should start well above 1.0 on the left, remain on a high plateau as you move to the right, and
then trail off sharply toward 1.0 on the right side of the chart. For a model that provides no information, the line will hover
around 1.0 for the entire graph. (If Include baseline is selected, a horizontal line at 1.0 is shown in the chart for reference.)
 Response charts. Cumulative response charts tend to be very similar to lift charts except for the scaling. Response charts
usually start near 100% and gradually descend until they reach the overall response rate (total hits / total records) on the
right edge of the chart. For a good model, the line will start near or at 100% on the left, remain on a high plateau as you
move to the right, and then trail off sharply toward the overall response rate on the right side of the chart. For a model that
provides no information, the line will hover around the overall response rate for the entire graph. (If Include baseline is
selected, a horizontal line at the overall response rate is shown in the chart for reference.)
 Profit charts. Cumulative profit charts show the sum of profits as you increase the size of the selected sample, moving from
left to right. Profit charts usually start near 0, increase steadily as you move to the right until they reach a peak or plateau in
the middle, and then decrease toward the right edge of the chart. For a good model, profits will show a well-defined peak
somewhere in the middle of the chart. For a model that provides no information, the line will be relatively straight and may
be increasing, decreasing, or level depending on the cost/revenue structure that applies.
 ROI charts. Cumulative ROI (return on investment) charts tend to be similar to response charts and lift charts except for the
scaling. ROI charts usually start above 0% and gradually descend until they reach the overall ROI for the entire dataset
(which can be negative). For a good model, the line should start well above 0%, remain on a high plateau as you move to the
right, and then trail off rather sharply toward the overall ROI on the right side of the chart. For a model that provides no
information, the line should hover around the overall ROI value.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
63
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫های‬ ‫شبکه‬‫بیزی‬‫اعتبار‬ ‫بندی‬ ‫رتبه‬ ‫جهت‬
•‫معلولی‬ ‫علی‬ ‫روابط‬ ‫کشف‬ ‫برای‬ ‫روشی‬
•‫مشتری‬ ‫اعتباری‬ ‫ریسک‬ ‫سازی‬ ‫مشخصه‬ ‫در‬ ‫ارتباطشان‬ ‫و‬ ‫ها‬ ‫فاکتور‬ ‫اهمیت‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
64
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫بیزی‬ ‫های‬ ‫شبکه‬
‫بیزی‬ ‫ساده‬ ‫کننده‬ ‫بندی‬ ‫دسته‬
‫بیزی‬ ‫باور‬ ‫شبکه‬X1 X2 xn…
Concept C
P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) … P(xn|c)
P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) P(x3|x1,x2,c)P(x4,c)
X1 X2 x4
Concept C
X3
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
65
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫بیزی‬ ‫های‬ ‫شبکه‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
66
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬ ‫داده‬ ‫در‬ ‫شرطی‬ ‫احتماالت‬ ‫جدول‬
1/14/2016
12
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
67
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling )
•‫عصبي‬‫هاي‬ ‫شبكه‬‫از‬‫استفاده‬‫پيشخور‬(MLP)
•‫يکي‬‫متداول‬‫از‬‫ترين‬‫شبکه‬‫انواع‬‫عصبي‬ ‫هاي‬‫حوزه‬ ‫در‬‫که‬‫بيني‬ ‫پيش‬ ‫ي‬‫بکار‬‫مي‬‫شبکه‬‫رود‬‫ال‬‫چند‬‫پرسپترون‬‫يه‬‫اغلب‬‫که‬ ‫است‬
‫شود‬ ‫مي‬ ‫داده‬‫آموزش‬ ‫خطا‬‫انتشار‬‫پس‬‫الگوريتم‬ ‫با‬.
•‫منس‬ ‫مياني‬ ‫اليه‬ ‫چند‬ ‫يا‬ ‫يک‬ ‫و‬ ‫خروجي‬ ‫اليه‬ ‫يک‬ ،‫ورودي‬ ‫اليه‬ ‫يک‬ ‫شامل‬ ‫اليه‬ ‫چند‬ ‫پرسپترون‬ ‫شبکه‬‫به‬ ‫وب‬
‫باشد‬ ‫مي‬ ،‫مخفي‬ ‫هاي‬ ‫اليه‬.‫ال‬ ‫عصبي‬ ‫هاي‬ ‫رشته‬ ‫به‬ ‫که‬ ‫است‬ ‫چندگانه‬ ‫عصبي‬ ‫هاي‬ ‫رشته‬ ‫شامل‬ ‫اليه‬ ‫هر‬‫يه‬
‫شوند‬ ‫مي‬ ‫متصل‬ ‫مجاور‬ ‫هاي‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
68
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫ها‬‫مدل‬‫كارايي‬‫و‬ ‫دقت‬‫ارزيابي‬
‫از‬‫استفاده‬ ‫با‬analysis node‫و‬evaluation node
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
69
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫با‬ ‫بندي‬ ‫دسته‬‫لجستیک‬ ‫رگرسیون‬
‫تفاوت‬‫اساسي‬‫رگرسیون‬‫لجستیک‬‫با‬‫رگرسیون‬‫خطي‬‫تفاوت‬‫در‬‫نوع‬‫متغی‬‫ر‬‫پاسخ‬
‫است‬‫که‬‫رگرسیون‬‫لجستیک‬‫به‬‫مدلسازي‬‫متغیر‬‫پاسخ‬‫به‬‫گونه‬‫گسسته‬‫م‬‫ي‬‫پردازد‬..
‫اين‬،‫تفاوت‬‫هم‬‫در‬‫تعیین‬‫پارامترهاي‬‫مدل‬‫و‬‫هم‬‫در‬‫فرضیات‬‫تأثیر‬‫مي‬‫گذارد‬.
‫در‬‫مسائل‬‫رگرسیون‬‫کمیت‬‫مورد‬‫توجه‬‫مقدار‬‫متوسط‬‫متغیر‬‫پاسخ‬‫است‬‫که‬‫ب‬‫ا‬‫تغییر‬
‫پارامترهاي‬‫توضیحي‬‫هر‬‫مقداري‬‫را‬‫مي‬‫تواند‬‫اختیار‬‫کند‬.‫اما‬‫در‬‫داده‬‫هاي‬‫دودويي‬
‫مقدار‬‫متوسط‬‫پاسخ‬‫در‬‫مدل‬‫به‬‫فرم‬‫مقدار‬‫احتمال‬‫مي‬‫باشد‬.
‫حال‬‫چنانچه‬‫متغیر‬‫پاسخ‬‫گسسته‬‫باشد‬‫اما‬‫بخواهیم‬‫از‬‫فرم‬‫و‬‫امکانات‬‫رگرسی‬‫ون‬
‫خطي‬‫کمک‬‫بگیريم‬‫بايد‬‫تابع‬‫مناسبي‬‫را‬‫براي‬‫تبديل‬‫انتخاب‬‫نمود‬‫که‬‫خص‬‫وصیات‬‫را‬
‫به‬‫خصوصیات‬‫رگرسیون‬‫خطي‬‫تغییر‬‫دهد‬.
69‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
70
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫لجستیک‬ ‫رگرسیون‬
‫فرم‬‫معین‬‫مدل‬‫رگرسیون‬‫لجستیک‬‫به‬‫شکل‬‫زير‬‫است‬:
‫تبديلي‬‫که‬‫ما‬‫را‬‫به‬‫رگرسیون‬‫لجستیک‬‫مي‬‫رساند‬‫تبديل‬‫لجیت‬‫نا‬‫میده‬‫مي‬
‫شود‬‫که‬‫بصورت‬‫زير‬‫تعريف‬‫مي‬‫گردد‬:
70
(x)=x+=)
(x)-1
(x)
ln( 10 


‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
71
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫لجستیک‬ ‫رگرسیون‬
‫تبديل‬‫لجیت‬‫بسیاري‬‫از‬‫خواص‬‫رگرسیون‬‫خطي‬‫را‬‫دارد‬‫چنانکه‬‫نسبت‬‫به‬
‫پارامترها‬‫خطي‬‫و‬‫پیوسته‬‫بوده‬‫و‬‫برد‬‫آن‬‫کل‬‫مجموعه‬‫اعداد‬‫حقیقي‬‫است‬.
‫يک‬‫تفاوت‬‫عمده‬‫باقیمانده‬‫در‬‫توزيع‬‫خطاي‬‫دو‬‫مدل‬‫است‬‫که‬‫در‬‫رگرسیو‬‫ن‬
‫لجیت‬‫از‬‫نوع‬‫دو‬‫جمله‬‫اي‬‫است‬‫و‬‫مانند‬‫رگرسیون‬‫خطي‬‫نمي‬‫توان‬‫آن‬‫را‬‫با‬
‫توزيع‬‫نرمال‬‫فرض‬‫نمود‬.
71
(x)=x+=)
(x)-1
(x)
ln( 10 


  (x)Y
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
72
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫لجستیک‬ ‫رگرسیون‬
‫براي‬‫برآورد‬‫پارامترهاي‬‫مجهول‬‫با‬‫استفاده‬‫از‬‫روش‬‫ماکسیمم‬‫درست‬‫نماي‬‫ي‬
‫داريم‬:
‫براي‬‫يافتن‬‫مقاديري‬‫از‬β‫که‬L(β)‫را‬‫بیشینه‬‫مي‬‫کند‬‫با‬‫مساوي‬‫صفر‬‫قرار‬
‫دادن‬‫مشتقات‬‫حاصل‬‫داريم‬:
‫نتیجتا‬‫معادالت‬‫نسبت‬‫به‬β0‫و‬β1‫غیرخطي‬‫مي‬‫باشند‬‫و‬‫حل‬‫بايد‬‫به‬‫صورت‬
‫عددي‬‫صورت‬‫پذيرد‬.
72
1/14/2016
13
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
73
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Logistic‫در‬Clementine
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
74
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫از‬‫استفاده‬‫با‬ ‫زماني‬ ‫هاي‬ ‫سري‬‫تحليل‬Clementine
‫مي‬‫توان‬‫سري‬‫زماني‬‫ا‬‫ر‬‫دنباله‬‫اي‬‫از‬‫مشاهدات‬‫دانست‬‫که‬‫برحسب‬‫زمان‬‫وقوع‬‫پيشامد‬‫متناظر‬‫با‬‫آن‬‫مشاهدات‬‫مرتب‬‫شده‬،‫اند‬
‫به‬‫عبارت‬‫ديگر‬‫پيشامدهايي‬‫که‬‫وابسته‬‫به‬‫يک‬‫امتر‬‫ر‬‫پا‬‫تغيير‬‫مي‬‫کنند‬‫تشکيل‬‫يک‬‫آيند‬‫ر‬‫ف‬‫ا‬‫ر‬‫مي‬‫دهند‬‫و‬‫متغير‬‫تصادفي‬‫متناظر‬‫با‬
‫اين‬‫آيند‬‫ر‬‫ف‬‫نيز‬‫به‬‫اين‬‫امتر‬‫ر‬‫پا‬‫بستگي‬‫خواهد‬‫داشت‬‫و‬‫اگر‬‫اين‬‫امتر‬‫ر‬‫پا‬‫زمان‬‫باشد‬‫آيند‬‫ر‬‫ف‬‫متناظر‬‫يک‬‫سري‬‫زماني‬‫خواهد‬‫بود‬.
‫توليدات‬‫ساالنه‬‫محصوالت‬‫صنعتي‬‫و‬،‫کشاورزي‬‫قيمت‬‫يک‬‫فلز‬‫يا‬‫کاال‬‫در‬‫زمانهاي‬،‫مختلف‬‫ارزش‬،‫سهام‬‫نرخ‬‫انه‬‫ز‬‫رو‬‫بهره‬‫بانکي‬
‫نرخ‬‫بيکاري‬‫ماهيانه‬،
‫منحني‬‫نمايش‬‫يک‬‫مولفه‬‫ي‬‫فصلي‬St‫و‬‫يک‬‫روند‬‫رو‬‫به‬‫پايين‬‫دارد‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
75
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫از‬ ‫استفاده‬ ‫با‬‫زماني‬ ‫هاي‬‫سري‬‫تحليل‬Clementine
‫سري‬‫مانا‬:‫داده‬‫هاي‬‫مربوط‬‫به‬‫ات‬‫ر‬‫تغيي‬‫ماه‬‫به‬‫ماه‬‫نرخ‬‫هاي‬‫سود‬‫در‬90‫روز‬‫سالهاي‬1981‫تا‬1993‫آمريکا‬‫مي‬‫باشد‬.‫جز‬‫يک‬
‫تغيير‬‫تيز‬‫در‬‫اواخر‬1984‫اين‬‫سري‬‫در‬‫حول‬‫يک‬‫سطح‬‫متوسط‬‫حدودا‬‫صفر‬‫نوسان‬‫مي‬‫کند‬.‫اغلب‬‫ات‬‫ر‬‫تغيي‬‫اقتصادي‬‫هف‬‫ته‬
‫به‬‫هفته‬‫يا‬‫ماه‬‫به‬،‫ماه‬‫فصل‬‫به‬‫فصل‬‫حتي‬‫سال‬‫به‬‫سال‬‫معموال‬‫اينگونه‬‫هستند‬.
‫سري‬‫نامانا‬:‫به‬‫جاي‬‫درنظرگرفتن‬‫ات‬‫ر‬‫تغيي‬‫ماه‬‫به‬‫ماه‬‫در‬‫مثال‬‫قبل‬‫اگر‬‫خود‬‫سري‬‫زماني‬‫نرخ‬‫نود‬‫روزه‬‫در‬‫طول‬‫اين‬‫سالها‬‫ا‬‫ر‬‫در‬
‫نظر‬‫بگيريم‬‫به‬‫رفتار‬‫ديگري‬‫برخورد‬‫مي‬‫کنيم‬.‫اه‬‫ر‬‫حل‬:‫استفاده‬‫از‬‫تفاضل‬‫گيري‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
76
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫زماني‬‫سري‬‫هاي‬‫مدل‬‫پيشرفت‬‫روند‬
‫مرتبه‬‫اتورگرسيو‬ ‫سري‬P
AR(P)
‫مرتبه‬‫متحرک‬‫ميانگين‬‫زماني‬‫سري‬ ‫هاي‬‫مدل‬q
MA(q)
‫چنانچه‬‫مدل‬ARMA‫اي‬‫ر‬‫دا‬‫يک‬‫روند‬d‫باشد‬‫مدل‬
‫حاصل‬ARIMA‫خواهد‬‫بود‬
‫انباشته‬‫اتورگرسيو‬‫متحرک‬‫ميانگين‬‫زماني‬ ‫سري‬‫مدل‬
ARIMA(p,d,q)
‫اتب‬‫ر‬‫م‬ ‫با‬‫رگرسيو‬‫اتو‬‫متحرک‬‫ميانگين‬‫زماني‬‫سري‬‫مدل‬(p,q)
AR(p) + MA(q)=ARMA (p,q)
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
77
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫سري‬‫اتورگرسيو‬‫مرتبه‬p:
‫سري‬‫اتورگرسيو‬‫مرتبه‬p‫که‬‫آن‬‫ا‬‫ر‬‫با‬AR(p)‫نشان‬‫مي‬‫دهيم‬‫به‬‫صورت‬‫زير‬‫تعريف‬‫مي‬‫شود‬.
‫که‬‫در‬‫آن‬‫بوده‬‫و‬‫دو‬‫بدو‬‫ناهمبسته‬‫اند‬‫يعني‬،
p
t i t i t
i 1
AR(p): X a X Z

 
‫مدل‬‫هاي‬‫سري‬‫زماني‬‫ميانگين‬‫متحرک‬‫مرتبه‬q:
‫سري‬‫زماني‬‫ميانگين‬‫متحرک‬‫تبه‬‫ر‬‫م‬q‫که‬‫آن‬‫ا‬‫ر‬‫با‬MA(q)‫نشان‬‫مي‬‫دهند‬‫به‬‫صورت‬‫ير‬‫ز‬‫است‬.
‫که‬
‫که‬‫و‬bi‫اند‬ ‫معلوم‬‫هايي‬ ‫ثابت‬‫ها‬.
t s 
2
t z tZ ~ N(0, ) ; 
q
t i t i
i 0
MA(q) ; X b Z 

 
0b 1
2
tZ ~ N(0, )t scov(Z ,Z ) 0
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
78
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مدل‬𝑨𝑹𝑴𝑨 (𝒑,𝒒) ∶
‫سري‬‫زماني‬𝐴𝑅𝑀𝐴(𝑝,𝑞)‫به‬‫صورت‬‫ير‬‫ز‬‫يف‬‫ر‬‫تع‬‫مي‬‫شود‬.
‫و‬‫و‬
‫گرفتن‬ ‫نظر‬‫در‬ ‫با‬ ‫توان‬‫مي‬‫نوشت‬ ‫ير‬‫ز‬‫صورت‬ ‫به‬‫ا‬‫ر‬ ‫سري‬ ‫اين‬.
‫يا‬
‫که‬‫تبه‬‫ر‬‫م‬ ‫الجمله‬‫ر‬‫کثي‬ ‫آن‬‫در‬𝑝‫و‬‫تبه‬‫ر‬‫م‬ ‫الجمله‬‫ر‬‫کثي‬‫يک‬q‫است‬.
p q
i t i i t i 0 0
i 0 i 0
a X b Z ; a b 1 
 
   
2
t zZ ~ N(0, )t s t s,cov(Z ,Z ) 0 
r
t t rB X X 
p q
i i
i t i t
i 0 i 0
a B X b B Z
 
 
p q
i i
i t i t
i 0 i 0
( a B )X ( b B )Z
 
  t t(B)X (B)Z   
(B)(B)
1/14/2016
14
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
79
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مدل‬𝑨𝑹𝑰𝑴𝑨 (𝒑,𝒅,𝒒)
‫مدل‬‫هاي‬‫سري‬‫زماني‬𝑨𝑹𝑰𝑴𝑨‫بيشتر‬‫اي‬‫ر‬‫ب‬‫سري‬‫هاي‬‫نامانا‬‫مطرح‬‫مي‬‫باشند‬.
‫قبال‬‫ديديم‬‫که‬‫مدل‬𝑨𝑹𝑴𝑨(𝒑,𝒒)‫ا‬‫ر‬‫مي‬‫توان‬‫در‬‫حالت‬‫کلي‬‫بصورت‬‫زير‬‫نوشت‬:
‫حال‬‫اگر‬‫بتوان‬‫سري‬‫ا‬‫ر‬‫بصورت‬‫زير‬‫نوشت‬:
‫که‬‫چند‬‫جمله‬‫اي‬‫از‬‫مرتبه‬‫است‬.‫مدل‬‫فوق‬‫ا‬‫ر‬‫مدل‬𝑨𝑹𝑰𝑴𝑨(𝒑,𝒅,𝒒)‫مي‬‫نامند‬.
‫اين‬‫ر‬‫بناب‬‫مدل‬‫هاي‬‫آريما‬‫اي‬‫ر‬‫ب‬‫سري‬‫هاي‬‫زماني‬‫با‬‫روند‬‫مناسب‬‫مي‬‫باشند‬.
t t(B)X (B)Z (1)  
d
1 t t(B).(1 B) X (B)Z (2)   
1(B)1P p d 
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
80
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫مساله‬‫پيش‬‫بيني‬‫فروش‬‫يك‬‫شركت‬‫ارائه‬‫كننده‬‫خدمات‬‫اينترنت‬
‫نود‬‫هاي‬‫مورد‬‫استفاده‬:
‫نود‬Time interval‫اي‬‫ر‬‫ب‬‫مشخص‬‫كردن‬‫دوره‬‫سري‬‫زماني‬(‫ماهانه‬،‫ساالنه‬‫يا‬...)،‫داده‬‫هاي‬‫مورد‬‫استفاده‬‫اي‬‫ر‬‫ب‬‫تخم‬‫ين‬
‫مدل‬‫و‬‫تعداد‬‫دوره‬‫آتي‬‫اي‬‫ر‬‫ب‬‫پيش‬‫بيني‬‫بكار‬‫مي‬‫ورد‬.
‫نود‬Time series‫اي‬‫ر‬‫ب‬‫مشخص‬‫كردن‬‫نوع‬‫مدل‬‫تحليل‬‫سري‬‫زماني‬‫بكار‬‫مي‬‫رود‬.
‫مساله‬:
‫داده‬‫هاي‬‫مورد‬‫استفاده‬‫مربوط‬‫به‬‫فروش‬‫ماهيانه‬‫مودم‬‫هاي‬‫يك‬‫شركت‬‫در‬‫يكا‬‫ر‬‫آم‬‫مي‬‫باشد‬‫كه‬‫در‬‫ارهاي‬‫ز‬‫با‬‫مخ‬‫تلف‬
‫انجام‬‫مي‬‫شود‬.
‫هدف‬‫پيش‬‫بيني‬‫سري‬‫زماني‬‫فروش‬‫اي‬‫ر‬‫ب‬‫دوره‬‫هاي‬‫آتي‬‫با‬‫استفاده‬‫از‬‫مدلهاي‬‫مختلف‬‫سري‬‫زماني‬‫است‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
81
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫نت‬‫ر‬‫اينت‬‫خدمات‬‫كننده‬‫ارائه‬‫شركت‬‫يك‬‫فروش‬‫بيني‬‫پيش‬‫مساله‬
 Q. The Ljung-Box Q statistic. A test of the randomness of the residual errors in this model.
 df. Degrees of freedom. The number of model parameters that are free to vary when estimating a particular target.
 Sig. Significance value of the Ljung-Box statistic. A significance value less than 0.05 indicates that the residual errors are not
random.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
82
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫عصبي‬ ‫هاي‬‫شبكه‬‫از‬ ‫استفاده‬ ‫با‬‫بيني‬‫پيش‬MLP
•‫روند‬ ‫بكار‬‫منحني‬ ‫هر‬‫بيني‬‫پيش‬‫اي‬‫ر‬‫ب‬ ‫توانند‬ ‫مي‬‫عصبي‬‫هاي‬ ‫شبكه‬.
•‫مساله‬:‫سهام‬‫انه‬‫ز‬‫رو‬ ‫قيمت‬‫بيني‬‫پيش‬
•‫وردي‬‫هاي‬‫متغير‬:open price , close price,High price,low price
•‫خروجي‬‫متغير‬:Next day price
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
83
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫تحليل‬‫وابستگي‬‫قواعد‬‫از‬ ‫استفاده‬ ‫با‬Clementine
‫قوانین‬،‫وابستگی‬‫الگوهای‬‫موجود‬‫در‬‫داده‬‫ها‬‫را‬‫بدون‬‫زمینه‬‫هدف‬‫خاصی‬‫نشان‬‫می‬‫دهند‬.
‫به‬‫همین‬‫دلیل‬‫این‬‫قوانین‬‫نمونه‬‫ای‬‫از‬‫داده‬‫کاوي‬‫هدايت‬‫نشده‬‫هستند‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
84
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine
‫در‬ ‫وابستگي‬‫قواعد‬‫تحليل‬Clementine
1/14/2016
15
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
85
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine
‫زمينه‬‫اين‬‫در‬ ‫معروف‬ ‫هاي‬‫الگوريتم‬‫از‬ ‫يكي‬Apriori‫است‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
86
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
87
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine
•‫مساله‬:‫داده‬‫هاي‬‫يد‬‫ر‬‫خ‬‫يان‬‫ر‬‫مشت‬‫در‬‫دسترس‬‫است‬‫و‬‫ان‬‫ر‬‫مدي‬‫فروشگاه‬‫مي‬‫خواهند‬‫قواعد‬
‫يدي‬‫ر‬‫خ‬‫ا‬‫ر‬‫از‬‫اين‬‫داده‬‫ها‬‫اج‬‫ر‬‫استخ‬‫كنند‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
88
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
89
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫تحليل‬‫و‬ ‫تجزيه‬RFM
‫در‬‫كسب‬‫و‬،‫كارها‬‫مجموعه‬‫داده‬‫هاي‬‫اکنش‬‫ر‬‫ت‬‫به‬‫عنوان‬‫مجموعه‬‫هاي‬‫ورودي‬‫اي‬‫ر‬‫ب‬‫بخش‬‫بندي‬‫يان‬‫ر‬‫مشت‬‫فر‬‫ض‬
‫مي‬‫شوند‬.‫ارزش‬RFM‫به‬‫عنوان‬‫شاخص‬‫هاي‬‫تبه‬‫ر‬‫بندي‬‫فتاري‬‫ر‬‫که‬‫بر‬‫بخش‬‫بندي‬‫يان‬‫ر‬‫مشت‬‫تأثير‬‫مي‬‫گ‬‫ذارد‬‫فرض‬
‫شده‬‫اند‬.
Recency:‫فاصله‬‫ميان‬‫زمان‬‫ين‬‫ر‬‫آخ‬‫اکنش‬‫ر‬‫ت‬‫مشتري‬‫مورد‬ ‫زمان‬ ‫تا‬‫ارزيابي‬
Frequency:‫تعداد‬‫يان‬‫ر‬‫مشت‬ ‫يدهاي‬‫ر‬‫خ‬‫در‬‫يک‬‫بازه‬‫زماني‬‫خاص‬
Monetary:‫ميانگين‬‫اکنش‬‫ر‬‫ت‬ ‫مبالغ‬‫مشتري‬‫در‬‫يک‬‫بازه‬‫زماني‬‫خاص‬
‫با‬‫استفاده‬‫از‬‫نود‬‫هاي‬clementine‫مي‬‫توانيم‬‫براي‬‫مجموعه‬‫اكنش‬‫ر‬‫ت‬‫هاي‬‫يان‬‫ر‬‫مشت‬RFM‫ا‬‫ر‬‫بدست‬‫آوريم‬.
‫نود‬RFM aggregate‫مقادير‬RFM‫ا‬‫ر‬‫براي‬‫يان‬‫ر‬‫مشت‬‫بدست‬‫مي‬‫دهد‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
90
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫نود‬RFM Analysis
•‫توان‬ ‫مي‬ ،‫نود‬‫اين‬ ‫از‬ ‫استفاده‬ ‫با‬Weighed RFM Score‫آورد‬ ‫بدست‬ ‫يان‬‫ر‬‫مشت‬ ‫اي‬‫ر‬‫ب‬‫ا‬‫ر‬.
•‫به‬ ‫بوط‬‫ر‬‫م‬ ‫وزن‬‫مقادير‬ ‫نود‬‫اين‬ ‫در‬RFM‫گردد‬‫مي‬ ‫امتيازلحاظ‬‫محاسبه‬ ‫جهت‬‫خبرگان‬ ‫نظر‬ ‫با‬.
•‫متغيرهاي‬‫از‬‫كدام‬ ‫هر‬RFM‫گردد‬ ‫مي‬ ‫لحاظ‬ ‫امتيازي‬ ‫بازه‬‫هر‬ ‫اي‬‫ر‬‫ب‬ ‫و‬‫شوند‬ ‫مي‬ ‫تقسيم‬‫هايي‬ ‫بازه‬‫به‬،.
•‫آورد‬‫بدست‬ ‫ا‬‫ر‬ ‫مشتري‬ ‫اعتباري‬ ‫تبه‬‫ر‬ ‫توان‬ ‫مي‬ ‫نهايت‬ ‫در‬.
1/14/2016
16
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
91
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫تحليل‬‫از‬ ‫استفاده‬ ‫با‬ ‫يابي‬‫ر‬‫بازا‬‫فعاليت‬ ‫به‬‫يان‬‫ر‬‫مشت‬ ‫پاسخ‬‫مدلسازي‬RFM
‫مساله‬:‫تحليل‬‫از‬‫استفاده‬RFM‫ياب‬‫ر‬‫ا‬‫ز‬‫با‬‫هاي‬‫فعاليت‬ ‫به‬ ‫يان‬‫ر‬‫مشت‬‫پاسخ‬ ‫مدلسازي‬ ‫اي‬‫ر‬‫ب‬‫ي‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
92
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
‫كاوي‬ ‫داده‬‫تركيبي‬ ‫هاي‬‫مدل‬(Hybrid models)
‫در‬stream‫بن‬‫خوشه‬ ،‫مشخصه‬ ‫انتخاب‬‫هاي‬ ‫الگوريتم‬‫تركيب‬ ‫با‬‫ماژوالر‬‫كالسبند‬ ‫سيستم‬ ‫يك‬ ‫ير‬‫ز‬‫و‬‫دي‬
‫است‬‫شده‬ ‫ايجاد‬‫كالسبندي‬.
‫يك‬‫خوشه‬‫هر‬ ‫اي‬‫ر‬‫ب‬ ‫و‬‫شوند‬ ‫مي‬ ‫بندي‬‫خوشه‬‫ها‬ ‫داده‬،‫ها‬ ‫داده‬ ‫تمام‬ ‫از‬ ‫استفاده‬ ‫با‬‫مساله‬ ‫كردن‬‫مدل‬ ‫جاي‬‫به‬‫مدل‬
‫بيند‬ ‫مي‬‫آموزش‬‫كالسبند‬.
‫است‬‫بيشتر‬ ‫عموما‬ ‫ديگر‬‫مدلهاي‬ ‫از‬‫ماژوالر‬‫مدلهاي‬‫دقت‬.
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
93
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
•‫برگزاری‬‫دوره‬‫های‬‫داده‬،‫کاوی‬‫شبکه‬‫های‬‫عصبی‬،‫سیستم‬
‫های‬‫فازی‬:
–‫تئوری‬‫مدل‬‫ها‬‫و‬‫الگوریتم‬‫ها‬
–‫پیاده‬‫سازی‬‫در‬‫نرم‬‫افزارهای‬‫مختلف‬‫و‬‫کدینک‬‫با‬MATLAB
–‫موضوعات‬‫تحقیقاتی‬‫اخیر‬‫در‬‫حوزه‬‫داده‬‫کاوی‬
–‫کاربردهای‬‫داده‬‫کاوی‬‫در‬‫تدوین‬،‫استراتژی‬،‫بازاریابی‬‫تولید‬‫و‬...
‫مدرس‬:‫دکتر‬‫اسماعیل‬‫هداوندی‬(‫دکترای‬‫مهندسی‬‫صنایع‬‫دانشگاه‬
‫صنعتی‬‫امیرکبیر‬‫و‬‫عضو‬‫هیات‬‫علمی‬‫دانشگاه‬)

Mais conteúdo relacionado

Destaque

Equipment and human resource management in construction project
Equipment and human resource management in construction projectEquipment and human resource management in construction project
Equipment and human resource management in construction projectBabak Farahmand Shad
 
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرختدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخSeyedbahira Farzadkish
 
SAP Business Objects
SAP Business ObjectsSAP Business Objects
SAP Business ObjectsPaniz Fazlali
 
ضرورت پیاده سازی Isms
ضرورت پیاده سازی Ismsضرورت پیاده سازی Isms
ضرورت پیاده سازی IsmsMuhammad Bayat
 
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازیگزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازیSeyedbahira Farzadkish
 
Dss dr monem- first session
Dss dr monem- first sessionDss dr monem- first session
Dss dr monem- first sessionHossein Monem
 
Answer the question of trojan tech. case study
Answer the question of trojan tech. case studyAnswer the question of trojan tech. case study
Answer the question of trojan tech. case studySeyedbahira Farzadkish
 
ساختار سازماني و سازماندهی
ساختار سازماني و سازماندهیساختار سازماني و سازماندهی
ساختار سازماني و سازماندهیMorteza Noshad
 

Destaque (13)

Equipment and human resource management in construction project
Equipment and human resource management in construction projectEquipment and human resource management in construction project
Equipment and human resource management in construction project
 
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرختدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
تدوین برنامه عملیاتی برای گلاب زهرا و بانوی گل سرخ
 
پروژه سیستم کنفرانس مخابرات استان کرمانشاه
پروژه سیستم کنفرانس مخابرات استان کرمانشاهپروژه سیستم کنفرانس مخابرات استان کرمانشاه
پروژه سیستم کنفرانس مخابرات استان کرمانشاه
 
SAP Business Objects
SAP Business ObjectsSAP Business Objects
SAP Business Objects
 
C#fasl3 2
C#fasl3 2C#fasl3 2
C#fasl3 2
 
ERP Implementation
ERP ImplementationERP Implementation
ERP Implementation
 
ضرورت پیاده سازی Isms
ضرورت پیاده سازی Ismsضرورت پیاده سازی Isms
ضرورت پیاده سازی Isms
 
Project about economic engineering
Project about economic engineeringProject about economic engineering
Project about economic engineering
 
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازیگزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
گزارش از ساختمانهای پروژه مهر سازمان مسکن و شهرسازی
 
Dss dr monem- first session
Dss dr monem- first sessionDss dr monem- first session
Dss dr monem- first session
 
DB Indexing
DB IndexingDB Indexing
DB Indexing
 
Answer the question of trojan tech. case study
Answer the question of trojan tech. case studyAnswer the question of trojan tech. case study
Answer the question of trojan tech. case study
 
ساختار سازماني و سازماندهی
ساختار سازماني و سازماندهیساختار سازماني و سازماندهی
ساختار سازماني و سازماندهی
 

Semelhante a Ibm modeler

Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازIntroduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازMobin Ranjbar
 
RUP (Rational Unified Process)
RUP (Rational Unified Process)RUP (Rational Unified Process)
RUP (Rational Unified Process)Javad Pourhosaini
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracleghanadbashi
 
Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار efazati
 
مهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهدمهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهدعباس بني اسدي مقدم
 
مفاهیم اولیه داکر
مفاهیم اولیه داکرمفاهیم اولیه داکر
مفاهیم اولیه داکرAli Rasoulian
 
چارچوب متن باز جهت توسعه سیستم های نرم افزاری
چارچوب متن باز جهت توسعه سیستم های نرم افزاریچارچوب متن باز جهت توسعه سیستم های نرم افزاری
چارچوب متن باز جهت توسعه سیستم های نرم افزاریعباس بني اسدي مقدم
 
Big Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsBig Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsFarzad Nozarian
 
Machine learning and big-data-in-physics 13970711-Dr. Amin Nezarat
Machine learning and big-data-in-physics 13970711-Dr. Amin NezaratMachine learning and big-data-in-physics 13970711-Dr. Amin Nezarat
Machine learning and big-data-in-physics 13970711-Dr. Amin Nezarataminnezarat
 
Data cleansing
Data cleansingData cleansing
Data cleansingSiminZolfi
 
Security tools - ابزارهای امنیتی
Security tools - ابزارهای امنیتیSecurity tools - ابزارهای امنیتی
Security tools - ابزارهای امنیتیMehdi Esmaeilpour
 
مقدمه ای بر هوش تجاری
مقدمه ای بر هوش تجاریمقدمه ای بر هوش تجاری
مقدمه ای بر هوش تجاریZahra Mansoori
 
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب Mohammad Ahmadzadeh
 
DadehKavan,Mashhad,Oracle ADF,Oracle Business Architectre
DadehKavan,Mashhad,Oracle ADF,Oracle Business ArchitectreDadehKavan,Mashhad,Oracle ADF,Oracle Business Architectre
DadehKavan,Mashhad,Oracle ADF,Oracle Business ArchitectreHamed Roknizadeh
 
راهنماي راه اندازی سرویس Golden Gate Microservices
راهنماي  راه اندازی سرویس Golden Gate  Microservicesراهنماي  راه اندازی سرویس Golden Gate  Microservices
راهنماي راه اندازی سرویس Golden Gate MicroservicesMojtaba Khandan
 

Semelhante a Ibm modeler (20)

Crisp dm.1.0
Crisp dm.1.0Crisp dm.1.0
Crisp dm.1.0
 
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازIntroduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
 
RUP (Rational Unified Process)
RUP (Rational Unified Process)RUP (Rational Unified Process)
RUP (Rational Unified Process)
 
Microsoft BI Sumery
Microsoft BI SumeryMicrosoft BI Sumery
Microsoft BI Sumery
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracle
 
Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار
 
Efazati opendata slides
Efazati opendata slidesEfazati opendata slides
Efazati opendata slides
 
مهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهدمهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهد
 
Scrum Presentation
Scrum PresentationScrum Presentation
Scrum Presentation
 
مفاهیم اولیه داکر
مفاهیم اولیه داکرمفاهیم اولیه داکر
مفاهیم اولیه داکر
 
Sql tuning
Sql tuningSql tuning
Sql tuning
 
چارچوب متن باز جهت توسعه سیستم های نرم افزاری
چارچوب متن باز جهت توسعه سیستم های نرم افزاریچارچوب متن باز جهت توسعه سیستم های نرم افزاری
چارچوب متن باز جهت توسعه سیستم های نرم افزاری
 
Big Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsBig Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing Environments
 
Machine learning and big-data-in-physics 13970711-Dr. Amin Nezarat
Machine learning and big-data-in-physics 13970711-Dr. Amin NezaratMachine learning and big-data-in-physics 13970711-Dr. Amin Nezarat
Machine learning and big-data-in-physics 13970711-Dr. Amin Nezarat
 
Data cleansing
Data cleansingData cleansing
Data cleansing
 
Security tools - ابزارهای امنیتی
Security tools - ابزارهای امنیتیSecurity tools - ابزارهای امنیتی
Security tools - ابزارهای امنیتی
 
مقدمه ای بر هوش تجاری
مقدمه ای بر هوش تجاریمقدمه ای بر هوش تجاری
مقدمه ای بر هوش تجاری
 
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
 
DadehKavan,Mashhad,Oracle ADF,Oracle Business Architectre
DadehKavan,Mashhad,Oracle ADF,Oracle Business ArchitectreDadehKavan,Mashhad,Oracle ADF,Oracle Business Architectre
DadehKavan,Mashhad,Oracle ADF,Oracle Business Architectre
 
راهنماي راه اندازی سرویس Golden Gate Microservices
راهنماي  راه اندازی سرویس Golden Gate  Microservicesراهنماي  راه اندازی سرویس Golden Gate  Microservices
راهنماي راه اندازی سرویس Golden Gate Microservices
 

Ibm modeler

  • 1. 1/14/2016 1 Data Mining in Clementine 12 ‫داده‬‫ي‬‫کاو‬‫پيشرفته‬‫در‬‫نرم‬ ‫افزار‬Clementine IBM SPSS MODELER ‫هداوندی‬‫اسماعیل‬‫دکتر‬ ‫دانشگاه‬‫علمی‬ ‫هیات‬‫و‬‫صنایع‬‫ی‬ ‫مهندس‬‫ای‬‫ر‬‫دکت‬ ‫تخصصي‬ ‫آموزشي‬ ‫کارگاه‬:‫کلمنتاين‬ ‫افزار‬ ‫نرم‬ ‫در‬ ‫کاوي‬ ‫داده‬ 1 ‫الرحيم‬ ‫الرحمن‬ ‫اهلل‬ ‫بسم‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 2 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Spss Clementine 12 Spss Clementine A data mining software for business solution ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 3 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫افزار‬ ‫نرم‬ ‫كاري‬ ‫محيط‬Clementine •‫افزا‬ ‫نرم‬ ‫در‬ ‫شده‬ ‫سازي‬ ‫پياده‬ ‫هاي‬ ‫الگوريتم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬ ‫توسعه‬‫ر‬ •‫ها‬ ‫داده‬ ‫پردازش‬ ‫پيش‬(‫و‬ ‫فاكتور‬ ‫آناليز‬ ،‫همبستگي‬ ‫تحليل‬) ... •‫بندي‬ ‫خوشه‬ •‫كالسبندي‬ •‫بيني‬ ‫پيش‬ •‫وابستگي‬ ‫قواعد‬ •‫و‬.... ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 4 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ار‬‫ز‬‫اف‬‫نرم‬ ‫كاري‬ ‫محيط‬clementine ‫مرحله‬ ‫سه‬ ‫در‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬ ‫توسعه‬( :‫طراحي‬Data Stream) .1‫افزار‬ ‫نرم‬ ‫در‬ ‫ها‬ ‫داده‬ ‫بارگذاري‬ .2‫مختلف‬ ‫هاي‬ ‫الگوريتم‬ ‫تركيب‬ ‫با‬ ‫كاوي‬ ‫داده‬ ‫مدل‬ ‫توسعه‬ .3‫مدلها‬ ‫خروجي‬ ‫ذخيره‬ ‫و‬ ‫نمايش‬ ‫در‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬Stream Canvas‫شوند‬ ‫مي‬ ‫داده‬ ‫توسعه‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 5 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ار‬‫ز‬‫اف‬‫نرم‬ ‫كاري‬ ‫محيط‬clementine •‫در‬ ‫شده‬ ‫سازي‬ ‫پياده‬ ‫هاي‬ ‫الگوريتم‬Clementine‫بصورت‬Node‫در‬ ‫هايي‬Nodes Palette‫قرار‬ ‫دارند‬.  Sources. Nodes bring data into Clementine. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 6 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Node palettes‫در‬Clementine  Record Ops. Nodes perform operations on data records, such as selecting, merging, and appending.  Field Ops. Nodes perform operations on data fields, such as filtering, deriving new fields, and determining the data type for given fields.  Graphs. Nodes graphically display data before and after modeling. Graphs include plots, histograms, web nodes, and evaluation charts.
  • 2. 1/14/2016 2 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 7 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Node palettes‫در‬Clementine  Modeling. Nodes use the modeling algorithms available in Clementine, such as neural nets, decision trees, clustering algorithms, and data sequencing.  Output. Nodes produce a variety of output for data, charts, and model results, which can be viewed in Clementine or sent directly to another application, such as SPSS or Excel. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 8 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫افزار‬ ‫نرم‬ ‫مديريت‬ ‫بخش‬(Clementine Manager) •‫از‬ ‫استفاده‬ ‫با‬Stream Tab‫كنيم‬ ‫بازيابي‬ ‫حذف‬ ، ‫ذخيره‬ ‫را‬ ‫داده‬ ‫توسعه‬ ‫مدلهاي‬ ‫توانيم‬ ‫مي‬. •‫از‬ ‫استفاده‬ ‫با‬Output Tab‫افزار‬ ‫نرم‬ ‫توسط‬ ‫شده‬ ‫توليد‬ ‫مختلف‬ ‫هاي‬ ‫خروجي‬ ‫و‬ ‫ها‬ ‫فايل‬(‫مانن‬‫د‬ ‫و‬ ‫نمودارها‬ ،‫جداول‬) ...‫كنيم‬ ‫مشاهده‬ ‫توانيم‬ ‫مي‬ ‫را‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 9 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫افزار‬ ‫نرم‬ ‫مديريت‬ ‫بخش‬(Clementine Manager) •Model Tab‫است‬ ‫افزار‬ ‫نرم‬ ‫امكانات‬ ‫قدرتمندترين‬ ‫از‬ ‫يكي‬. •‫كنيم‬ ‫مي‬ ‫سازي‬ ‫پياده‬ ‫ها‬ ‫داده‬ ‫روي‬ ‫بر‬ ‫افزار‬ ‫نرم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫را‬ ‫مدلي‬ ‫وقتي‬(‫دهيم‬ ‫مي‬ ‫آموزش‬)‫د‬ ‫آموزش‬ ‫مدل‬ ،‫شده‬ ‫اده‬ ‫بصورت‬ ‫بخش‬ ‫اين‬ ‫در‬Node‫آيد‬ ‫مي‬ ‫بوجود‬ ‫رنگ‬ ‫زرد‬. •‫اين‬ ‫از‬‫استفاده‬ ‫با‬Node‫داده‬ ‫براي‬ ‫نتايج‬ ‫بيني‬ ‫پيش‬ ‫همچون‬ ‫اموري‬ ‫براي‬ ‫نظر‬ ‫مورد‬ ‫مدل‬ ‫از‬ ‫توانيم‬ ‫مي‬ ‫رنگ‬ ‫زرد‬‫هاي‬ ‫و‬ ‫تحليل‬ ،‫جديد‬...‫كرد‬‫استفاده‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 10 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi CRISP-DM view and Classes view of a project file •‫كامل‬‫بطور‬‫قسمت‬ ‫اين‬‫در‬ ‫ا‬‫ر‬ ‫كاوي‬‫داده‬ ‫شده‬‫داده‬ ‫توسعه‬‫مدلهاي‬ ‫و‬‫ها‬ ‫پروژه‬ ‫توانيم‬‫مي‬( ‫و‬‫ها‬ ‫خروجي‬،‫داده‬ ‫مجموعه‬‫با‬ ‫اه‬‫ر‬‫هم‬) ...‫كنيم‬‫ذخيره‬‫يم‬‫ر‬‫بگي‬‫هايي‬ ‫ارش‬‫ز‬‫گ‬‫آنها‬‫از‬ ‫و‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 11 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Record op: Select Node ‫با‬‫بكارگيري‬Select Node‫مي‬‫توانيم‬‫ركوردهايي‬‫كه‬‫داراي‬‫شرايط‬‫تعيين‬‫شده‬ ‫هستند‬‫را‬‫انتخاب‬‫و‬‫فيلتر‬‫نماييم‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 12 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Record op:Sample Node ‫با‬‫استفاده‬‫از‬‫اين‬Node‫مي‬‫توانيم‬‫به‬‫روشهاي‬‫مختلف‬‫از‬‫مجموعه‬‫داده‬‫هايمان‬‫نمونه‬ ‫گيري‬‫نماييم‬. ‫با‬‫انتخاب‬‫روشهاي‬Simple‫و‬‫با‬‫انتخاب‬‫يكي‬ ‫از‬‫گزينه‬‫ها‬‫مي‬‫توانيم‬‫نحوه‬‫انتخاب‬‫يک‬‫ركورد‬ ‫در‬‫نمونه‬‫را‬‫مشخص‬‫نماييم‬. ‫مثال‬random‫مشخص‬‫مي‬‫كند‬‫هر‬‫ركوردبا‬‫چه‬ ‫احتمالي‬‫در‬‫نمونه‬‫ما‬‫باشد‬. ‫با‬‫انتخاب‬‫روشهاي‬Complex‫مي‬‫توانيم‬‫با‬ ‫روش‬stratified sampling‫كار‬‫كنيم‬
  • 3. 1/14/2016 3 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 13 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Record op: Sample Node ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 14 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Record op: Balance Node ‫جهت‬‫متوازن‬‫ساختن‬‫تعداد‬‫رکوردها‬‫با‬‫بکارگیری‬‫یک‬‫شرط‬‫و‬‫یک‬‫فاکتور‬‫است‬‫فاده‬‫می‬ ‫شود‬. ‫رکوردهایی‬‫که‬‫می‬‫خواهیم‬‫تعدادشان‬‫متوازن‬‫شود‬‫با‬‫شرط‬‫مدنظرمان‬‫معین‬‫می‬‫ش‬‫وند‬ ‫و‬‫اگر‬‫فاکتور‬‫کمتر‬‫از‬1‫بو‬‫کمتر‬‫شده‬‫و‬‫از‬‫بیشتر‬‫از‬1‫بود‬‫بیشتر‬‫می‬‫شوند‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 15 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Record op: Aggregate Node ‫جهت‬‫فراهم‬‫آوردن‬‫اطالعات‬‫خالصه‬‫و‬‫آماره‬‫هاي‬‫كليدي‬‫در‬‫مجموعه‬‫داده‬‫هايي‬‫گه‬‫با‬ ‫يک‬‫كليد‬(‫مانند‬‫شماره‬‫مشتري‬‫در‬‫داده‬‫هاي‬‫بانک‬‫ها‬)‫مشخصه‬‫سازي‬‫شده‬‫اند‬‫ب‬‫ه‬‫كار‬ ‫مي‬‫رود‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 16 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Record op: Distinct Node ‫براي‬‫شناسايي‬‫ركوردهايي‬‫كه‬‫در‬‫چند‬‫فيلد‬‫داراي‬‫مقاديري‬‫يكسان‬‫باشند‬‫ب‬‫كار‬‫مي‬‫رود‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 17 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Field op:Binning Node ‫رود‬ ‫مي‬ ‫بكار‬ ‫فيلد‬ ‫چند‬ ‫يا‬ ‫يک‬ ‫مقدار‬ ‫اساس‬ ‫بر‬ ‫ركوردها‬ ‫بندي‬ ‫گروه‬ ‫جهت‬ ‫ثابت‬ ‫تعداد‬ ‫يا‬ ‫طول‬ ‫مانند‬ ‫دارد‬ ‫وجود‬ ‫كار‬ ‫اين‬ ‫براي‬ ‫مختلفي‬ ‫روشهاي‬.. Mean/standard deviation‫و‬... ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 18 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Field op:Partition Node ‫جهت‬‫تقسيم‬‫مجموعه‬‫داده‬‫ها‬‫به‬‫زيرمجموعه‬‫داده‬‫هاي‬‫آموزشي‬، ‫اعتبارسنجي‬‫و‬‫تست‬‫به‬‫كار‬‫مي‬‫رود‬
  • 4. 1/14/2016 4 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 19 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Graph: Graph board ‫ابزاری‬‫قدرتمند‬‫برای‬‫به‬‫تصویر‬‫کشیدن‬‫مجموعه‬‫داده‬‫ها‬‫با‬‫بکارگ‬‫یری‬ ‫انواع‬‫نمودارها‬‫از‬‫جمله‬Scatter Plot , Parallel Coordinates ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 20 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Scatterplot Matrix ‫يک‬‫نمودار‬‫پراكندگي‬‫دوبعدي‬‫نموداري‬‫است‬‫كه‬‫توسط‬‫آن‬‫دو‬‫مشخصه‬‫كه‬‫هر‬‫كدام‬‫يكي‬‫از‬‫محو‬‫رها‬‫را‬‫به‬ ‫خود‬‫اختصاص‬‫مي‬‫دهند‬‫نمايش‬‫داده‬‫مي‬‫شود‬. ‫اگر‬‫محورهاي‬X,Y‫را‬‫در‬‫نظر‬،‫بگيريم‬‫هر‬‫نقطه‬‫داده‬‫در‬‫اين‬‫نمودار‬‫زوج‬(x,y)‫در‬‫داده‬‫ها‬‫را‬‫نشان‬‫مي‬‫دهد‬. ‫از‬‫كنارهم‬‫قرار‬‫دادن‬‫نمودارهاي‬‫پراكندگي‬،‫ماتريس‬‫هاي‬‫پراكندگي‬‫ايجاد‬‫مي‬‫گردند‬. ‫پراكندگي‬‫ايجاد‬‫مي‬‫گردند‬. ‫از‬‫اين‬‫نمودار‬‫مي‬‫توان‬‫تحليل‬‫هاي‬‫فوق‬‫را‬‫استخراج‬‫كرد‬: –‫نمايش‬‫تغييرات‬‫همزمان‬‫زوج‬‫مشخصه‬‫ها‬‫در‬‫داده‬‫ها‬ –‫تعيين‬‫رابطه‬‫ميان‬‫تغييرات‬‫همزمان‬‫زوج‬‫مشخصه‬‫ها‬ –‫بدست‬‫آوردن‬‫همبستگي‬‫هاي‬‫ميان‬‫زوج‬‫مشخصه‬‫ها‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 21 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Parallel Coordinates plot ‫اين‬‫نمودار‬‫شيوه‬‫اي‬‫براي‬‫تصويرسازي‬‫و‬‫تحليل‬‫داده‬‫هاي‬‫چندمشخصه‬‫اي‬‫و‬‫در‬‫ابعاد‬‫باالست‬. ‫براي‬‫نمايش‬‫مجموعه‬‫اي‬‫از‬‫نقاط‬‫در‬‫فضاي‬n-‫بعدي؛‬‫صفحه‬‫اي‬‫شامل‬n‫خط‬‫موازي‬‫و‬‫عمودي‬‫را‬‫در‬‫نظر‬ ‫مي‬‫گيريم‬.‫يک‬‫نقطه‬‫در‬‫فضاي‬n-‫بعدي‬‫بصورت‬‫بصورت‬‫يک‬‫چندخطي‬‫با‬‫نقاطي‬‫روي‬‫محورهاي‬ ‫موازي‬‫نمايش‬‫داده‬‫مي‬‫شود‬‫كه‬‫موقعيت‬‫نقطه‬‫در‬ith‫محور‬‫متناظر‬‫مقدار‬ith‫مشخصه‬‫نقطه‬‫فوق‬‫است‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 22 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫در‬ ‫مدلسازي‬‫اصلي‬‫ايند‬‫ر‬‫ف‬Clementine ‫كاوي‬‫داده‬ ‫مسائل‬‫انواع‬ ‫داده‬‫کاوي‬‫نوع‬‫دو‬‫در‬‫شده‬‫هدايت‬(supervised)‫و‬‫هدايت‬ ‫غير‬‫شده‬(unsupervised)‫مي‬‫ظاهر‬‫شود‬: .1‫داده‬‫هدايت‬ ‫کاوي‬‫شده‬:‫هدفي‬‫اي‬‫ر‬‫دا‬‫از‬‫و‬ ‫خاص‬‫تعيين‬ ‫پيش‬‫دنبال‬‫به‬‫که‬‫است‬ ‫شده‬‫الگويي‬‫خاص‬‫مي‬‫گ‬‫که‬ ‫ردد‬ ‫ورودي‬‫به‬ ‫ا‬‫ر‬‫ها‬‫خروجي‬‫نگاشت‬‫هدف‬‫مي‬‫کند‬. ‫مثال‬:‫مشتريان‬‫اعتبار‬‫بندي‬‫رتبه‬(‫ها‬‫ورودي‬:‫و‬ ‫مالي‬ ‫مشخصات‬،‫شخصيتي‬ ‫مشخصات‬...‫خروجي‬ ‫و‬:‫وضعيت‬‫مشتري‬ ‫وام‬‫بازپرداخت‬ ‫در‬) .1‫داده‬‫هدايت‬ ‫غير‬ ‫کاوي‬‫شده‬:‫يافتن‬‫و‬ ‫الگوها‬‫يا‬‫تشابهات‬‫گروههايي‬ ‫بين‬‫داشتن‬‫بدون‬‫اطالعات‬‫از‬‫هدف‬‫ي‬‫و‬ ‫خاص‬‫يا‬ ‫و‬ ‫ها‬ ‫دسته‬‫الگوهاي‬‫از‬‫تعيين‬ ‫پيش‬‫شده‬‫مي‬‫باشد‬. ‫مثال‬:‫انها‬ ‫مشخصات‬ ‫مبناي‬ ‫بر‬‫بانك‬ ‫يك‬‫مشتريان‬‫بندي‬ ‫دسته‬ ‫ها‬‫داده‬‫پردازش‬‫پيش‬:‫آ‬‫مدلسازي‬ ‫ايند‬‫ر‬‫ف‬ ‫شروع‬‫اي‬‫ر‬‫ب‬ ‫ها‬‫داده‬‫سازي‬‫ماده‬ –‫داده‬‫جديد،حذف‬ ‫هاي‬‫مشخصه‬ ‫ساخت‬‫و‬ ‫ها‬‫مشخصه‬‫تركيب‬،‫معنادار‬ ‫هاي‬‫مشخصه‬‫انتخاب‬ ‫هاو‬‫داده‬‫در‬ ‫خالي‬‫فيلد‬‫پركردن‬ ،‫پرت‬‫هاي‬... ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 23 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫کاوي‬ ‫داده‬ ‫مسائل‬ •‫ناظر‬ ‫با‬ ‫مساله‬ ‫یک‬ ‫های‬ ‫داده‬ ‫از‬ ‫ای‬ ‫نمونه‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 24 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫کاوي‬ ‫داده‬ ‫مسائل‬ •‫ناظر‬ ‫بدون‬ ‫مساله‬ ‫یک‬ ‫از‬ ‫ای‬ ‫نمونه‬
  • 5. 1/14/2016 5 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 25 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫در‬ ‫مدلسازي‬‫اصلي‬ ‫فرايند‬Clementine ‫مقاالت‬(Hadavandi 1-3) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 26 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫يك‬ ‫توسعه‬‫مدل‬(Stream)‫در‬Clementine •‫است‬ ‫نياز‬ ‫بخش‬ ‫سه‬ ‫حداقل‬ ‫مدل‬ ‫توسعه‬ ‫براي‬: .1‫از‬ ‫استفاده‬Node‫ها‬ ‫داده‬ ‫بارگذاري‬(‫در‬Source palette) .2‫ها‬ ‫داده‬ ‫نوع‬ ‫تعيين‬(‫و‬ ‫خروجي‬ ‫يا‬ ‫ورودي‬ ،‫داده‬ ‫نوع‬...‫در‬Field options) .3‫دانش‬ ‫كشف‬ ‫مدل‬(‫در‬Model palette) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 27 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing) •‫نود‬TRANSFORM ‫مدلسازي‬ ‫در‬‫استفاده‬ ‫و‬ ‫اماري‬‫استنباط‬ ‫جهت‬ ‫شده‬ ‫تبديل‬ ‫هاي‬ ‫داده‬ ‫توزيع‬ ‫و‬ ‫ها‬ ‫داده‬ ‫توزيع‬ ‫تجسم‬ •‫نود‬Means ‫ها‬ ‫داده‬ ‫ميانگين‬ ‫آماري‬ ‫مقايسه‬(‫آماره‬t-student) •‫نود‬Statistics ‫اساسي‬ ‫هاي‬ ‫آماره‬ ‫محاسبه‬(‫واريانس‬ ،‫ميانگين‬)... ‫متغيرها‬ ‫دوبدو‬ ‫همبستگي‬ ‫محاسبه‬ ‫ها‬ ‫داده‬ ‫توزيع‬ ‫مورد‬ ‫در‬ ‫آماري‬ ‫استنباط‬ ‫جهت‬ ‫مناسب‬ ‫مشخصه‬ ‫انتخاب‬ ‫براي‬ ‫مناسب‬(‫در‬ ‫يكي‬ ‫است‬ ‫بهتر‬ ،‫باشد‬ ‫باال‬ ‫متغير‬ ‫دو‬ ‫بين‬ ‫همبستگي‬ ‫اگر‬‫شود‬ ‫وارد‬ ‫مدلسازي‬) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 28 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Pearson's correlation coefficient • Pearson's correlation coefficient when applied to a population is commonly represented by the Greek letter ρ (rho) and may be referred to as the population correlation coefficient or the population Pearson correlation coefficient. The formula for ρ is: • Statistical inference based on Pearson's correlation coefficient often focuses on one of the following two aims: – One aim is to test the null hypothesis that the true correlation coefficient ρ is equal to 0, based on the value of the sample correlation coefficientr. – The other aim is to construct a confidence interval around r that has a given probability of containing ρ. • http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 29 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬ ‫داده‬ ‫کیفیت‬ •‫چه‬‫نوعی‬‫از‬‫داده‬‫ها‬‫مشکالت‬‫کیفیتی‬‫دارند؟‬ •‫چگونه‬‫میتوانیم‬‫مشکالت‬‫را‬‫در‬‫داده‬‫ها‬‫شناسای‬‫کنیم؟‬ •‫فرایند‬‫برطرف‬‫کردن‬‫مشکالت‬‫فوق‬‫در‬‫داده‬‫ها‬‫چیست؟‬ •‫نمونه‬‫هایی‬‫از‬‫مشکالت‬‫کیفیت‬‫داده‬‫ها‬ -‫نویز‬‫و‬‫داده‬‫های‬‫پرت‬ -‫مقادیر‬‫گم‬‫شده‬ -‫داده‬‫های‬‫تکراری‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 30 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫پرت‬ ‫های‬ ‫داده‬ •Outliers(‫پرت‬ ‫های‬ ‫داده‬)‫که‬ ‫هستند‬ ‫هایی‬ ‫ویژگی‬ ‫با‬ ‫ای‬ ‫داده‬ ‫د‬ ‫مجموعه‬ ‫در‬ ‫دیگر‬ ‫های‬ ‫داده‬ ‫از‬ ‫بسیاری‬ ‫با‬ ‫توجهی‬ ‫قابل‬ ‫بطور‬‫اده‬ ‫ها‬‫متفاوت‬‫هستند‬.
  • 6. 1/14/2016 6 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 31 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫شده‬ ‫گم‬ ‫مقادیر‬ •‫دالیلی‬‫برای‬‫شده‬ ‫گم‬ ‫مقادیر‬: ₋‫اطالعات‬‫نشده‬ ‫آوری‬ ‫جمع‬‫است‬ (‫پذیرند‬ ‫نمی‬ ‫را‬ ‫خود‬ ‫وزن‬ ‫و‬ ‫سن‬ ‫مردم‬) ₋‫ها‬ ‫نمونه‬ ‫همه‬ ‫با‬ ‫ها‬ ‫مقیاس‬‫نیستند‬ ‫انطباق‬ ‫قابل‬ (‫نیست‬ ‫محاسبه‬ ‫قابل‬ ‫کودکان‬ ‫برای‬ ‫ساالنه‬ ‫درآمد‬) •‫کنیم‬ ‫کار‬ ‫چه‬ ‫شده‬ ‫گم‬ ‫مقادیر‬ ‫با‬ ₋‫کردن‬ ‫حذف‬‫ها‬ ‫داده‬ ₋‫ت‬‫خمین‬‫شده‬ ‫گم‬ ‫مقادیر‬ ₋‫پوشی‬ ‫چشم‬‫آنالیز‬ ‫طول‬ ‫در‬ ‫شده‬ ‫گم‬ ‫مقادیر‬ ‫از‬ ₋‫جایگزینی‬‫ممکن‬ ‫مقادیر‬ ‫تمامی‬ ‫با‬(‫احتمالی‬ ‫مقادیر‬ ‫با‬ ‫دهی‬ ‫وزن‬) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 32 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬ ‫داده‬ ‫پردازش‬ ‫پیش‬ •‫داده‬ ‫انتخاب‬ •‫ابعاد‬ ‫کاهش‬ •‫نویز‬ ‫و‬ ‫مغشوش‬ ‫های‬ ‫داده‬ ‫حذف‬ ‫و‬ ‫شناسایی‬ •‫ها‬ ‫داده‬ ‫در‬ ‫گمشده‬ ‫مقادیر‬ ‫کردن‬ ‫پر‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 33 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مشخصه‬ ‫انتخاب‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 34 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬ ‫مشخصه‬‫انتخاب‬(Feature selection in clementine) ‫انتخاب‬‫ورودي‬‫ها‬‫يکي‬‫از‬‫مهم‬‫ترين‬‫ابزار‬‫در‬‫پيش‬‫پردازش‬‫داده‬‫هاست‬. ‫اين‬‫مساله‬‫شامل‬‫ايند‬‫ر‬‫ف‬‫تعيين‬‫ورودي‬‫هاي‬‫تبط‬‫ر‬‫م‬‫و‬‫حذف‬‫صفاتي‬‫که‬‫ائد‬‫ز‬‫بوده‬‫و‬‫اطالعات‬‫اندکي‬‫اهم‬‫ر‬‫ف‬‫مي‬‫کنند‬. ‫انجام‬‫ايند‬‫ر‬‫ف‬‫انتخاب‬‫وروديها‬‫قبل‬‫از‬‫بکارگيري‬‫يک‬‫الگوريتم‬‫يادگيري‬‫يت‬‫ز‬‫م‬‫هاي‬‫اواني‬‫ر‬‫ف‬‫دارد‬. ‫با‬‫حذف‬‫تعداد‬‫يادي‬‫ز‬‫از‬‫ورودي‬‫هاي‬،‫بوط‬‫ر‬‫نام‬‫روشهاي‬‫يادگيري‬‫ي‬ ‫آموزش‬‫ينه‬‫ز‬‫ه‬‫محاسباتي‬‫و‬‫زمان‬‫کمتري‬‫ا‬‫ر‬‫متحمل‬‫مي‬‫شون‬‫د‬. ‫همچنين‬‫مدل‬‫بدست‬‫آمده‬‫ساده‬‫تر‬‫مي‬‫شود‬‫که‬‫غالبا‬‫تفسير‬‫آن‬‫ساده‬‫تر‬‫شده‬‫و‬‫در‬‫عمل‬‫مفيدتر‬‫مي‬‫باشد‬. ‫يكي‬‫از‬‫روشهاي‬‫انتخاب‬‫مشخصه‬‫ها‬‫استفاده‬‫از‬‫اماره‬t-value‫در‬‫رگرسيون‬‫است‬.‫اگر‬P-value‫كمتر‬‫از‬‫سطح‬‫معني‬‫داري‬ ‫مشخص‬‫شده‬‫باشد‬‫آن‬‫متغير‬‫از‬‫لحاظ‬‫آماري‬‫معنادار‬‫است‬. ‫با‬‫استفاده‬‫از‬‫نود‬Feature selection‫مي‬‫توان‬‫روش‬‫فوق‬‫ا‬‫ر‬‫پياده‬‫سازي‬‫كرد‬.. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 35 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬‫مشخصه‬ ‫انتخاب‬(Feature selection in clementine)  Maximum percentage of missing values. Screens fields with too many missing values, expressed as a percentage of the total number of records. Fields with a large percentage of missing values provide little predictive information.  Maximum percentage of records in a single category. Screens fields that have too many records falling into the same category relative to the total number of records. For example, if 95% of the customers in the database drive the same type of car, including this information is not useful in distinguishing one customer from the next. Any fields that exceed the specified maximum are screened. This option applies to categorical fields only.  Maximum number of categories as a percentage of records. Screens fields with too many categories relative to the total number of records. If a high percentage of the categories contains only a single case, the field may be of limited use. For example, if every customer wears a different hat, this information is unlikely to be useful in modeling patterns of behavior. This option applies to categorical fields only.  Minimum coefficient of variation. Screens fields with a coefficient of variance less than or equal to the specified minimum. This measure is the ratio of the predictor standard deviation to the predictor mean. If this value is near zero, there is not much variability in the values for the variable. This option applies to numeric range fields only.  Minimum standard deviation. Screens fields with standard deviation less than or equal to the specified minimum. This option applies to numeric range fields only.  Records with missing data. Records or cases that have missing values for the target field, or missing values for all predictors, are automatically excluded from all computationsused in the rankings. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 36 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬‫مشخصه‬ ‫انتخاب‬(Feature selection in clementine)  All categorical. When all predictors and the target are categorical, importance can be ranked based on any of four measures:  Pearson chi-square. Tests for independence of the target and the predictor without indicating the strength or direction of any existing relationship.  Likelihood-ratio chi-square. Similar to Pearson's chi-square but also tests for target-predictor independence.  Cramer's V. A measure of association based on Pearson's chi-square statistic. Values range from 0, which indicates no association, to 1, which indicatesperfect association.  Lambda. A measure of association reflecting the proportional reduction in error when the variable is used to predict the target value. A value of 1 indicates the predictor perfectly predicts the target, while a value of 0 means the predictor provides no useful information about the target.  Some categorical. When some—but not all—predictors are categorical and the target is also categorical, importance can be ranked based on either the Pearson or likelihood-ratio chi- square. (Cramer's V and lambda are not available unless all predictors are categorical.)
  • 7. 1/14/2016 7 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 37 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مشخصه‬ ‫استخراج‬ ‫مساله‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 38 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing) ‫اصلي‬‫مولفه‬‫تحليل‬(PCA) ‫مدلسازي‬ ‫كاربردهاي‬ ‫در‬‫ورودي‬ ‫هاي‬ ‫داده‬‫ابعاد‬ ‫كاهش‬‫جهت‬ ‫اصلي‬ ‫هاي‬‫مشخصه‬‫تركيب‬ ‫با‬‫جديد‬ ‫هاي‬‫مشخصه‬ ‫ساخت‬ ‫ها‬ ‫داده‬ ‫تجسم‬ ‫و‬‫نمايش‬‫جهت‬ ‫ها‬‫داده‬ ‫سازي‬‫مجسم‬ ‫اوليه‬ ‫هاي‬ ‫تحليل‬‫انجام‬‫جهت‬(‫و‬ ‫نويز‬ ‫موارد‬‫حذف‬ ‫مثال‬)... ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 39 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi PCA Application: Bank Card ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 40 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi PCA Application: Bank Card ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 41 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing) ‫مغشوش‬ ‫هاي‬ ‫نمونه‬‫اصالح‬‫و‬‫شناسايي‬(outlier detection) Outlier data(‫مغشوش‬ ‫داده‬)‫ط‬‫غير‬ ‫موارد‬‫يا‬‫و‬ ‫محاسبه‬‫در‬‫خطا‬‫از‬‫ي‬ ‫ناش‬ ‫تواند‬‫مي‬ ‫كه‬‫دارد‬‫ديگر‬‫هاي‬ ‫داده‬‫با‬‫زيادي‬‫تفاوت‬‫كه‬ ‫است‬‫اي‬‫داده‬‫بيعي‬ ‫شود‬‫ايجاد‬‫دهد‬‫رخ‬‫سيستم‬‫يك‬‫در‬‫تواند‬‫مي‬‫كه‬. ‫هاي‬‫نمونه‬‫روي‬‫بر‬ ‫ات‬‫ر‬‫تغيي‬‫اعمال‬‫و‬‫شناسايي‬‫باشند‬‫مي‬‫خطا‬‫و‬‫نويز‬‫اي‬‫ر‬‫دا‬‫كه‬‫هايي‬‫نمونه‬‫و‬ ‫ائد‬‫ز‬‫ي‬ ‫آموزش‬‫د‬‫ايش‬‫ز‬‫اف‬ ‫ا‬‫ر‬‫مدل‬‫دقت‬ ‫تواند‬‫مي‬‫هد‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 42 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مغشوش‬ ‫هاي‬ ‫نمونه‬‫اصالح‬‫و‬ ‫شناسايي‬(outlier detection)  HandlingOutliers and Extreme Values  The audit report lists number of outliers and extremes is listed for each field based on the detection options specified in the Data Audit node. You can choose to coerce, discard, or nullify these values for specific fields as appropriate, and then generate a SuperNode to apply the transformations.  In the Action column, specify handlingfor outliers and extremes for specific fields as desired.  Show details Hide details  The following actions are available for handlingoutliers and extremes:  Coerce. Replaces outliers and extreme values with the nearest value that would not be considered extreme. For example if an outlier is defined to be anythingaboveor below three standard deviations, then all outliers would be replaced with the highest or lowest value within this range.  Discard. Discards records with outlying or extreme values for the specified field.  Nullify. Replaces outliers and extremes with the null or system-missingvalue.  Coerce outliers / discard extremes. Discards extreme values only.  Coerce outliers / nullify extremes. Nullifies extreme values only.
  • 8. 1/14/2016 8 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 43 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing) ‫ها‬‫داده‬‫در‬ ‫خالي‬‫هاي‬ ‫فيلد‬‫پردازش‬(Missing value handling) ‫است‬‫ضروري‬‫مدلسازي‬ ‫شروع‬‫از‬ ‫قبل‬ ‫داده‬‫پايگاه‬ ‫در‬‫خالي‬ ‫هاي‬‫فيلد‬ ‫پركردن‬. ‫كار‬‫اين‬ ‫اي‬‫ر‬‫ب‬Clementine‫دارد‬‫داده‬ ‫پايگاه‬ ‫هاي‬ ‫متغير‬ ‫هاي‬‫فيلد‬‫هوشمند‬ ‫پركردن‬ ‫اي‬‫ر‬‫ب‬ ‫مختلفي‬‫روشهاي‬. ‫نماد‬‫بايد‬‫ابتدا‬ ‫كار‬‫اين‬ ‫اي‬‫ر‬‫ب‬Missing value‫به‬ ‫داده‬‫پايگاه‬ ‫در‬‫ا‬‫ر‬Clementine‫نود‬ ‫در‬‫كه‬‫كنيد‬‫معرفي‬type ‫گيرد‬ ‫مي‬ ‫صورت‬ ‫امر‬‫اين‬(.‫فرض‬ ‫پيش‬Blank‫در‬‫ا‬‫ر‬‫آن‬ ‫نماد‬ ‫توان‬ ‫مي‬‫ولي‬‫است‬Specify‫كرد‬ ‫مشخص‬) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 44 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫انواع‬Missing value  There are several types of missing values recognized by Clementine:  Null or system-missing values. These are nonstring values that have been left blank in the database or source file and have not been specifically defined as "missing" in a source or Type node. System-missing values are displayed as $null$. Note that empty strings are not considered nulls in Clementine, although they may be treated as nulls by certain databases.  Empty strings and white space. Empty string values and white space (strings with no visible characters) are treated as distinct from null values. Empty strings are treated as equivalent to white space for most purposes. For example, if you select the option to treat white space as blanks in a source or Type node, this setting applies to empty strings as well.  Blank or user-defined missing values. These are values such as unknown, 99, or –1 that are explicitly defined in a source node or Type node as missing. Optionally, you can also choose to treat nulls and white space as blanks, which allows them to be flagged for special treatment and to be excluded from most calculations. For example, you can use the @BLANK function to treat these values, along with other types of missing values, as blanks. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 45 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Missing value handling ‫نود‬‫اجراي‬‫ار‬ ‫بعد‬Data audit‫بخش‬‫در‬ ‫بايست‬‫مي‬،Quality،Action‫پردازش‬‫براي‬‫را‬‫نظر‬‫مورد‬missing value‫كنيم‬‫انتخاب‬ ‫ها‬.  Fixed. Substitutes a fixed value (either the field mean, midpoint of the range, or a constant that you specify).  Random. Substitutes a random value based on a normal or uniform distribution.  Expression. Allows you to specify a custom expression. For example, you could replace values with a global variable created by the Set Globals node.  Algorithm. Substitutes a value predicted by a model based on the C&RT algorithm. For each field imputed using this method, there will be a separate C&RT model, along with a Filler node that replaces blanks and nulls with the value predicted by the model. A Filter node is then used to remove the prediction fields generated by the model. ‫بعد‬‫ار‬‫انتخاب‬‫روش‬،node‫نشان‬‫دهنده‬‫روش‬‫فوق‬‫ا‬‫ر‬‫مي‬‫سازيم‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 46 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Missing value handling •‫هوشمند‬‫بصورت‬ ‫خالي‬ ‫هاي‬‫فيلد‬ ‫كردن‬ ‫پر‬ ‫اي‬‫ر‬‫ب‬‫تصميم‬ ‫درخت‬‫الگوريتم‬‫از‬ ‫استفاده‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 47 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫با‬ ‫ها‬‫داده‬ ‫بندي‬ ‫خوشه‬Clementine ‫كاوي‬‫داده‬ ‫مساله‬ ‫نمايند‬‫بندي‬‫تقسيم‬‫گروه‬ ‫چند‬‫در‬‫ا‬‫ر‬‫خود‬‫يان‬‫ر‬‫مشت‬‫ند‬‫ر‬‫دا‬ ‫قصد‬‫بانكي‬‫يابي‬‫ر‬‫ا‬‫ز‬‫با‬‫ان‬‫ر‬‫مدي‬. ‫گرفت‬‫خواهد‬‫انجام‬‫است‬ ‫موجود‬‫بانك‬‫داده‬‫پايگاه‬‫در‬‫كه‬‫بانك‬‫يان‬‫ر‬‫مشت‬‫هاي‬‫مشخصه‬‫اساس‬ ‫بر‬‫بندي‬ ‫تقسيم‬‫اين‬. ‫ب‬‫كمي‬‫شباهت‬‫مختلف‬‫كالسهاي‬‫يان‬‫ر‬‫مشت‬‫و‬‫باشند‬‫هم‬‫به‬‫شبيه‬‫ند‬‫ر‬‫گي‬ ‫مي‬‫ار‬‫ر‬‫ق‬‫كالس‬ ‫يك‬‫ر‬‫د‬‫كه‬‫ياني‬‫ر‬‫مشت‬‫كه‬‫است‬‫اين‬‫هدف‬‫داشته‬ ‫هم‬‫ا‬ ‫باشند‬. ‫است‬‫بندي‬‫خوشه‬‫مساله‬‫يك‬‫فوق‬‫مساله‬.‫بندي‬ ‫خوشه‬‫مدلهاي‬ ‫از‬‫استفاده‬ ‫با‬Clementine‫به‬‫ها‬‫خوشه‬‫مناسب‬‫تعداد‬‫توانيم‬ ‫مي‬ ‫بياوريم‬‫بدست‬‫ا‬‫ر‬‫ها‬‫خوشه‬‫خود‬‫اه‬‫ر‬‫هم‬. ‫مسير‬‫از‬files-open stream-3 clustering methods-bank customers.str“‫كنيم‬ ‫مي‬‫اخواني‬‫ر‬‫ف‬‫ا‬‫ر‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 48 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫با‬ ‫ها‬‫داده‬ ‫بندي‬ ‫خوشه‬Clementine •‫روشهاي‬‫خوشه‬‫بندي‬‫داده‬‫ها‬ ‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬ –‫در‬‫اين‬‫نوع‬‫از‬‫روشهاي‬‫خوشه‬،‫بندي‬‫داده‬‫ها‬‫در‬‫درختي‬‫از‬‫خوشه‬‫ها‬‫گروه‬‫بندي‬‫مي‬‫شوند‬. –‫به‬‫طور‬‫کلي‬‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬‫ا‬‫ر‬‫مي‬‫توان‬‫به‬‫دو‬‫دسته‬‫تقسيم‬‫کرد‬:‫روشهاي‬‫جمع‬‫کننده‬‫و‬‫روشهاي‬‫تقسيم‬‫کنن‬‫ده‬. –‫روشهاي‬‫جمع‬‫کننده‬(AGGLOMERATIVE)‫در‬‫ابتدا‬‫هر‬‫داده‬‫ا‬‫ر‬‫در‬‫خوشه‬‫اي‬‫جداگانه‬‫ار‬‫ر‬‫ق‬‫مي‬‫دهند‬.‫سپس‬‫خوشه‬‫ها‬‫ا‬‫ر‬‫با‬‫هم‬ ‫ادغام‬‫کرده‬‫و‬‫خوشه‬‫هاي‬‫بزرگتري‬‫ايجاد‬‫مي‬‫کنند‬.‫اين‬‫کار‬‫تا‬‫زماني‬‫ادامه‬‫مي‬‫يابد‬‫که‬‫يا‬‫تمام‬‫داده‬‫ها‬‫در‬‫يک‬‫خوشه‬‫واحد‬‫ار‬‫ر‬‫ق‬‫گ‬‫ند‬‫ر‬‫ي‬‫و‬‫يا‬ ‫شرط‬‫معيني‬‫ار‬‫ر‬‫برق‬،‫شود‬‫مثال‬‫تعداد‬‫خوشه‬‫ها‬‫به‬‫مقدار‬‫دلخواه‬‫برسد‬.‫در‬‫هر‬‫مرحله‬‫خوشه‬‫هايي‬‫به‬‫هم‬‫متصل‬‫مي‬‫شوند‬‫ک‬‫ه‬‫ين‬‫ر‬‫بيشت‬ ‫شباهت‬‫ا‬‫ر‬‫با‬‫هم‬‫ند‬‫ر‬‫دا‬.‫اي‬‫ر‬‫ب‬‫ي‬ ‫بررس‬‫ان‬‫ز‬‫مي‬‫شباهت‬‫خوشه‬‫ها‬‫الگوريتم‬‫هاي‬‫مختلفي‬‫وجود‬‫دارد‬. –‫دسته‬‫دوم‬‫که‬‫روشهاي‬‫تقسيم‬‫کننده‬(DIVISVIVE)‫ناميده‬‫مي‬‫شوند‬‫عکس‬‫روش‬‫فوق‬‫ا‬‫ر‬‫اعمال‬‫مي‬‫کنند‬‫يعني‬‫درخت‬‫ا‬‫ر‬‫از‬‫باال‬‫به‬ ‫پايين‬‫مي‬‫ند‬‫ز‬‫سا‬. ‫روشهاي‬‫تيشن‬‫ر‬‫پا‬‫بندي‬ –‫اين‬‫روشها‬‫تعداد‬‫خوشه‬‫ها‬‫ا‬‫ر‬‫به‬‫عنوان‬‫امتر‬‫ر‬‫پا‬‫ورودي‬‫يافت‬‫ر‬‫د‬‫مي‬‫كنند‬‫و‬‫بر‬‫مبناي‬‫شباهت‬‫بين‬‫داده‬‫ها‬،‫داده‬‫ها‬‫در‬‫خوشه‬‫ه‬‫ا‬‫ار‬‫ر‬‫ق‬ ‫مي‬‫ند‬‫ر‬‫گي‬. ‫در‬‫ادبيات‬‫موضوعات‬‫و‬‫بردهاي‬‫ر‬‫كا‬‫خوشه‬‫بندي‬‫از‬‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬‫اي‬‫ر‬‫ب‬‫تعيين‬‫تعداد‬‫خوشه‬‫ها‬‫استفاده‬‫مي‬‫شود‬‫س‬‫پس‬‫تعداد‬ ‫فوق‬‫به‬‫عنوان‬‫ورودي‬‫به‬‫الگوريتم‬‫هاي‬‫تيشن‬‫ر‬‫پا‬‫بندي‬‫داده‬‫مي‬‫شود‬‫تا‬‫خوشه‬‫بندي‬‫ا‬‫ر‬‫انجام‬‫دهند‬.‫هر‬‫دو‬‫اين‬‫روشها‬‫در‬ clementine‫وجود‬‫ند‬‫ر‬‫دا‬.
  • 9. 1/14/2016 9 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 49 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫با‬‫ها‬ ‫داده‬‫بندي‬‫خوشه‬Clementine ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 50 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬‫داده‬‫بندي‬ ‫خوشه‬‫با‬Clementine •‫ها‬ ‫خوشه‬‫مناسب‬‫تعداد‬‫تعيين‬ ‫بياوريم‬ ‫بدست‬‫ا‬‫ر‬ ‫ها‬‫خوشه‬ ‫مناسب‬‫تعداد‬ ‫توانيم‬ ‫مي‬ ‫فوق‬ ‫نود‬‫از‬ ‫استفاده‬ ‫با‬. ‫داده‬ ‫هاي‬‫مشخصه‬ ‫به‬‫مربوط‬ ‫هاي‬ ‫ميانگين‬ ‫بين‬‫اختالف‬‫آماري‬‫معناداري‬ ‫خود‬‫خروجي‬‫در‬‫بندي‬‫خوشه‬ ‫هاي‬‫الگوريتم‬‫هاي‬ ‫دهند‬‫مي‬‫ائه‬‫ر‬‫ا‬ ‫و‬‫ي‬ ‫بررس‬ ‫ا‬‫ر‬ ‫ها‬ ‫خوشه‬ ‫در‬‫موجود‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 51 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫هاي‬‫الگوريتم‬‫از‬‫استفاده‬ ‫با‬‫مشتريان‬ ‫بندي‬‫خوشه‬K-means , SOM •‫خو‬‫از‬‫استفاده‬ ‫با‬‫بندي‬‫شه‬K-means •‫نود‬‫از‬ ‫استفاده‬ ‫با‬ ‫ها‬ ‫خوشه‬‫تعداد‬ ‫شدن‬‫مشخص‬‫از‬‫بعد‬Two step‫از‬ ‫استفاده‬ ‫با‬ ‫توانيم‬ ‫مي‬K-mean‫ا‬‫ر‬ ‫ها‬ ‫خوشه‬ ‫آوريم‬‫بدست‬. ‫ورودي‬:K‫ها‬ ‫خوشه‬ ‫تعداد‬ ،.‫داده‬ ‫پایگاه‬X‫شامل‬n، ‫شیء‬X=x1,x2,…,xn, xiϵRm ‫خروجي‬:‫از‬ ‫مجموعه‬ ‫یک‬K‫می‬ ‫حداقل‬ ‫را‬ ‫خطا‬ ‫مربع‬ ‫معیار‬ ‫که‬ ‫خوشه‬‫کند‬. ‫الگوريتم‬: •‫تصادفی‬ ‫بصورت‬K‫خوشه‬ ‫مراکز‬ ‫عنوان‬ ‫به‬ ‫را‬ ‫دلخواه‬ ‫داده‬‫می‬ ‫انتخاب‬ ‫ابتدایی‬ ‫های‬‫کنیم‬(‫این‬K‫از‬ ‫تصادف‬ ‫به‬ ‫داده‬n‫انتخاب‬ ‫ورودی‬ ‫داده‬ ‫می‬‫شوند‬). •‫خوشه‬ ‫مراکز‬ ‫به‬ ‫آن‬ ‫نزدیکی‬ ‫به‬ ‫توجه‬ ‫با‬ ‫را‬ ‫داده‬ ‫هر‬‫خوشه‬ ‫به‬ ،‫ها‬‫می‬ ‫تخصیص‬ ‫ها‬‫دهیم‬.‫نظ‬ ‫در‬ ‫اقلیدوسی‬ ‫فاصله‬ ‫را‬ ‫نزدیکی‬ ‫معیار‬‫می‬ ‫ر‬‫گیریم‬ ‫می‬ ‫بدست‬ ‫زیر‬ ‫رابطه‬ ‫از‬ ‫که‬‫آید‬: ‫آن‬ ‫در‬ ‫که‬xi،i‫و‬ ‫ورودی‬ ‫داده‬ ‫مین‬mj‫مرکز‬(‫میانگین‬)‫خوشه‬j‫است‬ ‫ام‬.‫خوشه‬ ‫در‬ ‫فوق‬ ‫داده‬‫مری‬ ‫قررار‬ ‫ای‬‫کره‬ ‫گیررد‬ ‫باشد‬ ‫داشته‬ ‫خوشه‬ ‫آن‬ ‫مرکز‬ ‫با‬ ‫را‬ ‫فاصله‬ ‫کمترین‬.‫داده‬ ‫حسابی‬ ‫میانگین‬ ‫نیز‬ ‫خوشه‬ ‫مرکز‬‫می‬ ‫خوشه‬ ‫آن‬ ‫های‬‫باشد‬. •‫آوریم‬ ‫می‬ ‫بدست‬ ‫را‬ ‫خوشه‬ ‫اعضای‬ ‫میانگین‬ ‫خوشه‬ ‫هر‬ ‫برای‬ ‫یعنی‬ ‫کنیم‬ ‫می‬ ‫روز‬ ‫به‬ ‫را‬ ‫ها‬ ‫خوشه‬ ‫مراکز‬. •‫مرحله‬ ‫به‬ ‫ها‬ ‫خوشه‬ ‫جدید‬ ‫مراکز‬ ‫به‬ ‫توجه‬ ‫با‬2‫برمی‬‫می‬ ‫ادامه‬ ‫جایی‬ ‫تا‬ ‫را‬ ‫فوق‬ ‫فرایند‬ ‫و‬ ‫گردیم‬‫خوشه‬ ‫در‬ ‫تغییری‬ ‫هیچ‬ ‫که‬ ‫دهیم‬‫ندهد‬ ‫رخ‬ ‫ها‬ (.‫است‬ ‫یافته‬ ‫پایان‬ ‫الگوریتم‬ ‫حالت‬ ‫این‬ ‫در‬) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 52 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫هاي‬‫الگوريتم‬‫از‬‫استفاده‬ ‫با‬‫مشتريان‬ ‫بندي‬‫خوشه‬K-means , SOM •‫نقشه‬‫هاي‬‫سازمانده‬‫خود‬(SOM) •‫نقشه‬‫هاي‬‫و‬‫خودسازمان‬‫يا‬‫ار‬‫ز‬‫اب‬‫خودسازمانده‬‫خوشه‬ ‫اي‬‫ر‬‫ب‬‫قدرتمندي‬‫بندي‬‫و‬‫پيش‬‫داده‬‫پردازش‬‫و‬ ‫ها‬‫الگوريتم‬ ‫يک‬‫يادگيري‬ ‫ناظر‬‫بدون‬‫مي‬‫باشند‬.(segmentation—cluster) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 53 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫اعتباري‬ ‫ريسك‬‫مبناي‬‫بر‬ ‫بانك‬‫مشتريان‬ ‫بندي‬‫دسته‬(Credit scoring modeling ) ‫مدلسازي‬‫ريسك‬‫اعتباري‬‫يك‬‫مساله‬‫كالسبندي‬‫است‬. ‫مشتريان‬‫بر‬‫مبناي‬‫مشخصات‬‫اجتماعي‬‫و‬‫اكنش‬‫ر‬‫ت‬‫هايي‬‫كه‬‫با‬‫بانك‬‫داشته‬‫اند‬‫به‬‫كالسهاي‬‫مختلف‬‫ريسك‬‫اخت‬‫صاص‬‫مي‬‫يابند‬. ‫آنچه‬‫برای‬‫بانک‬‫اهمیت‬‫دارد‬‫این‬‫است‬‫که‬‫قبل‬‫از‬‫اعطای‬‫تسهیالت‬،‫احتمال‬‫عدم‬‫بازپرداخت‬‫از‬‫سوی‬‫مشتری‬‫ان‬‫را‬ ‫ارزیابی‬‫و‬‫گروهی‬‫را‬‫انتخاب‬‫نماید‬. ‫رتبه‬‫بندی‬،‫اعتباری‬‫نظامی‬‫است‬‫که‬‫به‬‫وسیله‬‫آن‬‫بانک‬‫ها‬‫و‬‫مؤسسات‬‫اعتباری‬‫با‬‫استفاده‬‫از‬‫اطالعات‬‫ح‬‫ال‬‫و‬ ‫گذشته‬،‫متقاضی‬‫احتمال‬‫عدم‬‫بازپرداخت‬‫وام‬‫توسط‬‫وی‬‫را‬‫ارزیابی‬‫می‬‫کنند‬. ‫مدلهای‬‫رتبه‬‫بندی‬‫اعتبار‬(CS)‫با‬‫استفاده‬‫از‬‫پارامترهای‬‫متعدد‬‫مبتنی‬‫بر‬‫اطالعات‬‫هویتی‬،‫اطالعات‬‫اعتباری‬، ‫سوابق‬‫تسهیالت‬‫بانکی‬،‫اطالعات‬‫قضایی‬،‫ویژگیها‬‫و‬‫عملکرد‬‫وامهای‬‫قبلی‬‫را‬‫مدلسازی‬‫می‬‫نمایند‬‫ت‬‫ا‬‫عملکرد‬‫آتی‬ ‫وامهای‬‫با‬‫مشخصات‬‫مشابه‬‫را‬‫پیش‬‫بینی‬‫کنند‬. ‫در‬CS،‫یک‬‫نمره‬‫به‬‫هر‬‫مشتری‬‫اختصاص‬‫داده‬‫می‬‫شود‬‫که‬‫این‬‫نمره‬‫به‬‫عنوان‬‫شاخصی‬‫از‬‫ریسک‬‫مشتریان‬‫ا‬‫ست‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 54 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مشتري‬‫اعتباري‬ ‫ريسك‬‫بر‬‫گذار‬‫تاثير‬‫متغيرهاي‬ ‫متغير‬‫پاسخ‬(‫خروجي‬)‫وضعيت‬‫بازپرداخت‬‫وام‬‫توسط‬‫مشتري‬‫است‬‫كه‬‫مي‬‫تواند‬0‫يا‬1‫باشد‬.‫به‬‫معني‬‫عدم‬‫بازپرداخت‬‫و‬ ‫بازپرداخت‬‫كامل‬‫است‬.
  • 10. 1/14/2016 10 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 55 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling ) ‫در‬‫كالسبند‬‫مدلهاي‬‫از‬ ‫استفاده‬ ‫با‬Clementine‫پيش‬‫و‬ ‫تحليل‬ ‫اي‬‫ر‬‫ب‬‫آن‬‫از‬ ‫و‬ ‫كرد‬‫مشخص‬‫ا‬‫ر‬ ‫فوق‬ ‫هاي‬ ‫دسته‬‫توان‬ ‫مي‬ ‫كرد‬ ‫استفاده‬ ‫بيني‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 56 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫كالسبندي‬‫روش‬‫تصميم‬‫درخت‬ ‫درخت‬‫تصميم‬‫گيري‬‫يك‬‫ساختار‬‫درختي‬‫شبيه‬‫فلوچارت‬‫است‬‫كه‬‫هر‬‫گره‬‫داخلي‬،‫تستي‬‫ا‬‫ر‬‫بر‬‫روي‬‫هر‬‫ويژگي‬‫مش‬‫خص‬‫مي‬‫كند‬‫و‬ ‫هر‬‫شاخه‬‫دستاورد‬‫تست‬‫ا‬‫ر‬‫نشان‬‫مي‬‫دهد‬. ‫در‬‫اين‬‫حالت‬‫هر‬‫گره‬‫داخلي‬‫نمايانگر‬‫يکي‬‫از‬‫متغيرهاي‬‫ورودي‬‫است‬‫که‬‫از‬‫آن‬‫شاخه‬‫ها‬‫با‬‫مقادير‬‫ممکن‬‫اي‬‫ر‬‫ب‬‫مقادير‬‫ورودي‬ ‫ايجاد‬‫مي‬‫شوند‬. ‫باالترين‬‫گره‬‫در‬‫درخ‬،‫ت‬‫يشه‬‫ر‬‫نام‬‫دارد‬.‫هر‬‫برگ‬‫نيز‬‫نمايشگر‬‫مقدار‬‫متغير‬‫هدف‬‫به‬‫اي‬‫ز‬‫ا‬‫متغيرهاي‬‫ورودي‬‫است‬‫ک‬‫ه‬‫در‬‫مسير‬ ‫ريشه‬‫تا‬‫برگ‬‫مدنظر‬‫اشاره‬‫شده‬‫اند‬. ‫شکل‬‫ي‬ ‫نمايش‬‫از‬‫يک‬‫درخت‬‫تصميم‬‫ا‬‫ر‬‫نشان‬‫مي‬‫دهد‬‫كه‬‫با‬‫توجه‬‫به‬‫ي‬ ‫بررس‬‫هاي‬‫ان‬‫ر‬‫مدي‬‫يک‬‫پايگاه‬‫فروش‬‫مجازي‬‫ق‬‫طعات‬ ‫کامپيوتر‬،‫بينندگان‬‫سايت‬‫آيا‬‫ي‬ ‫متقاض‬‫خريد‬‫نيز‬‫مي‬‫گردند‬‫يا‬‫نه؟‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 57 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫تصميم‬‫درخت‬‫يك‬‫آموزش‬‫مراحل‬ ‫دو‬‫مرحله‬‫عمده‬‫تکميل‬‫درختان‬‫تصميم‬:‫مرحله‬‫گسترش‬‫درخت‬‫و‬‫هرس‬‫کردن‬‫آن‬‫مي‬‫باشد‬. ‫در‬‫مرحله‬‫گسترش‬‫درخت‬‫با‬‫دخيل‬‫کردن‬‫متغيرهاي‬‫تصميم‬‫و‬‫انتخاب‬‫نقطه‬‫شكست‬‫و‬‫انشعاب‬‫اي‬‫ر‬‫ب‬‫آنها‬‫درخت‬‫به‬‫طرح‬‫اوليه‬‫خود‬‫دست‬‫مي‬‫ي‬‫ابد‬. ‫دور‬‫انداختن‬‫يك‬‫يا‬‫چند‬‫زير‬‫درخت‬‫و‬‫جايگزيني‬‫آنها‬‫با‬،‫برگها‬‫درخت‬‫تصميم‬‫گيري‬‫ا‬‫ر‬‫ساده‬‫مي‬‫سازد‬‫كه‬‫توجه‬‫به‬‫اين‬‫مساله‬‫همان‬‫وظيفه‬‫ا‬‫صلي‬‫در‬‫هرس‬ ‫كردن‬‫درخت‬‫تصميم‬‫گيري‬‫است‬. ‫انتخاب‬‫نقطه‬‫شكست‬‫و‬‫انشعاب‬ ‫درخت‬‫در‬‫زمان‬‫آموزش‬‫تا‬‫زماني‬‫شاخه‬‫مي‬‫خورد‬‫و‬‫اي‬‫ر‬‫ب‬‫آن‬‫نقطه‬‫انشعاب‬‫تعريف‬‫مي‬‫گردد‬‫که‬‫يا‬‫تمام‬‫مقادير‬‫زيرمجموع‬‫ه‬‫يک‬ ‫گره‬‫در‬‫مقدار‬‫هدف‬‫هم‬‫مقدار‬‫باشند‬‫يا‬‫آنکه‬‫انتخاب‬‫معياري‬‫مانند‬‫حداکثر‬‫تعداد‬‫اليه‬،‫از‬‫شاخه‬‫زني‬‫بيشتر‬‫آن‬‫جل‬‫وگيري‬‫کند‬. ‫الگوريتم‬‫هاي‬‫ايجاد‬‫درخت‬‫تصميم‬‫عموما‬‫از‬‫يک‬‫روش‬‫محاسبه‬‫مقداري‬‫اي‬‫ر‬‫ب‬‫انتخاب‬‫بهترين‬‫شاخه‬‫زني‬‫ممکن‬‫در‬‫ه‬‫ر‬‫گام‬ ‫استفاده‬‫مي‬‫کنند‬. ‫ي‬ ‫ناخالص‬‫جين‬‫ي‬(Gini impurity) ‫اين‬‫مقدار‬‫در‬‫الگوريتم‬‫معروف‬‫کرت‬‫استفاده‬‫مي‬‫گردد‬.‫در‬‫اين‬‫حالت‬‫فرض‬‫اوليه‬‫بر‬‫تخصيص‬‫احتمالي‬‫ليبل‬‫ها‬‫ب‬‫ه‬‫مجموعه‬ ‫هاست‬.‫با‬‫اين‬‫فرض‬‫احتمال‬‫غلط‬‫ليبل‬‫زدن‬‫اي‬‫ر‬‫ب‬‫کليه‬‫برگ‬‫ها‬‫در‬‫هر‬‫گره‬‫محاسبه‬‫مي‬‫گردد‬‫و‬‫نهايتا‬‫گره‬‫با‬‫بيش‬‫ين‬‫ر‬‫ت‬‫مقدار‬ ‫کانديداي‬‫انشعاب‬‫مي‬‫گردد‬.     m i m i iiiG ppppI 1 1 2 1)1()( ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 58 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling ) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 59 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مشتريان‬ ‫اعتباري‬ ‫بندي‬ ‫رتبه‬ ‫در‬ ‫پذير‬ ‫تفسیر‬ ‫قوانین‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 60 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مشتريان‬ ‫اعتباري‬ ‫بندي‬ ‫رتبه‬ ‫در‬ ‫پذير‬ ‫تفسیر‬ ‫قوانین‬
  • 11. 1/14/2016 11 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 61 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬‫مدل‬‫ارزيابي‬ •‫شود‬‫مي‬ ‫استفاده‬ ‫ير‬‫ز‬ ‫معيارهاي‬‫از‬ ‫مدلها‬‫ارزيابي‬ ‫اي‬‫ر‬‫ب‬. .1‫نظمي‬‫بي‬ ‫يس‬‫ر‬‫مات‬(Confusion Matrix) ‫كند‬ ‫مي‬‫ايجاد‬‫ا‬‫ر‬ ‫آنها‬‫بندي‬‫دسته‬‫مدل‬‫يك‬‫احتماال‬‫كه‬‫پردازد‬‫مي‬‫خطاهايي‬‫انواع‬‫سازي‬‫خالصه‬‫به‬‫يس‬‫ر‬‫مات‬‫اين‬. ‫ي‬‫ر‬‫ط‬‫از‬‫ق‬‫نود‬Analysis‫يافت‬‫دست‬‫آن‬ ‫به‬‫توان‬ ‫مي‬. .2‫حاصل‬(Gain) .1‫بين‬‫پيش‬‫نرخ‬‫به‬‫توجه‬‫با‬‫ا‬‫ر‬‫بهبود‬‫و‬‫پردازد‬‫مي‬‫جامعه‬‫هاي‬‫بخش‬‫درون‬‫در‬ ‫موجود‬‫مثبت‬‫هاي‬‫بيني‬‫پيش‬‫گيري‬‫اندازه‬‫به‬‫در‬‫مثبت‬‫هاي‬‫ي‬ ‫كند‬ ‫مي‬‫گيري‬‫اندازه‬‫جامعه‬‫كل‬. .2‫هرچه‬Gain‫به‬ ‫نزديكتر‬‫و‬‫بيشتر‬100‫است‬ ‫بهتر‬‫مدل‬‫باشد‬. .3‫از‬‫استفاده‬ ‫با‬evaluation node‫در‬graph ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 62 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬‫مدل‬ ‫ارزيابي‬  Gains charts. Cumulative gains charts always start at 0% and end at 100% as you go from left to right. For a good model, the gains chart will rise steeply toward 100% and then level off. A model that provides no information will follow the diagonal from lower left to upper right (shown in the chart if Include baseline is selected).  Lift charts. Cumulative lift charts tend to start above 1.0 and gradually descend until they reach 1.0 as you go from left to right. The right edge of the chart represents the entire dataset, so the ratio of hits in cumulative quantiles to hits in data is 1.0. For a good model, lift should start well above 1.0 on the left, remain on a high plateau as you move to the right, and then trail off sharply toward 1.0 on the right side of the chart. For a model that provides no information, the line will hover around 1.0 for the entire graph. (If Include baseline is selected, a horizontal line at 1.0 is shown in the chart for reference.)  Response charts. Cumulative response charts tend to be very similar to lift charts except for the scaling. Response charts usually start near 100% and gradually descend until they reach the overall response rate (total hits / total records) on the right edge of the chart. For a good model, the line will start near or at 100% on the left, remain on a high plateau as you move to the right, and then trail off sharply toward the overall response rate on the right side of the chart. For a model that provides no information, the line will hover around the overall response rate for the entire graph. (If Include baseline is selected, a horizontal line at the overall response rate is shown in the chart for reference.)  Profit charts. Cumulative profit charts show the sum of profits as you increase the size of the selected sample, moving from left to right. Profit charts usually start near 0, increase steadily as you move to the right until they reach a peak or plateau in the middle, and then decrease toward the right edge of the chart. For a good model, profits will show a well-defined peak somewhere in the middle of the chart. For a model that provides no information, the line will be relatively straight and may be increasing, decreasing, or level depending on the cost/revenue structure that applies.  ROI charts. Cumulative ROI (return on investment) charts tend to be similar to response charts and lift charts except for the scaling. ROI charts usually start above 0% and gradually descend until they reach the overall ROI for the entire dataset (which can be negative). For a good model, the line should start well above 0%, remain on a high plateau as you move to the right, and then trail off rather sharply toward the overall ROI on the right side of the chart. For a model that provides no information, the line should hover around the overall ROI value. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 63 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫های‬ ‫شبکه‬‫بیزی‬‫اعتبار‬ ‫بندی‬ ‫رتبه‬ ‫جهت‬ •‫معلولی‬ ‫علی‬ ‫روابط‬ ‫کشف‬ ‫برای‬ ‫روشی‬ •‫مشتری‬ ‫اعتباری‬ ‫ریسک‬ ‫سازی‬ ‫مشخصه‬ ‫در‬ ‫ارتباطشان‬ ‫و‬ ‫ها‬ ‫فاکتور‬ ‫اهمیت‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 64 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫بیزی‬ ‫های‬ ‫شبکه‬ ‫بیزی‬ ‫ساده‬ ‫کننده‬ ‫بندی‬ ‫دسته‬ ‫بیزی‬ ‫باور‬ ‫شبکه‬X1 X2 xn… Concept C P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) … P(xn|c) P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) P(x3|x1,x2,c)P(x4,c) X1 X2 x4 Concept C X3 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 65 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫بیزی‬ ‫های‬ ‫شبکه‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 66 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬ ‫داده‬ ‫در‬ ‫شرطی‬ ‫احتماالت‬ ‫جدول‬
  • 12. 1/14/2016 12 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 67 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling ) •‫عصبي‬‫هاي‬ ‫شبكه‬‫از‬‫استفاده‬‫پيشخور‬(MLP) •‫يکي‬‫متداول‬‫از‬‫ترين‬‫شبکه‬‫انواع‬‫عصبي‬ ‫هاي‬‫حوزه‬ ‫در‬‫که‬‫بيني‬ ‫پيش‬ ‫ي‬‫بکار‬‫مي‬‫شبکه‬‫رود‬‫ال‬‫چند‬‫پرسپترون‬‫يه‬‫اغلب‬‫که‬ ‫است‬ ‫شود‬ ‫مي‬ ‫داده‬‫آموزش‬ ‫خطا‬‫انتشار‬‫پس‬‫الگوريتم‬ ‫با‬. •‫منس‬ ‫مياني‬ ‫اليه‬ ‫چند‬ ‫يا‬ ‫يک‬ ‫و‬ ‫خروجي‬ ‫اليه‬ ‫يک‬ ،‫ورودي‬ ‫اليه‬ ‫يک‬ ‫شامل‬ ‫اليه‬ ‫چند‬ ‫پرسپترون‬ ‫شبکه‬‫به‬ ‫وب‬ ‫باشد‬ ‫مي‬ ،‫مخفي‬ ‫هاي‬ ‫اليه‬.‫ال‬ ‫عصبي‬ ‫هاي‬ ‫رشته‬ ‫به‬ ‫که‬ ‫است‬ ‫چندگانه‬ ‫عصبي‬ ‫هاي‬ ‫رشته‬ ‫شامل‬ ‫اليه‬ ‫هر‬‫يه‬ ‫شوند‬ ‫مي‬ ‫متصل‬ ‫مجاور‬ ‫هاي‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 68 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫ها‬‫مدل‬‫كارايي‬‫و‬ ‫دقت‬‫ارزيابي‬ ‫از‬‫استفاده‬ ‫با‬analysis node‫و‬evaluation node ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 69 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫با‬ ‫بندي‬ ‫دسته‬‫لجستیک‬ ‫رگرسیون‬ ‫تفاوت‬‫اساسي‬‫رگرسیون‬‫لجستیک‬‫با‬‫رگرسیون‬‫خطي‬‫تفاوت‬‫در‬‫نوع‬‫متغی‬‫ر‬‫پاسخ‬ ‫است‬‫که‬‫رگرسیون‬‫لجستیک‬‫به‬‫مدلسازي‬‫متغیر‬‫پاسخ‬‫به‬‫گونه‬‫گسسته‬‫م‬‫ي‬‫پردازد‬.. ‫اين‬،‫تفاوت‬‫هم‬‫در‬‫تعیین‬‫پارامترهاي‬‫مدل‬‫و‬‫هم‬‫در‬‫فرضیات‬‫تأثیر‬‫مي‬‫گذارد‬. ‫در‬‫مسائل‬‫رگرسیون‬‫کمیت‬‫مورد‬‫توجه‬‫مقدار‬‫متوسط‬‫متغیر‬‫پاسخ‬‫است‬‫که‬‫ب‬‫ا‬‫تغییر‬ ‫پارامترهاي‬‫توضیحي‬‫هر‬‫مقداري‬‫را‬‫مي‬‫تواند‬‫اختیار‬‫کند‬.‫اما‬‫در‬‫داده‬‫هاي‬‫دودويي‬ ‫مقدار‬‫متوسط‬‫پاسخ‬‫در‬‫مدل‬‫به‬‫فرم‬‫مقدار‬‫احتمال‬‫مي‬‫باشد‬. ‫حال‬‫چنانچه‬‫متغیر‬‫پاسخ‬‫گسسته‬‫باشد‬‫اما‬‫بخواهیم‬‫از‬‫فرم‬‫و‬‫امکانات‬‫رگرسی‬‫ون‬ ‫خطي‬‫کمک‬‫بگیريم‬‫بايد‬‫تابع‬‫مناسبي‬‫را‬‫براي‬‫تبديل‬‫انتخاب‬‫نمود‬‫که‬‫خص‬‫وصیات‬‫را‬ ‫به‬‫خصوصیات‬‫رگرسیون‬‫خطي‬‫تغییر‬‫دهد‬. 69‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 70 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫لجستیک‬ ‫رگرسیون‬ ‫فرم‬‫معین‬‫مدل‬‫رگرسیون‬‫لجستیک‬‫به‬‫شکل‬‫زير‬‫است‬: ‫تبديلي‬‫که‬‫ما‬‫را‬‫به‬‫رگرسیون‬‫لجستیک‬‫مي‬‫رساند‬‫تبديل‬‫لجیت‬‫نا‬‫میده‬‫مي‬ ‫شود‬‫که‬‫بصورت‬‫زير‬‫تعريف‬‫مي‬‫گردد‬: 70 (x)=x+=) (x)-1 (x) ln( 10    ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 71 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫لجستیک‬ ‫رگرسیون‬ ‫تبديل‬‫لجیت‬‫بسیاري‬‫از‬‫خواص‬‫رگرسیون‬‫خطي‬‫را‬‫دارد‬‫چنانکه‬‫نسبت‬‫به‬ ‫پارامترها‬‫خطي‬‫و‬‫پیوسته‬‫بوده‬‫و‬‫برد‬‫آن‬‫کل‬‫مجموعه‬‫اعداد‬‫حقیقي‬‫است‬. ‫يک‬‫تفاوت‬‫عمده‬‫باقیمانده‬‫در‬‫توزيع‬‫خطاي‬‫دو‬‫مدل‬‫است‬‫که‬‫در‬‫رگرسیو‬‫ن‬ ‫لجیت‬‫از‬‫نوع‬‫دو‬‫جمله‬‫اي‬‫است‬‫و‬‫مانند‬‫رگرسیون‬‫خطي‬‫نمي‬‫توان‬‫آن‬‫را‬‫با‬ ‫توزيع‬‫نرمال‬‫فرض‬‫نمود‬. 71 (x)=x+=) (x)-1 (x) ln( 10      (x)Y ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 72 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫لجستیک‬ ‫رگرسیون‬ ‫براي‬‫برآورد‬‫پارامترهاي‬‫مجهول‬‫با‬‫استفاده‬‫از‬‫روش‬‫ماکسیمم‬‫درست‬‫نماي‬‫ي‬ ‫داريم‬: ‫براي‬‫يافتن‬‫مقاديري‬‫از‬β‫که‬L(β)‫را‬‫بیشینه‬‫مي‬‫کند‬‫با‬‫مساوي‬‫صفر‬‫قرار‬ ‫دادن‬‫مشتقات‬‫حاصل‬‫داريم‬: ‫نتیجتا‬‫معادالت‬‫نسبت‬‫به‬β0‫و‬β1‫غیرخطي‬‫مي‬‫باشند‬‫و‬‫حل‬‫بايد‬‫به‬‫صورت‬ ‫عددي‬‫صورت‬‫پذيرد‬. 72
  • 13. 1/14/2016 13 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 73 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi Logistic‫در‬Clementine ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 74 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫از‬‫استفاده‬‫با‬ ‫زماني‬ ‫هاي‬ ‫سري‬‫تحليل‬Clementine ‫مي‬‫توان‬‫سري‬‫زماني‬‫ا‬‫ر‬‫دنباله‬‫اي‬‫از‬‫مشاهدات‬‫دانست‬‫که‬‫برحسب‬‫زمان‬‫وقوع‬‫پيشامد‬‫متناظر‬‫با‬‫آن‬‫مشاهدات‬‫مرتب‬‫شده‬،‫اند‬ ‫به‬‫عبارت‬‫ديگر‬‫پيشامدهايي‬‫که‬‫وابسته‬‫به‬‫يک‬‫امتر‬‫ر‬‫پا‬‫تغيير‬‫مي‬‫کنند‬‫تشکيل‬‫يک‬‫آيند‬‫ر‬‫ف‬‫ا‬‫ر‬‫مي‬‫دهند‬‫و‬‫متغير‬‫تصادفي‬‫متناظر‬‫با‬ ‫اين‬‫آيند‬‫ر‬‫ف‬‫نيز‬‫به‬‫اين‬‫امتر‬‫ر‬‫پا‬‫بستگي‬‫خواهد‬‫داشت‬‫و‬‫اگر‬‫اين‬‫امتر‬‫ر‬‫پا‬‫زمان‬‫باشد‬‫آيند‬‫ر‬‫ف‬‫متناظر‬‫يک‬‫سري‬‫زماني‬‫خواهد‬‫بود‬. ‫توليدات‬‫ساالنه‬‫محصوالت‬‫صنعتي‬‫و‬،‫کشاورزي‬‫قيمت‬‫يک‬‫فلز‬‫يا‬‫کاال‬‫در‬‫زمانهاي‬،‫مختلف‬‫ارزش‬،‫سهام‬‫نرخ‬‫انه‬‫ز‬‫رو‬‫بهره‬‫بانکي‬ ‫نرخ‬‫بيکاري‬‫ماهيانه‬، ‫منحني‬‫نمايش‬‫يک‬‫مولفه‬‫ي‬‫فصلي‬St‫و‬‫يک‬‫روند‬‫رو‬‫به‬‫پايين‬‫دارد‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 75 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫از‬ ‫استفاده‬ ‫با‬‫زماني‬ ‫هاي‬‫سري‬‫تحليل‬Clementine ‫سري‬‫مانا‬:‫داده‬‫هاي‬‫مربوط‬‫به‬‫ات‬‫ر‬‫تغيي‬‫ماه‬‫به‬‫ماه‬‫نرخ‬‫هاي‬‫سود‬‫در‬90‫روز‬‫سالهاي‬1981‫تا‬1993‫آمريکا‬‫مي‬‫باشد‬.‫جز‬‫يک‬ ‫تغيير‬‫تيز‬‫در‬‫اواخر‬1984‫اين‬‫سري‬‫در‬‫حول‬‫يک‬‫سطح‬‫متوسط‬‫حدودا‬‫صفر‬‫نوسان‬‫مي‬‫کند‬.‫اغلب‬‫ات‬‫ر‬‫تغيي‬‫اقتصادي‬‫هف‬‫ته‬ ‫به‬‫هفته‬‫يا‬‫ماه‬‫به‬،‫ماه‬‫فصل‬‫به‬‫فصل‬‫حتي‬‫سال‬‫به‬‫سال‬‫معموال‬‫اينگونه‬‫هستند‬. ‫سري‬‫نامانا‬:‫به‬‫جاي‬‫درنظرگرفتن‬‫ات‬‫ر‬‫تغيي‬‫ماه‬‫به‬‫ماه‬‫در‬‫مثال‬‫قبل‬‫اگر‬‫خود‬‫سري‬‫زماني‬‫نرخ‬‫نود‬‫روزه‬‫در‬‫طول‬‫اين‬‫سالها‬‫ا‬‫ر‬‫در‬ ‫نظر‬‫بگيريم‬‫به‬‫رفتار‬‫ديگري‬‫برخورد‬‫مي‬‫کنيم‬.‫اه‬‫ر‬‫حل‬:‫استفاده‬‫از‬‫تفاضل‬‫گيري‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 76 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫زماني‬‫سري‬‫هاي‬‫مدل‬‫پيشرفت‬‫روند‬ ‫مرتبه‬‫اتورگرسيو‬ ‫سري‬P AR(P) ‫مرتبه‬‫متحرک‬‫ميانگين‬‫زماني‬‫سري‬ ‫هاي‬‫مدل‬q MA(q) ‫چنانچه‬‫مدل‬ARMA‫اي‬‫ر‬‫دا‬‫يک‬‫روند‬d‫باشد‬‫مدل‬ ‫حاصل‬ARIMA‫خواهد‬‫بود‬ ‫انباشته‬‫اتورگرسيو‬‫متحرک‬‫ميانگين‬‫زماني‬ ‫سري‬‫مدل‬ ARIMA(p,d,q) ‫اتب‬‫ر‬‫م‬ ‫با‬‫رگرسيو‬‫اتو‬‫متحرک‬‫ميانگين‬‫زماني‬‫سري‬‫مدل‬(p,q) AR(p) + MA(q)=ARMA (p,q) ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 77 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫سري‬‫اتورگرسيو‬‫مرتبه‬p: ‫سري‬‫اتورگرسيو‬‫مرتبه‬p‫که‬‫آن‬‫ا‬‫ر‬‫با‬AR(p)‫نشان‬‫مي‬‫دهيم‬‫به‬‫صورت‬‫زير‬‫تعريف‬‫مي‬‫شود‬. ‫که‬‫در‬‫آن‬‫بوده‬‫و‬‫دو‬‫بدو‬‫ناهمبسته‬‫اند‬‫يعني‬، p t i t i t i 1 AR(p): X a X Z    ‫مدل‬‫هاي‬‫سري‬‫زماني‬‫ميانگين‬‫متحرک‬‫مرتبه‬q: ‫سري‬‫زماني‬‫ميانگين‬‫متحرک‬‫تبه‬‫ر‬‫م‬q‫که‬‫آن‬‫ا‬‫ر‬‫با‬MA(q)‫نشان‬‫مي‬‫دهند‬‫به‬‫صورت‬‫ير‬‫ز‬‫است‬. ‫که‬ ‫که‬‫و‬bi‫اند‬ ‫معلوم‬‫هايي‬ ‫ثابت‬‫ها‬. t s  2 t z tZ ~ N(0, ) ;  q t i t i i 0 MA(q) ; X b Z     0b 1 2 tZ ~ N(0, )t scov(Z ,Z ) 0 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 78 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مدل‬𝑨𝑹𝑴𝑨 (𝒑,𝒒) ∶ ‫سري‬‫زماني‬𝐴𝑅𝑀𝐴(𝑝,𝑞)‫به‬‫صورت‬‫ير‬‫ز‬‫يف‬‫ر‬‫تع‬‫مي‬‫شود‬. ‫و‬‫و‬ ‫گرفتن‬ ‫نظر‬‫در‬ ‫با‬ ‫توان‬‫مي‬‫نوشت‬ ‫ير‬‫ز‬‫صورت‬ ‫به‬‫ا‬‫ر‬ ‫سري‬ ‫اين‬. ‫يا‬ ‫که‬‫تبه‬‫ر‬‫م‬ ‫الجمله‬‫ر‬‫کثي‬ ‫آن‬‫در‬𝑝‫و‬‫تبه‬‫ر‬‫م‬ ‫الجمله‬‫ر‬‫کثي‬‫يک‬q‫است‬. p q i t i i t i 0 0 i 0 i 0 a X b Z ; a b 1        2 t zZ ~ N(0, )t s t s,cov(Z ,Z ) 0  r t t rB X X  p q i i i t i t i 0 i 0 a B X b B Z     p q i i i t i t i 0 i 0 ( a B )X ( b B )Z     t t(B)X (B)Z    (B)(B)
  • 14. 1/14/2016 14 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 79 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مدل‬𝑨𝑹𝑰𝑴𝑨 (𝒑,𝒅,𝒒) ‫مدل‬‫هاي‬‫سري‬‫زماني‬𝑨𝑹𝑰𝑴𝑨‫بيشتر‬‫اي‬‫ر‬‫ب‬‫سري‬‫هاي‬‫نامانا‬‫مطرح‬‫مي‬‫باشند‬. ‫قبال‬‫ديديم‬‫که‬‫مدل‬𝑨𝑹𝑴𝑨(𝒑,𝒒)‫ا‬‫ر‬‫مي‬‫توان‬‫در‬‫حالت‬‫کلي‬‫بصورت‬‫زير‬‫نوشت‬: ‫حال‬‫اگر‬‫بتوان‬‫سري‬‫ا‬‫ر‬‫بصورت‬‫زير‬‫نوشت‬: ‫که‬‫چند‬‫جمله‬‫اي‬‫از‬‫مرتبه‬‫است‬.‫مدل‬‫فوق‬‫ا‬‫ر‬‫مدل‬𝑨𝑹𝑰𝑴𝑨(𝒑,𝒅,𝒒)‫مي‬‫نامند‬. ‫اين‬‫ر‬‫بناب‬‫مدل‬‫هاي‬‫آريما‬‫اي‬‫ر‬‫ب‬‫سري‬‫هاي‬‫زماني‬‫با‬‫روند‬‫مناسب‬‫مي‬‫باشند‬. t t(B)X (B)Z (1)   d 1 t t(B).(1 B) X (B)Z (2)    1(B)1P p d  ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 80 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫مساله‬‫پيش‬‫بيني‬‫فروش‬‫يك‬‫شركت‬‫ارائه‬‫كننده‬‫خدمات‬‫اينترنت‬ ‫نود‬‫هاي‬‫مورد‬‫استفاده‬: ‫نود‬Time interval‫اي‬‫ر‬‫ب‬‫مشخص‬‫كردن‬‫دوره‬‫سري‬‫زماني‬(‫ماهانه‬،‫ساالنه‬‫يا‬...)،‫داده‬‫هاي‬‫مورد‬‫استفاده‬‫اي‬‫ر‬‫ب‬‫تخم‬‫ين‬ ‫مدل‬‫و‬‫تعداد‬‫دوره‬‫آتي‬‫اي‬‫ر‬‫ب‬‫پيش‬‫بيني‬‫بكار‬‫مي‬‫ورد‬. ‫نود‬Time series‫اي‬‫ر‬‫ب‬‫مشخص‬‫كردن‬‫نوع‬‫مدل‬‫تحليل‬‫سري‬‫زماني‬‫بكار‬‫مي‬‫رود‬. ‫مساله‬: ‫داده‬‫هاي‬‫مورد‬‫استفاده‬‫مربوط‬‫به‬‫فروش‬‫ماهيانه‬‫مودم‬‫هاي‬‫يك‬‫شركت‬‫در‬‫يكا‬‫ر‬‫آم‬‫مي‬‫باشد‬‫كه‬‫در‬‫ارهاي‬‫ز‬‫با‬‫مخ‬‫تلف‬ ‫انجام‬‫مي‬‫شود‬. ‫هدف‬‫پيش‬‫بيني‬‫سري‬‫زماني‬‫فروش‬‫اي‬‫ر‬‫ب‬‫دوره‬‫هاي‬‫آتي‬‫با‬‫استفاده‬‫از‬‫مدلهاي‬‫مختلف‬‫سري‬‫زماني‬‫است‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 81 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫نت‬‫ر‬‫اينت‬‫خدمات‬‫كننده‬‫ارائه‬‫شركت‬‫يك‬‫فروش‬‫بيني‬‫پيش‬‫مساله‬  Q. The Ljung-Box Q statistic. A test of the randomness of the residual errors in this model.  df. Degrees of freedom. The number of model parameters that are free to vary when estimating a particular target.  Sig. Significance value of the Ljung-Box statistic. A significance value less than 0.05 indicates that the residual errors are not random. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 82 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫عصبي‬ ‫هاي‬‫شبكه‬‫از‬ ‫استفاده‬ ‫با‬‫بيني‬‫پيش‬MLP •‫روند‬ ‫بكار‬‫منحني‬ ‫هر‬‫بيني‬‫پيش‬‫اي‬‫ر‬‫ب‬ ‫توانند‬ ‫مي‬‫عصبي‬‫هاي‬ ‫شبكه‬. •‫مساله‬:‫سهام‬‫انه‬‫ز‬‫رو‬ ‫قيمت‬‫بيني‬‫پيش‬ •‫وردي‬‫هاي‬‫متغير‬:open price , close price,High price,low price •‫خروجي‬‫متغير‬:Next day price ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 83 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫تحليل‬‫وابستگي‬‫قواعد‬‫از‬ ‫استفاده‬ ‫با‬Clementine ‫قوانین‬،‫وابستگی‬‫الگوهای‬‫موجود‬‫در‬‫داده‬‫ها‬‫را‬‫بدون‬‫زمینه‬‫هدف‬‫خاصی‬‫نشان‬‫می‬‫دهند‬. ‫به‬‫همین‬‫دلیل‬‫این‬‫قوانین‬‫نمونه‬‫ای‬‫از‬‫داده‬‫کاوي‬‫هدايت‬‫نشده‬‫هستند‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 84 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine ‫در‬ ‫وابستگي‬‫قواعد‬‫تحليل‬Clementine
  • 15. 1/14/2016 15 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 85 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine ‫زمينه‬‫اين‬‫در‬ ‫معروف‬ ‫هاي‬‫الگوريتم‬‫از‬ ‫يكي‬Apriori‫است‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 86 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 87 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine •‫مساله‬:‫داده‬‫هاي‬‫يد‬‫ر‬‫خ‬‫يان‬‫ر‬‫مشت‬‫در‬‫دسترس‬‫است‬‫و‬‫ان‬‫ر‬‫مدي‬‫فروشگاه‬‫مي‬‫خواهند‬‫قواعد‬ ‫يدي‬‫ر‬‫خ‬‫ا‬‫ر‬‫از‬‫اين‬‫داده‬‫ها‬‫اج‬‫ر‬‫استخ‬‫كنند‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 88 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 89 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫تحليل‬‫و‬ ‫تجزيه‬RFM ‫در‬‫كسب‬‫و‬،‫كارها‬‫مجموعه‬‫داده‬‫هاي‬‫اکنش‬‫ر‬‫ت‬‫به‬‫عنوان‬‫مجموعه‬‫هاي‬‫ورودي‬‫اي‬‫ر‬‫ب‬‫بخش‬‫بندي‬‫يان‬‫ر‬‫مشت‬‫فر‬‫ض‬ ‫مي‬‫شوند‬.‫ارزش‬RFM‫به‬‫عنوان‬‫شاخص‬‫هاي‬‫تبه‬‫ر‬‫بندي‬‫فتاري‬‫ر‬‫که‬‫بر‬‫بخش‬‫بندي‬‫يان‬‫ر‬‫مشت‬‫تأثير‬‫مي‬‫گ‬‫ذارد‬‫فرض‬ ‫شده‬‫اند‬. Recency:‫فاصله‬‫ميان‬‫زمان‬‫ين‬‫ر‬‫آخ‬‫اکنش‬‫ر‬‫ت‬‫مشتري‬‫مورد‬ ‫زمان‬ ‫تا‬‫ارزيابي‬ Frequency:‫تعداد‬‫يان‬‫ر‬‫مشت‬ ‫يدهاي‬‫ر‬‫خ‬‫در‬‫يک‬‫بازه‬‫زماني‬‫خاص‬ Monetary:‫ميانگين‬‫اکنش‬‫ر‬‫ت‬ ‫مبالغ‬‫مشتري‬‫در‬‫يک‬‫بازه‬‫زماني‬‫خاص‬ ‫با‬‫استفاده‬‫از‬‫نود‬‫هاي‬clementine‫مي‬‫توانيم‬‫براي‬‫مجموعه‬‫اكنش‬‫ر‬‫ت‬‫هاي‬‫يان‬‫ر‬‫مشت‬RFM‫ا‬‫ر‬‫بدست‬‫آوريم‬. ‫نود‬RFM aggregate‫مقادير‬RFM‫ا‬‫ر‬‫براي‬‫يان‬‫ر‬‫مشت‬‫بدست‬‫مي‬‫دهد‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 90 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫نود‬RFM Analysis •‫توان‬ ‫مي‬ ،‫نود‬‫اين‬ ‫از‬ ‫استفاده‬ ‫با‬Weighed RFM Score‫آورد‬ ‫بدست‬ ‫يان‬‫ر‬‫مشت‬ ‫اي‬‫ر‬‫ب‬‫ا‬‫ر‬. •‫به‬ ‫بوط‬‫ر‬‫م‬ ‫وزن‬‫مقادير‬ ‫نود‬‫اين‬ ‫در‬RFM‫گردد‬‫مي‬ ‫امتيازلحاظ‬‫محاسبه‬ ‫جهت‬‫خبرگان‬ ‫نظر‬ ‫با‬. •‫متغيرهاي‬‫از‬‫كدام‬ ‫هر‬RFM‫گردد‬ ‫مي‬ ‫لحاظ‬ ‫امتيازي‬ ‫بازه‬‫هر‬ ‫اي‬‫ر‬‫ب‬ ‫و‬‫شوند‬ ‫مي‬ ‫تقسيم‬‫هايي‬ ‫بازه‬‫به‬،. •‫آورد‬‫بدست‬ ‫ا‬‫ر‬ ‫مشتري‬ ‫اعتباري‬ ‫تبه‬‫ر‬ ‫توان‬ ‫مي‬ ‫نهايت‬ ‫در‬.
  • 16. 1/14/2016 16 ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 91 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫تحليل‬‫از‬ ‫استفاده‬ ‫با‬ ‫يابي‬‫ر‬‫بازا‬‫فعاليت‬ ‫به‬‫يان‬‫ر‬‫مشت‬ ‫پاسخ‬‫مدلسازي‬RFM ‫مساله‬:‫تحليل‬‫از‬‫استفاده‬RFM‫ياب‬‫ر‬‫ا‬‫ز‬‫با‬‫هاي‬‫فعاليت‬ ‫به‬ ‫يان‬‫ر‬‫مشت‬‫پاسخ‬ ‫مدلسازي‬ ‫اي‬‫ر‬‫ب‬‫ي‬ ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 92 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi ‫كاوي‬ ‫داده‬‫تركيبي‬ ‫هاي‬‫مدل‬(Hybrid models) ‫در‬stream‫بن‬‫خوشه‬ ،‫مشخصه‬ ‫انتخاب‬‫هاي‬ ‫الگوريتم‬‫تركيب‬ ‫با‬‫ماژوالر‬‫كالسبند‬ ‫سيستم‬ ‫يك‬ ‫ير‬‫ز‬‫و‬‫دي‬ ‫است‬‫شده‬ ‫ايجاد‬‫كالسبندي‬. ‫يك‬‫خوشه‬‫هر‬ ‫اي‬‫ر‬‫ب‬ ‫و‬‫شوند‬ ‫مي‬ ‫بندي‬‫خوشه‬‫ها‬ ‫داده‬،‫ها‬ ‫داده‬ ‫تمام‬ ‫از‬ ‫استفاده‬ ‫با‬‫مساله‬ ‫كردن‬‫مدل‬ ‫جاي‬‫به‬‫مدل‬ ‫بيند‬ ‫مي‬‫آموزش‬‫كالسبند‬. ‫است‬‫بيشتر‬ ‫عموما‬ ‫ديگر‬‫مدلهاي‬ ‫از‬‫ماژوالر‬‫مدلهاي‬‫دقت‬. ‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬ 93 Dr.Esmaeil Hadavandi Dr.Esmaeil Hadavandi •‫برگزاری‬‫دوره‬‫های‬‫داده‬،‫کاوی‬‫شبکه‬‫های‬‫عصبی‬،‫سیستم‬ ‫های‬‫فازی‬: –‫تئوری‬‫مدل‬‫ها‬‫و‬‫الگوریتم‬‫ها‬ –‫پیاده‬‫سازی‬‫در‬‫نرم‬‫افزارهای‬‫مختلف‬‫و‬‫کدینک‬‫با‬MATLAB –‫موضوعات‬‫تحقیقاتی‬‫اخیر‬‫در‬‫حوزه‬‫داده‬‫کاوی‬ –‫کاربردهای‬‫داده‬‫کاوی‬‫در‬‫تدوین‬،‫استراتژی‬،‫بازاریابی‬‫تولید‬‫و‬... ‫مدرس‬:‫دکتر‬‫اسماعیل‬‫هداوندی‬(‫دکترای‬‫مهندسی‬‫صنایع‬‫دانشگاه‬ ‫صنعتی‬‫امیرکبیر‬‫و‬‫عضو‬‫هیات‬‫علمی‬‫دانشگاه‬)