Ibm modeler

1/14/2016
1
Data Mining in Clementine 12
‫داده‬‫ي‬‫کاو‬‫پيشرفته‬‫در‬‫نرم‬
‫افزار‬Clementine
IBM SPSS MODELER
‫هداوندی‬‫اسماعیل‬‫دکتر‬
‫دانشگاه‬‫علمی‬ ‫هیات‬‫و‬‫صنایع‬‫ی‬ ‫مهندس‬‫ای‬‫ر‬‫دکت‬
‫تخصصي‬ ‫آموزشي‬ ‫کارگاه‬:‫کلمنتاين‬ ‫افزار‬ ‫نرم‬ ‫در‬ ‫کاوي‬ ‫داده‬
1
‫الرحيم‬ ‫الرحمن‬ ‫اهلل‬ ‫بسم‬
‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
2
Dr.Esmaeil Hadavandi
Spss Clementine 12
Spss Clementine
A data mining software for business solution
3
‫افزار‬ ‫نرم‬ ‫كاري‬ ‫محيط‬Clementine
•‫افزا‬ ‫نرم‬ ‫در‬ ‫شده‬ ‫سازي‬ ‫پياده‬ ‫هاي‬ ‫الگوريتم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬ ‫توسعه‬‫ر‬
•‫ها‬ ‫داده‬ ‫پردازش‬ ‫پيش‬(‫و‬ ‫فاكتور‬ ‫آناليز‬ ،‫همبستگي‬ ‫تحليل‬) ...
•‫بندي‬ ‫خوشه‬
•‫كالسبندي‬
•‫بيني‬ ‫پيش‬
•‫وابستگي‬ ‫قواعد‬
•‫و‬....
4
‫ار‬‫ز‬‫اف‬‫نرم‬ ‫كاري‬ ‫محيط‬clementine
‫مرحله‬ ‫سه‬ ‫در‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬ ‫توسعه‬( :‫طراحي‬Data Stream)
.1‫افزار‬ ‫نرم‬ ‫در‬ ‫ها‬ ‫داده‬ ‫بارگذاري‬
.2‫مختلف‬ ‫هاي‬ ‫الگوريتم‬ ‫تركيب‬ ‫با‬ ‫كاوي‬ ‫داده‬ ‫مدل‬ ‫توسعه‬
.3‫مدلها‬ ‫خروجي‬ ‫ذخيره‬ ‫و‬ ‫نمايش‬
‫در‬ ‫كاوي‬ ‫داده‬ ‫مدلهاي‬Stream Canvas‫شوند‬ ‫مي‬ ‫داده‬ ‫توسعه‬.
5
‫ار‬‫ز‬‫اف‬‫نرم‬ ‫كاري‬ ‫محيط‬clementine
•‫در‬ ‫شده‬ ‫سازي‬ ‫پياده‬ ‫هاي‬ ‫الگوريتم‬Clementine‫بصورت‬Node‫در‬ ‫هايي‬Nodes Palette‫قرار‬
‫دارند‬.
 Sources. Nodes bring data into Clementine.
6
Node palettes‫در‬Clementine
 Record Ops. Nodes perform operations on data records, such as selecting,
merging, and appending.
 Field Ops. Nodes perform operations on data fields, such as filtering, deriving new
fields, and determining the data type for given fields.
 Graphs. Nodes graphically display data before and after modeling. Graphs include
plots, histograms, web nodes, and evaluation charts.

1/14/2016
2
7
Node palettes‫در‬Clementine
 Modeling. Nodes use the modeling algorithms available in Clementine, such as
neural nets, decision trees, clustering algorithms, and data sequencing.
 Output. Nodes produce a variety of output for data, charts, and model results,
which can be viewed in Clementine or sent directly to another application, such as
SPSS or Excel.
8
‫افزار‬ ‫نرم‬ ‫مديريت‬ ‫بخش‬(Clementine Manager)
•‫از‬ ‫استفاده‬ ‫با‬Stream Tab‫كنيم‬ ‫بازيابي‬ ‫حذف‬ ، ‫ذخيره‬ ‫را‬ ‫داده‬ ‫توسعه‬ ‫مدلهاي‬ ‫توانيم‬ ‫مي‬.
•‫از‬ ‫استفاده‬ ‫با‬Output Tab‫افزار‬ ‫نرم‬ ‫توسط‬ ‫شده‬ ‫توليد‬ ‫مختلف‬ ‫هاي‬ ‫خروجي‬ ‫و‬ ‫ها‬ ‫فايل‬(‫مانن‬‫د‬
‫و‬ ‫نمودارها‬ ،‫جداول‬) ...‫كنيم‬ ‫مشاهده‬ ‫توانيم‬ ‫مي‬ ‫را‬.
9
‫افزار‬ ‫نرم‬ ‫مديريت‬ ‫بخش‬(Clementine Manager)
•Model Tab‫است‬ ‫افزار‬ ‫نرم‬ ‫امكانات‬ ‫قدرتمندترين‬ ‫از‬ ‫يكي‬.
•‫كنيم‬ ‫مي‬ ‫سازي‬ ‫پياده‬ ‫ها‬ ‫داده‬ ‫روي‬ ‫بر‬ ‫افزار‬ ‫نرم‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫را‬ ‫مدلي‬ ‫وقتي‬(‫دهيم‬ ‫مي‬ ‫آموزش‬)‫د‬ ‫آموزش‬ ‫مدل‬ ،‫شده‬ ‫اده‬
‫بصورت‬ ‫بخش‬ ‫اين‬ ‫در‬Node‫آيد‬ ‫مي‬ ‫بوجود‬ ‫رنگ‬ ‫زرد‬.
•‫اين‬ ‫از‬‫استفاده‬ ‫با‬Node‫داده‬ ‫براي‬ ‫نتايج‬ ‫بيني‬ ‫پيش‬ ‫همچون‬ ‫اموري‬ ‫براي‬ ‫نظر‬ ‫مورد‬ ‫مدل‬ ‫از‬ ‫توانيم‬ ‫مي‬ ‫رنگ‬ ‫زرد‬‫هاي‬
‫و‬ ‫تحليل‬ ،‫جديد‬...‫كرد‬‫استفاده‬.
10
CRISP-DM view and Classes view of a project file
•‫كامل‬‫بطور‬‫قسمت‬ ‫اين‬‫در‬ ‫ا‬‫ر‬ ‫كاوي‬‫داده‬ ‫شده‬‫داده‬ ‫توسعه‬‫مدلهاي‬ ‫و‬‫ها‬ ‫پروژه‬ ‫توانيم‬‫مي‬(
‫و‬‫ها‬ ‫خروجي‬،‫داده‬ ‫مجموعه‬‫با‬ ‫اه‬‫ر‬‫هم‬) ...‫كنيم‬‫ذخيره‬‫يم‬‫ر‬‫بگي‬‫هايي‬ ‫ارش‬‫ز‬‫گ‬‫آنها‬‫از‬ ‫و‬.
11
Record op: Select Node
‫با‬‫بكارگيري‬Select Node‫مي‬‫توانيم‬‫ركوردهايي‬‫كه‬‫داراي‬‫شرايط‬‫تعيين‬‫شده‬
‫هستند‬‫را‬‫انتخاب‬‫و‬‫فيلتر‬‫نماييم‬.
12
Record op:Sample Node
‫با‬‫استفاده‬‫از‬‫اين‬Node‫مي‬‫توانيم‬‫به‬‫روشهاي‬‫مختلف‬‫از‬‫مجموعه‬‫داده‬‫هايمان‬‫نمونه‬
‫گيري‬‫نماييم‬.
‫با‬‫انتخاب‬‫روشهاي‬Simple‫و‬‫با‬‫انتخاب‬‫يكي‬
‫از‬‫گزينه‬‫ها‬‫مي‬‫توانيم‬‫نحوه‬‫انتخاب‬‫يک‬‫ركورد‬
‫در‬‫نمونه‬‫را‬‫مشخص‬‫نماييم‬.
‫مثال‬random‫مشخص‬‫مي‬‫كند‬‫هر‬‫ركوردبا‬‫چه‬
‫احتمالي‬‫در‬‫نمونه‬‫ما‬‫باشد‬.
‫با‬‫انتخاب‬‫روشهاي‬Complex‫مي‬‫توانيم‬‫با‬
‫روش‬stratified sampling‫كار‬‫كنيم‬

1/14/2016
3
13
Record op: Sample Node
14
Record op: Balance Node
‫جهت‬‫متوازن‬‫ساختن‬‫تعداد‬‫رکوردها‬‫با‬‫بکارگیری‬‫یک‬‫شرط‬‫و‬‫یک‬‫فاکتور‬‫است‬‫فاده‬‫می‬
‫شود‬.
‫رکوردهایی‬‫که‬‫می‬‫خواهیم‬‫تعدادشان‬‫متوازن‬‫شود‬‫با‬‫شرط‬‫مدنظرمان‬‫معین‬‫می‬‫ش‬‫وند‬
‫و‬‫اگر‬‫فاکتور‬‫کمتر‬‫از‬1‫بو‬‫کمتر‬‫شده‬‫و‬‫از‬‫بیشتر‬‫از‬1‫بود‬‫بیشتر‬‫می‬‫شوند‬.
15
Record op: Aggregate Node
‫جهت‬‫فراهم‬‫آوردن‬‫اطالعات‬‫خالصه‬‫و‬‫آماره‬‫هاي‬‫كليدي‬‫در‬‫مجموعه‬‫داده‬‫هايي‬‫گه‬‫با‬
‫يک‬‫كليد‬(‫مانند‬‫شماره‬‫مشتري‬‫در‬‫داده‬‫هاي‬‫بانک‬‫ها‬)‫مشخصه‬‫سازي‬‫شده‬‫اند‬‫ب‬‫ه‬‫كار‬
‫مي‬‫رود‬.
16
Record op: Distinct Node
‫براي‬‫شناسايي‬‫ركوردهايي‬‫كه‬‫در‬‫چند‬‫فيلد‬‫داراي‬‫مقاديري‬‫يكسان‬‫باشند‬‫ب‬‫كار‬‫مي‬‫رود‬.
17
Field op:Binning Node
‫رود‬ ‫مي‬ ‫بكار‬ ‫فيلد‬ ‫چند‬ ‫يا‬ ‫يک‬ ‫مقدار‬ ‫اساس‬ ‫بر‬ ‫ركوردها‬ ‫بندي‬ ‫گروه‬ ‫جهت‬
‫ثابت‬ ‫تعداد‬ ‫يا‬ ‫طول‬ ‫مانند‬ ‫دارد‬ ‫وجود‬ ‫كار‬ ‫اين‬ ‫براي‬ ‫مختلفي‬ ‫روشهاي‬..
Mean/standard deviation‫و‬...
18
Field op:Partition Node
‫جهت‬‫تقسيم‬‫مجموعه‬‫داده‬‫ها‬‫به‬‫زيرمجموعه‬‫داده‬‫هاي‬‫آموزشي‬،
‫اعتبارسنجي‬‫و‬‫تست‬‫به‬‫كار‬‫مي‬‫رود‬

1/14/2016
4
19
Graph: Graph board
‫ابزاری‬‫قدرتمند‬‫برای‬‫به‬‫تصویر‬‫کشیدن‬‫مجموعه‬‫داده‬‫ها‬‫با‬‫بکارگ‬‫یری‬
‫انواع‬‫نمودارها‬‫از‬‫جمله‬Scatter Plot , Parallel Coordinates
20
Scatterplot Matrix
‫يک‬‫نمودار‬‫پراكندگي‬‫دوبعدي‬‫نموداري‬‫است‬‫كه‬‫توسط‬‫آن‬‫دو‬‫مشخصه‬‫كه‬‫هر‬‫كدام‬‫يكي‬‫از‬‫محو‬‫رها‬‫را‬‫به‬
‫خود‬‫اختصاص‬‫مي‬‫دهند‬‫نمايش‬‫داده‬‫مي‬‫شود‬.
‫اگر‬‫محورهاي‬X,Y‫را‬‫در‬‫نظر‬،‫بگيريم‬‫هر‬‫نقطه‬‫داده‬‫در‬‫اين‬‫نمودار‬‫زوج‬(x,y)‫در‬‫داده‬‫ها‬‫را‬‫نشان‬‫مي‬‫دهد‬.
‫از‬‫كنارهم‬‫قرار‬‫دادن‬‫نمودارهاي‬‫پراكندگي‬،‫ماتريس‬‫هاي‬‫پراكندگي‬‫ايجاد‬‫مي‬‫گردند‬.
‫پراكندگي‬‫ايجاد‬‫مي‬‫گردند‬.
‫از‬‫اين‬‫نمودار‬‫مي‬‫توان‬‫تحليل‬‫هاي‬‫فوق‬‫را‬‫استخراج‬‫كرد‬:
–‫نمايش‬‫تغييرات‬‫همزمان‬‫زوج‬‫مشخصه‬‫ها‬‫در‬‫داده‬‫ها‬
–‫تعيين‬‫رابطه‬‫ميان‬‫تغييرات‬‫همزمان‬‫زوج‬‫مشخصه‬‫ها‬
–‫بدست‬‫آوردن‬‫همبستگي‬‫هاي‬‫ميان‬‫زوج‬‫مشخصه‬‫ها‬
21
Parallel Coordinates plot
‫اين‬‫نمودار‬‫شيوه‬‫اي‬‫براي‬‫تصويرسازي‬‫و‬‫تحليل‬‫داده‬‫هاي‬‫چندمشخصه‬‫اي‬‫و‬‫در‬‫ابعاد‬‫باالست‬.
‫براي‬‫نمايش‬‫مجموعه‬‫اي‬‫از‬‫نقاط‬‫در‬‫فضاي‬n-‫بعدي؛‬‫صفحه‬‫اي‬‫شامل‬n‫خط‬‫موازي‬‫و‬‫عمودي‬‫را‬‫در‬‫نظر‬
‫مي‬‫گيريم‬.‫يک‬‫نقطه‬‫در‬‫فضاي‬n-‫بعدي‬‫بصورت‬‫بصورت‬‫يک‬‫چندخطي‬‫با‬‫نقاطي‬‫روي‬‫محورهاي‬
‫موازي‬‫نمايش‬‫داده‬‫مي‬‫شود‬‫كه‬‫موقعيت‬‫نقطه‬‫در‬ith‫محور‬‫متناظر‬‫مقدار‬ith‫مشخصه‬‫نقطه‬‫فوق‬‫است‬.
22
‫در‬ ‫مدلسازي‬‫اصلي‬‫ايند‬‫ر‬‫ف‬Clementine
‫كاوي‬‫داده‬ ‫مسائل‬‫انواع‬
‫داده‬‫کاوي‬‫نوع‬‫دو‬‫در‬‫شده‬‫هدايت‬(supervised)‫و‬‫هدايت‬ ‫غير‬‫شده‬(unsupervised)‫مي‬‫ظاهر‬‫شود‬:
.1‫داده‬‫هدايت‬ ‫کاوي‬‫شده‬:‫هدفي‬‫اي‬‫ر‬‫دا‬‫از‬‫و‬ ‫خاص‬‫تعيين‬ ‫پيش‬‫دنبال‬‫به‬‫که‬‫است‬ ‫شده‬‫الگويي‬‫خاص‬‫مي‬‫گ‬‫که‬ ‫ردد‬
‫ورودي‬‫به‬ ‫ا‬‫ر‬‫ها‬‫خروجي‬‫نگاشت‬‫هدف‬‫مي‬‫کند‬.
‫مثال‬:‫مشتريان‬‫اعتبار‬‫بندي‬‫رتبه‬(‫ها‬‫ورودي‬:‫و‬ ‫مالي‬ ‫مشخصات‬،‫شخصيتي‬ ‫مشخصات‬...‫خروجي‬ ‫و‬:‫وضعيت‬‫مشتري‬
‫وام‬‫بازپرداخت‬ ‫در‬)
.1‫داده‬‫هدايت‬ ‫غير‬ ‫کاوي‬‫شده‬:‫يافتن‬‫و‬ ‫الگوها‬‫يا‬‫تشابهات‬‫گروههايي‬ ‫بين‬‫داشتن‬‫بدون‬‫اطالعات‬‫از‬‫هدف‬‫ي‬‫و‬ ‫خاص‬‫يا‬
‫و‬ ‫ها‬ ‫دسته‬‫الگوهاي‬‫از‬‫تعيين‬ ‫پيش‬‫شده‬‫مي‬‫باشد‬.
‫مثال‬:‫انها‬ ‫مشخصات‬ ‫مبناي‬ ‫بر‬‫بانك‬ ‫يك‬‫مشتريان‬‫بندي‬ ‫دسته‬
‫ها‬‫داده‬‫پردازش‬‫پيش‬:‫آ‬‫مدلسازي‬ ‫ايند‬‫ر‬‫ف‬ ‫شروع‬‫اي‬‫ر‬‫ب‬ ‫ها‬‫داده‬‫سازي‬‫ماده‬
–‫داده‬‫جديد،حذف‬ ‫هاي‬‫مشخصه‬ ‫ساخت‬‫و‬ ‫ها‬‫مشخصه‬‫تركيب‬،‫معنادار‬ ‫هاي‬‫مشخصه‬‫انتخاب‬
‫هاو‬‫داده‬‫در‬ ‫خالي‬‫فيلد‬‫پركردن‬ ،‫پرت‬‫هاي‬...
23
‫کاوي‬ ‫داده‬ ‫مسائل‬
•‫ناظر‬ ‫با‬ ‫مساله‬ ‫یک‬ ‫های‬ ‫داده‬ ‫از‬ ‫ای‬ ‫نمونه‬
24
‫کاوي‬ ‫داده‬ ‫مسائل‬
•‫ناظر‬ ‫بدون‬ ‫مساله‬ ‫یک‬ ‫از‬ ‫ای‬ ‫نمونه‬

1/14/2016
5
25
‫در‬ ‫مدلسازي‬‫اصلي‬ ‫فرايند‬Clementine
‫مقاالت‬(Hadavandi 1-3)
26
‫يك‬ ‫توسعه‬‫مدل‬(Stream)‫در‬Clementine
•‫است‬ ‫نياز‬ ‫بخش‬ ‫سه‬ ‫حداقل‬ ‫مدل‬ ‫توسعه‬ ‫براي‬:
.1‫از‬ ‫استفاده‬Node‫ها‬ ‫داده‬ ‫بارگذاري‬(‫در‬Source palette)
.2‫ها‬ ‫داده‬ ‫نوع‬ ‫تعيين‬(‫و‬ ‫خروجي‬ ‫يا‬ ‫ورودي‬ ،‫داده‬ ‫نوع‬...‫در‬Field options)
.3‫دانش‬ ‫كشف‬ ‫مدل‬(‫در‬Model palette)
27
‫ها‬ ‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing)
•‫نود‬TRANSFORM
‫مدلسازي‬ ‫در‬‫استفاده‬ ‫و‬ ‫اماري‬‫استنباط‬ ‫جهت‬ ‫شده‬ ‫تبديل‬ ‫هاي‬ ‫داده‬ ‫توزيع‬ ‫و‬ ‫ها‬ ‫داده‬ ‫توزيع‬ ‫تجسم‬
•‫نود‬Means
‫ها‬ ‫داده‬ ‫ميانگين‬ ‫آماري‬ ‫مقايسه‬(‫آماره‬t-student)
•‫نود‬Statistics
‫اساسي‬ ‫هاي‬ ‫آماره‬ ‫محاسبه‬(‫واريانس‬ ،‫ميانگين‬)...
‫متغيرها‬ ‫دوبدو‬ ‫همبستگي‬ ‫محاسبه‬
‫ها‬ ‫داده‬ ‫توزيع‬ ‫مورد‬ ‫در‬ ‫آماري‬ ‫استنباط‬ ‫جهت‬ ‫مناسب‬
‫مشخصه‬ ‫انتخاب‬ ‫براي‬ ‫مناسب‬(‫در‬ ‫يكي‬ ‫است‬ ‫بهتر‬ ،‫باشد‬ ‫باال‬ ‫متغير‬ ‫دو‬ ‫بين‬ ‫همبستگي‬ ‫اگر‬‫شود‬ ‫وارد‬ ‫مدلسازي‬)
28
Pearson's correlation coefficient
• Pearson's correlation coefficient when applied to a population is commonly
represented by the Greek letter ρ (rho) and may be referred to as the population
correlation coefficient or the population Pearson correlation coefficient. The
formula for ρ is:
• Statistical inference based on Pearson's correlation coefficient often focuses on
one of the following two aims:
– One aim is to test the null hypothesis that the true correlation coefficient ρ is equal to 0, based on
the value of the sample correlation coefficientr.
– The other aim is to construct a confidence interval around r that has a given probability of
containing ρ.
• http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient
29
‫ها‬ ‫داده‬ ‫کیفیت‬
•‫چه‬‫نوعی‬‫از‬‫داده‬‫ها‬‫مشکالت‬‫کیفیتی‬‫دارند؟‬
•‫چگونه‬‫میتوانیم‬‫مشکالت‬‫را‬‫در‬‫داده‬‫ها‬‫شناسای‬‫کنیم؟‬
•‫فرایند‬‫برطرف‬‫کردن‬‫مشکالت‬‫فوق‬‫در‬‫داده‬‫ها‬‫چیست؟‬
•‫نمونه‬‫هایی‬‫از‬‫مشکالت‬‫کیفیت‬‫داده‬‫ها‬
-‫نویز‬‫و‬‫داده‬‫های‬‫پرت‬
-‫مقادیر‬‫گم‬‫شده‬
-‫داده‬‫های‬‫تکراری‬
30
‫پرت‬ ‫های‬ ‫داده‬
•Outliers(‫پرت‬ ‫های‬ ‫داده‬)‫که‬ ‫هستند‬ ‫هایی‬ ‫ویژگی‬ ‫با‬ ‫ای‬ ‫داده‬
‫د‬ ‫مجموعه‬ ‫در‬ ‫دیگر‬ ‫های‬ ‫داده‬ ‫از‬ ‫بسیاری‬ ‫با‬ ‫توجهی‬ ‫قابل‬ ‫بطور‬‫اده‬
‫ها‬‫متفاوت‬‫هستند‬.

1/14/2016
6
31
‫شده‬ ‫گم‬ ‫مقادیر‬
•‫دالیلی‬‫برای‬‫شده‬ ‫گم‬ ‫مقادیر‬:
₋‫اطالعات‬‫نشده‬ ‫آوری‬ ‫جمع‬‫است‬
(‫پذیرند‬ ‫نمی‬ ‫را‬ ‫خود‬ ‫وزن‬ ‫و‬ ‫سن‬ ‫مردم‬)
₋‫ها‬ ‫نمونه‬ ‫همه‬ ‫با‬ ‫ها‬ ‫مقیاس‬‫نیستند‬ ‫انطباق‬ ‫قابل‬
(‫نیست‬ ‫محاسبه‬ ‫قابل‬ ‫کودکان‬ ‫برای‬ ‫ساالنه‬ ‫درآمد‬)
•‫کنیم‬ ‫کار‬ ‫چه‬ ‫شده‬ ‫گم‬ ‫مقادیر‬ ‫با‬
₋‫کردن‬ ‫حذف‬‫ها‬ ‫داده‬
₋‫ت‬‫خمین‬‫شده‬ ‫گم‬ ‫مقادیر‬
₋‫پوشی‬ ‫چشم‬‫آنالیز‬ ‫طول‬ ‫در‬ ‫شده‬ ‫گم‬ ‫مقادیر‬ ‫از‬
₋‫جایگزینی‬‫ممکن‬ ‫مقادیر‬ ‫تمامی‬ ‫با‬(‫احتمالی‬ ‫مقادیر‬ ‫با‬ ‫دهی‬ ‫وزن‬)
32
‫ها‬ ‫داده‬ ‫پردازش‬ ‫پیش‬
•‫داده‬ ‫انتخاب‬
•‫ابعاد‬ ‫کاهش‬
•‫نویز‬ ‫و‬ ‫مغشوش‬ ‫های‬ ‫داده‬ ‫حذف‬ ‫و‬ ‫شناسایی‬
•‫ها‬ ‫داده‬ ‫در‬ ‫گمشده‬ ‫مقادیر‬ ‫کردن‬ ‫پر‬
33
‫مشخصه‬ ‫انتخاب‬
34
‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬ ‫مشخصه‬‫انتخاب‬(Feature selection in clementine)
‫انتخاب‬‫ورودي‬‫ها‬‫يکي‬‫از‬‫مهم‬‫ترين‬‫ابزار‬‫در‬‫پيش‬‫پردازش‬‫داده‬‫هاست‬.
‫اين‬‫مساله‬‫شامل‬‫ايند‬‫ر‬‫ف‬‫تعيين‬‫ورودي‬‫هاي‬‫تبط‬‫ر‬‫م‬‫و‬‫حذف‬‫صفاتي‬‫که‬‫ائد‬‫ز‬‫بوده‬‫و‬‫اطالعات‬‫اندکي‬‫اهم‬‫ر‬‫ف‬‫مي‬‫کنند‬.
‫انجام‬‫ايند‬‫ر‬‫ف‬‫انتخاب‬‫وروديها‬‫قبل‬‫از‬‫بکارگيري‬‫يک‬‫الگوريتم‬‫يادگيري‬‫يت‬‫ز‬‫م‬‫هاي‬‫اواني‬‫ر‬‫ف‬‫دارد‬.
‫با‬‫حذف‬‫تعداد‬‫يادي‬‫ز‬‫از‬‫ورودي‬‫هاي‬،‫بوط‬‫ر‬‫نام‬‫روشهاي‬‫يادگيري‬‫ي‬ ‫آموزش‬‫ينه‬‫ز‬‫ه‬‫محاسباتي‬‫و‬‫زمان‬‫کمتري‬‫ا‬‫ر‬‫متحمل‬‫مي‬‫شون‬‫د‬.
‫همچنين‬‫مدل‬‫بدست‬‫آمده‬‫ساده‬‫تر‬‫مي‬‫شود‬‫که‬‫غالبا‬‫تفسير‬‫آن‬‫ساده‬‫تر‬‫شده‬‫و‬‫در‬‫عمل‬‫مفيدتر‬‫مي‬‫باشد‬.
‫يكي‬‫از‬‫روشهاي‬‫انتخاب‬‫مشخصه‬‫ها‬‫استفاده‬‫از‬‫اماره‬t-value‫در‬‫رگرسيون‬‫است‬.‫اگر‬P-value‫كمتر‬‫از‬‫سطح‬‫معني‬‫داري‬
‫مشخص‬‫شده‬‫باشد‬‫آن‬‫متغير‬‫از‬‫لحاظ‬‫آماري‬‫معنادار‬‫است‬.
‫با‬‫استفاده‬‫از‬‫نود‬Feature selection‫مي‬‫توان‬‫روش‬‫فوق‬‫ا‬‫ر‬‫پياده‬‫سازي‬‫كرد‬..
35
‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬‫مشخصه‬ ‫انتخاب‬(Feature selection in clementine)
 Maximum percentage of missing values. Screens fields with too many missing values, expressed as a
percentage of the total number of records. Fields with a large percentage of missing values provide little
predictive information.
 Maximum percentage of records in a single category. Screens fields that have too many records falling
into the same category relative to the total number of records. For example, if 95% of the customers in the
database drive the same type of car, including this information is not useful in distinguishing one customer
from the next. Any fields that exceed the specified maximum are screened. This option applies to
categorical fields only.
 Maximum number of categories as a percentage of records. Screens fields with too many categories
relative to the total number of records. If a high percentage of the categories contains only a single case,
the field may be of limited use. For example, if every customer wears a different hat, this information is
unlikely to be useful in modeling patterns of behavior. This option applies to categorical fields only.
 Minimum coefficient of variation. Screens fields with a coefficient of variance less than or equal to the
specified minimum. This measure is the ratio of the predictor standard deviation to the predictor mean. If
this value is near zero, there is not much variability in the values for the variable. This option applies to
numeric range fields only.
 Minimum standard deviation. Screens fields with standard deviation less than or equal to the specified
minimum. This option applies to numeric range fields only.
 Records with missing data. Records or cases that have missing values for the target field, or missing values
for all predictors, are automatically excluded from all computationsused in the rankings.
36
‫مدلسازي‬ ‫براي‬‫معنادار‬ ‫هاي‬‫مشخصه‬ ‫انتخاب‬(Feature selection in clementine)
 All categorical. When all predictors and the target are categorical, importance can be
ranked based on any of four measures:
 Pearson chi-square. Tests for independence of the target and the predictor without indicating
the strength or direction of any existing relationship.
 Likelihood-ratio chi-square. Similar to Pearson's chi-square but also tests for target-predictor
independence.
 Cramer's V. A measure of association based on Pearson's chi-square statistic. Values range
from 0, which indicates no association, to 1, which indicatesperfect association.
 Lambda. A measure of association reflecting the proportional reduction in error when the
variable is used to predict the target value. A value of 1 indicates the predictor perfectly
predicts the target, while a value of 0 means the predictor provides no useful information
about the target.
 Some categorical. When some—but not all—predictors are categorical and the target is also
categorical, importance can be ranked based on either the Pearson or likelihood-ratio chi-
square. (Cramer's V and lambda are not available unless all predictors are categorical.)

1/14/2016
7
37
‫مشخصه‬ ‫استخراج‬ ‫مساله‬
38
‫ها‬‫داده‬ ‫پردازش‬‫پيش‬(Data preprocessing)
‫اصلي‬‫مولفه‬‫تحليل‬(PCA)
‫مدلسازي‬ ‫كاربردهاي‬ ‫در‬‫ورودي‬ ‫هاي‬ ‫داده‬‫ابعاد‬ ‫كاهش‬‫جهت‬
‫اصلي‬ ‫هاي‬‫مشخصه‬‫تركيب‬ ‫با‬‫جديد‬ ‫هاي‬‫مشخصه‬ ‫ساخت‬
‫ها‬ ‫داده‬ ‫تجسم‬ ‫و‬‫نمايش‬‫جهت‬
‫ها‬‫داده‬ ‫سازي‬‫مجسم‬
‫اوليه‬ ‫هاي‬ ‫تحليل‬‫انجام‬‫جهت‬(‫و‬ ‫نويز‬ ‫موارد‬‫حذف‬ ‫مثال‬)...
39
PCA Application: Bank Card
40
PCA Application: Bank Card
41
‫مغشوش‬ ‫هاي‬ ‫نمونه‬‫اصالح‬‫و‬‫شناسايي‬(outlier detection)
Outlier data(‫مغشوش‬ ‫داده‬)‫ط‬‫غير‬ ‫موارد‬‫يا‬‫و‬ ‫محاسبه‬‫در‬‫خطا‬‫از‬‫ي‬ ‫ناش‬ ‫تواند‬‫مي‬ ‫كه‬‫دارد‬‫ديگر‬‫هاي‬ ‫داده‬‫با‬‫زيادي‬‫تفاوت‬‫كه‬ ‫است‬‫اي‬‫داده‬‫بيعي‬
‫شود‬‫ايجاد‬‫دهد‬‫رخ‬‫سيستم‬‫يك‬‫در‬‫تواند‬‫مي‬‫كه‬.
‫هاي‬‫نمونه‬‫روي‬‫بر‬ ‫ات‬‫ر‬‫تغيي‬‫اعمال‬‫و‬‫شناسايي‬‫باشند‬‫مي‬‫خطا‬‫و‬‫نويز‬‫اي‬‫ر‬‫دا‬‫كه‬‫هايي‬‫نمونه‬‫و‬ ‫ائد‬‫ز‬‫ي‬ ‫آموزش‬‫د‬‫ايش‬‫ز‬‫اف‬ ‫ا‬‫ر‬‫مدل‬‫دقت‬ ‫تواند‬‫مي‬‫هد‬.
42
‫مغشوش‬ ‫هاي‬ ‫نمونه‬‫اصالح‬‫و‬ ‫شناسايي‬(outlier detection)
 HandlingOutliers and Extreme Values
 The audit report lists number of outliers and extremes is listed for each field based on the
detection options specified in the Data Audit node. You can choose to coerce, discard, or
nullify these values for specific fields as appropriate, and then generate a SuperNode to apply
the transformations.
 In the Action column, specify handlingfor outliers and extremes for specific fields as desired.
 Show details Hide details
 The following actions are available for handlingoutliers and extremes:
 Coerce. Replaces outliers and extreme values with the nearest value that would not be
considered extreme. For example if an outlier is defined to be anythingaboveor below
three standard deviations, then all outliers would be replaced with the highest or lowest
value within this range.
 Discard. Discards records with outlying or extreme values for the specified field.
 Nullify. Replaces outliers and extremes with the null or system-missingvalue.
 Coerce outliers / discard extremes. Discards extreme values only.
 Coerce outliers / nullify extremes. Nullifies extreme values only.

1/14/2016
8
43
‫ها‬‫داده‬‫در‬ ‫خالي‬‫هاي‬ ‫فيلد‬‫پردازش‬(Missing value handling)
‫است‬‫ضروري‬‫مدلسازي‬ ‫شروع‬‫از‬ ‫قبل‬ ‫داده‬‫پايگاه‬ ‫در‬‫خالي‬ ‫هاي‬‫فيلد‬ ‫پركردن‬.
‫كار‬‫اين‬ ‫اي‬‫ر‬‫ب‬Clementine‫دارد‬‫داده‬ ‫پايگاه‬ ‫هاي‬ ‫متغير‬ ‫هاي‬‫فيلد‬‫هوشمند‬ ‫پركردن‬ ‫اي‬‫ر‬‫ب‬ ‫مختلفي‬‫روشهاي‬.
‫نماد‬‫بايد‬‫ابتدا‬ ‫كار‬‫اين‬ ‫اي‬‫ر‬‫ب‬Missing value‫به‬ ‫داده‬‫پايگاه‬ ‫در‬‫ا‬‫ر‬Clementine‫نود‬ ‫در‬‫كه‬‫كنيد‬‫معرفي‬type
‫گيرد‬ ‫مي‬ ‫صورت‬ ‫امر‬‫اين‬(.‫فرض‬ ‫پيش‬Blank‫در‬‫ا‬‫ر‬‫آن‬ ‫نماد‬ ‫توان‬ ‫مي‬‫ولي‬‫است‬Specify‫كرد‬ ‫مشخص‬)
44
‫انواع‬Missing value
 There are several types of missing values recognized by Clementine:
 Null or system-missing values. These are nonstring values that have been left blank in
the database or source file and have not been specifically defined as "missing" in a
source or Type node. System-missing values are displayed as $null$. Note that empty
strings are not considered nulls in Clementine, although they may be treated as nulls by
certain databases.
 Empty strings and white space. Empty string values and white space (strings with no
visible characters) are treated as distinct from null values. Empty strings are treated as
equivalent to white space for most purposes. For example, if you select the option to
treat white space as blanks in a source or Type node, this setting applies to empty
strings as well.
 Blank or user-defined missing values. These are values such as unknown, 99, or –1 that
are explicitly defined in a source node or Type node as missing. Optionally, you can also
choose to treat nulls and white space as blanks, which allows them to be flagged for
special treatment and to be excluded from most calculations. For example, you can use
the @BLANK function to treat these values, along with other types of missing values, as
blanks.
45
Missing value handling
‫نود‬‫اجراي‬‫ار‬ ‫بعد‬Data audit‫بخش‬‫در‬ ‫بايست‬‫مي‬،Quality،Action‫پردازش‬‫براي‬‫را‬‫نظر‬‫مورد‬missing
value‫كنيم‬‫انتخاب‬ ‫ها‬.
 Fixed. Substitutes a fixed value (either the field mean, midpoint of the range, or a constant that you
specify).
 Random. Substitutes a random value based on a normal or uniform distribution.
 Expression. Allows you to specify a custom expression. For example, you could replace values with a global
variable created by the Set Globals node.
 Algorithm. Substitutes a value predicted by a model based on the C&RT algorithm. For each field imputed
using this method, there will be a separate C&RT model, along with a Filler node that replaces blanks and
nulls with the value predicted by the model. A Filter node is then used to remove the prediction fields
generated by the model.
‫بعد‬‫ار‬‫انتخاب‬‫روش‬،node‫نشان‬‫دهنده‬‫روش‬‫فوق‬‫ا‬‫ر‬‫مي‬‫سازيم‬.
46
Missing value handling
•‫هوشمند‬‫بصورت‬ ‫خالي‬ ‫هاي‬‫فيلد‬ ‫كردن‬ ‫پر‬ ‫اي‬‫ر‬‫ب‬‫تصميم‬ ‫درخت‬‫الگوريتم‬‫از‬ ‫استفاده‬
47
‫با‬ ‫ها‬‫داده‬ ‫بندي‬ ‫خوشه‬Clementine
‫كاوي‬‫داده‬ ‫مساله‬
‫نمايند‬‫بندي‬‫تقسيم‬‫گروه‬ ‫چند‬‫در‬‫ا‬‫ر‬‫خود‬‫يان‬‫ر‬‫مشت‬‫ند‬‫ر‬‫دا‬ ‫قصد‬‫بانكي‬‫يابي‬‫ر‬‫ا‬‫ز‬‫با‬‫ان‬‫ر‬‫مدي‬.
‫گرفت‬‫خواهد‬‫انجام‬‫است‬ ‫موجود‬‫بانك‬‫داده‬‫پايگاه‬‫در‬‫كه‬‫بانك‬‫يان‬‫ر‬‫مشت‬‫هاي‬‫مشخصه‬‫اساس‬ ‫بر‬‫بندي‬ ‫تقسيم‬‫اين‬.
‫ب‬‫كمي‬‫شباهت‬‫مختلف‬‫كالسهاي‬‫يان‬‫ر‬‫مشت‬‫و‬‫باشند‬‫هم‬‫به‬‫شبيه‬‫ند‬‫ر‬‫گي‬ ‫مي‬‫ار‬‫ر‬‫ق‬‫كالس‬ ‫يك‬‫ر‬‫د‬‫كه‬‫ياني‬‫ر‬‫مشت‬‫كه‬‫است‬‫اين‬‫هدف‬‫داشته‬ ‫هم‬‫ا‬
‫باشند‬.
‫است‬‫بندي‬‫خوشه‬‫مساله‬‫يك‬‫فوق‬‫مساله‬.‫بندي‬ ‫خوشه‬‫مدلهاي‬ ‫از‬‫استفاده‬ ‫با‬Clementine‫به‬‫ها‬‫خوشه‬‫مناسب‬‫تعداد‬‫توانيم‬ ‫مي‬
‫بياوريم‬‫بدست‬‫ا‬‫ر‬‫ها‬‫خوشه‬‫خود‬‫اه‬‫ر‬‫هم‬.
‫مسير‬‫از‬files-open stream-3 clustering methods-bank customers.str“‫كنيم‬ ‫مي‬‫اخواني‬‫ر‬‫ف‬‫ا‬‫ر‬.
48
‫با‬ ‫ها‬‫داده‬ ‫بندي‬ ‫خوشه‬Clementine
•‫روشهاي‬‫خوشه‬‫بندي‬‫داده‬‫ها‬
‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬
–‫در‬‫اين‬‫نوع‬‫از‬‫روشهاي‬‫خوشه‬،‫بندي‬‫داده‬‫ها‬‫در‬‫درختي‬‫از‬‫خوشه‬‫ها‬‫گروه‬‫بندي‬‫مي‬‫شوند‬.
–‫به‬‫طور‬‫کلي‬‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬‫ا‬‫ر‬‫مي‬‫توان‬‫به‬‫دو‬‫دسته‬‫تقسيم‬‫کرد‬:‫روشهاي‬‫جمع‬‫کننده‬‫و‬‫روشهاي‬‫تقسيم‬‫کنن‬‫ده‬.
–‫روشهاي‬‫جمع‬‫کننده‬(AGGLOMERATIVE)‫در‬‫ابتدا‬‫هر‬‫داده‬‫ا‬‫ر‬‫در‬‫خوشه‬‫اي‬‫جداگانه‬‫ار‬‫ر‬‫ق‬‫مي‬‫دهند‬.‫سپس‬‫خوشه‬‫ها‬‫ا‬‫ر‬‫با‬‫هم‬
‫ادغام‬‫کرده‬‫و‬‫خوشه‬‫هاي‬‫بزرگتري‬‫ايجاد‬‫مي‬‫کنند‬.‫اين‬‫کار‬‫تا‬‫زماني‬‫ادامه‬‫مي‬‫يابد‬‫که‬‫يا‬‫تمام‬‫داده‬‫ها‬‫در‬‫يک‬‫خوشه‬‫واحد‬‫ار‬‫ر‬‫ق‬‫گ‬‫ند‬‫ر‬‫ي‬‫و‬‫يا‬
‫شرط‬‫معيني‬‫ار‬‫ر‬‫برق‬،‫شود‬‫مثال‬‫تعداد‬‫خوشه‬‫ها‬‫به‬‫مقدار‬‫دلخواه‬‫برسد‬.‫در‬‫هر‬‫مرحله‬‫خوشه‬‫هايي‬‫به‬‫هم‬‫متصل‬‫مي‬‫شوند‬‫ک‬‫ه‬‫ين‬‫ر‬‫بيشت‬
‫شباهت‬‫ا‬‫ر‬‫با‬‫هم‬‫ند‬‫ر‬‫دا‬.‫اي‬‫ر‬‫ب‬‫ي‬ ‫بررس‬‫ان‬‫ز‬‫مي‬‫شباهت‬‫خوشه‬‫ها‬‫الگوريتم‬‫هاي‬‫مختلفي‬‫وجود‬‫دارد‬.
–‫دسته‬‫دوم‬‫که‬‫روشهاي‬‫تقسيم‬‫کننده‬(DIVISVIVE)‫ناميده‬‫مي‬‫شوند‬‫عکس‬‫روش‬‫فوق‬‫ا‬‫ر‬‫اعمال‬‫مي‬‫کنند‬‫يعني‬‫درخت‬‫ا‬‫ر‬‫از‬‫باال‬‫به‬
‫پايين‬‫مي‬‫ند‬‫ز‬‫سا‬.
‫روشهاي‬‫تيشن‬‫ر‬‫پا‬‫بندي‬
–‫اين‬‫روشها‬‫تعداد‬‫خوشه‬‫ها‬‫ا‬‫ر‬‫به‬‫عنوان‬‫امتر‬‫ر‬‫پا‬‫ورودي‬‫يافت‬‫ر‬‫د‬‫مي‬‫كنند‬‫و‬‫بر‬‫مبناي‬‫شباهت‬‫بين‬‫داده‬‫ها‬،‫داده‬‫ها‬‫در‬‫خوشه‬‫ه‬‫ا‬‫ار‬‫ر‬‫ق‬
‫مي‬‫ند‬‫ر‬‫گي‬.
‫در‬‫ادبيات‬‫موضوعات‬‫و‬‫بردهاي‬‫ر‬‫كا‬‫خوشه‬‫بندي‬‫از‬‫روشهاي‬‫سلسله‬‫اتبي‬‫ر‬‫م‬‫اي‬‫ر‬‫ب‬‫تعيين‬‫تعداد‬‫خوشه‬‫ها‬‫استفاده‬‫مي‬‫شود‬‫س‬‫پس‬‫تعداد‬
‫فوق‬‫به‬‫عنوان‬‫ورودي‬‫به‬‫الگوريتم‬‫هاي‬‫تيشن‬‫ر‬‫پا‬‫بندي‬‫داده‬‫مي‬‫شود‬‫تا‬‫خوشه‬‫بندي‬‫ا‬‫ر‬‫انجام‬‫دهند‬.‫هر‬‫دو‬‫اين‬‫روشها‬‫در‬
clementine‫وجود‬‫ند‬‫ر‬‫دا‬.

1/14/2016
9
49
‫با‬‫ها‬ ‫داده‬‫بندي‬‫خوشه‬Clementine
50
‫ها‬‫داده‬‫بندي‬ ‫خوشه‬‫با‬Clementine
•‫ها‬ ‫خوشه‬‫مناسب‬‫تعداد‬‫تعيين‬
‫بياوريم‬ ‫بدست‬‫ا‬‫ر‬ ‫ها‬‫خوشه‬ ‫مناسب‬‫تعداد‬ ‫توانيم‬ ‫مي‬ ‫فوق‬ ‫نود‬‫از‬ ‫استفاده‬ ‫با‬.
‫داده‬ ‫هاي‬‫مشخصه‬ ‫به‬‫مربوط‬ ‫هاي‬ ‫ميانگين‬ ‫بين‬‫اختالف‬‫آماري‬‫معناداري‬ ‫خود‬‫خروجي‬‫در‬‫بندي‬‫خوشه‬ ‫هاي‬‫الگوريتم‬‫هاي‬
‫دهند‬‫مي‬‫ائه‬‫ر‬‫ا‬ ‫و‬‫ي‬ ‫بررس‬ ‫ا‬‫ر‬ ‫ها‬ ‫خوشه‬ ‫در‬‫موجود‬.
51
‫هاي‬‫الگوريتم‬‫از‬‫استفاده‬ ‫با‬‫مشتريان‬ ‫بندي‬‫خوشه‬K-means , SOM
•‫خو‬‫از‬‫استفاده‬ ‫با‬‫بندي‬‫شه‬K-means
•‫نود‬‫از‬ ‫استفاده‬ ‫با‬ ‫ها‬ ‫خوشه‬‫تعداد‬ ‫شدن‬‫مشخص‬‫از‬‫بعد‬Two step‫از‬ ‫استفاده‬ ‫با‬ ‫توانيم‬ ‫مي‬K-mean‫ا‬‫ر‬ ‫ها‬ ‫خوشه‬
‫آوريم‬‫بدست‬.
‫ورودي‬:K‫ها‬ ‫خوشه‬ ‫تعداد‬ ،.‫داده‬ ‫پایگاه‬X‫شامل‬n، ‫شیء‬X=x1,x2,…,xn, xiϵRm
‫خروجي‬:‫از‬ ‫مجموعه‬ ‫یک‬K‫می‬ ‫حداقل‬ ‫را‬ ‫خطا‬ ‫مربع‬ ‫معیار‬ ‫که‬ ‫خوشه‬‫کند‬.
‫الگوريتم‬:
•‫تصادفی‬ ‫بصورت‬K‫خوشه‬ ‫مراکز‬ ‫عنوان‬ ‫به‬ ‫را‬ ‫دلخواه‬ ‫داده‬‫می‬ ‫انتخاب‬ ‫ابتدایی‬ ‫های‬‫کنیم‬(‫این‬K‫از‬ ‫تصادف‬ ‫به‬ ‫داده‬n‫انتخاب‬ ‫ورودی‬ ‫داده‬
‫می‬‫شوند‬).
•‫خوشه‬ ‫مراکز‬ ‫به‬ ‫آن‬ ‫نزدیکی‬ ‫به‬ ‫توجه‬ ‫با‬ ‫را‬ ‫داده‬ ‫هر‬‫خوشه‬ ‫به‬ ،‫ها‬‫می‬ ‫تخصیص‬ ‫ها‬‫دهیم‬.‫نظ‬ ‫در‬ ‫اقلیدوسی‬ ‫فاصله‬ ‫را‬ ‫نزدیکی‬ ‫معیار‬‫می‬ ‫ر‬‫گیریم‬
‫می‬ ‫بدست‬ ‫زیر‬ ‫رابطه‬ ‫از‬ ‫که‬‫آید‬:
‫آن‬ ‫در‬ ‫که‬xi،i‫و‬ ‫ورودی‬ ‫داده‬ ‫مین‬mj‫مرکز‬(‫میانگین‬)‫خوشه‬j‫است‬ ‫ام‬.‫خوشه‬ ‫در‬ ‫فوق‬ ‫داده‬‫مری‬ ‫قررار‬ ‫ای‬‫کره‬ ‫گیررد‬
‫باشد‬ ‫داشته‬ ‫خوشه‬ ‫آن‬ ‫مرکز‬ ‫با‬ ‫را‬ ‫فاصله‬ ‫کمترین‬.‫داده‬ ‫حسابی‬ ‫میانگین‬ ‫نیز‬ ‫خوشه‬ ‫مرکز‬‫می‬ ‫خوشه‬ ‫آن‬ ‫های‬‫باشد‬.
•‫آوریم‬ ‫می‬ ‫بدست‬ ‫را‬ ‫خوشه‬ ‫اعضای‬ ‫میانگین‬ ‫خوشه‬ ‫هر‬ ‫برای‬ ‫یعنی‬ ‫کنیم‬ ‫می‬ ‫روز‬ ‫به‬ ‫را‬ ‫ها‬ ‫خوشه‬ ‫مراکز‬.
•‫مرحله‬ ‫به‬ ‫ها‬ ‫خوشه‬ ‫جدید‬ ‫مراکز‬ ‫به‬ ‫توجه‬ ‫با‬2‫برمی‬‫می‬ ‫ادامه‬ ‫جایی‬ ‫تا‬ ‫را‬ ‫فوق‬ ‫فرایند‬ ‫و‬ ‫گردیم‬‫خوشه‬ ‫در‬ ‫تغییری‬ ‫هیچ‬ ‫که‬ ‫دهیم‬‫ندهد‬ ‫رخ‬ ‫ها‬
(.‫است‬ ‫یافته‬ ‫پایان‬ ‫الگوریتم‬ ‫حالت‬ ‫این‬ ‫در‬)
52
‫هاي‬‫الگوريتم‬‫از‬‫استفاده‬ ‫با‬‫مشتريان‬ ‫بندي‬‫خوشه‬K-means , SOM
•‫نقشه‬‫هاي‬‫سازمانده‬‫خود‬(SOM)
•‫نقشه‬‫هاي‬‫و‬‫خودسازمان‬‫يا‬‫ار‬‫ز‬‫اب‬‫خودسازمانده‬‫خوشه‬ ‫اي‬‫ر‬‫ب‬‫قدرتمندي‬‫بندي‬‫و‬‫پيش‬‫داده‬‫پردازش‬‫و‬ ‫ها‬‫الگوريتم‬ ‫يک‬‫يادگيري‬
‫ناظر‬‫بدون‬‫مي‬‫باشند‬.(segmentation—cluster)
53
‫اعتباري‬ ‫ريسك‬‫مبناي‬‫بر‬ ‫بانك‬‫مشتريان‬ ‫بندي‬‫دسته‬(Credit scoring modeling )
‫مدلسازي‬‫ريسك‬‫اعتباري‬‫يك‬‫مساله‬‫كالسبندي‬‫است‬.
‫مشتريان‬‫بر‬‫مبناي‬‫مشخصات‬‫اجتماعي‬‫و‬‫اكنش‬‫ر‬‫ت‬‫هايي‬‫كه‬‫با‬‫بانك‬‫داشته‬‫اند‬‫به‬‫كالسهاي‬‫مختلف‬‫ريسك‬‫اخت‬‫صاص‬‫مي‬‫يابند‬.
‫آنچه‬‫برای‬‫بانک‬‫اهمیت‬‫دارد‬‫این‬‫است‬‫که‬‫قبل‬‫از‬‫اعطای‬‫تسهیالت‬،‫احتمال‬‫عدم‬‫بازپرداخت‬‫از‬‫سوی‬‫مشتری‬‫ان‬‫را‬
‫ارزیابی‬‫و‬‫گروهی‬‫را‬‫انتخاب‬‫نماید‬.
‫رتبه‬‫بندی‬،‫اعتباری‬‫نظامی‬‫است‬‫که‬‫به‬‫وسیله‬‫آن‬‫بانک‬‫ها‬‫و‬‫مؤسسات‬‫اعتباری‬‫با‬‫استفاده‬‫از‬‫اطالعات‬‫ح‬‫ال‬‫و‬
‫گذشته‬،‫متقاضی‬‫احتمال‬‫عدم‬‫بازپرداخت‬‫وام‬‫توسط‬‫وی‬‫را‬‫ارزیابی‬‫می‬‫کنند‬.
‫مدلهای‬‫رتبه‬‫بندی‬‫اعتبار‬(CS)‫با‬‫استفاده‬‫از‬‫پارامترهای‬‫متعدد‬‫مبتنی‬‫بر‬‫اطالعات‬‫هویتی‬،‫اطالعات‬‫اعتباری‬،
‫سوابق‬‫تسهیالت‬‫بانکی‬،‫اطالعات‬‫قضایی‬،‫ویژگیها‬‫و‬‫عملکرد‬‫وامهای‬‫قبلی‬‫را‬‫مدلسازی‬‫می‬‫نمایند‬‫ت‬‫ا‬‫عملکرد‬‫آتی‬
‫وامهای‬‫با‬‫مشخصات‬‫مشابه‬‫را‬‫پیش‬‫بینی‬‫کنند‬.
‫در‬CS،‫یک‬‫نمره‬‫به‬‫هر‬‫مشتری‬‫اختصاص‬‫داده‬‫می‬‫شود‬‫که‬‫این‬‫نمره‬‫به‬‫عنوان‬‫شاخصی‬‫از‬‫ریسک‬‫مشتریان‬‫ا‬‫ست‬.
54
‫مشتري‬‫اعتباري‬ ‫ريسك‬‫بر‬‫گذار‬‫تاثير‬‫متغيرهاي‬
‫متغير‬‫پاسخ‬(‫خروجي‬)‫وضعيت‬‫بازپرداخت‬‫وام‬‫توسط‬‫مشتري‬‫است‬‫كه‬‫مي‬‫تواند‬0‫يا‬1‫باشد‬.‫به‬‫معني‬‫عدم‬‫بازپرداخت‬‫و‬
‫بازپرداخت‬‫كامل‬‫است‬.

1/14/2016
10
55
‫اعتباري‬ ‫يسك‬‫ر‬ ‫مبناي‬‫بر‬ ‫بانك‬‫يان‬‫ر‬‫مشت‬ ‫بندي‬‫دسته‬(Credit scoring modeling )
‫در‬‫كالسبند‬‫مدلهاي‬‫از‬ ‫استفاده‬ ‫با‬Clementine‫پيش‬‫و‬ ‫تحليل‬ ‫اي‬‫ر‬‫ب‬‫آن‬‫از‬ ‫و‬ ‫كرد‬‫مشخص‬‫ا‬‫ر‬ ‫فوق‬ ‫هاي‬ ‫دسته‬‫توان‬ ‫مي‬
‫كرد‬ ‫استفاده‬ ‫بيني‬.
56
‫كالسبندي‬‫روش‬‫تصميم‬‫درخت‬
‫درخت‬‫تصميم‬‫گيري‬‫يك‬‫ساختار‬‫درختي‬‫شبيه‬‫فلوچارت‬‫است‬‫كه‬‫هر‬‫گره‬‫داخلي‬،‫تستي‬‫ا‬‫ر‬‫بر‬‫روي‬‫هر‬‫ويژگي‬‫مش‬‫خص‬‫مي‬‫كند‬‫و‬
‫هر‬‫شاخه‬‫دستاورد‬‫تست‬‫ا‬‫ر‬‫نشان‬‫مي‬‫دهد‬.
‫در‬‫اين‬‫حالت‬‫هر‬‫گره‬‫داخلي‬‫نمايانگر‬‫يکي‬‫از‬‫متغيرهاي‬‫ورودي‬‫است‬‫که‬‫از‬‫آن‬‫شاخه‬‫ها‬‫با‬‫مقادير‬‫ممکن‬‫اي‬‫ر‬‫ب‬‫مقادير‬‫ورودي‬
‫ايجاد‬‫مي‬‫شوند‬.
‫باالترين‬‫گره‬‫در‬‫درخ‬،‫ت‬‫يشه‬‫ر‬‫نام‬‫دارد‬.‫هر‬‫برگ‬‫نيز‬‫نمايشگر‬‫مقدار‬‫متغير‬‫هدف‬‫به‬‫اي‬‫ز‬‫ا‬‫متغيرهاي‬‫ورودي‬‫است‬‫ک‬‫ه‬‫در‬‫مسير‬
‫ريشه‬‫تا‬‫برگ‬‫مدنظر‬‫اشاره‬‫شده‬‫اند‬.
‫شکل‬‫ي‬ ‫نمايش‬‫از‬‫يک‬‫درخت‬‫تصميم‬‫ا‬‫ر‬‫نشان‬‫مي‬‫دهد‬‫كه‬‫با‬‫توجه‬‫به‬‫ي‬ ‫بررس‬‫هاي‬‫ان‬‫ر‬‫مدي‬‫يک‬‫پايگاه‬‫فروش‬‫مجازي‬‫ق‬‫طعات‬
‫کامپيوتر‬،‫بينندگان‬‫سايت‬‫آيا‬‫ي‬ ‫متقاض‬‫خريد‬‫نيز‬‫مي‬‫گردند‬‫يا‬‫نه؟‬
57
‫تصميم‬‫درخت‬‫يك‬‫آموزش‬‫مراحل‬
‫دو‬‫مرحله‬‫عمده‬‫تکميل‬‫درختان‬‫تصميم‬:‫مرحله‬‫گسترش‬‫درخت‬‫و‬‫هرس‬‫کردن‬‫آن‬‫مي‬‫باشد‬.
‫در‬‫مرحله‬‫گسترش‬‫درخت‬‫با‬‫دخيل‬‫کردن‬‫متغيرهاي‬‫تصميم‬‫و‬‫انتخاب‬‫نقطه‬‫شكست‬‫و‬‫انشعاب‬‫اي‬‫ر‬‫ب‬‫آنها‬‫درخت‬‫به‬‫طرح‬‫اوليه‬‫خود‬‫دست‬‫مي‬‫ي‬‫ابد‬.
‫دور‬‫انداختن‬‫يك‬‫يا‬‫چند‬‫زير‬‫درخت‬‫و‬‫جايگزيني‬‫آنها‬‫با‬،‫برگها‬‫درخت‬‫تصميم‬‫گيري‬‫ا‬‫ر‬‫ساده‬‫مي‬‫سازد‬‫كه‬‫توجه‬‫به‬‫اين‬‫مساله‬‫همان‬‫وظيفه‬‫ا‬‫صلي‬‫در‬‫هرس‬
‫كردن‬‫درخت‬‫تصميم‬‫گيري‬‫است‬.
‫انتخاب‬‫نقطه‬‫شكست‬‫و‬‫انشعاب‬
‫درخت‬‫در‬‫زمان‬‫آموزش‬‫تا‬‫زماني‬‫شاخه‬‫مي‬‫خورد‬‫و‬‫اي‬‫ر‬‫ب‬‫آن‬‫نقطه‬‫انشعاب‬‫تعريف‬‫مي‬‫گردد‬‫که‬‫يا‬‫تمام‬‫مقادير‬‫زيرمجموع‬‫ه‬‫يک‬
‫گره‬‫در‬‫مقدار‬‫هدف‬‫هم‬‫مقدار‬‫باشند‬‫يا‬‫آنکه‬‫انتخاب‬‫معياري‬‫مانند‬‫حداکثر‬‫تعداد‬‫اليه‬،‫از‬‫شاخه‬‫زني‬‫بيشتر‬‫آن‬‫جل‬‫وگيري‬‫کند‬.
‫الگوريتم‬‫هاي‬‫ايجاد‬‫درخت‬‫تصميم‬‫عموما‬‫از‬‫يک‬‫روش‬‫محاسبه‬‫مقداري‬‫اي‬‫ر‬‫ب‬‫انتخاب‬‫بهترين‬‫شاخه‬‫زني‬‫ممکن‬‫در‬‫ه‬‫ر‬‫گام‬
‫استفاده‬‫مي‬‫کنند‬.
‫ي‬ ‫ناخالص‬‫جين‬‫ي‬(Gini impurity)
‫اين‬‫مقدار‬‫در‬‫الگوريتم‬‫معروف‬‫کرت‬‫استفاده‬‫مي‬‫گردد‬.‫در‬‫اين‬‫حالت‬‫فرض‬‫اوليه‬‫بر‬‫تخصيص‬‫احتمالي‬‫ليبل‬‫ها‬‫ب‬‫ه‬‫مجموعه‬
‫هاست‬.‫با‬‫اين‬‫فرض‬‫احتمال‬‫غلط‬‫ليبل‬‫زدن‬‫اي‬‫ر‬‫ب‬‫کليه‬‫برگ‬‫ها‬‫در‬‫هر‬‫گره‬‫محاسبه‬‫مي‬‫گردد‬‫و‬‫نهايتا‬‫گره‬‫با‬‫بيش‬‫ين‬‫ر‬‫ت‬‫مقدار‬
‫کانديداي‬‫انشعاب‬‫مي‬‫گردد‬.
  

m
i
m
i
iiiG ppppI
1 1
2
1)1()(
58
59
‫مشتريان‬ ‫اعتباري‬ ‫بندي‬ ‫رتبه‬ ‫در‬ ‫پذير‬ ‫تفسیر‬ ‫قوانین‬
60
‫مشتريان‬ ‫اعتباري‬ ‫بندي‬ ‫رتبه‬ ‫در‬ ‫پذير‬ ‫تفسیر‬ ‫قوانین‬

1/14/2016
11
61
‫ها‬‫مدل‬‫ارزيابي‬
•‫شود‬‫مي‬ ‫استفاده‬ ‫ير‬‫ز‬ ‫معيارهاي‬‫از‬ ‫مدلها‬‫ارزيابي‬ ‫اي‬‫ر‬‫ب‬.
.1‫نظمي‬‫بي‬ ‫يس‬‫ر‬‫مات‬(Confusion Matrix)
‫كند‬ ‫مي‬‫ايجاد‬‫ا‬‫ر‬ ‫آنها‬‫بندي‬‫دسته‬‫مدل‬‫يك‬‫احتماال‬‫كه‬‫پردازد‬‫مي‬‫خطاهايي‬‫انواع‬‫سازي‬‫خالصه‬‫به‬‫يس‬‫ر‬‫مات‬‫اين‬.
‫ي‬‫ر‬‫ط‬‫از‬‫ق‬‫نود‬Analysis‫يافت‬‫دست‬‫آن‬ ‫به‬‫توان‬ ‫مي‬.
.2‫حاصل‬(Gain)
.1‫بين‬‫پيش‬‫نرخ‬‫به‬‫توجه‬‫با‬‫ا‬‫ر‬‫بهبود‬‫و‬‫پردازد‬‫مي‬‫جامعه‬‫هاي‬‫بخش‬‫درون‬‫در‬ ‫موجود‬‫مثبت‬‫هاي‬‫بيني‬‫پيش‬‫گيري‬‫اندازه‬‫به‬‫در‬‫مثبت‬‫هاي‬‫ي‬
‫كند‬ ‫مي‬‫گيري‬‫اندازه‬‫جامعه‬‫كل‬.
.2‫هرچه‬Gain‫به‬ ‫نزديكتر‬‫و‬‫بيشتر‬100‫است‬ ‫بهتر‬‫مدل‬‫باشد‬.
.3‫از‬‫استفاده‬ ‫با‬evaluation node‫در‬graph
62
‫ها‬‫مدل‬ ‫ارزيابي‬
 Gains charts. Cumulative gains charts always start at 0% and end at 100% as you go from left to right. For a good model, the
gains chart will rise steeply toward 100% and then level off. A model that provides no information will follow the diagonal
from lower left to upper right (shown in the chart if Include baseline is selected).
 Lift charts. Cumulative lift charts tend to start above 1.0 and gradually descend until they reach 1.0 as you go from left to
right. The right edge of the chart represents the entire dataset, so the ratio of hits in cumulative quantiles to hits in data is
1.0. For a good model, lift should start well above 1.0 on the left, remain on a high plateau as you move to the right, and
then trail off sharply toward 1.0 on the right side of the chart. For a model that provides no information, the line will hover
around 1.0 for the entire graph. (If Include baseline is selected, a horizontal line at 1.0 is shown in the chart for reference.)
 Response charts. Cumulative response charts tend to be very similar to lift charts except for the scaling. Response charts
usually start near 100% and gradually descend until they reach the overall response rate (total hits / total records) on the
right edge of the chart. For a good model, the line will start near or at 100% on the left, remain on a high plateau as you
move to the right, and then trail off sharply toward the overall response rate on the right side of the chart. For a model that
provides no information, the line will hover around the overall response rate for the entire graph. (If Include baseline is
selected, a horizontal line at the overall response rate is shown in the chart for reference.)
 Profit charts. Cumulative profit charts show the sum of profits as you increase the size of the selected sample, moving from
left to right. Profit charts usually start near 0, increase steadily as you move to the right until they reach a peak or plateau in
the middle, and then decrease toward the right edge of the chart. For a good model, profits will show a well-defined peak
somewhere in the middle of the chart. For a model that provides no information, the line will be relatively straight and may
be increasing, decreasing, or level depending on the cost/revenue structure that applies.
 ROI charts. Cumulative ROI (return on investment) charts tend to be similar to response charts and lift charts except for the
scaling. ROI charts usually start above 0% and gradually descend until they reach the overall ROI for the entire dataset
(which can be negative). For a good model, the line should start well above 0%, remain on a high plateau as you move to the
right, and then trail off rather sharply toward the overall ROI on the right side of the chart. For a model that provides no
information, the line should hover around the overall ROI value.
63
‫های‬ ‫شبکه‬‫بیزی‬‫اعتبار‬ ‫بندی‬ ‫رتبه‬ ‫جهت‬
•‫معلولی‬ ‫علی‬ ‫روابط‬ ‫کشف‬ ‫برای‬ ‫روشی‬
•‫مشتری‬ ‫اعتباری‬ ‫ریسک‬ ‫سازی‬ ‫مشخصه‬ ‫در‬ ‫ارتباطشان‬ ‫و‬ ‫ها‬ ‫فاکتور‬ ‫اهمیت‬
64
‫بیزی‬ ‫های‬ ‫شبکه‬
‫بیزی‬ ‫ساده‬ ‫کننده‬ ‫بندی‬ ‫دسته‬
‫بیزی‬ ‫باور‬ ‫شبکه‬X1 X2 xn…
Concept C
P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) … P(xn|c)
P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) P(x3|x1,x2,c)P(x4,c)
X1 X2 x4
Concept C
X3
65
‫بیزی‬ ‫های‬ ‫شبکه‬
66
‫ها‬ ‫داده‬ ‫در‬ ‫شرطی‬ ‫احتماالت‬ ‫جدول‬

1/14/2016
12
67
•‫عصبي‬‫هاي‬ ‫شبكه‬‫از‬‫استفاده‬‫پيشخور‬(MLP)
•‫يکي‬‫متداول‬‫از‬‫ترين‬‫شبکه‬‫انواع‬‫عصبي‬ ‫هاي‬‫حوزه‬ ‫در‬‫که‬‫بيني‬ ‫پيش‬ ‫ي‬‫بکار‬‫مي‬‫شبکه‬‫رود‬‫ال‬‫چند‬‫پرسپترون‬‫يه‬‫اغلب‬‫که‬ ‫است‬
‫شود‬ ‫مي‬ ‫داده‬‫آموزش‬ ‫خطا‬‫انتشار‬‫پس‬‫الگوريتم‬ ‫با‬.
•‫منس‬ ‫مياني‬ ‫اليه‬ ‫چند‬ ‫يا‬ ‫يک‬ ‫و‬ ‫خروجي‬ ‫اليه‬ ‫يک‬ ،‫ورودي‬ ‫اليه‬ ‫يک‬ ‫شامل‬ ‫اليه‬ ‫چند‬ ‫پرسپترون‬ ‫شبکه‬‫به‬ ‫وب‬
‫باشد‬ ‫مي‬ ،‫مخفي‬ ‫هاي‬ ‫اليه‬.‫ال‬ ‫عصبي‬ ‫هاي‬ ‫رشته‬ ‫به‬ ‫که‬ ‫است‬ ‫چندگانه‬ ‫عصبي‬ ‫هاي‬ ‫رشته‬ ‫شامل‬ ‫اليه‬ ‫هر‬‫يه‬
‫شوند‬ ‫مي‬ ‫متصل‬ ‫مجاور‬ ‫هاي‬.
68
‫ها‬‫مدل‬‫كارايي‬‫و‬ ‫دقت‬‫ارزيابي‬
‫از‬‫استفاده‬ ‫با‬analysis node‫و‬evaluation node
69
‫با‬ ‫بندي‬ ‫دسته‬‫لجستیک‬ ‫رگرسیون‬
‫تفاوت‬‫اساسي‬‫رگرسیون‬‫لجستیک‬‫با‬‫رگرسیون‬‫خطي‬‫تفاوت‬‫در‬‫نوع‬‫متغی‬‫ر‬‫پاسخ‬
‫است‬‫که‬‫رگرسیون‬‫لجستیک‬‫به‬‫مدلسازي‬‫متغیر‬‫پاسخ‬‫به‬‫گونه‬‫گسسته‬‫م‬‫ي‬‫پردازد‬..
‫اين‬،‫تفاوت‬‫هم‬‫در‬‫تعیین‬‫پارامترهاي‬‫مدل‬‫و‬‫هم‬‫در‬‫فرضیات‬‫تأثیر‬‫مي‬‫گذارد‬.
‫در‬‫مسائل‬‫رگرسیون‬‫کمیت‬‫مورد‬‫توجه‬‫مقدار‬‫متوسط‬‫متغیر‬‫پاسخ‬‫است‬‫که‬‫ب‬‫ا‬‫تغییر‬
‫پارامترهاي‬‫توضیحي‬‫هر‬‫مقداري‬‫را‬‫مي‬‫تواند‬‫اختیار‬‫کند‬.‫اما‬‫در‬‫داده‬‫هاي‬‫دودويي‬
‫مقدار‬‫متوسط‬‫پاسخ‬‫در‬‫مدل‬‫به‬‫فرم‬‫مقدار‬‫احتمال‬‫مي‬‫باشد‬.
‫حال‬‫چنانچه‬‫متغیر‬‫پاسخ‬‫گسسته‬‫باشد‬‫اما‬‫بخواهیم‬‫از‬‫فرم‬‫و‬‫امکانات‬‫رگرسی‬‫ون‬
‫خطي‬‫کمک‬‫بگیريم‬‫بايد‬‫تابع‬‫مناسبي‬‫را‬‫براي‬‫تبديل‬‫انتخاب‬‫نمود‬‫که‬‫خص‬‫وصیات‬‫را‬
‫به‬‫خصوصیات‬‫رگرسیون‬‫خطي‬‫تغییر‬‫دهد‬.
69‫کارگاه‬‫تخصصي‬ ‫آموزشي‬:‫کاوي‬ ‫داده‬‫افزار‬ ‫نرم‬ ‫در‬‫مودلر‬ ‫و‬ ‫کلمنتاين‬
70
‫لجستیک‬ ‫رگرسیون‬
‫فرم‬‫معین‬‫مدل‬‫رگرسیون‬‫لجستیک‬‫به‬‫شکل‬‫زير‬‫است‬:
‫تبديلي‬‫که‬‫ما‬‫را‬‫به‬‫رگرسیون‬‫لجستیک‬‫مي‬‫رساند‬‫تبديل‬‫لجیت‬‫نا‬‫میده‬‫مي‬
‫شود‬‫که‬‫بصورت‬‫زير‬‫تعريف‬‫مي‬‫گردد‬:
70
(x)=x+=)
(x)-1
(x)
ln( 10 


71
‫تبديل‬‫لجیت‬‫بسیاري‬‫از‬‫خواص‬‫رگرسیون‬‫خطي‬‫را‬‫دارد‬‫چنانکه‬‫نسبت‬‫به‬
‫پارامترها‬‫خطي‬‫و‬‫پیوسته‬‫بوده‬‫و‬‫برد‬‫آن‬‫کل‬‫مجموعه‬‫اعداد‬‫حقیقي‬‫است‬.
‫يک‬‫تفاوت‬‫عمده‬‫باقیمانده‬‫در‬‫توزيع‬‫خطاي‬‫دو‬‫مدل‬‫است‬‫که‬‫در‬‫رگرسیو‬‫ن‬
‫لجیت‬‫از‬‫نوع‬‫دو‬‫جمله‬‫اي‬‫است‬‫و‬‫مانند‬‫رگرسیون‬‫خطي‬‫نمي‬‫توان‬‫آن‬‫را‬‫با‬
‫توزيع‬‫نرمال‬‫فرض‬‫نمود‬.
71
(x)=x+=)
(x)-1
(x)
ln( 10 


  (x)Y
72
‫براي‬‫برآورد‬‫پارامترهاي‬‫مجهول‬‫با‬‫استفاده‬‫از‬‫روش‬‫ماکسیمم‬‫درست‬‫نماي‬‫ي‬
‫داريم‬:
‫براي‬‫يافتن‬‫مقاديري‬‫از‬β‫که‬L(β)‫را‬‫بیشینه‬‫مي‬‫کند‬‫با‬‫مساوي‬‫صفر‬‫قرار‬
‫دادن‬‫مشتقات‬‫حاصل‬‫داريم‬:
‫نتیجتا‬‫معادالت‬‫نسبت‬‫به‬β0‫و‬β1‫غیرخطي‬‫مي‬‫باشند‬‫و‬‫حل‬‫بايد‬‫به‬‫صورت‬
‫عددي‬‫صورت‬‫پذيرد‬.
72

1/14/2016
13
73
Logistic‫در‬Clementine
74
‫از‬‫استفاده‬‫با‬ ‫زماني‬ ‫هاي‬ ‫سري‬‫تحليل‬Clementine
‫مي‬‫توان‬‫سري‬‫زماني‬‫ا‬‫ر‬‫دنباله‬‫اي‬‫از‬‫مشاهدات‬‫دانست‬‫که‬‫برحسب‬‫زمان‬‫وقوع‬‫پيشامد‬‫متناظر‬‫با‬‫آن‬‫مشاهدات‬‫مرتب‬‫شده‬،‫اند‬
‫به‬‫عبارت‬‫ديگر‬‫پيشامدهايي‬‫که‬‫وابسته‬‫به‬‫يک‬‫امتر‬‫ر‬‫پا‬‫تغيير‬‫مي‬‫کنند‬‫تشکيل‬‫يک‬‫آيند‬‫ر‬‫ف‬‫ا‬‫ر‬‫مي‬‫دهند‬‫و‬‫متغير‬‫تصادفي‬‫متناظر‬‫با‬
‫اين‬‫آيند‬‫ر‬‫ف‬‫نيز‬‫به‬‫اين‬‫امتر‬‫ر‬‫پا‬‫بستگي‬‫خواهد‬‫داشت‬‫و‬‫اگر‬‫اين‬‫امتر‬‫ر‬‫پا‬‫زمان‬‫باشد‬‫آيند‬‫ر‬‫ف‬‫متناظر‬‫يک‬‫سري‬‫زماني‬‫خواهد‬‫بود‬.
‫توليدات‬‫ساالنه‬‫محصوالت‬‫صنعتي‬‫و‬،‫کشاورزي‬‫قيمت‬‫يک‬‫فلز‬‫يا‬‫کاال‬‫در‬‫زمانهاي‬،‫مختلف‬‫ارزش‬،‫سهام‬‫نرخ‬‫انه‬‫ز‬‫رو‬‫بهره‬‫بانکي‬
‫نرخ‬‫بيکاري‬‫ماهيانه‬،
‫منحني‬‫نمايش‬‫يک‬‫مولفه‬‫ي‬‫فصلي‬St‫و‬‫يک‬‫روند‬‫رو‬‫به‬‫پايين‬‫دارد‬.
75
‫از‬ ‫استفاده‬ ‫با‬‫زماني‬ ‫هاي‬‫سري‬‫تحليل‬Clementine
‫سري‬‫مانا‬:‫داده‬‫هاي‬‫مربوط‬‫به‬‫ات‬‫ر‬‫تغيي‬‫ماه‬‫به‬‫ماه‬‫نرخ‬‫هاي‬‫سود‬‫در‬90‫روز‬‫سالهاي‬1981‫تا‬1993‫آمريکا‬‫مي‬‫باشد‬.‫جز‬‫يک‬
‫تغيير‬‫تيز‬‫در‬‫اواخر‬1984‫اين‬‫سري‬‫در‬‫حول‬‫يک‬‫سطح‬‫متوسط‬‫حدودا‬‫صفر‬‫نوسان‬‫مي‬‫کند‬.‫اغلب‬‫ات‬‫ر‬‫تغيي‬‫اقتصادي‬‫هف‬‫ته‬
‫به‬‫هفته‬‫يا‬‫ماه‬‫به‬،‫ماه‬‫فصل‬‫به‬‫فصل‬‫حتي‬‫سال‬‫به‬‫سال‬‫معموال‬‫اينگونه‬‫هستند‬.
‫سري‬‫نامانا‬:‫به‬‫جاي‬‫درنظرگرفتن‬‫ات‬‫ر‬‫تغيي‬‫ماه‬‫به‬‫ماه‬‫در‬‫مثال‬‫قبل‬‫اگر‬‫خود‬‫سري‬‫زماني‬‫نرخ‬‫نود‬‫روزه‬‫در‬‫طول‬‫اين‬‫سالها‬‫ا‬‫ر‬‫در‬
‫نظر‬‫بگيريم‬‫به‬‫رفتار‬‫ديگري‬‫برخورد‬‫مي‬‫کنيم‬.‫اه‬‫ر‬‫حل‬:‫استفاده‬‫از‬‫تفاضل‬‫گيري‬
76
‫زماني‬‫سري‬‫هاي‬‫مدل‬‫پيشرفت‬‫روند‬
‫مرتبه‬‫اتورگرسيو‬ ‫سري‬P
AR(P)
‫مرتبه‬‫متحرک‬‫ميانگين‬‫زماني‬‫سري‬ ‫هاي‬‫مدل‬q
MA(q)
‫چنانچه‬‫مدل‬ARMA‫اي‬‫ر‬‫دا‬‫يک‬‫روند‬d‫باشد‬‫مدل‬
‫حاصل‬ARIMA‫خواهد‬‫بود‬
‫انباشته‬‫اتورگرسيو‬‫متحرک‬‫ميانگين‬‫زماني‬ ‫سري‬‫مدل‬
ARIMA(p,d,q)
‫اتب‬‫ر‬‫م‬ ‫با‬‫رگرسيو‬‫اتو‬‫متحرک‬‫ميانگين‬‫زماني‬‫سري‬‫مدل‬(p,q)
AR(p) + MA(q)=ARMA (p,q)
77
‫سري‬‫اتورگرسيو‬‫مرتبه‬p:
‫سري‬‫اتورگرسيو‬‫مرتبه‬p‫که‬‫آن‬‫ا‬‫ر‬‫با‬AR(p)‫نشان‬‫مي‬‫دهيم‬‫به‬‫صورت‬‫زير‬‫تعريف‬‫مي‬‫شود‬.
‫که‬‫در‬‫آن‬‫بوده‬‫و‬‫دو‬‫بدو‬‫ناهمبسته‬‫اند‬‫يعني‬،
p
t i t i t
i 1
AR(p): X a X Z

 
‫مدل‬‫هاي‬‫سري‬‫زماني‬‫ميانگين‬‫متحرک‬‫مرتبه‬q:
‫سري‬‫زماني‬‫ميانگين‬‫متحرک‬‫تبه‬‫ر‬‫م‬q‫که‬‫آن‬‫ا‬‫ر‬‫با‬MA(q)‫نشان‬‫مي‬‫دهند‬‫به‬‫صورت‬‫ير‬‫ز‬‫است‬.
‫که‬
‫که‬‫و‬bi‫اند‬ ‫معلوم‬‫هايي‬ ‫ثابت‬‫ها‬.
t s 
2
t z tZ ~ N(0, ) ; 
q
t i t i
i 0
MA(q) ; X b Z 

 
0b 1
2
tZ ~ N(0, )t scov(Z ,Z ) 0
78
‫مدل‬𝑨𝑹𝑴𝑨 (𝒑,𝒒) ∶
‫سري‬‫زماني‬𝐴𝑅𝑀𝐴(𝑝,𝑞)‫به‬‫صورت‬‫ير‬‫ز‬‫يف‬‫ر‬‫تع‬‫مي‬‫شود‬.
‫و‬‫و‬
‫گرفتن‬ ‫نظر‬‫در‬ ‫با‬ ‫توان‬‫مي‬‫نوشت‬ ‫ير‬‫ز‬‫صورت‬ ‫به‬‫ا‬‫ر‬ ‫سري‬ ‫اين‬.
‫يا‬
‫که‬‫تبه‬‫ر‬‫م‬ ‫الجمله‬‫ر‬‫کثي‬ ‫آن‬‫در‬𝑝‫و‬‫تبه‬‫ر‬‫م‬ ‫الجمله‬‫ر‬‫کثي‬‫يک‬q‫است‬.
p q
i t i i t i 0 0
i 0 i 0
a X b Z ; a b 1 
 
   
2
t zZ ~ N(0, )t s t s,cov(Z ,Z ) 0 
r
t t rB X X 
p q
i i
i t i t
i 0 i 0
a B X b B Z
 
 
p q
i i
i t i t
i 0 i 0
( a B )X ( b B )Z
 
  t t(B)X (B)Z   
(B)(B)

1/14/2016
14
79
‫مدل‬𝑨𝑹𝑰𝑴𝑨 (𝒑,𝒅,𝒒)
‫مدل‬‫هاي‬‫سري‬‫زماني‬𝑨𝑹𝑰𝑴𝑨‫بيشتر‬‫اي‬‫ر‬‫ب‬‫سري‬‫هاي‬‫نامانا‬‫مطرح‬‫مي‬‫باشند‬.
‫قبال‬‫ديديم‬‫که‬‫مدل‬𝑨𝑹𝑴𝑨(𝒑,𝒒)‫ا‬‫ر‬‫مي‬‫توان‬‫در‬‫حالت‬‫کلي‬‫بصورت‬‫زير‬‫نوشت‬:
‫حال‬‫اگر‬‫بتوان‬‫سري‬‫ا‬‫ر‬‫بصورت‬‫زير‬‫نوشت‬:
‫که‬‫چند‬‫جمله‬‫اي‬‫از‬‫مرتبه‬‫است‬.‫مدل‬‫فوق‬‫ا‬‫ر‬‫مدل‬𝑨𝑹𝑰𝑴𝑨(𝒑,𝒅,𝒒)‫مي‬‫نامند‬.
‫اين‬‫ر‬‫بناب‬‫مدل‬‫هاي‬‫آريما‬‫اي‬‫ر‬‫ب‬‫سري‬‫هاي‬‫زماني‬‫با‬‫روند‬‫مناسب‬‫مي‬‫باشند‬.
t t(B)X (B)Z (1)  
d
1 t t(B).(1 B) X (B)Z (2)   
1(B)1P p d 
80
‫مساله‬‫پيش‬‫بيني‬‫فروش‬‫يك‬‫شركت‬‫ارائه‬‫كننده‬‫خدمات‬‫اينترنت‬
‫نود‬‫هاي‬‫مورد‬‫استفاده‬:
‫نود‬Time interval‫اي‬‫ر‬‫ب‬‫مشخص‬‫كردن‬‫دوره‬‫سري‬‫زماني‬(‫ماهانه‬،‫ساالنه‬‫يا‬...)،‫داده‬‫هاي‬‫مورد‬‫استفاده‬‫اي‬‫ر‬‫ب‬‫تخم‬‫ين‬
‫مدل‬‫و‬‫تعداد‬‫دوره‬‫آتي‬‫اي‬‫ر‬‫ب‬‫پيش‬‫بيني‬‫بكار‬‫مي‬‫ورد‬.
‫نود‬Time series‫اي‬‫ر‬‫ب‬‫مشخص‬‫كردن‬‫نوع‬‫مدل‬‫تحليل‬‫سري‬‫زماني‬‫بكار‬‫مي‬‫رود‬.
‫مساله‬:
‫داده‬‫هاي‬‫مورد‬‫استفاده‬‫مربوط‬‫به‬‫فروش‬‫ماهيانه‬‫مودم‬‫هاي‬‫يك‬‫شركت‬‫در‬‫يكا‬‫ر‬‫آم‬‫مي‬‫باشد‬‫كه‬‫در‬‫ارهاي‬‫ز‬‫با‬‫مخ‬‫تلف‬
‫انجام‬‫مي‬‫شود‬.
‫هدف‬‫پيش‬‫بيني‬‫سري‬‫زماني‬‫فروش‬‫اي‬‫ر‬‫ب‬‫دوره‬‫هاي‬‫آتي‬‫با‬‫استفاده‬‫از‬‫مدلهاي‬‫مختلف‬‫سري‬‫زماني‬‫است‬.
81
‫نت‬‫ر‬‫اينت‬‫خدمات‬‫كننده‬‫ارائه‬‫شركت‬‫يك‬‫فروش‬‫بيني‬‫پيش‬‫مساله‬
 Q. The Ljung-Box Q statistic. A test of the randomness of the residual errors in this model.
 df. Degrees of freedom. The number of model parameters that are free to vary when estimating a particular target.
 Sig. Significance value of the Ljung-Box statistic. A significance value less than 0.05 indicates that the residual errors are not
random.
82
‫عصبي‬ ‫هاي‬‫شبكه‬‫از‬ ‫استفاده‬ ‫با‬‫بيني‬‫پيش‬MLP
•‫روند‬ ‫بكار‬‫منحني‬ ‫هر‬‫بيني‬‫پيش‬‫اي‬‫ر‬‫ب‬ ‫توانند‬ ‫مي‬‫عصبي‬‫هاي‬ ‫شبكه‬.
•‫مساله‬:‫سهام‬‫انه‬‫ز‬‫رو‬ ‫قيمت‬‫بيني‬‫پيش‬
•‫وردي‬‫هاي‬‫متغير‬:open price , close price,High price,low price
•‫خروجي‬‫متغير‬:Next day price
83
‫تحليل‬‫وابستگي‬‫قواعد‬‫از‬ ‫استفاده‬ ‫با‬Clementine
‫قوانین‬،‫وابستگی‬‫الگوهای‬‫موجود‬‫در‬‫داده‬‫ها‬‫را‬‫بدون‬‫زمینه‬‫هدف‬‫خاصی‬‫نشان‬‫می‬‫دهند‬.
‫به‬‫همین‬‫دلیل‬‫این‬‫قوانین‬‫نمونه‬‫ای‬‫از‬‫داده‬‫کاوي‬‫هدايت‬‫نشده‬‫هستند‬.
84
‫از‬ ‫استفاده‬ ‫با‬‫وابستگي‬‫قواعد‬ ‫تحليل‬Clementine
‫در‬ ‫وابستگي‬‫قواعد‬‫تحليل‬Clementine

1/14/2016
15
85
‫زمينه‬‫اين‬‫در‬ ‫معروف‬ ‫هاي‬‫الگوريتم‬‫از‬ ‫يكي‬Apriori‫است‬.
86
87
•‫مساله‬:‫داده‬‫هاي‬‫يد‬‫ر‬‫خ‬‫يان‬‫ر‬‫مشت‬‫در‬‫دسترس‬‫است‬‫و‬‫ان‬‫ر‬‫مدي‬‫فروشگاه‬‫مي‬‫خواهند‬‫قواعد‬
‫يدي‬‫ر‬‫خ‬‫ا‬‫ر‬‫از‬‫اين‬‫داده‬‫ها‬‫اج‬‫ر‬‫استخ‬‫كنند‬.
88
89
‫تحليل‬‫و‬ ‫تجزيه‬RFM
‫در‬‫كسب‬‫و‬،‫كارها‬‫مجموعه‬‫داده‬‫هاي‬‫اکنش‬‫ر‬‫ت‬‫به‬‫عنوان‬‫مجموعه‬‫هاي‬‫ورودي‬‫اي‬‫ر‬‫ب‬‫بخش‬‫بندي‬‫يان‬‫ر‬‫مشت‬‫فر‬‫ض‬
‫مي‬‫شوند‬.‫ارزش‬RFM‫به‬‫عنوان‬‫شاخص‬‫هاي‬‫تبه‬‫ر‬‫بندي‬‫فتاري‬‫ر‬‫که‬‫بر‬‫بخش‬‫بندي‬‫يان‬‫ر‬‫مشت‬‫تأثير‬‫مي‬‫گ‬‫ذارد‬‫فرض‬
‫شده‬‫اند‬.
Recency:‫فاصله‬‫ميان‬‫زمان‬‫ين‬‫ر‬‫آخ‬‫اکنش‬‫ر‬‫ت‬‫مشتري‬‫مورد‬ ‫زمان‬ ‫تا‬‫ارزيابي‬
Frequency:‫تعداد‬‫يان‬‫ر‬‫مشت‬ ‫يدهاي‬‫ر‬‫خ‬‫در‬‫يک‬‫بازه‬‫زماني‬‫خاص‬
Monetary:‫ميانگين‬‫اکنش‬‫ر‬‫ت‬ ‫مبالغ‬‫مشتري‬‫در‬‫يک‬‫بازه‬‫زماني‬‫خاص‬
‫با‬‫استفاده‬‫از‬‫نود‬‫هاي‬clementine‫مي‬‫توانيم‬‫براي‬‫مجموعه‬‫اكنش‬‫ر‬‫ت‬‫هاي‬‫يان‬‫ر‬‫مشت‬RFM‫ا‬‫ر‬‫بدست‬‫آوريم‬.
‫نود‬RFM aggregate‫مقادير‬RFM‫ا‬‫ر‬‫براي‬‫يان‬‫ر‬‫مشت‬‫بدست‬‫مي‬‫دهد‬.
90
‫نود‬RFM Analysis
•‫توان‬ ‫مي‬ ،‫نود‬‫اين‬ ‫از‬ ‫استفاده‬ ‫با‬Weighed RFM Score‫آورد‬ ‫بدست‬ ‫يان‬‫ر‬‫مشت‬ ‫اي‬‫ر‬‫ب‬‫ا‬‫ر‬.
•‫به‬ ‫بوط‬‫ر‬‫م‬ ‫وزن‬‫مقادير‬ ‫نود‬‫اين‬ ‫در‬RFM‫گردد‬‫مي‬ ‫امتيازلحاظ‬‫محاسبه‬ ‫جهت‬‫خبرگان‬ ‫نظر‬ ‫با‬.
•‫متغيرهاي‬‫از‬‫كدام‬ ‫هر‬RFM‫گردد‬ ‫مي‬ ‫لحاظ‬ ‫امتيازي‬ ‫بازه‬‫هر‬ ‫اي‬‫ر‬‫ب‬ ‫و‬‫شوند‬ ‫مي‬ ‫تقسيم‬‫هايي‬ ‫بازه‬‫به‬،.
•‫آورد‬‫بدست‬ ‫ا‬‫ر‬ ‫مشتري‬ ‫اعتباري‬ ‫تبه‬‫ر‬ ‫توان‬ ‫مي‬ ‫نهايت‬ ‫در‬.

1/14/2016
16
91
‫تحليل‬‫از‬ ‫استفاده‬ ‫با‬ ‫يابي‬‫ر‬‫بازا‬‫فعاليت‬ ‫به‬‫يان‬‫ر‬‫مشت‬ ‫پاسخ‬‫مدلسازي‬RFM
‫مساله‬:‫تحليل‬‫از‬‫استفاده‬RFM‫ياب‬‫ر‬‫ا‬‫ز‬‫با‬‫هاي‬‫فعاليت‬ ‫به‬ ‫يان‬‫ر‬‫مشت‬‫پاسخ‬ ‫مدلسازي‬ ‫اي‬‫ر‬‫ب‬‫ي‬
92
‫كاوي‬ ‫داده‬‫تركيبي‬ ‫هاي‬‫مدل‬(Hybrid models)
‫در‬stream‫بن‬‫خوشه‬ ،‫مشخصه‬ ‫انتخاب‬‫هاي‬ ‫الگوريتم‬‫تركيب‬ ‫با‬‫ماژوالر‬‫كالسبند‬ ‫سيستم‬ ‫يك‬ ‫ير‬‫ز‬‫و‬‫دي‬
‫است‬‫شده‬ ‫ايجاد‬‫كالسبندي‬.
‫يك‬‫خوشه‬‫هر‬ ‫اي‬‫ر‬‫ب‬ ‫و‬‫شوند‬ ‫مي‬ ‫بندي‬‫خوشه‬‫ها‬ ‫داده‬،‫ها‬ ‫داده‬ ‫تمام‬ ‫از‬ ‫استفاده‬ ‫با‬‫مساله‬ ‫كردن‬‫مدل‬ ‫جاي‬‫به‬‫مدل‬
‫بيند‬ ‫مي‬‫آموزش‬‫كالسبند‬.
‫است‬‫بيشتر‬ ‫عموما‬ ‫ديگر‬‫مدلهاي‬ ‫از‬‫ماژوالر‬‫مدلهاي‬‫دقت‬.
93
•‫برگزاری‬‫دوره‬‫های‬‫داده‬،‫کاوی‬‫شبکه‬‫های‬‫عصبی‬،‫سیستم‬
‫های‬‫فازی‬:
–‫تئوری‬‫مدل‬‫ها‬‫و‬‫الگوریتم‬‫ها‬
–‫پیاده‬‫سازی‬‫در‬‫نرم‬‫افزارهای‬‫مختلف‬‫و‬‫کدینک‬‫با‬MATLAB
–‫موضوعات‬‫تحقیقاتی‬‫اخیر‬‫در‬‫حوزه‬‫داده‬‫کاوی‬
–‫کاربردهای‬‫داده‬‫کاوی‬‫در‬‫تدوین‬،‫استراتژی‬،‫بازاریابی‬‫تولید‬‫و‬...
‫مدرس‬:‫دکتر‬‫اسماعیل‬‫هداوندی‬(‫دکترای‬‫مهندسی‬‫صنایع‬‫دانشگاه‬
‫صنعتی‬‫امیرکبیر‬‫و‬‫عضو‬‫هیات‬‫علمی‬‫دانشگاه‬)

Ibm modeler

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (13)

Semelhante a Ibm modeler

Semelhante a Ibm modeler (20)

Ibm modeler