5. 1/14/2016
5
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
25
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
در مدلسازياصلي فرايندClementine
مقاالت(Hadavandi 1-3)
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
26
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
يك توسعهمدل(Stream)درClementine
•است نياز بخش سه حداقل مدل توسعه براي:
.1از استفادهNodeها داده بارگذاري(درSource palette)
.2ها داده نوع تعيين(و خروجي يا ورودي ،داده نوع...درField options)
.3دانش كشف مدل(درModel palette)
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
27
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ها داده پردازشپيش(Data preprocessing)
•نودTRANSFORM
مدلسازي دراستفاده و امارياستنباط جهت شده تبديل هاي داده توزيع و ها داده توزيع تجسم
•نودMeans
ها داده ميانگين آماري مقايسه(آمارهt-student)
•نودStatistics
اساسي هاي آماره محاسبه(واريانس ،ميانگين)...
متغيرها دوبدو همبستگي محاسبه
ها داده توزيع مورد در آماري استنباط جهت مناسب
مشخصه انتخاب براي مناسب(در يكي است بهتر ،باشد باال متغير دو بين همبستگي اگرشود وارد مدلسازي)
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
28
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Pearson's correlation coefficient
• Pearson's correlation coefficient when applied to a population is commonly
represented by the Greek letter ρ (rho) and may be referred to as the population
correlation coefficient or the population Pearson correlation coefficient. The
formula for ρ is:
• Statistical inference based on Pearson's correlation coefficient often focuses on
one of the following two aims:
– One aim is to test the null hypothesis that the true correlation coefficient ρ is equal to 0, based on
the value of the sample correlation coefficientr.
– The other aim is to construct a confidence interval around r that has a given probability of
containing ρ.
• http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
29
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ها داده کیفیت
•چهنوعیازدادههامشکالتکیفیتیدارند؟
•چگونهمیتوانیممشکالترادردادههاشناسایکنیم؟
•فرایندبرطرفکردنمشکالتفوقدردادههاچیست؟
•نمونههاییازمشکالتکیفیتدادهها
-نویزودادههایپرت
-مقادیرگمشده
-دادههایتکراری
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
30
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
پرت های داده
•Outliers(پرت های داده)که هستند هایی ویژگی با ای داده
د مجموعه در دیگر های داده از بسیاری با توجهی قابل بطوراده
هامتفاوتهستند.
6. 1/14/2016
6
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
31
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
شده گم مقادیر
•دالیلیبرایشده گم مقادیر:
₋اطالعاتنشده آوری جمعاست
(پذیرند نمی را خود وزن و سن مردم)
₋ها نمونه همه با ها مقیاسنیستند انطباق قابل
(نیست محاسبه قابل کودکان برای ساالنه درآمد)
•کنیم کار چه شده گم مقادیر با
₋کردن حذفها داده
₋تخمینشده گم مقادیر
₋پوشی چشمآنالیز طول در شده گم مقادیر از
₋جایگزینیممکن مقادیر تمامی با(احتمالی مقادیر با دهی وزن)
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
32
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ها داده پردازش پیش
•داده انتخاب
•ابعاد کاهش
•نویز و مغشوش های داده حذف و شناسایی
•ها داده در گمشده مقادیر کردن پر
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
33
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مشخصه انتخاب
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
34
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مدلسازي برايمعنادار هاي مشخصهانتخاب(Feature selection in clementine)
انتخابوروديهايکيازمهمترينابزاردرپيشپردازشدادههاست.
اينمسالهشاملايندرفتعيينوروديهايتبطرموحذفصفاتيکهائدزبودهواطالعاتاندکياهمرفميکنند.
انجامايندرفانتخابوروديهاقبلازبکارگيرييکالگوريتميادگيرييتزمهاياوانيرفدارد.
باحذفتعدادياديزازوروديهاي،بوطرنامروشهاييادگيريي آموزشينهزهمحاسباتيوزمانکمتريارمتحملميشوند.
همچنينمدلبدستآمدهسادهترميشودکهغالباتفسيرآنسادهترشدهودرعملمفيدترميباشد.
يكيازروشهايانتخابمشخصههااستفادهازامارهt-valueدررگرسيوناست.اگرP-valueكمترازسطحمعنيداري
مشخصشدهباشدآنمتغيرازلحاظآماريمعناداراست.
بااستفادهازنودFeature selectionميتوانروشفوقارپيادهسازيكرد..
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
35
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مدلسازي برايمعنادار هايمشخصه انتخاب(Feature selection in clementine)
Maximum percentage of missing values. Screens fields with too many missing values, expressed as a
percentage of the total number of records. Fields with a large percentage of missing values provide little
predictive information.
Maximum percentage of records in a single category. Screens fields that have too many records falling
into the same category relative to the total number of records. For example, if 95% of the customers in the
database drive the same type of car, including this information is not useful in distinguishing one customer
from the next. Any fields that exceed the specified maximum are screened. This option applies to
categorical fields only.
Maximum number of categories as a percentage of records. Screens fields with too many categories
relative to the total number of records. If a high percentage of the categories contains only a single case,
the field may be of limited use. For example, if every customer wears a different hat, this information is
unlikely to be useful in modeling patterns of behavior. This option applies to categorical fields only.
Minimum coefficient of variation. Screens fields with a coefficient of variance less than or equal to the
specified minimum. This measure is the ratio of the predictor standard deviation to the predictor mean. If
this value is near zero, there is not much variability in the values for the variable. This option applies to
numeric range fields only.
Minimum standard deviation. Screens fields with standard deviation less than or equal to the specified
minimum. This option applies to numeric range fields only.
Records with missing data. Records or cases that have missing values for the target field, or missing values
for all predictors, are automatically excluded from all computationsused in the rankings.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
36
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مدلسازي برايمعنادار هايمشخصه انتخاب(Feature selection in clementine)
All categorical. When all predictors and the target are categorical, importance can be
ranked based on any of four measures:
Pearson chi-square. Tests for independence of the target and the predictor without indicating
the strength or direction of any existing relationship.
Likelihood-ratio chi-square. Similar to Pearson's chi-square but also tests for target-predictor
independence.
Cramer's V. A measure of association based on Pearson's chi-square statistic. Values range
from 0, which indicates no association, to 1, which indicatesperfect association.
Lambda. A measure of association reflecting the proportional reduction in error when the
variable is used to predict the target value. A value of 1 indicates the predictor perfectly
predicts the target, while a value of 0 means the predictor provides no useful information
about the target.
Some categorical. When some—but not all—predictors are categorical and the target is also
categorical, importance can be ranked based on either the Pearson or likelihood-ratio chi-
square. (Cramer's V and lambda are not available unless all predictors are categorical.)
7. 1/14/2016
7
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
37
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مشخصه استخراج مساله
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
38
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
هاداده پردازشپيش(Data preprocessing)
اصليمولفهتحليل(PCA)
مدلسازي كاربردهاي درورودي هاي دادهابعاد كاهشجهت
اصلي هايمشخصهتركيب باجديد هايمشخصه ساخت
ها داده تجسم ونمايشجهت
هاداده سازيمجسم
اوليه هاي تحليلانجامجهت(و نويز مواردحذف مثال)...
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
39
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
PCA Application: Bank Card
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
40
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
PCA Application: Bank Card
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
41
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ها داده پردازشپيش(Data preprocessing)
مغشوش هاي نمونهاصالحوشناسايي(outlier detection)
Outlier data(مغشوش داده)طغير مواردياو محاسبهدرخطاازي ناش تواندمي كهداردديگرهاي دادهبازياديتفاوتكه استايدادهبيعي
شودايجاددهدرخسيستميكدرتواندميكه.
هاينمونهرويبر اترتغيياعمالوشناساييباشندميخطاونويزايرداكههايينمونهو ائدزي آموزشدايشزاف ارمدلدقت تواندميهد.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
42
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مغشوش هاي نمونهاصالحو شناسايي(outlier detection)
HandlingOutliers and Extreme Values
The audit report lists number of outliers and extremes is listed for each field based on the
detection options specified in the Data Audit node. You can choose to coerce, discard, or
nullify these values for specific fields as appropriate, and then generate a SuperNode to apply
the transformations.
In the Action column, specify handlingfor outliers and extremes for specific fields as desired.
Show details Hide details
The following actions are available for handlingoutliers and extremes:
Coerce. Replaces outliers and extreme values with the nearest value that would not be
considered extreme. For example if an outlier is defined to be anythingaboveor below
three standard deviations, then all outliers would be replaced with the highest or lowest
value within this range.
Discard. Discards records with outlying or extreme values for the specified field.
Nullify. Replaces outliers and extremes with the null or system-missingvalue.
Coerce outliers / discard extremes. Discards extreme values only.
Coerce outliers / nullify extremes. Nullifies extreme values only.
8. 1/14/2016
8
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
43
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ها داده پردازشپيش(Data preprocessing)
هادادهدر خاليهاي فيلدپردازش(Missing value handling)
استضروريمدلسازي شروعاز قبل دادهپايگاه درخالي هايفيلد پركردن.
كاراين ايربClementineداردداده پايگاه هاي متغير هايفيلدهوشمند پركردن ايرب مختلفيروشهاي.
نمادبايدابتدا كاراين ايربMissing valueبه دادهپايگاه درارClementineنود دركهكنيدمعرفيtype
گيرد مي صورت امراين(.فرض پيشBlankدرارآن نماد توان ميولياستSpecifyكرد مشخص)
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
44
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
انواعMissing value
There are several types of missing values recognized by Clementine:
Null or system-missing values. These are nonstring values that have been left blank in
the database or source file and have not been specifically defined as "missing" in a
source or Type node. System-missing values are displayed as $null$. Note that empty
strings are not considered nulls in Clementine, although they may be treated as nulls by
certain databases.
Empty strings and white space. Empty string values and white space (strings with no
visible characters) are treated as distinct from null values. Empty strings are treated as
equivalent to white space for most purposes. For example, if you select the option to
treat white space as blanks in a source or Type node, this setting applies to empty
strings as well.
Blank or user-defined missing values. These are values such as unknown, 99, or –1 that
are explicitly defined in a source node or Type node as missing. Optionally, you can also
choose to treat nulls and white space as blanks, which allows them to be flagged for
special treatment and to be excluded from most calculations. For example, you can use
the @BLANK function to treat these values, along with other types of missing values, as
blanks.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
45
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Missing value handling
نوداجرايار بعدData auditبخشدر بايستمي،Quality،Actionپردازشبرايرانظرموردmissing
valueكنيمانتخاب ها.
Fixed. Substitutes a fixed value (either the field mean, midpoint of the range, or a constant that you
specify).
Random. Substitutes a random value based on a normal or uniform distribution.
Expression. Allows you to specify a custom expression. For example, you could replace values with a global
variable created by the Set Globals node.
Algorithm. Substitutes a value predicted by a model based on the C&RT algorithm. For each field imputed
using this method, there will be a separate C&RT model, along with a Filler node that replaces blanks and
nulls with the value predicted by the model. A Filter node is then used to remove the prediction fields
generated by the model.
بعدارانتخابروش،nodeنشاندهندهروشفوقارميسازيم.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
46
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
Missing value handling
•هوشمندبصورت خالي هايفيلد كردن پر ايربتصميم درختالگوريتماز استفاده
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
47
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
با هاداده بندي خوشهClementine
كاويداده مساله
نمايندبنديتقسيمگروه چنددرارخوديانرمشتندردا قصدبانكييابيرازباانرمدي.
گرفتخواهدانجاماست موجودبانكدادهپايگاهدركهبانكيانرمشتهايمشخصهاساس بربندي تقسيماين.
بكميشباهتمختلفكالسهاييانرمشتوباشندهمبهشبيهندرگي مياررقكالس يكردكهيانيرمشتكهاستاينهدفداشته هما
باشند.
استبنديخوشهمسالهيكفوقمساله.بندي خوشهمدلهاي ازاستفاده باClementineبههاخوشهمناسبتعدادتوانيم مي
بياوريمبدستارهاخوشهخوداهرهم.
مسيرازfiles-open stream-3 clustering methods-bank customers.str“كنيم مياخوانيرفار.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
48
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
با هاداده بندي خوشهClementine
•روشهايخوشهبنديدادهها
روشهايسلسلهاتبيرم
–درايننوعازروشهايخوشه،بنديدادههادردرختيازخوشههاگروهبنديميشوند.
–بهطورکليروشهايسلسلهاتبيرمارميتوانبهدودستهتقسيمکرد:روشهايجمعکنندهوروشهايتقسيمکننده.
–روشهايجمعکننده(AGGLOMERATIVE)درابتداهردادهاردرخوشهايجداگانهاررقميدهند.سپسخوشههاارباهم
ادغامکردهوخوشههايبزرگتريايجادميکنند.اينکارتازمانيادامهمييابدکهياتمامدادههادريکخوشهواحداررقگندريويا
شرطمعينيارربرق،شودمثالتعدادخوشههابهمقداردلخواهبرسد.درهرمرحلهخوشههاييبههممتصلميشوندکهينربيشت
شباهتارباهمندردا.ايربي بررسانزميشباهتخوشههاالگوريتمهايمختلفيوجوددارد.
–دستهدومکهروشهايتقسيمکننده(DIVISVIVE)ناميدهميشوندعکسروشفوقاراعمالميکننديعنيدرختارازباالبه
پايينميندزسا.
روشهايتيشنرپابندي
–اينروشهاتعدادخوشههااربهعنوانامتررپاورودييافتردميكنندوبرمبنايشباهتبيندادهها،دادههادرخوشههااررق
ميندرگي.
درادبياتموضوعاتوبردهايركاخوشهبنديازروشهايسلسلهاتبيرمايربتعيينتعدادخوشههااستفادهميشودسپستعداد
فوقبهعنوانوروديبهالگوريتمهايتيشنرپابنديدادهميشودتاخوشهبنديارانجامدهند.هردواينروشهادر
clementineوجودندردا.
11. 1/14/2016
11
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
61
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
هامدلارزيابي
•شودمي استفاده يرز معيارهاياز مدلهاارزيابي ايرب.
.1نظميبي يسرمات(Confusion Matrix)
كند ميايجادار آنهابنديدستهمدليكاحتماالكهپردازدميخطاهاييانواعسازيخالصهبهيسرماتاين.
يرطازقنودAnalysisيافتدستآن بهتوان مي.
.2حاصل(Gain)
.1بينپيشنرخبهتوجهبااربهبودوپردازدميجامعههايبخشدروندر موجودمثبتهايبينيپيشگيرياندازهبهدرمثبتهايي
كند ميگيرياندازهجامعهكل.
.2هرچهGainبه نزديكتروبيشتر100است بهترمدلباشد.
.3ازاستفاده باevaluation nodeدرgraph
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
62
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
هامدل ارزيابي
Gains charts. Cumulative gains charts always start at 0% and end at 100% as you go from left to right. For a good model, the
gains chart will rise steeply toward 100% and then level off. A model that provides no information will follow the diagonal
from lower left to upper right (shown in the chart if Include baseline is selected).
Lift charts. Cumulative lift charts tend to start above 1.0 and gradually descend until they reach 1.0 as you go from left to
right. The right edge of the chart represents the entire dataset, so the ratio of hits in cumulative quantiles to hits in data is
1.0. For a good model, lift should start well above 1.0 on the left, remain on a high plateau as you move to the right, and
then trail off sharply toward 1.0 on the right side of the chart. For a model that provides no information, the line will hover
around 1.0 for the entire graph. (If Include baseline is selected, a horizontal line at 1.0 is shown in the chart for reference.)
Response charts. Cumulative response charts tend to be very similar to lift charts except for the scaling. Response charts
usually start near 100% and gradually descend until they reach the overall response rate (total hits / total records) on the
right edge of the chart. For a good model, the line will start near or at 100% on the left, remain on a high plateau as you
move to the right, and then trail off sharply toward the overall response rate on the right side of the chart. For a model that
provides no information, the line will hover around the overall response rate for the entire graph. (If Include baseline is
selected, a horizontal line at the overall response rate is shown in the chart for reference.)
Profit charts. Cumulative profit charts show the sum of profits as you increase the size of the selected sample, moving from
left to right. Profit charts usually start near 0, increase steadily as you move to the right until they reach a peak or plateau in
the middle, and then decrease toward the right edge of the chart. For a good model, profits will show a well-defined peak
somewhere in the middle of the chart. For a model that provides no information, the line will be relatively straight and may
be increasing, decreasing, or level depending on the cost/revenue structure that applies.
ROI charts. Cumulative ROI (return on investment) charts tend to be similar to response charts and lift charts except for the
scaling. ROI charts usually start above 0% and gradually descend until they reach the overall ROI for the entire dataset
(which can be negative). For a good model, the line should start well above 0%, remain on a high plateau as you move to the
right, and then trail off rather sharply toward the overall ROI on the right side of the chart. For a model that provides no
information, the line should hover around the overall ROI value.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
63
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
های شبکهبیزیاعتبار بندی رتبه جهت
•معلولی علی روابط کشف برای روشی
•مشتری اعتباری ریسک سازی مشخصه در ارتباطشان و ها فاکتور اهمیت
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
64
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
بیزی های شبکه
بیزی ساده کننده بندی دسته
بیزی باور شبکهX1 X2 xn…
Concept C
P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) … P(xn|c)
P(x1,x2,…xn,c) = P(c) P(x1|c) P(x2|c) P(x3|x1,x2,c)P(x4,c)
X1 X2 x4
Concept C
X3
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
65
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
بیزی های شبکه
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
66
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ها داده در شرطی احتماالت جدول
13. 1/14/2016
13
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
73
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
LogisticدرClementine
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
74
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
ازاستفادهبا زماني هاي سريتحليلClementine
ميتوانسريزمانياردنبالهايازمشاهداتدانستکهبرحسبزمانوقوعپيشامدمتناظرباآنمشاهداتمرتبشده،اند
بهعبارتديگرپيشامدهاييکهوابستهبهيکامتررپاتغييرميکنندتشکيليکآيندرفارميدهندومتغيرتصادفيمتناظربا
اينآيندرفنيزبهاينامتررپابستگيخواهدداشتواگراينامتررپازمانباشدآيندرفمتناظريکسريزمانيخواهدبود.
توليداتساالنهمحصوالتصنعتيو،کشاورزيقيمتيکفلزياکاالدرزمانهاي،مختلفارزش،سهامنرخانهزروبهرهبانکي
نرخبيکاريماهيانه،
منحنينمايشيکمولفهيفصليStويکروندروبهپاييندارد.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
75
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
از استفاده بازماني هايسريتحليلClementine
سريمانا:دادههايمربوطبهاترتغييماهبهماهنرخهايسوددر90روزسالهاي1981تا1993آمريکاميباشد.جزيک
تغييرتيزدراواخر1984اينسريدرحوليکسطحمتوسطحدوداصفرنوسانميکند.اغلباترتغيياقتصاديهفته
بههفتهياماهبه،ماهفصلبهفصلحتيسالبهسالمعموالاينگونههستند.
سرينامانا:بهجايدرنظرگرفتناترتغييماهبهماهدرمثالقبلاگرخودسريزمانينرخنودروزهدرطولاينسالهااردر
نظربگيريمبهرفتارديگريبرخوردميکنيم.اهرحل:استفادهازتفاضلگيري
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
76
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
زمانيسريهايمدلپيشرفتروند
مرتبهاتورگرسيو سريP
AR(P)
مرتبهمتحرکميانگينزمانيسري هايمدلq
MA(q)
چنانچهمدلARMAايردايکروندdباشدمدل
حاصلARIMAخواهدبود
انباشتهاتورگرسيومتحرکميانگينزماني سريمدل
ARIMA(p,d,q)
اتبرم بارگرسيواتومتحرکميانگينزمانيسريمدل(p,q)
AR(p) + MA(q)=ARMA (p,q)
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
77
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
سرياتورگرسيومرتبهp:
سرياتورگرسيومرتبهpکهآنارباAR(p)نشانميدهيمبهصورتزيرتعريفميشود.
کهدرآنبودهودوبدوناهمبستهانديعني،
p
t i t i t
i 1
AR(p): X a X Z
مدلهايسريزمانيميانگينمتحرکمرتبهq:
سريزمانيميانگينمتحرکتبهرمqکهآنارباMA(q)نشانميدهندبهصورتيرزاست.
که
کهوbiاند معلومهايي ثابتها.
t s
2
t z tZ ~ N(0, ) ;
q
t i t i
i 0
MA(q) ; X b Z
0b 1
2
tZ ~ N(0, )t scov(Z ,Z ) 0
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
78
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مدل𝑨𝑹𝑴𝑨 (𝒑,𝒒) ∶
سريزماني𝐴𝑅𝑀𝐴(𝑝,𝑞)بهصورتيرزيفرتعميشود.
وو
گرفتن نظردر با توانمينوشت يرزصورت بهار سري اين.
يا
کهتبهرم الجملهرکثي آندر𝑝وتبهرم الجملهرکثييکqاست.
p q
i t i i t i 0 0
i 0 i 0
a X b Z ; a b 1
2
t zZ ~ N(0, )t s t s,cov(Z ,Z ) 0
r
t t rB X X
p q
i i
i t i t
i 0 i 0
a B X b B Z
p q
i i
i t i t
i 0 i 0
( a B )X ( b B )Z
t t(B)X (B)Z
(B)(B)
14. 1/14/2016
14
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
79
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مدل𝑨𝑹𝑰𝑴𝑨 (𝒑,𝒅,𝒒)
مدلهايسريزماني𝑨𝑹𝑰𝑴𝑨بيشترايربسريهاينامانامطرحميباشند.
قبالديديمکهمدل𝑨𝑹𝑴𝑨(𝒑,𝒒)ارميتواندرحالتکليبصورتزيرنوشت:
حالاگربتوانسرياربصورتزيرنوشت:
کهچندجملهايازمرتبهاست.مدلفوقارمدل𝑨𝑹𝑰𝑴𝑨(𝒑,𝒅,𝒒)مينامند.
اينربنابمدلهايآريماايربسريهايزمانيباروندمناسبميباشند.
t t(B)X (B)Z (1)
d
1 t t(B).(1 B) X (B)Z (2)
1(B)1P p d
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
80
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
مسالهپيشبينيفروشيكشركتارائهكنندهخدماتاينترنت
نودهايمورداستفاده:
نودTime intervalايربمشخصكردندورهسريزماني(ماهانه،ساالنهيا...)،دادههايمورداستفادهايربتخمين
مدلوتعداددورهآتيايربپيشبينيبكارميورد.
نودTime seriesايربمشخصكردننوعمدلتحليلسريزمانيبكارميرود.
مساله:
دادههايمورداستفادهمربوطبهفروشماهيانهمودمهاييكشركتدريكارآمميباشدكهدرارهايزبامختلف
انجامميشود.
هدفپيشبينيسريزمانيفروشايربدورههايآتيبااستفادهازمدلهايمختلفسريزمانياست.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
81
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
نتراينتخدماتكنندهارائهشركتيكفروشبينيپيشمساله
Q. The Ljung-Box Q statistic. A test of the randomness of the residual errors in this model.
df. Degrees of freedom. The number of model parameters that are free to vary when estimating a particular target.
Sig. Significance value of the Ljung-Box statistic. A significance value less than 0.05 indicates that the residual errors are not
random.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
82
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
عصبي هايشبكهاز استفاده بابينيپيشMLP
•روند بكارمنحني هربينيپيشايرب توانند ميعصبيهاي شبكه.
•مساله:سهامانهزرو قيمتبينيپيش
•ورديهايمتغير:open price , close price,High price,low price
•خروجيمتغير:Next day price
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
83
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
تحليلوابستگيقواعداز استفاده باClementine
قوانین،وابستگیالگوهایموجوددردادههارابدونزمینههدفخاصینشانمیدهند.
بههمیندلیلاینقوانیننمونهایازدادهکاويهدايتنشدههستند.
کارگاهتخصصي آموزشي:کاوي دادهافزار نرم درمودلر و کلمنتاين
84
Dr.Esmaeil Hadavandi
Dr.Esmaeil Hadavandi
از استفاده باوابستگيقواعد تحليلClementine
در وابستگيقواعدتحليلClementine