Dokumen tersebut membahas tentang preprocessing data yang meliputi empat tugas utama yaitu integrasi data, pembersihan data, transformasi data, dan reduksi data. Preprocessing data diperlukan untuk mempermudah memahami data dan meningkatkan kualitas hasil penambangan data."
Abortion pills in Jeddah+966543202731/ buy cytotec
02 - Preprocessing Data.pdf
1. Presentation 2022
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
PREPROCESSING
DATA
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
“To find signals in data, we must learn to reduce the
noise - not just the noise that resides in the data, but
also the noise that resides in us. It is nearly impossible
for noisy minds to perceive anything but noise in data.”
2. Kenapa
preprocessing data
diperlukan?
Completeness (kelengkapan), dalam data yang
diperoleh masih terdapat kekurangan atribut, atau
nilai-nilai atributnya, atau hanya mengandung
agregat saja.
Noise, masih ada tidak kesesuaian atau masih ada
ketimpangan dan kesalahan dari sebenarnya, yaitu
nilai yang diharapkan, seperti adanya nilai-nilai
outlier.
Consistency, terdapat perbedaan dan
ketidakcocokan dalam penggunaan kode atau nama,
beberapa dimodifikasi beberapa tidak.
4. Tujuan
preprocessing data
Mempermudah memahami data sehingga
mempermudah pemilihan teknik dan metode data
mining yang tepat
Meningkatkan efisiensi dan kemudahan proses
penambangan data (Pengurangan waktu komputasi
terutama untuk large-scale problem)
Meningkatkan kualitas data sehingga hasil data
mining menjadi lebih baik
5. Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01
6. Data Preparation Law
Data preparation is more than half of
every data mining process
Memaksimalkan proses data mining: sebagian besar upaya
dalam proyek penambangan data dihabiskan untuk akuisisi dan
persiapan data, dan perkiraan informal bervariasi dari 50
hingga 80 persen.
7. Mempermudah memahami data sehingga
mempermudah pemilihan teknik dan metode data
mining yang tepat
Meningkatkan efisiensi dan kemudahan proses
penambangan data (Pengurangan waktu komputasi
terutama untuk large-scale problem)
Meningkatkan kualitas data sehingga hasil data
mining menjadi lebih baik
Tujuan
preprocessing data
9. DATA CLEANING
(PEMBERSIHAN DATA)
Data seperti apa yang disebut kotor?
Sekotor apa data yang ada sehingga perlu
dibersihkan?
Bisakah data kotor langsung ditambang?
Adakah teknik data mining yang bisa digunakan
untuk data kotor dan memberikan hasil yang
baik?
10. DATA CLEANING
(PEMBERSIHAN DATA)
Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut
tertentu yang menarik, atau hanya berisi data agregat.
Misal: Gender = " " (data hilang).
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
11. Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0
Dedi Analis A Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Data Pelanggan Telepon Seluler
12. DATA CLEANING
(PEMBERSIHAN DATA)
Noisy: mengandung noise, error, atau outlier.
Misal: Gaji = "-1000000 " (sebuah kesalahan).
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
13. DATA CLEANING
(PEMBERSIHAN DATA)
Inconsistence: mengandung perbedaan dalam kode atau nama.
Misal: Usia=“42”, Tanggal Lahir=“03/07/2010
Dulu peringkat "1, 2, 3", sekarang peringkat "A, B, C"
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
14. DATA CLEANING
(PEMBERSIHAN DATA)
Perbedaan antara duplicate records.
Misal: Disengaja (mis., data hilang yang disamarkan)
Tanggal 1 Januari sebagai ulang tahun setiap orang
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
15. DATA CLEANING
(PEMBERSIHAN DATA)
Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut
Noisy: mengandung noise, error, atau outlier.
Inconsistence: mengandung perbedaan dalam kode atau nama.
Perbedaan antara duplicate records.
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
16. DATA CLEANING - PEMBERSIHAN DATA)
Misalnya, banyak tupel tidak memiliki nilai tercatat untuk
beberapa atribut, seperti pendapatan pelanggan dalam data
penjualan.
Incomplete (Missing Data)
Data tidak selalu tersedia
Kemungkinan penyebab data hilang:
Kerusakan peralatan, tidak konsisten dengan data rekaman
lainnya dan dengan demikian dihapus, data tidak masuk karena
misunderstanding, data tertentu mungkin tidak dianggap penting
pada saat penginputan data, tidak mendaftarkan riwayat atau
perubahan data
Data yang hilang mungkin perlu disimpulkan
19. DATA CLEANING - PEMBERSIHAN DATA)
Incomplete (Missing Data)
CONTOH
CONTOH
CONTOH
Sigit adalah manajer pemasaran untuk perusahaan desain dan periklanan Internet kecil
Bos Sigit memintanya untuk mengembangkan kumpulan data yang berisi informasi tentang
pengguna Internet
Perusahaan akan menggunakan data ini untuk menentukan jenis orang yang menggunakan
Internet dan bagaimana perusahaan dapat memasarkan layanan mereka kepada kelompok
pengguna ini
Untuk menyelesaikan tugasnya, Sigit membuat survei online dan menempatkan tautan ke
survei tersebut di beberapa situs web populer
Dalam dua minggu, Sigit telah mengumpulkan cukup data untuk memulai analisis, tetapi dia
menemukan bahwa datanya perlu didenormalisasi
Dia juga mencatat bahwa beberapa pengamatan dalam himpunan memiliki nilai yang hilang
atau tampaknya mengandung nilai yang tidak valid
Sigit menyadari bahwa beberapa pekerjaan tambahan pada data perlu dilakukan sebelum
analisis dimulai.
20. Abaikan tuple tersebut
BAGAIMANA MENANGANI DATA YANG HILANG
BAGAIMANA MENANGANI DATA YANG HILANG
BAGAIMANA MENANGANI DATA YANG HILANG
(MISSING DATA)?
(MISSING DATA)?
(MISSING DATA)?
Digunakan jika tuple tersebut tidak memiliki label kelas (dalam kasus klasifikasi data)
Kurang sesuai untuk data yang mempunyai banyak tuple dengan sedikit atribut kosong.
Isi atribut kosong secara manual
Membosankan, hal yang tidak mungkin?
Isi data kosong secara otomatis dengan menggunakan:
Konstanta global, seperti label "Tak dikenal"
Nilai rata-rata (untuk himpunan data yang memiliki distribusi normal/simetris) atau
median (condong untuk himpunan data yang memiliki distribusi asimetris.
Nilai yang paling mungkin untuk mengisi atribut kosong
Dapat ditentukan menggunakan regresi atau inferensi (seperti Bayesian atau Decision
Tree)
21. DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Derau dalam himpunan data bisa berupa kesalahan atau variasi yang bersifat acak.
Misalnya, suatu nilai yang jauh lebih kecil atau lebih besar dibandingkan yang lain.
Cara menghaluskan data berderau:
Diantaranya: Binning
22. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu
membaginya ke dalam sejumlah wadah (bin) secara merata
Penghalusan dapat dilakukan menggunakan tiga cara, yaitu rata-rata
(mengganti semua nilai dengan rata-rata pada setiap bin, median
(mengganti semua nilai dengan dengan median pada setiap bin, atau
batas nilai minimum dan maksimum (mengganti semua nilai dengan nilai
minimum atau maksimum yang terdekat pada semua bin).
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
23. Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Data Pelanggan Telepon Seluler
24. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
25. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
26. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Dibagi ke dalam tiga bin.
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
27. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Dibagi secara merata ke dalam sejumlah bin.
Bin 1: 70,100,150
Bin 2: 200, 250, 270
Bin 3: 300, 380, 400
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
28. Penghalusan dengan rata-rata (pada setiap bin):
Bin 1: 107,107,107
Bin 2: 240, 240, 240
Bin 3: 360, 360, 360
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
29. Penghalusan dengan median (pada setiap bin):
Bin 1: 100,100,100
Bin 2: 250, 250, 250
Bin 3: 380, 380, 380
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
30. Penghalusan dengan nilai batas minimum dan maksimum
(pada setiap bin):
Bin 1: 80, 80, 150
Bin 2: 200, 270, 270
Bin 3: 300, 400, 400
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
31. Jika data outliner sudah ditemukan, data dapat dibuang.
Data outliner umumnya tidak banyak, hanya sekitar 2% dari
jumlah data.
Data-data outliner dapat ditemukan menggunakan tendensi
sentral, grafik statistik boxplot, berbagai teknik visualisasi,
atau clustering.
DATA CLEANING - PEMBERSIHAN DATA)
Membuang Outliner
Internet
(ribu)
150
300
100
200
400
380
70
250
270
32. Dikoreksi secara manual
Menggunakan aplikasi bantu (tools) komersial untuk
melakukan transformasi data. Seperti ETL
(Extraction/Transformation/Loading).
Memperbaiki inkonsistensi:
Disebabkan diantaranya oleh: kurang bagusnya desain formulir
pemasukan data, kesalahan operator memasukkan data,
kesalahan yang disengaja pengguna, data kadaluarsa,
penggunaan kode yang inkonsisten, kesalahan sistem, dll.
DATA CLEANING - PEMBERSIHAN DATA)
Memperbaiki Inkonsistensi 150
300
100
200
400
380
70
250
270
33. Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01
34. Ginyard International Co.
Integrasi Data
Dalam data mining, integrasi sejumlah basis
data seringkali harus dilakukan.
Integrasi data yang baik akan menghasilkan
data gabungan dengan sedikit redundansi
dan/atau inkonsistensi.
Permasalahan utama dalam integrasi data
adalah heterogenitas semantik dan struktur
dari semua data yang diintegrasikan.
www.reallygreatsite.com
35. Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah Pulsa (ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Nama Profesi Alamat
Jenis
Kelamin
Prabayar Kontrak Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kelompok
Feni Dokter 2 W 0 0 1 600 380 1 1
Gito Guru 1 P 1 1 0 100 70 0 3
Hani Analis 3 W 1 1 0 200 250 0 2
Jodi Dokter 1 P 0 0 1 450 270 2 1
36. Metadata
Data tentang data, yaitu segala hal yang menjelaskan tentang data.
Misal: nama atribut, arti semantik dari atribut, tipe data, rentang nilai yang
diizinkan pada atribut tersebut, dan aturan untuk menangani atribut tak bernilai,
nol, dan nilai kosong.
37. Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
38. Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01
39. Reduksi Data
Mendapat data yang direduksi
menjadi jauh lebih kecil dengan
tetap menjaga integritas yang
terdapat pada data asli.
Kenapa Reduksi Data?
Basis data/gudang data yang memungkinkan menyimpan terabyte data
Analisis data yang kompleks membutuhkan waktu yang sangat lama untuk dijalankan
pada kumpulan data yang lengkap
40. Mereduksi dimensi (jumlah
atribut) data.
Memungkinkan sebaran data
dapat divisualisasikan sehingga
lebih mudah dipahami.
Feature Extraction (Wavelets
transforms, Principal Component
Analysis) dan Feature Selection
(Filter Approach, Wrapper
Approach, Embedded
Approach)
Reduksi Dimensi Reduksi Keterbilangan
(Numerosity Reduction)
Menggunakan metode-metode
transformasi, berupa lossless atau
lossy.
Kompresi Data
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
41. Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Seleksi Atribut
42. Objek Panjang Lebar Tinggi Kelas
Objek 1 2,1 1,5 0,8 Meja
Objek 2 2,3 1,7 0,8 Meja
Objek 3 2,1 1,3 0,8 Kursi
Objek 4 1,6 1,5 0,8 Kursi
Objek 5 2,5 1,9 0,8 Meja
Principal Component Analysis
43. Objek Panjang Lebar Kelas
Objek 1 2,1 1,5 Meja
Objek 2 2,3 1,7 Meja
Objek 3 2,1 1,3 Kursi
Objek 4 1,6 1,5 Kursi
Objek 5 2,5 1,9 Meja
Principal Component Analysis
Simbol
47. Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Data tersebut hanya bisa direduksi
hingga menjadi 2 dimensi, tidak bisa
lebih kecil lagi.
Satu dimensi tidak cukup untuk
membedakan kedua kelas karena
terdapat data-data yang tumpang
tindih.
Apakah ada cara lain agar data dua
dimensi dapat direduksi menjadi satu
dimensi?
51. Principal Component Analysis
PCA adalah sebuah metode matematis yang mentransformasikan data ke dalam
ranah baru.
Metode PCA adalah alat bantu matematis yang berusaha melihat data dari sudut
pandang yang lain.
Istilah PCA digunakan dalam berbagai bidang (mis. statistik, geometri, rekayasa)
dengan istilah-istilah yang berbeda.
Tujuan PCA adalah memperjelas visualisasi dan mempermudah analisis data.
Untuk data yang kecil, PCA bisa dihitung secara matematis.
Untuk data yang sangat besar (secara jumlah dan dimensi), PCA bisa
diaproksimasi menggunakan Jaringan Syaraf Tiruan (JST) bernama Hebbian
Network.
52. Latihan!
Lakukan eksperimen mengikuti buku Markus Hofmann
(Rapid Miner - Data Mining Use Case) Chapter 4 (k-
Nearest Neighbor Classification II) hal. 45-51
Gunakan Data set yang terdapat di:
Analisis metode preprocessing apa saja yang digunakan
dan mengapa perlu dilakukan pada dataset tersebut!
https://sites.google.com/site/dataminingforthemasses/
53. Mereduksi dimensi (jumlah
atribut) data.
Memungkinkan sebaran data
dapat divisualisasikan sehingga
lebih mudah dipahami.
Feature Extraction (Wavelets
transforms, Principal Component
Analysis) dan Feature Selection
(Filter Approach, Wrapper
Approach, Embedded
Approach)
Reduksi Dimensi Reduksi Keterbilangan
(Numerosity Reduction)
Menggunakan metode-metode
transformasi, berupa lossless atau
lossy.
Kompresi Data
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
54. Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Metode Parametik (Regression
dan Log-Linear Models)
Metoda Non-parametik
(Histograms, clustering,
sampling)
Suatu data warehouse bisa menyimpan terabytes
data
Analisis/menambang data kompleks bisa membutuhkan
waktu sangat lama untuk dijalankan pada data set
komplit (tak efisien).
Reduksi Data
Mengurangi ukuran data set tetapi menghasilkan hasil
analitis yang sama (hampir sama).
55. A1 A2 A3 ... A126
T1
T2
T3
T4
….
T2000
A1 A3 ... A115
T1
T4
….
T1456
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
56. Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Regresi Linear
Suatu regresi linear biasa mencari persamaan garis "terbaik" yang
paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut
dapat digunakan untuk memprediksi atribut yang lain.
Multiple linear regression
Digunakan untuk lebih dari dua atribut
Log-linear regression
Salah satu metode untuk analisa data kualitatif, digunakan untuk
menganalisa hubungan antar variabel-variabel kategori.
Mendekati distribusi peluang multidimensional diskrit
57. Suatu regresi linear biasa mencari persamaan garis "terbaik" yang
paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut
dapat digunakan untuk memprediksi atribut yang lain.
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Regresi Linear
= garis regresi/variabel response
a = konstanta (intersep),
perpotongan dengan sumbu
vertikal
b = konstanta regresi (slope)
X = variabel bebas/predictor
59. Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Log-linear regression
Salah satu metode untuk analisa data kualitatif, digunakan untuk
menganalisa hubungan antar variabel-variabel kategori.
Mendekati distribusi peluang multidimensional diskrit
60. Nama Internet (ribu)
Andi 70
Budi 100
Citra 150
Dedi 200
Evan 250
Feni 270
Gito 300
Hani 380
Jodi 400
Mereduksi data dengan
cara pewadahan
(binning) seperti pada
pembersihan data.
Setiap wadah
merepresentasikan
rentang nilai kontinu
dalam atribut tersebut.
Histogram
71. Beberapa Jenis Grafis
Bar Chart
Digunakan saat Anda perlu
membandingkan beberapa
kelompok data yang berbed
dan digunakan untuk
mengukur performa.
72. Beberapa Jenis Grafis
Pie Chart
Digunakan untuk mewakili
beberapa variabel berbeda yang
ada dalam satu kelompok besar.
73. Beberapa Jenis Grafis
Histogram
Histogram merupakan visualisasi
data yang digunakan untuk
menampilkan ringkasan data.
Umumnya, grafik ini dipakai saat
data menampilkan variabel yang
kontinu, misalnya performa tim
olahraga dari tahun ke tahun.