SlideShare uma empresa Scribd logo
1 de 74
Baixar para ler offline
Presentation 2022
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
PREPROCESSING
DATA
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
“To find signals in data, we must learn to reduce the
noise - not just the noise that resides in the data, but
also the noise that resides in us. It is nearly impossible
for noisy minds to perceive anything but noise in data.”
Kenapa
preprocessing data
diperlukan?
Completeness (kelengkapan), dalam data yang
diperoleh masih terdapat kekurangan atribut, atau
nilai-nilai atributnya, atau hanya mengandung
agregat saja.
Noise, masih ada tidak kesesuaian atau masih ada
ketimpangan dan kesalahan dari sebenarnya, yaitu
nilai yang diharapkan, seperti adanya nilai-nilai
outlier.
Consistency, terdapat perbedaan dan
ketidakcocokan dalam penggunaan kode atau nama,
beberapa dimodifikasi beberapa tidak.
Kenapa
preprocessing data
diperlukan?
Timeliness (ketepatan waktu), apakah pembaruan
data tepat waktu?
Believability, seberapa dapat dipercaya bahwa
datanya benar?
Interpretability (), seberapa mudah data dapat
dipahami?
Tujuan
preprocessing data
Mempermudah memahami data sehingga
mempermudah pemilihan teknik dan metode data
mining yang tepat
Meningkatkan efisiensi dan kemudahan proses
penambangan data (Pengurangan waktu komputasi
terutama untuk large-scale problem)
Meningkatkan kualitas data sehingga hasil data
mining menjadi lebih baik
Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01
Data Preparation Law
Data preparation is more than half of
every data mining process
Memaksimalkan proses data mining: sebagian besar upaya
dalam proyek penambangan data dihabiskan untuk akuisisi dan
persiapan data, dan perkiraan informal bervariasi dari 50
hingga 80 persen.
Mempermudah memahami data sehingga
mempermudah pemilihan teknik dan metode data
mining yang tepat
Meningkatkan efisiensi dan kemudahan proses
penambangan data (Pengurangan waktu komputasi
terutama untuk large-scale problem)
Meningkatkan kualitas data sehingga hasil data
mining menjadi lebih baik
Tujuan
preprocessing data
DATA CLEANING
(PEMBERSIHAN DATA)
DATA CLEANING
(PEMBERSIHAN DATA)
Data seperti apa yang disebut kotor?
Sekotor apa data yang ada sehingga perlu
dibersihkan?
Bisakah data kotor langsung ditambang?
Adakah teknik data mining yang bisa digunakan
untuk data kotor dan memberikan hasil yang
baik?
DATA CLEANING
(PEMBERSIHAN DATA)
Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut
tertentu yang menarik, atau hanya berisi data agregat.
Misal: Gender = " " (data hilang).
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0
Dedi Analis A Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Data Pelanggan Telepon Seluler
DATA CLEANING
(PEMBERSIHAN DATA)
Noisy: mengandung noise, error, atau outlier.
Misal: Gaji = "-1000000 " (sebuah kesalahan).
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
DATA CLEANING
(PEMBERSIHAN DATA)
Inconsistence: mengandung perbedaan dalam kode atau nama.
Misal: Usia=“42”, Tanggal Lahir=“03/07/2010
Dulu peringkat "1, 2, 3", sekarang peringkat "A, B, C"
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
DATA CLEANING
(PEMBERSIHAN DATA)
Perbedaan antara duplicate records.
Misal: Disengaja (mis., data hilang yang disamarkan)
Tanggal 1 Januari sebagai ulang tahun setiap orang
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
DATA CLEANING
(PEMBERSIHAN DATA)
Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut
Noisy: mengandung noise, error, atau outlier.
Inconsistence: mengandung perbedaan dalam kode atau nama.
Perbedaan antara duplicate records.
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.
DATA CLEANING - PEMBERSIHAN DATA)
Misalnya, banyak tupel tidak memiliki nilai tercatat untuk
beberapa atribut, seperti pendapatan pelanggan dalam data
penjualan.
Incomplete (Missing Data)
Data tidak selalu tersedia
Kemungkinan penyebab data hilang:
Kerusakan peralatan, tidak konsisten dengan data rekaman
lainnya dan dengan demikian dihapus, data tidak masuk karena
misunderstanding, data tertentu mungkin tidak dianggap penting
pada saat penginputan data, tidak mendaftarkan riwayat atau
perubahan data
Data yang hilang mungkin perlu disimpulkan
DATA CLEANING - PEMBERSIHAN DATA)
Incomplete (Missing Data)
CONTOH
CONTOH
CONTOH
DATA CLEANING - PEMBERSIHAN DATA)
Incomplete (Missing Data)
CONTOH
CONTOH
CONTOH
DATA CLEANING - PEMBERSIHAN DATA)
Incomplete (Missing Data)
CONTOH
CONTOH
CONTOH
Sigit adalah manajer pemasaran untuk perusahaan desain dan periklanan Internet kecil
Bos Sigit memintanya untuk mengembangkan kumpulan data yang berisi informasi tentang
pengguna Internet
Perusahaan akan menggunakan data ini untuk menentukan jenis orang yang menggunakan
Internet dan bagaimana perusahaan dapat memasarkan layanan mereka kepada kelompok
pengguna ini
Untuk menyelesaikan tugasnya, Sigit membuat survei online dan menempatkan tautan ke
survei tersebut di beberapa situs web populer
Dalam dua minggu, Sigit telah mengumpulkan cukup data untuk memulai analisis, tetapi dia
menemukan bahwa datanya perlu didenormalisasi
Dia juga mencatat bahwa beberapa pengamatan dalam himpunan memiliki nilai yang hilang
atau tampaknya mengandung nilai yang tidak valid
Sigit menyadari bahwa beberapa pekerjaan tambahan pada data perlu dilakukan sebelum
analisis dimulai.
Abaikan tuple tersebut
BAGAIMANA MENANGANI DATA YANG HILANG
BAGAIMANA MENANGANI DATA YANG HILANG
BAGAIMANA MENANGANI DATA YANG HILANG
(MISSING DATA)?
(MISSING DATA)?
(MISSING DATA)?
Digunakan jika tuple tersebut tidak memiliki label kelas (dalam kasus klasifikasi data)
Kurang sesuai untuk data yang mempunyai banyak tuple dengan sedikit atribut kosong.
Isi atribut kosong secara manual
Membosankan, hal yang tidak mungkin?
Isi data kosong secara otomatis dengan menggunakan:
Konstanta global, seperti label "Tak dikenal"
Nilai rata-rata (untuk himpunan data yang memiliki distribusi normal/simetris) atau
median (condong untuk himpunan data yang memiliki distribusi asimetris.
Nilai yang paling mungkin untuk mengisi atribut kosong
Dapat ditentukan menggunakan regresi atau inferensi (seperti Bayesian atau Decision
Tree)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Derau dalam himpunan data bisa berupa kesalahan atau variasi yang bersifat acak.
Misalnya, suatu nilai yang jauh lebih kecil atau lebih besar dibandingkan yang lain.
Cara menghaluskan data berderau:
Diantaranya: Binning
Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu
membaginya ke dalam sejumlah wadah (bin) secara merata
Penghalusan dapat dilakukan menggunakan tiga cara, yaitu rata-rata
(mengganti semua nilai dengan rata-rata pada setiap bin, median
(mengganti semua nilai dengan dengan median pada setiap bin, atau
batas nilai minimum dan maksimum (mengganti semua nilai dengan nilai
minimum atau maksimum yang terdekat pada semua bin).
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Data Pelanggan Telepon Seluler
Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Dibagi ke dalam tiga bin.
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Dibagi secara merata ke dalam sejumlah bin.
Bin 1: 70,100,150
Bin 2: 200, 250, 270
Bin 3: 300, 380, 400
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Penghalusan dengan rata-rata (pada setiap bin):
Bin 1: 107,107,107
Bin 2: 240, 240, 240
Bin 3: 360, 360, 360
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Penghalusan dengan median (pada setiap bin):
Bin 1: 100,100,100
Bin 2: 250, 250, 250
Bin 3: 380, 380, 380
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Penghalusan dengan nilai batas minimum dan maksimum
(pada setiap bin):
Bin 1: 80, 80, 150
Bin 2: 200, 270, 270
Bin 3: 300, 400, 400
Binning (Pewadahan)
DATA CLEANING - PEMBERSIHAN DATA)
Noisy
Menghaluskan data berderau
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Jika data outliner sudah ditemukan, data dapat dibuang.
Data outliner umumnya tidak banyak, hanya sekitar 2% dari
jumlah data.
Data-data outliner dapat ditemukan menggunakan tendensi
sentral, grafik statistik boxplot, berbagai teknik visualisasi,
atau clustering.
DATA CLEANING - PEMBERSIHAN DATA)
Membuang Outliner
Internet
(ribu)
150
300
100
200
400
380
70
250
270
Dikoreksi secara manual
Menggunakan aplikasi bantu (tools) komersial untuk
melakukan transformasi data. Seperti ETL
(Extraction/Transformation/Loading).
Memperbaiki inkonsistensi:
Disebabkan diantaranya oleh: kurang bagusnya desain formulir
pemasukan data, kesalahan operator memasukkan data,
kesalahan yang disengaja pengguna, data kadaluarsa,
penggunaan kode yang inkonsisten, kesalahan sistem, dll.
DATA CLEANING - PEMBERSIHAN DATA)
Memperbaiki Inkonsistensi 150
300
100
200
400
380
70
250
270
Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01
Ginyard International Co.
Integrasi Data
Dalam data mining, integrasi sejumlah basis
data seringkali harus dilakukan.
Integrasi data yang baik akan menghasilkan
data gabungan dengan sedikit redundansi
dan/atau inkonsistensi.
Permasalahan utama dalam integrasi data
adalah heterogenitas semantik dan struktur
dari semua data yang diintegrasikan.
www.reallygreatsite.com
Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah Pulsa (ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Nama Profesi Alamat
Jenis
Kelamin
Prabayar Kontrak Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kelompok
Feni Dokter 2 W 0 0 1 600 380 1 1
Gito Guru 1 P 1 1 0 100 70 0 3
Hani Analis 3 W 1 1 0 200 250 0 2
Jodi Dokter 1 P 0 0 1 450 270 2 1
Metadata
Data tentang data, yaitu segala hal yang menjelaskan tentang data.
Misal: nama atribut, arti semantik dari atribut, tipe data, rentang nilai yang
diizinkan pada atribut tersebut, dan aturan untuk menangani atribut tak bernilai,
nol, dan nilai kosong.
Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01
Reduksi Data
Mendapat data yang direduksi
menjadi jauh lebih kecil dengan
tetap menjaga integritas yang
terdapat pada data asli.
Kenapa Reduksi Data?
Basis data/gudang data yang memungkinkan menyimpan terabyte data
Analisis data yang kompleks membutuhkan waktu yang sangat lama untuk dijalankan
pada kumpulan data yang lengkap
Mereduksi dimensi (jumlah
atribut) data.
Memungkinkan sebaran data
dapat divisualisasikan sehingga
lebih mudah dipahami.
Feature Extraction (Wavelets
transforms, Principal Component
Analysis) dan Feature Selection
(Filter Approach, Wrapper
Approach, Embedded
Approach)
Reduksi Dimensi Reduksi Keterbilangan
(Numerosity Reduction)
Menggunakan metode-metode
transformasi, berupa lossless atau
lossy.
Kompresi Data
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Seleksi Atribut
Objek Panjang Lebar Tinggi Kelas
Objek 1 2,1 1,5 0,8 Meja
Objek 2 2,3 1,7 0,8 Meja
Objek 3 2,1 1,3 0,8 Kursi
Objek 4 1,6 1,5 0,8 Kursi
Objek 5 2,5 1,9 0,8 Meja
Principal Component Analysis
Objek Panjang Lebar Kelas
Objek 1 2,1 1,5 Meja
Objek 2 2,3 1,7 Meja
Objek 3 2,1 1,3 Kursi
Objek 4 1,6 1,5 Kursi
Objek 5 2,5 1,9 Meja
Principal Component Analysis
Simbol
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek menggunakan satu dimensi Lebar
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek menggunakan satu dimensi Panjang
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Data tersebut hanya bisa direduksi
hingga menjadi 2 dimensi, tidak bisa
lebih kecil lagi.
Satu dimensi tidak cukup untuk
membedakan kedua kelas karena
terdapat data-data yang tumpang
tindih.
Apakah ada cara lain agar data dua
dimensi dapat direduksi menjadi satu
dimensi?
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Principal Component Analysis
Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Principal Component Analysis
PCA adalah sebuah metode matematis yang mentransformasikan data ke dalam
ranah baru.
Metode PCA adalah alat bantu matematis yang berusaha melihat data dari sudut
pandang yang lain.
Istilah PCA digunakan dalam berbagai bidang (mis. statistik, geometri, rekayasa)
dengan istilah-istilah yang berbeda.
Tujuan PCA adalah memperjelas visualisasi dan mempermudah analisis data.
Untuk data yang kecil, PCA bisa dihitung secara matematis.
Untuk data yang sangat besar (secara jumlah dan dimensi), PCA bisa
diaproksimasi menggunakan Jaringan Syaraf Tiruan (JST) bernama Hebbian
Network.
Latihan!
Lakukan eksperimen mengikuti buku Markus Hofmann
(Rapid Miner - Data Mining Use Case) Chapter 4 (k-
Nearest Neighbor Classification II) hal. 45-51
Gunakan Data set yang terdapat di:
Analisis metode preprocessing apa saja yang digunakan
dan mengapa perlu dilakukan pada dataset tersebut!
https://sites.google.com/site/dataminingforthemasses/
Mereduksi dimensi (jumlah
atribut) data.
Memungkinkan sebaran data
dapat divisualisasikan sehingga
lebih mudah dipahami.
Feature Extraction (Wavelets
transforms, Principal Component
Analysis) dan Feature Selection
(Filter Approach, Wrapper
Approach, Embedded
Approach)
Reduksi Dimensi Reduksi Keterbilangan
(Numerosity Reduction)
Menggunakan metode-metode
transformasi, berupa lossless atau
lossy.
Kompresi Data
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Metode Parametik (Regression
dan Log-Linear Models)
Metoda Non-parametik
(Histograms, clustering,
sampling)
Suatu data warehouse bisa menyimpan terabytes
data
Analisis/menambang data kompleks bisa membutuhkan
waktu sangat lama untuk dijalankan pada data set
komplit (tak efisien).
Reduksi Data
Mengurangi ukuran data set tetapi menghasilkan hasil
analitis yang sama (hampir sama).
A1 A2 A3 ... A126
T1
T2
T3
T4
….
T2000
A1 A3 ... A115
T1
T4
….
T1456
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Regresi Linear
Suatu regresi linear biasa mencari persamaan garis "terbaik" yang
paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut
dapat digunakan untuk memprediksi atribut yang lain.
Multiple linear regression
Digunakan untuk lebih dari dua atribut
Log-linear regression
Salah satu metode untuk analisa data kualitatif, digunakan untuk
menganalisa hubungan antar variabel-variabel kategori.
Mendekati distribusi peluang multidimensional diskrit
Suatu regresi linear biasa mencari persamaan garis "terbaik" yang
paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut
dapat digunakan untuk memprediksi atribut yang lain.
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Regresi Linear
= garis regresi/variabel response
a = konstanta (intersep),
perpotongan dengan sumbu
vertikal
b = konstanta regresi (slope)
X = variabel bebas/predictor
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Multiple linear regression
Digunakan untuk lebih dari dua atribut
Reduksi Keterbilangan
(Numerosity Reduction)
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling
Log-linear regression
Salah satu metode untuk analisa data kualitatif, digunakan untuk
menganalisa hubungan antar variabel-variabel kategori.
Mendekati distribusi peluang multidimensional diskrit
Nama Internet (ribu)
Andi 70
Budi 100
Citra 150
Dedi 200
Evan 250
Feni 270
Gito 300
Hani 380
Jodi 400
Mereduksi data dengan
cara pewadahan
(binning) seperti pada
pembersihan data.
Setiap wadah
merepresentasikan
rentang nilai kontinu
dalam atribut tersebut.
Histogram
Nama Internet (ribu)
Andi 70
Budi 100
Citra 150
Dedi 200
Evan 250
Feni 270
Gito 300
Hani 380
Jodi 400
Histogram
Nama Internet (ribu)
Andi 70
Budi 100
Citra 150
Dedi 200
Evan 250
Feni 270
Gito 300
Hani 380
Jodi 400
Histogram
Nama Internet (ribu)
Internet
(histogram)
Andi 70 0-150
Budi 100 0-150
Citra 150 0-150
Dedi 200 151-300
Evan 250 151-300
Feni 270 151-300
Gito 300 151-300
Hani 380 301-450
Jodi 400 301-450
Histogram
Nama Internet (ribu)
Internet
(histogram)
Andi 70 0-150
Budi 100 0-150
Citra 150 0-150
Dedi 200 151-300
Evan 250 151-300
Feni 270 151-300
Gito 300 151-300
Hani 380 301-450
Jodi 400 301-450
Internet
(histogram)
Internet (histogram)
0-150 3
151-300 4
301-450 2
Histogram
Internet
(histogram)
Internet (histogram)
0-150 3
151-300 4
301-450 2
Histogram
Internet
(histogram)
Internet (histogram)
0-150 3
151-300 4
301-450 2
Histogram
Visualisasi Data Mining
Menggunakan Library Python, PLOTLY
Marketing Objectives
Increase Brand
Awareness
Enter New &
International Markets
Increase Customer
Base
Increase Sales
Visualisasi Data
Data Mining
Menggunakan
Library PLOTLY
Beberapa Jenis Grafis
Bar Chart Pie Chart
Histogram Box Plot
Beberapa Jenis Grafis
Bar Chart
Digunakan saat Anda perlu
membandingkan beberapa
kelompok data yang berbed
dan digunakan untuk
mengukur performa.
Beberapa Jenis Grafis
Pie Chart
Digunakan untuk mewakili
beberapa variabel berbeda yang
ada dalam satu kelompok besar.
Beberapa Jenis Grafis
Histogram
Histogram merupakan visualisasi
data yang digunakan untuk
menampilkan ringkasan data.
Umumnya, grafik ini dipakai saat
data menampilkan variabel yang
kontinu, misalnya performa tim
olahraga dari tahun ke tahun.
Beberapa Jenis Grafis
Box Plot
Diagram ini cocok untuk menampilkan distribusi
data.

Mais conteúdo relacionado

Mais procurados

Teknik Sampling
Teknik SamplingTeknik Sampling
Teknik SamplingElvi Rahmi
 
03 - Teknik Dasar AI - Reasoning.pdf
03 - Teknik Dasar AI - Reasoning.pdf03 - Teknik Dasar AI - Reasoning.pdf
03 - Teknik Dasar AI - Reasoning.pdfElvi Rahmi
 
PPT_Data_Analytics.pptx
PPT_Data_Analytics.pptxPPT_Data_Analytics.pptx
PPT_Data_Analytics.pptxDodySanjaya1
 
Materi Struktur Data Tree
Materi Struktur Data TreeMateri Struktur Data Tree
Materi Struktur Data TreeMeta N
 
Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)eka pandu cynthia
 
01 - Pengantar Statistika.pdf
01 - Pengantar Statistika.pdf01 - Pengantar Statistika.pdf
01 - Pengantar Statistika.pdfElvi Rahmi
 
tugas1-kelompok-K-Medoids-dataMining.pptx
tugas1-kelompok-K-Medoids-dataMining.pptxtugas1-kelompok-K-Medoids-dataMining.pptx
tugas1-kelompok-K-Medoids-dataMining.pptxaakuntumbal
 
Sistem Visualisasi Data
Sistem Visualisasi DataSistem Visualisasi Data
Sistem Visualisasi Datappibelanda
 
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-175 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17ArdianDwiPraba
 
Konsep dasar metode kualitatif
Konsep dasar metode kualitatifKonsep dasar metode kualitatif
Konsep dasar metode kualitatifSiti Sahati
 
Exploratory data analysis
Exploratory data analysis Exploratory data analysis
Exploratory data analysis Peter Reimann
 
Fitur dan Komponen Data Warehouse
Fitur dan Komponen Data WarehouseFitur dan Komponen Data Warehouse
Fitur dan Komponen Data Warehousededidarwis
 
Validitas dan reliabilitas, Mata kuliah Metode penelitian
Validitas dan reliabilitas, Mata kuliah Metode penelitian Validitas dan reliabilitas, Mata kuliah Metode penelitian
Validitas dan reliabilitas, Mata kuliah Metode penelitian annisa berliana
 
07 - Pengujian Hipotesis.pdf
07 - Pengujian Hipotesis.pdf07 - Pengujian Hipotesis.pdf
07 - Pengujian Hipotesis.pdfElvi Rahmi
 
Pert 04 clustering data mining
Pert 04 clustering   data miningPert 04 clustering   data mining
Pert 04 clustering data miningaiiniR
 
Klasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxAdam Superman
 

Mais procurados (20)

Teknik Sampling
Teknik SamplingTeknik Sampling
Teknik Sampling
 
03 - Teknik Dasar AI - Reasoning.pdf
03 - Teknik Dasar AI - Reasoning.pdf03 - Teknik Dasar AI - Reasoning.pdf
03 - Teknik Dasar AI - Reasoning.pdf
 
2700 3 data preprocessing
2700 3 data preprocessing2700 3 data preprocessing
2700 3 data preprocessing
 
DATA ANALYTIC KELOMPOK 2.pptx
DATA ANALYTIC KELOMPOK 2.pptxDATA ANALYTIC KELOMPOK 2.pptx
DATA ANALYTIC KELOMPOK 2.pptx
 
PPT_Data_Analytics.pptx
PPT_Data_Analytics.pptxPPT_Data_Analytics.pptx
PPT_Data_Analytics.pptx
 
Materi Struktur Data Tree
Materi Struktur Data TreeMateri Struktur Data Tree
Materi Struktur Data Tree
 
Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)
 
01 - Pengantar Statistika.pdf
01 - Pengantar Statistika.pdf01 - Pengantar Statistika.pdf
01 - Pengantar Statistika.pdf
 
tugas1-kelompok-K-Medoids-dataMining.pptx
tugas1-kelompok-K-Medoids-dataMining.pptxtugas1-kelompok-K-Medoids-dataMining.pptx
tugas1-kelompok-K-Medoids-dataMining.pptx
 
Sistem Visualisasi Data
Sistem Visualisasi DataSistem Visualisasi Data
Sistem Visualisasi Data
 
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-175 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
 
Konsep dasar metode kualitatif
Konsep dasar metode kualitatifKonsep dasar metode kualitatif
Konsep dasar metode kualitatif
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
Exploratory data analysis
Exploratory data analysis Exploratory data analysis
Exploratory data analysis
 
Analisis data
Analisis data Analisis data
Analisis data
 
Fitur dan Komponen Data Warehouse
Fitur dan Komponen Data WarehouseFitur dan Komponen Data Warehouse
Fitur dan Komponen Data Warehouse
 
Validitas dan reliabilitas, Mata kuliah Metode penelitian
Validitas dan reliabilitas, Mata kuliah Metode penelitian Validitas dan reliabilitas, Mata kuliah Metode penelitian
Validitas dan reliabilitas, Mata kuliah Metode penelitian
 
07 - Pengujian Hipotesis.pdf
07 - Pengujian Hipotesis.pdf07 - Pengujian Hipotesis.pdf
07 - Pengujian Hipotesis.pdf
 
Pert 04 clustering data mining
Pert 04 clustering   data miningPert 04 clustering   data mining
Pert 04 clustering data mining
 
Klasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptx
 

Semelhante a 02 - Preprocessing Data.pdf

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Arif Rahman
 
Presentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptxPresentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptxWiraDana1
 
Eps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfEps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfProGaming290098
 
Study Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxStudy Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxunikomdsc
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo
 
APPLIED DATABASE III - Modul Data Preprocessing
APPLIED DATABASE III - Modul Data PreprocessingAPPLIED DATABASE III - Modul Data Preprocessing
APPLIED DATABASE III - Modul Data PreprocessingDEDE IRYAWAN
 
Etika profesi teknologi informasi
Etika profesi teknologi informasiEtika profesi teknologi informasi
Etika profesi teknologi informasiBagoez Dwi K
 
Praproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningPraproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningssuseref80a11
 
Etika Profesi sebagai Pedoman Keprofesian
Etika Profesi sebagai Pedoman KeprofesianEtika Profesi sebagai Pedoman Keprofesian
Etika Profesi sebagai Pedoman Keprofesianachmadfikry5
 
PMK 5 Etika Profesi Dalam Dunia Informasi.ppt
PMK 5 Etika Profesi Dalam Dunia Informasi.pptPMK 5 Etika Profesi Dalam Dunia Informasi.ppt
PMK 5 Etika Profesi Dalam Dunia Informasi.pptAndri946883
 
02 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-201402 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-2014Julis Syofian Syofian
 
Pengenalan Data Analytics, T Hack 2023.pptx
Pengenalan Data Analytics, T Hack 2023.pptxPengenalan Data Analytics, T Hack 2023.pptx
Pengenalan Data Analytics, T Hack 2023.pptxHeriAgusSantoso
 
0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf
0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf
0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdfChrystaViona
 
Business Intelligence and Big Data
Business Intelligence and Big DataBusiness Intelligence and Big Data
Business Intelligence and Big DataS3 PTK FT-UNP
 

Semelhante a 02 - Preprocessing Data.pdf (20)

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
 
Presentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptxPresentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptx
 
Data Preprocessing
Data PreprocessingData Preprocessing
Data Preprocessing
 
Eps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfEps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdf
 
Study Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxStudy Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptx
 
3. Konsep Data Mining
3. Konsep Data Mining3. Konsep Data Mining
3. Konsep Data Mining
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
APPLIED DATABASE III - Modul Data Preprocessing
APPLIED DATABASE III - Modul Data PreprocessingAPPLIED DATABASE III - Modul Data Preprocessing
APPLIED DATABASE III - Modul Data Preprocessing
 
Kommas p9-etik profesi
Kommas p9-etik profesiKommas p9-etik profesi
Kommas p9-etik profesi
 
pertemuan 1(ELA)rev.ppt
pertemuan 1(ELA)rev.pptpertemuan 1(ELA)rev.ppt
pertemuan 1(ELA)rev.ppt
 
Etika profesi teknologi informasi
Etika profesi teknologi informasiEtika profesi teknologi informasi
Etika profesi teknologi informasi
 
Praproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningPraproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data mining
 
Etika Profesi sebagai Pedoman Keprofesian
Etika Profesi sebagai Pedoman KeprofesianEtika Profesi sebagai Pedoman Keprofesian
Etika Profesi sebagai Pedoman Keprofesian
 
PMK 5 Etika Profesi Dalam Dunia Informasi.ppt
PMK 5 Etika Profesi Dalam Dunia Informasi.pptPMK 5 Etika Profesi Dalam Dunia Informasi.ppt
PMK 5 Etika Profesi Dalam Dunia Informasi.ppt
 
Etika profesi it
Etika profesi itEtika profesi it
Etika profesi it
 
02 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-201402 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-2014
 
Pengenalan Data Analytics, T Hack 2023.pptx
Pengenalan Data Analytics, T Hack 2023.pptxPengenalan Data Analytics, T Hack 2023.pptx
Pengenalan Data Analytics, T Hack 2023.pptx
 
Data dan struktur data
Data dan struktur dataData dan struktur data
Data dan struktur data
 
0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf
0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf
0F48FCF3-CF3B-4836-9D86-373F76BCE6BE.pdf
 
Business Intelligence and Big Data
Business Intelligence and Big DataBusiness Intelligence and Big Data
Business Intelligence and Big Data
 

Mais de Elvi Rahmi

06 - Machine Learning .pdf
06 - Machine Learning .pdf06 - Machine Learning .pdf
06 - Machine Learning .pdfElvi Rahmi
 
Algoritma Support Vector Machine.pdf
Algoritma Support Vector Machine.pdfAlgoritma Support Vector Machine.pdf
Algoritma Support Vector Machine.pdfElvi Rahmi
 
05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdfElvi Rahmi
 
02 - Teknik Dasar AI - Searching.pdf
02 - Teknik Dasar AI - Searching.pdf02 - Teknik Dasar AI - Searching.pdf
02 - Teknik Dasar AI - Searching.pdfElvi Rahmi
 
01 - AI - Pengantar AI.pdf
01 - AI - Pengantar AI.pdf01 - AI - Pengantar AI.pdf
01 - AI - Pengantar AI.pdfElvi Rahmi
 
13 - 14 Regresi Linear Sederhana & Berganda.pdf
13 - 14 Regresi Linear Sederhana & Berganda.pdf13 - 14 Regresi Linear Sederhana & Berganda.pdf
13 - 14 Regresi Linear Sederhana & Berganda.pdfElvi Rahmi
 
05 - Variabel Random dan Distribusi Peluang.pdf
05 - Variabel Random dan Distribusi Peluang.pdf05 - Variabel Random dan Distribusi Peluang.pdf
05 - Variabel Random dan Distribusi Peluang.pdfElvi Rahmi
 
04 - Teori Peluang.pdf
04 - Teori Peluang.pdf04 - Teori Peluang.pdf
04 - Teori Peluang.pdfElvi Rahmi
 
Quiz - Statistika dan Probabilitas.pdf
Quiz - Statistika dan Probabilitas.pdfQuiz - Statistika dan Probabilitas.pdf
Quiz - Statistika dan Probabilitas.pdfElvi Rahmi
 
03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdf03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdfElvi Rahmi
 
02 - Penyajian Data (Distribusi Frekuensi).pdf
02 - Penyajian Data (Distribusi Frekuensi).pdf02 - Penyajian Data (Distribusi Frekuensi).pdf
02 - Penyajian Data (Distribusi Frekuensi).pdfElvi Rahmi
 
Mastering the master of ceremony
Mastering the master of ceremonyMastering the master of ceremony
Mastering the master of ceremonyElvi Rahmi
 
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar ProdukImplementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar ProdukElvi Rahmi
 
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...Elvi Rahmi
 

Mais de Elvi Rahmi (14)

06 - Machine Learning .pdf
06 - Machine Learning .pdf06 - Machine Learning .pdf
06 - Machine Learning .pdf
 
Algoritma Support Vector Machine.pdf
Algoritma Support Vector Machine.pdfAlgoritma Support Vector Machine.pdf
Algoritma Support Vector Machine.pdf
 
05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf
 
02 - Teknik Dasar AI - Searching.pdf
02 - Teknik Dasar AI - Searching.pdf02 - Teknik Dasar AI - Searching.pdf
02 - Teknik Dasar AI - Searching.pdf
 
01 - AI - Pengantar AI.pdf
01 - AI - Pengantar AI.pdf01 - AI - Pengantar AI.pdf
01 - AI - Pengantar AI.pdf
 
13 - 14 Regresi Linear Sederhana & Berganda.pdf
13 - 14 Regresi Linear Sederhana & Berganda.pdf13 - 14 Regresi Linear Sederhana & Berganda.pdf
13 - 14 Regresi Linear Sederhana & Berganda.pdf
 
05 - Variabel Random dan Distribusi Peluang.pdf
05 - Variabel Random dan Distribusi Peluang.pdf05 - Variabel Random dan Distribusi Peluang.pdf
05 - Variabel Random dan Distribusi Peluang.pdf
 
04 - Teori Peluang.pdf
04 - Teori Peluang.pdf04 - Teori Peluang.pdf
04 - Teori Peluang.pdf
 
Quiz - Statistika dan Probabilitas.pdf
Quiz - Statistika dan Probabilitas.pdfQuiz - Statistika dan Probabilitas.pdf
Quiz - Statistika dan Probabilitas.pdf
 
03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdf03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdf
 
02 - Penyajian Data (Distribusi Frekuensi).pdf
02 - Penyajian Data (Distribusi Frekuensi).pdf02 - Penyajian Data (Distribusi Frekuensi).pdf
02 - Penyajian Data (Distribusi Frekuensi).pdf
 
Mastering the master of ceremony
Mastering the master of ceremonyMastering the master of ceremony
Mastering the master of ceremony
 
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar ProdukImplementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
 
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
 

Último

UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxzidanlbs25
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfjeffrisovana999
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksdanzztzy405
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptxAbidinMaulana
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesiasdn4mangkujayan
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningSamFChaerul
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANDevonneDillaElFachri
 
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxAdrimanMulya
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Shary Armonitha
 

Último (11)

UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesia
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data mining
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
 
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
 

02 - Preprocessing Data.pdf

  • 1. Presentation 2022 D-IV Rekayasa Perangkat Lunak - Teknik Informatika PREPROCESSING DATA Elvi Rahmi, S.T., M.Kom. elvizasri@gmail.com “To find signals in data, we must learn to reduce the noise - not just the noise that resides in the data, but also the noise that resides in us. It is nearly impossible for noisy minds to perceive anything but noise in data.”
  • 2. Kenapa preprocessing data diperlukan? Completeness (kelengkapan), dalam data yang diperoleh masih terdapat kekurangan atribut, atau nilai-nilai atributnya, atau hanya mengandung agregat saja. Noise, masih ada tidak kesesuaian atau masih ada ketimpangan dan kesalahan dari sebenarnya, yaitu nilai yang diharapkan, seperti adanya nilai-nilai outlier. Consistency, terdapat perbedaan dan ketidakcocokan dalam penggunaan kode atau nama, beberapa dimodifikasi beberapa tidak.
  • 3. Kenapa preprocessing data diperlukan? Timeliness (ketepatan waktu), apakah pembaruan data tepat waktu? Believability, seberapa dapat dipercaya bahwa datanya benar? Interpretability (), seberapa mudah data dapat dipahami?
  • 4. Tujuan preprocessing data Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining yang tepat Meningkatkan efisiensi dan kemudahan proses penambangan data (Pengurangan waktu komputasi terutama untuk large-scale problem) Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik
  • 5. Mengisi nilai yang hilang Menghaluskan noisy data (data berderau) Mengidentifikasi atau menghapus outlier Menyelesaikan inkonsistensi Data Cleaning (Pembersihan Data) Normalisasi Pembuatan hierarki konsep 03 Data Transformasi & Data Diskretisasi Penggabungan data dari berbagai sumber seperti basis data, data cube, dan file. 02 Data Integrasi Pengurangan dimensi Pengurangan jumlah Kompresi data 04 Data Reduksi Tugas Utama dalam Prapemrosesan Data 01
  • 6. Data Preparation Law Data preparation is more than half of every data mining process Memaksimalkan proses data mining: sebagian besar upaya dalam proyek penambangan data dihabiskan untuk akuisisi dan persiapan data, dan perkiraan informal bervariasi dari 50 hingga 80 persen.
  • 7. Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining yang tepat Meningkatkan efisiensi dan kemudahan proses penambangan data (Pengurangan waktu komputasi terutama untuk large-scale problem) Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik Tujuan preprocessing data
  • 9. DATA CLEANING (PEMBERSIHAN DATA) Data seperti apa yang disebut kotor? Sekotor apa data yang ada sehingga perlu dibersihkan? Bisakah data kotor langsung ditambang? Adakah teknik data mining yang bisa digunakan untuk data kotor dan memberikan hasil yang baik?
  • 10. DATA CLEANING (PEMBERSIHAN DATA) Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut tertentu yang menarik, atau hanya berisi data agregat. Misal: Gender = " " (data hilang). Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  • 11. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Dedi Analis A Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum Data Pelanggan Telepon Seluler
  • 12. DATA CLEANING (PEMBERSIHAN DATA) Noisy: mengandung noise, error, atau outlier. Misal: Gaji = "-1000000 " (sebuah kesalahan). Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  • 13. DATA CLEANING (PEMBERSIHAN DATA) Inconsistence: mengandung perbedaan dalam kode atau nama. Misal: Usia=“42”, Tanggal Lahir=“03/07/2010 Dulu peringkat "1, 2, 3", sekarang peringkat "A, B, C" Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  • 14. DATA CLEANING (PEMBERSIHAN DATA) Perbedaan antara duplicate records. Misal: Disengaja (mis., data hilang yang disamarkan) Tanggal 1 Januari sebagai ulang tahun setiap orang Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  • 15. DATA CLEANING (PEMBERSIHAN DATA) Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut Noisy: mengandung noise, error, atau outlier. Inconsistence: mengandung perbedaan dalam kode atau nama. Perbedaan antara duplicate records. Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  • 16. DATA CLEANING - PEMBERSIHAN DATA) Misalnya, banyak tupel tidak memiliki nilai tercatat untuk beberapa atribut, seperti pendapatan pelanggan dalam data penjualan. Incomplete (Missing Data) Data tidak selalu tersedia Kemungkinan penyebab data hilang: Kerusakan peralatan, tidak konsisten dengan data rekaman lainnya dan dengan demikian dihapus, data tidak masuk karena misunderstanding, data tertentu mungkin tidak dianggap penting pada saat penginputan data, tidak mendaftarkan riwayat atau perubahan data Data yang hilang mungkin perlu disimpulkan
  • 17. DATA CLEANING - PEMBERSIHAN DATA) Incomplete (Missing Data) CONTOH CONTOH CONTOH
  • 18. DATA CLEANING - PEMBERSIHAN DATA) Incomplete (Missing Data) CONTOH CONTOH CONTOH
  • 19. DATA CLEANING - PEMBERSIHAN DATA) Incomplete (Missing Data) CONTOH CONTOH CONTOH Sigit adalah manajer pemasaran untuk perusahaan desain dan periklanan Internet kecil Bos Sigit memintanya untuk mengembangkan kumpulan data yang berisi informasi tentang pengguna Internet Perusahaan akan menggunakan data ini untuk menentukan jenis orang yang menggunakan Internet dan bagaimana perusahaan dapat memasarkan layanan mereka kepada kelompok pengguna ini Untuk menyelesaikan tugasnya, Sigit membuat survei online dan menempatkan tautan ke survei tersebut di beberapa situs web populer Dalam dua minggu, Sigit telah mengumpulkan cukup data untuk memulai analisis, tetapi dia menemukan bahwa datanya perlu didenormalisasi Dia juga mencatat bahwa beberapa pengamatan dalam himpunan memiliki nilai yang hilang atau tampaknya mengandung nilai yang tidak valid Sigit menyadari bahwa beberapa pekerjaan tambahan pada data perlu dilakukan sebelum analisis dimulai.
  • 20. Abaikan tuple tersebut BAGAIMANA MENANGANI DATA YANG HILANG BAGAIMANA MENANGANI DATA YANG HILANG BAGAIMANA MENANGANI DATA YANG HILANG (MISSING DATA)? (MISSING DATA)? (MISSING DATA)? Digunakan jika tuple tersebut tidak memiliki label kelas (dalam kasus klasifikasi data) Kurang sesuai untuk data yang mempunyai banyak tuple dengan sedikit atribut kosong. Isi atribut kosong secara manual Membosankan, hal yang tidak mungkin? Isi data kosong secara otomatis dengan menggunakan: Konstanta global, seperti label "Tak dikenal" Nilai rata-rata (untuk himpunan data yang memiliki distribusi normal/simetris) atau median (condong untuk himpunan data yang memiliki distribusi asimetris. Nilai yang paling mungkin untuk mengisi atribut kosong Dapat ditentukan menggunakan regresi atau inferensi (seperti Bayesian atau Decision Tree)
  • 21. DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Derau dalam himpunan data bisa berupa kesalahan atau variasi yang bersifat acak. Misalnya, suatu nilai yang jauh lebih kecil atau lebih besar dibandingkan yang lain. Cara menghaluskan data berderau: Diantaranya: Binning
  • 22. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata Penghalusan dapat dilakukan menggunakan tiga cara, yaitu rata-rata (mengganti semua nilai dengan rata-rata pada setiap bin, median (mengganti semua nilai dengan dengan median pada setiap bin, atau batas nilai minimum dan maksimum (mengganti semua nilai dengan nilai minimum atau maksimum yang terdekat pada semua bin). Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau
  • 23. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum Data Pelanggan Telepon Seluler
  • 24. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 25. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Nilai-nilai atribut Internet yang telah diurutkan: 70, 100, 150, 200, 250, 270, 300, 380, 400 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 26. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Nilai-nilai atribut Internet yang telah diurutkan: 70, 100, 150, 200, 250, 270, 300, 380, 400 Dibagi ke dalam tiga bin. Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 27. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Nilai-nilai atribut Internet yang telah diurutkan: 70, 100, 150, 200, 250, 270, 300, 380, 400 Dibagi secara merata ke dalam sejumlah bin. Bin 1: 70,100,150 Bin 2: 200, 250, 270 Bin 3: 300, 380, 400 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 28. Penghalusan dengan rata-rata (pada setiap bin): Bin 1: 107,107,107 Bin 2: 240, 240, 240 Bin 3: 360, 360, 360 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 29. Penghalusan dengan median (pada setiap bin): Bin 1: 100,100,100 Bin 2: 250, 250, 250 Bin 3: 380, 380, 380 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 30. Penghalusan dengan nilai batas minimum dan maksimum (pada setiap bin): Bin 1: 80, 80, 150 Bin 2: 200, 270, 270 Bin 3: 300, 400, 400 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 31. Jika data outliner sudah ditemukan, data dapat dibuang. Data outliner umumnya tidak banyak, hanya sekitar 2% dari jumlah data. Data-data outliner dapat ditemukan menggunakan tendensi sentral, grafik statistik boxplot, berbagai teknik visualisasi, atau clustering. DATA CLEANING - PEMBERSIHAN DATA) Membuang Outliner Internet (ribu) 150 300 100 200 400 380 70 250 270
  • 32. Dikoreksi secara manual Menggunakan aplikasi bantu (tools) komersial untuk melakukan transformasi data. Seperti ETL (Extraction/Transformation/Loading). Memperbaiki inkonsistensi: Disebabkan diantaranya oleh: kurang bagusnya desain formulir pemasukan data, kesalahan operator memasukkan data, kesalahan yang disengaja pengguna, data kadaluarsa, penggunaan kode yang inkonsisten, kesalahan sistem, dll. DATA CLEANING - PEMBERSIHAN DATA) Memperbaiki Inkonsistensi 150 300 100 200 400 380 70 250 270
  • 33. Mengisi nilai yang hilang Menghaluskan noisy data (data berderau) Mengidentifikasi atau menghapus outlier Menyelesaikan inkonsistensi Data Cleaning (Pembersihan Data) Normalisasi Pembuatan hierarki konsep 03 Data Transformasi & Data Diskretisasi Penggabungan data dari berbagai sumber seperti basis data, data cube, dan file. 02 Data Integrasi Pengurangan dimensi Pengurangan jumlah Kompresi data 04 Data Reduksi Tugas Utama dalam Prapemrosesan Data 01
  • 34. Ginyard International Co. Integrasi Data Dalam data mining, integrasi sejumlah basis data seringkali harus dilakukan. Integrasi data yang baik akan menghasilkan data gabungan dengan sedikit redundansi dan/atau inkonsistensi. Permasalahan utama dalam integrasi data adalah heterogenitas semantik dan struktur dari semua data yang diintegrasikan. www.reallygreatsite.com
  • 35. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Nama Profesi Alamat Jenis Kelamin Prabayar Kontrak Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kelompok Feni Dokter 2 W 0 0 1 600 380 1 1 Gito Guru 1 P 1 1 0 100 70 0 3 Hani Analis 3 W 1 1 0 200 250 0 2 Jodi Dokter 1 P 0 0 1 450 270 2 1
  • 36. Metadata Data tentang data, yaitu segala hal yang menjelaskan tentang data. Misal: nama atribut, arti semantik dari atribut, tipe data, rentang nilai yang diizinkan pada atribut tersebut, dan aturan untuk menangani atribut tak bernilai, nol, dan nilai kosong.
  • 37. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
  • 38. Mengisi nilai yang hilang Menghaluskan noisy data (data berderau) Mengidentifikasi atau menghapus outlier Menyelesaikan inkonsistensi Data Cleaning (Pembersihan Data) Normalisasi Pembuatan hierarki konsep 03 Data Transformasi & Data Diskretisasi Penggabungan data dari berbagai sumber seperti basis data, data cube, dan file. 02 Data Integrasi Pengurangan dimensi Pengurangan jumlah Kompresi data 04 Data Reduksi Tugas Utama dalam Prapemrosesan Data 01
  • 39. Reduksi Data Mendapat data yang direduksi menjadi jauh lebih kecil dengan tetap menjaga integritas yang terdapat pada data asli. Kenapa Reduksi Data? Basis data/gudang data yang memungkinkan menyimpan terabyte data Analisis data yang kompleks membutuhkan waktu yang sangat lama untuk dijalankan pada kumpulan data yang lengkap
  • 40. Mereduksi dimensi (jumlah atribut) data. Memungkinkan sebaran data dapat divisualisasikan sehingga lebih mudah dipahami. Feature Extraction (Wavelets transforms, Principal Component Analysis) dan Feature Selection (Filter Approach, Wrapper Approach, Embedded Approach) Reduksi Dimensi Reduksi Keterbilangan (Numerosity Reduction) Menggunakan metode-metode transformasi, berupa lossless atau lossy. Kompresi Data Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling
  • 41. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum Seleksi Atribut
  • 42. Objek Panjang Lebar Tinggi Kelas Objek 1 2,1 1,5 0,8 Meja Objek 2 2,3 1,7 0,8 Meja Objek 3 2,1 1,3 0,8 Kursi Objek 4 1,6 1,5 0,8 Kursi Objek 5 2,5 1,9 0,8 Meja Principal Component Analysis
  • 43. Objek Panjang Lebar Kelas Objek 1 2,1 1,5 Meja Objek 2 2,3 1,7 Meja Objek 3 2,1 1,3 Kursi Objek 4 1,6 1,5 Kursi Objek 5 2,5 1,9 Meja Principal Component Analysis Simbol
  • 44. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  • 45. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek menggunakan satu dimensi Lebar
  • 46. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek menggunakan satu dimensi Panjang
  • 47. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar). Data tersebut hanya bisa direduksi hingga menjadi 2 dimensi, tidak bisa lebih kecil lagi. Satu dimensi tidak cukup untuk membedakan kedua kelas karena terdapat data-data yang tumpang tindih. Apakah ada cara lain agar data dua dimensi dapat direduksi menjadi satu dimensi?
  • 48. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  • 49. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  • 50. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  • 51. Principal Component Analysis PCA adalah sebuah metode matematis yang mentransformasikan data ke dalam ranah baru. Metode PCA adalah alat bantu matematis yang berusaha melihat data dari sudut pandang yang lain. Istilah PCA digunakan dalam berbagai bidang (mis. statistik, geometri, rekayasa) dengan istilah-istilah yang berbeda. Tujuan PCA adalah memperjelas visualisasi dan mempermudah analisis data. Untuk data yang kecil, PCA bisa dihitung secara matematis. Untuk data yang sangat besar (secara jumlah dan dimensi), PCA bisa diaproksimasi menggunakan Jaringan Syaraf Tiruan (JST) bernama Hebbian Network.
  • 52. Latihan! Lakukan eksperimen mengikuti buku Markus Hofmann (Rapid Miner - Data Mining Use Case) Chapter 4 (k- Nearest Neighbor Classification II) hal. 45-51 Gunakan Data set yang terdapat di: Analisis metode preprocessing apa saja yang digunakan dan mengapa perlu dilakukan pada dataset tersebut! https://sites.google.com/site/dataminingforthemasses/
  • 53. Mereduksi dimensi (jumlah atribut) data. Memungkinkan sebaran data dapat divisualisasikan sehingga lebih mudah dipahami. Feature Extraction (Wavelets transforms, Principal Component Analysis) dan Feature Selection (Filter Approach, Wrapper Approach, Embedded Approach) Reduksi Dimensi Reduksi Keterbilangan (Numerosity Reduction) Menggunakan metode-metode transformasi, berupa lossless atau lossy. Kompresi Data Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling
  • 54. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Metode Parametik (Regression dan Log-Linear Models) Metoda Non-parametik (Histograms, clustering, sampling) Suatu data warehouse bisa menyimpan terabytes data Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk dijalankan pada data set komplit (tak efisien). Reduksi Data Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama).
  • 55. A1 A2 A3 ... A126 T1 T2 T3 T4 …. T2000 A1 A3 ... A115 T1 T4 …. T1456 Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling
  • 56. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Regresi Linear Suatu regresi linear biasa mencari persamaan garis "terbaik" yang paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut dapat digunakan untuk memprediksi atribut yang lain. Multiple linear regression Digunakan untuk lebih dari dua atribut Log-linear regression Salah satu metode untuk analisa data kualitatif, digunakan untuk menganalisa hubungan antar variabel-variabel kategori. Mendekati distribusi peluang multidimensional diskrit
  • 57. Suatu regresi linear biasa mencari persamaan garis "terbaik" yang paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut dapat digunakan untuk memprediksi atribut yang lain. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Regresi Linear = garis regresi/variabel response a = konstanta (intersep), perpotongan dengan sumbu vertikal b = konstanta regresi (slope) X = variabel bebas/predictor
  • 58. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Multiple linear regression Digunakan untuk lebih dari dua atribut
  • 59. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Log-linear regression Salah satu metode untuk analisa data kualitatif, digunakan untuk menganalisa hubungan antar variabel-variabel kategori. Mendekati distribusi peluang multidimensional diskrit
  • 60. Nama Internet (ribu) Andi 70 Budi 100 Citra 150 Dedi 200 Evan 250 Feni 270 Gito 300 Hani 380 Jodi 400 Mereduksi data dengan cara pewadahan (binning) seperti pada pembersihan data. Setiap wadah merepresentasikan rentang nilai kontinu dalam atribut tersebut. Histogram
  • 61. Nama Internet (ribu) Andi 70 Budi 100 Citra 150 Dedi 200 Evan 250 Feni 270 Gito 300 Hani 380 Jodi 400 Histogram
  • 62. Nama Internet (ribu) Andi 70 Budi 100 Citra 150 Dedi 200 Evan 250 Feni 270 Gito 300 Hani 380 Jodi 400 Histogram
  • 63. Nama Internet (ribu) Internet (histogram) Andi 70 0-150 Budi 100 0-150 Citra 150 0-150 Dedi 200 151-300 Evan 250 151-300 Feni 270 151-300 Gito 300 151-300 Hani 380 301-450 Jodi 400 301-450 Histogram
  • 64. Nama Internet (ribu) Internet (histogram) Andi 70 0-150 Budi 100 0-150 Citra 150 0-150 Dedi 200 151-300 Evan 250 151-300 Feni 270 151-300 Gito 300 151-300 Hani 380 301-450 Jodi 400 301-450 Internet (histogram) Internet (histogram) 0-150 3 151-300 4 301-450 2 Histogram
  • 67. Visualisasi Data Mining Menggunakan Library Python, PLOTLY
  • 68. Marketing Objectives Increase Brand Awareness Enter New & International Markets Increase Customer Base Increase Sales
  • 70. Beberapa Jenis Grafis Bar Chart Pie Chart Histogram Box Plot
  • 71. Beberapa Jenis Grafis Bar Chart Digunakan saat Anda perlu membandingkan beberapa kelompok data yang berbed dan digunakan untuk mengukur performa.
  • 72. Beberapa Jenis Grafis Pie Chart Digunakan untuk mewakili beberapa variabel berbeda yang ada dalam satu kelompok besar.
  • 73. Beberapa Jenis Grafis Histogram Histogram merupakan visualisasi data yang digunakan untuk menampilkan ringkasan data. Umumnya, grafik ini dipakai saat data menampilkan variabel yang kontinu, misalnya performa tim olahraga dari tahun ke tahun.
  • 74. Beberapa Jenis Grafis Box Plot Diagram ini cocok untuk menampilkan distribusi data.