02 - Preprocessing Data.pdf

Presentation 2022
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
PREPROCESSING
DATA
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
“To find signals in data, we must learn to reduce the
noise - not just the noise that resides in the data, but
also the noise that resides in us. It is nearly impossible
for noisy minds to perceive anything but noise in data.”

Kenapa
preprocessing data
diperlukan?
Completeness (kelengkapan), dalam data yang
diperoleh masih terdapat kekurangan atribut, atau
nilai-nilai atributnya, atau hanya mengandung
agregat saja.
Noise, masih ada tidak kesesuaian atau masih ada
ketimpangan dan kesalahan dari sebenarnya, yaitu
nilai yang diharapkan, seperti adanya nilai-nilai
outlier.
Consistency, terdapat perbedaan dan
ketidakcocokan dalam penggunaan kode atau nama,
beberapa dimodifikasi beberapa tidak.

Kenapa
preprocessing data
diperlukan?
Timeliness (ketepatan waktu), apakah pembaruan
data tepat waktu?
Believability, seberapa dapat dipercaya bahwa
datanya benar?
Interpretability (), seberapa mudah data dapat
dipahami?

Tujuan
preprocessing data
Mempermudah memahami data sehingga
mempermudah pemilihan teknik dan metode data
mining yang tepat
Meningkatkan efisiensi dan kemudahan proses
penambangan data (Pengurangan waktu komputasi
terutama untuk large-scale problem)
Meningkatkan kualitas data sehingga hasil data
mining menjadi lebih baik

Mengisi nilai yang hilang
Menghaluskan noisy data (data
berderau)
Mengidentifikasi atau menghapus
outlier
Menyelesaikan inkonsistensi
Data Cleaning (Pembersihan
Data)
Normalisasi
Pembuatan hierarki konsep
03
Data Transformasi & Data
Diskretisasi
Penggabungan data dari berbagai
sumber seperti basis data, data cube, dan
file.
02
Data Integrasi
Pengurangan dimensi
Pengurangan jumlah
Kompresi data
04
Data Reduksi
Tugas Utama dalam
Prapemrosesan Data
01

Data Preparation Law
Data preparation is more than half of
every data mining process
Memaksimalkan proses data mining: sebagian besar upaya
dalam proyek penambangan data dihabiskan untuk akuisisi dan
persiapan data, dan perkiraan informal bervariasi dari 50
hingga 80 persen.

Mempermudah memahami data sehingga
mempermudah pemilihan teknik dan metode data
mining yang tepat
Meningkatkan efisiensi dan kemudahan proses
penambangan data (Pengurangan waktu komputasi
terutama untuk large-scale problem)
Meningkatkan kualitas data sehingga hasil data
mining menjadi lebih baik
Tujuan
preprocessing data

DATA CLEANING
(PEMBERSIHAN DATA)

DATA CLEANING
(PEMBERSIHAN DATA)
Data seperti apa yang disebut kotor?
Sekotor apa data yang ada sehingga perlu
dibersihkan?
Bisakah data kotor langsung ditambang?
Adakah teknik data mining yang bisa digunakan
untuk data kotor dan memberikan hasil yang
baik?

DATA CLEANING
(PEMBERSIHAN DATA)
Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut
tertentu yang menarik, atau hanya berisi data agregat.
Misal: Gender = " " (data hilang).
Data in the Real World is Dirty:
Banyak data yang berpotensi salah, misal akibat instrumen rusak,
kesalahan manusia atau komputer, kesalahan transmisi.

Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0
Dedi Analis A Prabayar Kontrak Ya 150 200 3 Gold
Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum
Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum
Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver
Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold
Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
Data Pelanggan Telepon Seluler

DATA CLEANING
(PEMBERSIHAN DATA)
Noisy: mengandung noise, error, atau outlier.
Misal: Gaji = "-1000000 " (sebuah kesalahan).

DATA CLEANING
(PEMBERSIHAN DATA)
Inconsistence: mengandung perbedaan dalam kode atau nama.
Misal: Usia=“42”, Tanggal Lahir=“03/07/2010
Dulu peringkat "1, 2, 3", sekarang peringkat "A, B, C"

DATA CLEANING
(PEMBERSIHAN DATA)
Perbedaan antara duplicate records.
Misal: Disengaja (mis., data hilang yang disamarkan)
Tanggal 1 Januari sebagai ulang tahun setiap orang

DATA CLEANING
(PEMBERSIHAN DATA)
Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut
Noisy: mengandung noise, error, atau outlier.
Inconsistence: mengandung perbedaan dalam kode atau nama.
Perbedaan antara duplicate records.

DATA CLEANING - PEMBERSIHAN DATA)
Misalnya, banyak tupel tidak memiliki nilai tercatat untuk
beberapa atribut, seperti pendapatan pelanggan dalam data
penjualan.
Incomplete (Missing Data)
Data tidak selalu tersedia
Kemungkinan penyebab data hilang:
Kerusakan peralatan, tidak konsisten dengan data rekaman
lainnya dan dengan demikian dihapus, data tidak masuk karena
misunderstanding, data tertentu mungkin tidak dianggap penting
pada saat penginputan data, tidak mendaftarkan riwayat atau
perubahan data
Data yang hilang mungkin perlu disimpulkan

CONTOH
CONTOH
CONTOH

CONTOH
CONTOH
CONTOH
Sigit adalah manajer pemasaran untuk perusahaan desain dan periklanan Internet kecil
Bos Sigit memintanya untuk mengembangkan kumpulan data yang berisi informasi tentang
pengguna Internet
Perusahaan akan menggunakan data ini untuk menentukan jenis orang yang menggunakan
Internet dan bagaimana perusahaan dapat memasarkan layanan mereka kepada kelompok
pengguna ini
Untuk menyelesaikan tugasnya, Sigit membuat survei online dan menempatkan tautan ke
survei tersebut di beberapa situs web populer
Dalam dua minggu, Sigit telah mengumpulkan cukup data untuk memulai analisis, tetapi dia
menemukan bahwa datanya perlu didenormalisasi
Dia juga mencatat bahwa beberapa pengamatan dalam himpunan memiliki nilai yang hilang
atau tampaknya mengandung nilai yang tidak valid
Sigit menyadari bahwa beberapa pekerjaan tambahan pada data perlu dilakukan sebelum
analisis dimulai.

Abaikan tuple tersebut
BAGAIMANA MENANGANI DATA YANG HILANG
(MISSING DATA)?
(MISSING DATA)?
(MISSING DATA)?
Digunakan jika tuple tersebut tidak memiliki label kelas (dalam kasus klasifikasi data)
Kurang sesuai untuk data yang mempunyai banyak tuple dengan sedikit atribut kosong.
Isi atribut kosong secara manual
Membosankan, hal yang tidak mungkin?
Isi data kosong secara otomatis dengan menggunakan:
Konstanta global, seperti label "Tak dikenal"
Nilai rata-rata (untuk himpunan data yang memiliki distribusi normal/simetris) atau
median (condong untuk himpunan data yang memiliki distribusi asimetris.
Nilai yang paling mungkin untuk mengisi atribut kosong
Dapat ditentukan menggunakan regresi atau inferensi (seperti Bayesian atau Decision
Tree)

Noisy
Menghaluskan data berderau
Derau dalam himpunan data bisa berupa kesalahan atau variasi yang bersifat acak.
Misalnya, suatu nilai yang jauh lebih kecil atau lebih besar dibandingkan yang lain.
Cara menghaluskan data berderau:
Diantaranya: Binning

Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu
membaginya ke dalam sejumlah wadah (bin) secara merata
Penghalusan dapat dilakukan menggunakan tiga cara, yaitu rata-rata
(mengganti semua nilai dengan rata-rata pada setiap bin, median
(mengganti semua nilai dengan dengan median pada setiap bin, atau
batas nilai minimum dan maksimum (mengganti semua nilai dengan nilai
minimum atau maksimum yang terdekat pada semua bin).
Binning (Pewadahan)
Noisy

Nama Pekerjaan
Lokasi
Rumah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum
Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver
Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold
Data Pelanggan Telepon Seluler

Dilakukan dengan cara mengurutkan nilai-nilai pada suatu
atribut, lalu membaginya ke dalam sejumlah wadah (bin)
secara merata.
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

secara merata.
Nilai-nilai atribut Internet yang telah diurutkan:
70, 100, 150, 200, 250, 270, 300, 380, 400
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

secara merata.
70, 100, 150, 200, 250, 270, 300, 380, 400
Dibagi ke dalam tiga bin.
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

secara merata.
70, 100, 150, 200, 250, 270, 300, 380, 400
Dibagi secara merata ke dalam sejumlah bin.
Bin 1: 70,100,150
Bin 2: 200, 250, 270
Bin 3: 300, 380, 400
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

Penghalusan dengan rata-rata (pada setiap bin):
Bin 1: 107,107,107
Bin 2: 240, 240, 240
Bin 3: 360, 360, 360
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

Penghalusan dengan median (pada setiap bin):
Bin 1: 100,100,100
Bin 2: 250, 250, 250
Bin 3: 380, 380, 380
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

Penghalusan dengan nilai batas minimum dan maksimum
(pada setiap bin):
Bin 1: 80, 80, 150
Bin 2: 200, 270, 270
Bin 3: 300, 400, 400
Binning (Pewadahan)
Noisy
Internet
(ribu)
150
300
100
200
400
380
70
250
270

Jika data outliner sudah ditemukan, data dapat dibuang.
Data outliner umumnya tidak banyak, hanya sekitar 2% dari
jumlah data.
Data-data outliner dapat ditemukan menggunakan tendensi
sentral, grafik statistik boxplot, berbagai teknik visualisasi,
atau clustering.
Membuang Outliner
Internet
(ribu)
150
300
100
200
400
380
70
250
270

Dikoreksi secara manual
Menggunakan aplikasi bantu (tools) komersial untuk
melakukan transformasi data. Seperti ETL
(Extraction/Transformation/Loading).
Memperbaiki inkonsistensi:
Disebabkan diantaranya oleh: kurang bagusnya desain formulir
pemasukan data, kesalahan operator memasukkan data,
kesalahan yang disengaja pengguna, data kadaluarsa,
penggunaan kode yang inkonsisten, kesalahan sistem, dll.
Memperbaiki Inkonsistensi 150
300
100
200
400
380
70
250
270

Ginyard International Co.
Integrasi Data
Dalam data mining, integrasi sejumlah basis
data seringkali harus dilakukan.
Integrasi data yang baik akan menghasilkan
data gabungan dengan sedikit redundansi
dan/atau inkonsistensi.
Permasalahan utama dalam integrasi data
adalah heterogenitas semantik dan struktur
dari semua data yang diintegrasikan.
www.reallygreatsite.com

Nama Pekerjaan
Lokasi
Rumah
Gender Kartu Rumah Menikah Pulsa (ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium
Nama Profesi Alamat
Jenis
Kelamin
Prabayar Kontrak Menikah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kelompok
Feni Dokter 2 W 0 0 1 600 380 1 1
Gito Guru 1 P 1 1 0 100 70 0 3
Hani Analis 3 W 1 1 0 200 250 0 2
Jodi Dokter 1 P 0 0 1 450 270 2 1

Metadata
Data tentang data, yaitu segala hal yang menjelaskan tentang data.
Misal: nama atribut, arti semantik dari atribut, tipe data, rentang nilai yang
diizinkan pada atribut tersebut, dan aturan untuk menangani atribut tak bernilai,
nol, dan nilai kosong.

Nama Pekerjaan
Lokasi
Rumah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan

Reduksi Data
Mendapat data yang direduksi
menjadi jauh lebih kecil dengan
tetap menjaga integritas yang
terdapat pada data asli.
Kenapa Reduksi Data?
Basis data/gudang data yang memungkinkan menyimpan terabyte data
Analisis data yang kompleks membutuhkan waktu yang sangat lama untuk dijalankan
pada kumpulan data yang lengkap

Mereduksi dimensi (jumlah
atribut) data.
Memungkinkan sebaran data
dapat divisualisasikan sehingga
lebih mudah dipahami.
Feature Extraction (Wavelets
transforms, Principal Component
Analysis) dan Feature Selection
(Filter Approach, Wrapper
Approach, Embedded
Approach)
Reduksi Dimensi Reduksi Keterbilangan
(Numerosity Reduction)
Menggunakan metode-metode
transformasi, berupa lossless atau
lossy.
Kompresi Data
Teknik Reduksi Data
Regression dan Log-Linear
Models
Histograms, clustering, sampling

Nama Pekerjaan
Lokasi
Rumah
Pulsa
(ribu)
Internet
(ribu)
Jumlah
Anak
Kategori
Pelanggan
Seleksi Atribut

Objek Panjang Lebar Tinggi Kelas
Objek 1 2,1 1,5 0,8 Meja
Objek 2 2,3 1,7 0,8 Meja
Objek 3 2,1 1,3 0,8 Kursi
Objek 4 1,6 1,5 0,8 Kursi
Objek 5 2,5 1,9 0,8 Meja
Principal Component Analysis

Objek Panjang Lebar Kelas
Objek 1 2,1 1,5 Meja
Objek 3 2,1 1,3 Kursi
Objek 4 1,6 1,5 Kursi
Simbol

Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).

Panjang
2,1
1,5
Lebar
Visualisasi data lima objek menggunakan satu dimensi Lebar

Panjang
2,1
1,5
Lebar
Visualisasi data lima objek menggunakan satu dimensi Panjang

Panjang
2,1
1,5
Lebar
Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
Data tersebut hanya bisa direduksi
hingga menjadi 2 dimensi, tidak bisa
lebih kecil lagi.
Satu dimensi tidak cukup untuk
membedakan kedua kelas karena
terdapat data-data yang tumpang
tindih.
Apakah ada cara lain agar data dua
dimensi dapat direduksi menjadi satu
dimensi?

PCA adalah sebuah metode matematis yang mentransformasikan data ke dalam
ranah baru.
Metode PCA adalah alat bantu matematis yang berusaha melihat data dari sudut
pandang yang lain.
Istilah PCA digunakan dalam berbagai bidang (mis. statistik, geometri, rekayasa)
dengan istilah-istilah yang berbeda.
Tujuan PCA adalah memperjelas visualisasi dan mempermudah analisis data.
Untuk data yang kecil, PCA bisa dihitung secara matematis.
Untuk data yang sangat besar (secara jumlah dan dimensi), PCA bisa
diaproksimasi menggunakan Jaringan Syaraf Tiruan (JST) bernama Hebbian
Network.

Latihan!
Lakukan eksperimen mengikuti buku Markus Hofmann
(Rapid Miner - Data Mining Use Case) Chapter 4 (k-
Nearest Neighbor Classification II) hal. 45-51
Gunakan Data set yang terdapat di:
Analisis metode preprocessing apa saja yang digunakan
dan mengapa perlu dilakukan pada dataset tersebut!
https://sites.google.com/site/dataminingforthemasses/

Reduksi Keterbilangan
Teknik Reduksi Data
Metode Parametik (Regression
dan Log-Linear Models)
Metoda Non-parametik
(Histograms, clustering,
sampling)
Suatu data warehouse bisa menyimpan terabytes
data
Analisis/menambang data kompleks bisa membutuhkan
waktu sangat lama untuk dijalankan pada data set
komplit (tak efisien).
Reduksi Data
Mengurangi ukuran data set tetapi menghasilkan hasil
analitis yang sama (hampir sama).

A1 A2 A3 ... A126
T1
T2
T3
T4
….
T2000
A1 A3 ... A115
T1
T4
….
T1456
Teknik Reduksi Data
Models

Teknik Reduksi Data
Models
Regresi Linear
Suatu regresi linear biasa mencari persamaan garis "terbaik" yang
paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut
dapat digunakan untuk memprediksi atribut yang lain.
Multiple linear regression
Digunakan untuk lebih dari dua atribut
Log-linear regression
Salah satu metode untuk analisa data kualitatif, digunakan untuk
menganalisa hubungan antar variabel-variabel kategori.
Mendekati distribusi peluang multidimensional diskrit

Suatu regresi linear biasa mencari persamaan garis "terbaik" yang
paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut
dapat digunakan untuk memprediksi atribut yang lain.
Teknik Reduksi Data
Models
Regresi Linear
= garis regresi/variabel response
a = konstanta (intersep),
perpotongan dengan sumbu
vertikal
b = konstanta regresi (slope)
X = variabel bebas/predictor

Teknik Reduksi Data
Models
Multiple linear regression
Digunakan untuk lebih dari dua atribut

Teknik Reduksi Data
Models
Log-linear regression
Salah satu metode untuk analisa data kualitatif, digunakan untuk
menganalisa hubungan antar variabel-variabel kategori.
Mendekati distribusi peluang multidimensional diskrit

Nama Internet (ribu)
Andi 70
Budi 100
Citra 150
Dedi 200
Evan 250
Feni 270
Gito 300
Hani 380
Jodi 400
Mereduksi data dengan
cara pewadahan
(binning) seperti pada
pembersihan data.
Setiap wadah
merepresentasikan
rentang nilai kontinu
dalam atribut tersebut.
Histogram

Andi 70
Budi 100
Citra 150
Dedi 200
Evan 250
Feni 270
Gito 300
Hani 380
Jodi 400
Histogram

Internet
(histogram)
Andi 70 0-150
Budi 100 0-150
Citra 150 0-150
Dedi 200 151-300
Evan 250 151-300
Feni 270 151-300
Gito 300 151-300
Hani 380 301-450
Jodi 400 301-450
Histogram

Internet
(histogram)
Andi 70 0-150
Budi 100 0-150
Citra 150 0-150
Dedi 200 151-300
Evan 250 151-300
Feni 270 151-300
Gito 300 151-300
Hani 380 301-450
Jodi 400 301-450
Internet
(histogram)
Internet (histogram)
0-150 3
151-300 4
301-450 2
Histogram

Internet
(histogram)
Internet (histogram)
0-150 3
151-300 4
301-450 2
Histogram

Visualisasi Data Mining
Menggunakan Library Python, PLOTLY

Marketing Objectives
Increase Brand
Awareness
Enter New &
International Markets
Increase Customer
Base
Increase Sales

Visualisasi Data
Data Mining
Menggunakan
Library PLOTLY

Beberapa Jenis Grafis
Bar Chart Pie Chart
Histogram Box Plot

Bar Chart
Digunakan saat Anda perlu
membandingkan beberapa
kelompok data yang berbed
dan digunakan untuk
mengukur performa.

Pie Chart
Digunakan untuk mewakili
beberapa variabel berbeda yang
ada dalam satu kelompok besar.

Histogram
Histogram merupakan visualisasi
data yang digunakan untuk
menampilkan ringkasan data.
Umumnya, grafik ini dipakai saat
data menampilkan variabel yang
kontinu, misalnya performa tim
olahraga dari tahun ke tahun.

Box Plot
Diagram ini cocok untuk menampilkan distribusi
data.

02 - Preprocessing Data.pdf

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 02 - Preprocessing Data.pdf

Semelhante a 02 - Preprocessing Data.pdf (20)

Mais de Elvi Rahmi

Mais de Elvi Rahmi (14)

Último

Último (11)

02 - Preprocessing Data.pdf