1. Pengertian data mining
• Data mining adalah proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma dalam data mining
sangat bervariasi. Pemilihan metode dan algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara
keseluruhan.
• KDD (Knowledge Discovery in Database) adalah keseluruhan
proses non-trivial untuk mencari dan mengidentifikasi pola
(pattern) dalam data, dimana pola yang ditemukan bersifat sah,
baru, dapat bermanfaat dan dapat dimengerti
2. Sejarah dan perkembangan Data mining
Sejarah Data mining bukanlah bidang baru. Salah satu kesulitan
untuk mendefinisikan data mining adalah kenyataan bahwa data
mining mewarisi banyak aspek dan teknik dari bidang-bidang
ilmu yang sudah mapan terlebih dulu.
Beberapa teknik yang sering disebut-sebut dalam literatur data
mining seperti classification, neural network, genetic algorithm
dll, sudah lama dikenal di dunia kecerdasan buatan.. Yang
membedakan persepsi terhadap data mining adalah
perkembangan teknik-teknik data mining untuk aplikasi pada
database skala besar. Sebelum populernya data mining, teknik-teknik
tersebut pada umunya diterapkan pada data skala kecil
saja. Selain itu beberapa teknik dari bidang database untuk
transformasi data juga merupakan bagian integral dari proses
data mining.
3. • Perkembangan data mining (DM) yang pesat tidak dapat lepas dari
perkembangan teknologi informasi yang memungkinkan data dalam
jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam
setiap penjualan barang dengan memakai alat POS (point of sales).
Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya
untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan
internet juga punya andil cukup besar dalam akumulasi data.
• Tetapi pertumbuhan yang pesat dari akumulasi data menciptakan keadaan
yang disebut “rich of data but poor of information” karena data yang
terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak
jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan
data” (data tombs)
• Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang
dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak
boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada
di bagian lain dari domain . Untuk mengatasi masalah semacam ini,
analisis dapat ditambah menggunakan berbasis percobaan dan
pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan
manusia.
4. Metode Data mining
• Clustering atau pengelompokan merupakan teknik untuk
mengelompokkan data ke dalam suatu kelompok tertentu.
Metode clustering dalam data mining antara lain DBScan,
Simple K-mean, Hierarchical CLustering. Dua terakhir pada
metode clustering dalam data mining ini juga dipelajari pada
mata kuliah Statistika Multivariat Terapan. Sebagai contoh
untuk clustering: Terdapat 5 negara: Indonesia, Singapura,
India, Inggris, Jerman. Maka 5 negara tersebut dapat dijadikan
dua klaster berdasarkan letak geografisnya: Eropa (Inggris,
Jerman) dan Asia (Indonesia, Singapura, India). Namun juga
dapat dijadikan dua klaster yang berbeda berdasarkan tingkat
sector industri dan jasa: Negara maju (Singapura, Inggris,
Jerman) dan Negara berkembang (Indonesia, India)
5. • Classification merupakan teknik pengklasifikasian data. Bedanya data
dengan clustering pada clustering variabel dependen tidak ada sedangkan
pada classification diharuskan ada variabel dependen. Contohnya
pembagian criteria calon debitur yakni debitur baik dan buruk. Metode
classification dalam data mining banyak sekali, misalnya ID3, C4.5, K
Nearest Neigh bors.
• Associaton merupakan teknik dalam data mining yang mempelajari
hubungan data. Associatin Rule ini biasa digunakan pada supermarket
untuk menganalisis perilaku pelanggan dalam berbelanja. Sebagai contoh
jika pelanggan membeli barang A, B, C maka pelanggan akan membeli
barang X. Atau dalam notasi biasa ditulis: A, B, C -> X .
Biasanya dalam software data mining juga ada beberapa metode baik
clustering atau klasifikasi yang berasal dari cabang soft computing,
misalnya neural network. Metode yang berasal dari soft computing yang
biasanya juga disinggung dalam data mining antara lain perceptron ,
backpropagation (multilayer perceptron), self organizing map (SOM).
6. Algoritma Estimasi
• Algoritma estimasi mirip dengan algoritma
klasifikasi, tapi variabel target adalah berupa
bilangan numerik (kontinyu) dan bukan
kategorikal (nominal atau diskrit)
• Estimasi nilai dari variable target ditentukan
berdasarkan nilai dari variabel prediktor (atribut)
• Algoritma estimasi yang biasa digunakan adalah:
Linear Regression, Neural Network, Support
Vector Machine
7. Algoritma Prediksi
• Algoritma prediksi/forecasting sama dengan
algoritma estimasi di mana label/target/class
bertipe numerik, bedanya adalah data yang
digunakan merupakan data rentet waktu
(data time series)
• Istilah prediksi kadang digunakan juga untuk
klasifikasi, tidak hanya untuk prediksi time series,
karena sifatnya yang bisa menghasilkan class
berdasarkan berbagai atribut yang kita sediakan
• Semua algoritma estimasi dapat digunakan untuk
prediksi/forecasting
8. Algoritma Klasifikasi
• Klasifikasi adalah algoritma yang menggunakan data
dengan target/class/label berupa nilai kategorikal
(nominal)
• Contoh, apabila target/class/label adalah pendapatan,
maka bisa digunakan nilai nominal (kategorikal) sbb:
pendapatan besar, menengah, kecil
• Contoh lain adalah rekomendasi contact lens, apakah
menggunakan yang jenis soft, hard atau none
• Algoritma klasifikasi yang biasa digunakan adalah: Naive
Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear
Discriminant Analysis, etc
9. Algoritma Klastering
• Klastering adalah pengelompokkan data, hasil observasi
dan kasus ke dalam class yang mirip
• Suatu klaster (cluster) adalah koleksi data yang mirip
antara satu dengan yang lain, dan memiliki perbedaan
bila dibandingkan dengan data dari klaster lain
• Perbedaan utama algoritma klastering dengan klasifikasi
adalah klastering tidak memiliki target/class/label, jadi
termasuk unsupervised learning
• Klastering sering digunakan sebagai tahap awal dalam
proses data mining, dengan hasil klaster yang terbentuk
akan menjadi input dari algoritma berikutnya yang
digunakan
10. Algoritma Asosiasi
• Algoritma association rule (aturan asosiasi) adalah
algoritma yang menemukan atribut yang “muncul
bersamaan”
• Dalam dunia bisnis, sering disebut dengan affinity
analysis atau market basket analysis
• Algoritma asosiasi akan mencari aturan yang
menghitung hubungan diantara dua atau lebih atribut
• Algoritma association rules berangkat dari pola “If
antecedent, then consequent,” bersamaan dengan
pengukuran support (coverage) dan confidence
(accuration) yang terasosiasi dalam aturan
11. Algoritma Asosiasi
• Contoh, pada hari kamis malam, 1000 pelanggan telah
melakukan belanja di supermaket ABC, dimana:
– 200 orang membeli Sabun Mandi
– dari 200 orang yang membeli sabun mandi, 50
orangnya membeli Fanta
• Jadi, association rule menjadi, “Jika membeli sabun
mandi, maka membeli Fanta”, dengan nilai support =
200/1000 = 20% dan nilai confidence = 50/200 = 25%
• Algoritma association rule diantaranya adalah: A priori
algorithm, FP-Growth algorithm, GRI algorithm
12. Pemanfaatan Data mining
• Penentuan kelayakan aplikasi peminjaman uang di bank
• Penentuan pasokan listrik PLN untuk wilayah Jakarta
• Diagnosis pola kesalahan mesin
• Perkiraan harga saham dan tingkat inflasi
• Analisis pola belanja pelanggan
• Memisahkan minyak mentah dan gas alam
• Pemilihan program TV otomatis
• Penentuan pola pelanggan yang loyal pada perusahaan
operator telepon
• Deteksi pencucian uang dari transaksi perbankan
• Deteksi serangan (intrusion) pada suatu jaringan
13. Sumber refrensi
• http://datamining10041.wordpress.com
• http://daduhitam.wordpress.com
• http://andiseprianto.blogspot.com
• http://pojokkampusit.blogspot.com/
• http://mr-harajuku.blogspot.com/
• http://gorbyrashid.blogspot.com/
• Wikipedia