2. Pengantar Data Mining
Apa dan Mengapa Data Mining?
Manusia memerlukan melakukan data mining
karena
(1) manusia memproduksi data beragam data
yang jumlah dan ukurannya sangat besar untuk
bidang astronomi, bisnis, kedokteran, ekonomi,
olahraga, cuaca, financial, dan masih banyak
bidang.
(2) Tejadinya pertumbuhan data seperti bidang
astronomi berdasrakan survey yang dilakukan
oleh perusahaan Sloan Digital Sky Survey di
New Mexico pada 2000 bahwa data yang
dihasilkan 140TB selama 10 tahun terakhir.
Sedangkan survey dari perusahaan Large
Synoptic Survey Telescope di Chile pada tahun
2016 bahwa setiap 5 hari dihasilkan data
sebesar 140TB
3. (3) terjadinya
perubahan kultur dan
perilaku manusia
bahwa tiap detik social
media menghasilkan
data yang fantastis
Pengantar Data Mining
4. Pengantar Data Mining
(4). Terjadinya tsunami data
Mobile Electronics market : 7B
smartphone subscriptions in 2015
Web & Social Networks generates
amount of data
Google processes 100 PB per day, 3
million servers
Facebook has 300 PB of user data per
day
Youtube has 1000PB video storage
5. Manusia kebanjiran data tetapi miskin
pengetahuan untuk itu diperlukan bagaimana
manusia bisa mengubah data menjadi
pengetahuan.
Data harus olah menjadi pengetahuan
supaya bisa bermanfaat bagi manusia.
Dengan pengetahuan tersebut, manusia
dapat:
Melakukan estimasi dan prediksi apa
yang terjadi di depan
Melakukan analisis tentang asosiasi,
korelasi dan pengelompokan antar data
dan atribut
Membantu pengambilan keputusan dan
6. DEFINISI
Menambang/menggali/menemukan
pengetahuan dari data yang banyak yang
sebelumnya tidak diketahui
Suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di
dalam database
Proses menggunakan teknik statistika,
matematika, kecerdasan buatan dan machine
learning
Suatu proses menemukan hubungan, pola
disiplin ilmu yang mempelajari metode untuk
mengekstrak pengetahuan atau menemukan
pola dari suatu data yang besar
7. Nama lain data mining
Knowledge Discovery in Database
(KDD)
Big data
Business intelligence
Knowledge extraction
Pattern analysis
Information harvestin
8. Karateristik data mining
Data mining berhubungan dengan
penemuan sesuatu yang tersembunyi
dan pola data tertentu yang tidak
diketahui sebelumnya.
Data mining biasa menggunakan data
yang sangat besar. Biasanya data yang
besar digunakan untuk membuat hasil
lebih dipercaya.
Data mining berguna untuk membuat
keputusan yang kritis, terutama dalam
strategi
9. Ekstraksi dari data ke pengetahuan:
1. data: fakta yang terekam dan tidak membawa arti
2. informasi: rekap, rangkuman, penjelasan dan
statistik dari data
3. pengetahuan: pola, rumus, aturan atau model
yang muncul dari data
10. Penerapan data mining
Puluhan ribu data mahasiswa di
kampus yang diambil dari sistem
informasi akademik
Apakah pernah kita ubah menjadi
pengetahuan yang lebih bermanfaat?
TIDAK!
Seperti apa pengetahuan itu? Rumus,
Pola, Aturan
11.
12.
13. Penerapan data mining
Pendidikan
Data mining membantu tenaga mendidik
dalam mengakses data siswa, memprediksi
tingkat pencapaian dan memberi pandangan
tentang siswa atau kelompok siswa mana
saja yang membutuhkan perhatian ekstra
Perbankan
Data mining membantu perusahaan jasa
keuangan untuk mendapatkan pandangan
yang lebih baik tentang risiko pasar,
mendeteksi penipuan, mengelola pemenuhan
peraturan dan untuk mendapatkan return
optimal dari investasi pemasaran.
14. Penerapan data mining
Komunikasi
Data mining digunakan oleh perusahaan
multimedia dan telekomunikasi untuk memahami
banyaknya data pelanggan, memprediksi
perilaku mereka dan menawarkan kampanye
yang sesuai target atau relevan.
Asuransi
Penerapan lain data mining adalah pada
industri asuransi. Perusahaan asuransi
umumnya menggunakan teknik data
mining untuk mendeteksi penipuan,
mengidentifikasi faktor risiko pada pengajuan
klaim, analisa pelanggan, hingga untuk
menemukan cara menawarkan produk kompetitif
ke basis pelanggan yang ada.
15. Penerapan data mining
kesehatan
Salah satu pemanfaatan data mining pada
bidang kesehatan adalah penerapan data
mining untuk melakukan klasifikasi prediksi
penyakit ISPA (Infeksi Saluran Pernapasan
Akut). Data pasien yang terkena ISPA dapat
digunakan untuk menunjukkan gejala
penyakit ISPA yang diderita pasien.
Klasifikasi ini bertujuan untuk membentuk
model pohon keputusan untuk memprediksi
penyakit pasien dan melihat variabel yang
paling mempengaruhi penyakit pasien
dengan kategori ISPA. Objek penelitian ini
ialah data pasien, status imunisasi, jenis
kelamin,usia dan kriteria gizi
16. Penerapan data mining
Ekonomi dan bisnis : data saham
kenaikan, penurunan dll
Cuaca : BMG, data suhu, curah hujan
dll
Olahraga : CR7 brapa mencetak gol
dalam 1 musim dll
17. Data set
Dataset/Himpunan Data/Data
Latih adalah sebuah himpunan data
yang berasal dari informasi masa-masa
lampau dan dikelola menjadi sebuah
informasi untuk melakukan teknik dari
ilmu data mining.
Sebuah data set dapat dipandang
sebagai sebuah koleksi dari objek- objek
data. Nama lain dari sebuah objek data
adalah record, titik, vektor, pola, event,
case, sample, observasi atau entitas
18. Jenis data set
dua jenis dataset yaitu Private dan Public.
Private Dataset, adalah data set yang dapat
diambil dari sebuah organisasi yang akan kita
lakukan sebagai objek penelitian misalnya
seperti data bank, rumah sakit, universitas,
perusahaan dan lain sebagainya
Public Dataset, adalag data set yang bisa
kita ambil dari repository publik yang
disepakati oleh ulama-ulama peneliti data
mining, misalnya seperti UCI
Repository (http://www.ics.uci.edu/~mlearn/
MLRepository.html), ACM
KDD (http://www.sigkdd.org/kddcup/).
19. Data set
Terdapat bermacam-macam cara untuk
merepresentasikan data set contohnya
yaitu atribut yang digunakan untuk
meng-gambarkan jenis objek
baris yang menyatakan objek-objek data
dan kolom disebut atribut. Atribut juga
dapat disebut dengan variabel, field, fitur
atau dimensi.