1. Machine Learning dengan R
Muhammad Rifqi Ma’arif, M.Eng
Matakuliah Ilmu Data Industrial
Program Studi Teknik Industri
Fakultas Teknik & Teknologi Informasi
Universitas Jenderal Achmad Yani Yogyakarta
2020
2. Pengantar Machine Learning
• Machine learning adalah cabang dari artificial intelligence.
Kecerdasan buatan memiliki pengertian yang sangat luas
tapi secara umum dapat dipahami sebagai komputer
dengan kecerdasan layaknya manusia.
• Sedangkan machine learning memiliki arti lebih spesifik
yaitu menggunakan metode statistika untuk membuat
komputer dapat mempelajari pola pada data tanpa perlu
diprogram secara eksplisit.
• Machine learning dibagi menjadi beberapa kategori.
Tepatnya ada empat kategori besar, yaitu supervised
learning, unsupervised learning, semi-supervised learning,
dan reinforcement learning.
3. Supervised Learning - Klasifikasi
• Klasifikasi adalah teknik untuk menentukan kelas
atau kategori berdasarkan atribut yang diberikan.
• Klasifikasi yang menghasilkan dua kategori disebut binary
classification,
• Klasifikasi yang menghasilkan 3 kategori atau lebih disebut
multiclass classification atau klasifikasi banyak kelas.
• Teknik-teknik Klasifikasi
• Decision Tree
• Random Forest
• Support Vector Machine
• Artificial Neural Network
4. Decision Tree
• Decision tree atau pohon keputusan adalah
salah satu algoritma supervised learning yang
dapat dipakai untuk masalah klasifikasi dan
regresi.
• Decision tree merupakan algoritma yang powerful alias
mampu dipakai dalam masalah yang kompleks.
• Decision tree juga merupakan komponen pembangun
utama algoritma Random Forest, yang merupakan
salah satu algoritma paling powerful saat ini.
• Decision tree memprediksi sebuah
kelas (klasifikasi) atau nilai (regresi)
berdasarkan aturan-aturan yang
dibentuk setelah mempelajari data.
5. Decision Tree dengan R
• Dataset (Iris Dataset)
• Dataset iris merupakan salah satu
dataset populer untuk belajar
bagaimana ML dipakai dalam klasifikasi.
Dataset ini berisi 150 sampel dari 3
spesies bunga iris.
• Pada dataset Iris terdapat 4 kolom
atribut yaitu panjang sepal, lebar sepal,
panjang petal, dan lebar petal.
• Untuk label terdapat 3 kelas atau
kategori atau jenis yang terdapat pada
dataset yaitu Setosa, Versicolor dan
Virginica. Kelas adalah.
7. Supervised Learning - Regresi
• Regresi adalah salah satu teknik machine learning yang
mirip dengan klasifikasi. Bedanya pada klasifikasi, sebuah
model machine learning memprediksi sebuah kelas,
sedangkan model regresi memprediksi bilangan kontinu.
Bilangan kontinu adalah bilangan numerik.
• Regresi linier adalah salah satu metode supervised yang
masuk dalam golongan regression, sesuai namanya.
• Contoh paling terkenal dari regresi linier adalah
memperkirakan harga rumah berdasarkan fitur
yang terdapat pada rumah seperti luas rumah,
jumlah kamar tidur, lokasi dan sebagainya.
• Regresi linier cocok dipakai ketika terdapat
hubungan linear pada data.
9. Unsupervised Learning - Klastering
• Klaster (cluster) adalah sebuah grup yang memiliki kemiripan tertentu.
• Pengklasteran adalah sebuah metode machine learning unsupervised
untuk mengelompokkan objek-objek yang memiliki kemiripan, ke dalam
sebuah klaster.
• Karena termasuk kategori unsupervised, maka dataset yang digunakan
model clustering tidak memiliki label.
• Data yang memiliki kemiripan akan dikelompokkan, lalu setiap data pada
kelompok yang sama akan diberikan label yang sama.
• Contoh kasus untuk teknik clustering adalah customer segmentation.
• Dari data ribuan pengunjung sebuah website ecommerce, model akan
belajar sendiri untuk mengelompokkan pengunjung. Bisa berdasarkan
waktu kunjungan, lama kunjungan, penggunaan fitur search, jumlah klik,
dan sebagainya.
• Model unsupervised learning akan menentukan segmen market dan
mengelompokkan pengunjung ke dalam segmen market yang berbeda.
10. K-Means Clustering
• Pengklasteran K-Means adalah sebuah
metode yang dikembangkan oleh Stuart
Lloyd dari Bell Labs pada tahun 1957. Lloyd
menggunakan metode ini untuk mengubah
sinyal analog menjadi sinyal digital.
• Hal yang paling pertama K-Means lakukan
adalah memilih sebuah sampel secara acak
untuk dijadikan centroid. Centroid adalah
sebuah sampel pada data yang menjadi
pusat dari sebuah klaster. Selanjutnya
Centroid akan diupdate secara iterative
untuk mendapatkan klaster terbaik.
Perhatikan ilustrasi disamping