1. 1. Cari sebuah dataset dengan jumlah features dan samples bebas
Iris Dataset
Dataset Iris merupakan dataset multivariate yang diperkenalkan oleh ahli statistika dan
biologi inggris, Ronald Fisher, pada tahun 1936. Dataset bunga Iris ini sangat terkenal di
dunia Machine Learning yang digunakan untuk klasifikasi. Dataset ini terdiri dari 3 spesies
Iris yaitu Iris Setosa, Iris Virginica, dan Iris Versicolor dan tiap spesiesnya memiliki 50
sampel. Dalam data Iris terdapat 4 atribut yang dapat mempengaruhi klasifikasi yaitu, sepal
length, sepal width, petal length, dan petal width dalam centimeter yang berbeda-beda.
2. jenis learningnya, apakah regression? classification? clusterization? dimension
reduction?
Regresi termasuk ke dalam supervised learning yang digunakan untuk memprediksi nilai
kontinu.
Klasifikasi(classification) juga termasuk ke dalam supervised learning. Klasifikasi adalah
sebuah teknik untuk mengklasifikasikan atau mengkategorikan beberapa item yang belum
berlabel ke dalam sebuah set kelas diskrit.
clustering mengidentifikasi kelompok data yang berbeda, sedangkan pada Dimensionality
reduction mencari representasi data yang lebih ringkas
3. Lakukan proses preprocessing
Preprocessing merupakan salah satu tahapan yang penting untuk data pada proses mining.
Data yang digunakan dalam proses mining tidak selamanya dalam kondisi yang ideal untuk
diproses.Data Dokumen untuk diproses
Representasi Data
Cleaning data dengan menghilangkan tanda baca atau karakter selain teks dengan
fungsi punctuation removal.
Punctuation Removal
Case Folding yang merupakan proses untuk merubah setiap kata menjadi sama, misal
huruf kecil dengan menggunakan fungsi lowercase.
2. Case
Fold
Stopword Removal, menghapus kata-kata yang terlalu umum dan kurang penting,
ciri-ciri pada kata ini adalah frekwensi kemunculannya yang jumlahnya cukup banyak
dibandingkan dengan kata yang lainnya, contoh kata : aku, kamu, dengan, yang dst.
Stopword Removal
Stemming, adalah proses untuk mengubah kata pada setiap kalimat ke bentuk dasar
atau menghapus kata-kata imbuhan.
Stemming
Tokenizing. Merupakan tahap untuk memengal setiap kata dalam kalimat termasuk
karakter.
Tokenizing
4. Lakukan proses pipeline
Pipeline adalah sebuah proses yang bertujuan untuk mempermudah aliran
pembentukan model machine learning. Tanpa pipeline, maka kita perlu mengatur
satu persatu preprocessing, dan ini akan menambah kerumitan kode sumber kita.
3. 5. Lakukan proses pembentukan model
model classification, kita akan preprocessing terlebih dahulu, yang dimulai
dengan fungsi get_dummies(), yaitu fungsi untuk mengubah dependent variable
y diagnosis kita, yaitu huruf menjadi angka, dan kemudian dilanjutkan dengan
mengambil dua features, yaitu radius_mean, dan concave points mean sebagai
independent variable X.
4. 6. Lakukan proses fitting
Proses fit dan evaluate, sangat mudah dan juga mirip dengan model - model
lainnya, karena memang pada dasarnya package sklearn adalah sebuah package
yang konsisten dalam proses machine learningnya, dan disini kita gunakan fungsi
fit() dan predict() untuk memulai pembelajaran model, dan melakukan proses
prediksinya. Setelah itu untuk masalah classification, salah satu bentuk
pengukurannya adalah dengan mengunakan fungsi accuracy_score() untuk
menghitung berapa persentase akurasi yang kita dapatkan untuk
membandingkan hasil prediksi dengan y_test.
7. Lakukan proses evaluation
Setelah berhasil melakukan fit() dan predict(), maka untuk selanjutnya kita akan
mendapatkan cluster_centers_, dimana data ini adalah data titik tengah dari
setiap cluster yang ada, dan pada eksperimen dibawah, kita coba
menggambarkan titik tengah dari setiap cluster.