ML.docx

ml

1. Cari sebuah dataset dengan jumlah features dan samples bebas
Iris Dataset
Dataset Iris merupakan dataset multivariate yang diperkenalkan oleh ahli statistika dan
biologi inggris, Ronald Fisher, pada tahun 1936. Dataset bunga Iris ini sangat terkenal di
dunia Machine Learning yang digunakan untuk klasifikasi. Dataset ini terdiri dari 3 spesies
Iris yaitu Iris Setosa, Iris Virginica, dan Iris Versicolor dan tiap spesiesnya memiliki 50
sampel. Dalam data Iris terdapat 4 atribut yang dapat mempengaruhi klasifikasi yaitu, sepal
length, sepal width, petal length, dan petal width dalam centimeter yang berbeda-beda.
2. jenis learningnya, apakah regression? classification? clusterization? dimension
reduction?
Regresi termasuk ke dalam supervised learning yang digunakan untuk memprediksi nilai
kontinu.
Klasifikasi(classification) juga termasuk ke dalam supervised learning. Klasifikasi adalah
sebuah teknik untuk mengklasifikasikan atau mengkategorikan beberapa item yang belum
berlabel ke dalam sebuah set kelas diskrit.
clustering mengidentifikasi kelompok data yang berbeda, sedangkan pada Dimensionality
reduction mencari representasi data yang lebih ringkas
3. Lakukan proses preprocessing
Preprocessing merupakan salah satu tahapan yang penting untuk data pada proses mining.
Data yang digunakan dalam proses mining tidak selamanya dalam kondisi yang ideal untuk
diproses.Data Dokumen untuk diproses
Representasi Data
 Cleaning data dengan menghilangkan tanda baca atau karakter selain teks dengan
fungsi punctuation removal.
Punctuation Removal
 Case Folding yang merupakan proses untuk merubah setiap kata menjadi sama, misal
huruf kecil dengan menggunakan fungsi lowercase.
Case
Fold
 Stopword Removal, menghapus kata-kata yang terlalu umum dan kurang penting,
ciri-ciri pada kata ini adalah frekwensi kemunculannya yang jumlahnya cukup banyak
dibandingkan dengan kata yang lainnya, contoh kata : aku, kamu, dengan, yang dst.
Stopword Removal
 Stemming, adalah proses untuk mengubah kata pada setiap kalimat ke bentuk dasar
atau menghapus kata-kata imbuhan.
Stemming
 Tokenizing. Merupakan tahap untuk memengal setiap kata dalam kalimat termasuk
karakter.
Tokenizing
4. Lakukan proses pipeline
Pipeline adalah sebuah proses yang bertujuan untuk mempermudah aliran
pembentukan model machine learning. Tanpa pipeline, maka kita perlu mengatur
satu persatu preprocessing, dan ini akan menambah kerumitan kode sumber kita.
5. Lakukan proses pembentukan model
model classification, kita akan preprocessing terlebih dahulu, yang dimulai
dengan fungsi get_dummies(), yaitu fungsi untuk mengubah dependent variable
y diagnosis kita, yaitu huruf menjadi angka, dan kemudian dilanjutkan dengan
mengambil dua features, yaitu radius_mean, dan concave points mean sebagai
independent variable X.
6. Lakukan proses fitting
Proses fit dan evaluate, sangat mudah dan juga mirip dengan model - model
lainnya, karena memang pada dasarnya package sklearn adalah sebuah package
yang konsisten dalam proses machine learningnya, dan disini kita gunakan fungsi
fit() dan predict() untuk memulai pembelajaran model, dan melakukan proses
prediksinya. Setelah itu untuk masalah classification, salah satu bentuk
pengukurannya adalah dengan mengunakan fungsi accuracy_score() untuk
menghitung berapa persentase akurasi yang kita dapatkan untuk
membandingkan hasil prediksi dengan y_test.
7. Lakukan proses evaluation
Setelah berhasil melakukan fit() dan predict(), maka untuk selanjutnya kita akan
mendapatkan cluster_centers_, dimana data ini adalah data titik tengah dari
setiap cluster yang ada, dan pada eksperimen dibawah, kita coba
menggambarkan titik tengah dari setiap cluster.
8. Sebutkan kesimpulan, dan upload file dataset dan notebook.

Recomendados

Ppt klp 1 por
Ppt klp 1Ppt klp 1
Ppt klp 1fz_fahmi
33 visualizações24 slides
Tugas Mandiri Mata Kuliah Aljabar Linier dan Matriks por
Tugas Mandiri Mata Kuliah Aljabar Linier dan MatriksTugas Mandiri Mata Kuliah Aljabar Linier dan Matriks
Tugas Mandiri Mata Kuliah Aljabar Linier dan Matrikssheryl simanjuntak
174 visualizações15 slides
Modul klasifikasi decission tree modul klasifikasi por
Modul klasifikasi decission tree modul klasifikasiModul klasifikasi decission tree modul klasifikasi
Modul klasifikasi decission tree modul klasifikasiUniversitas Bina Darma Palembang
9.6K visualizações23 slides
10 por
1010
10dedesumarni3
39 visualizações19 slides
Analisis dan penyajian data por
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
4.4K visualizações29 slides
ppt metopen kel 09.pptx por
ppt metopen kel 09.pptxppt metopen kel 09.pptx
ppt metopen kel 09.pptxRahmaNatasyah
12 visualizações22 slides

Mais conteúdo relacionado

Similar a ML.docx

Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... por
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
2.2K visualizações6 slides
PPT KEL 3 DAI - 007.pptx por
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptxStevenAdiSantoso
7 visualizações25 slides
data mining por
data miningdata mining
data miningdewi2093
2K visualizações7 slides
MPI-sess_12-Pengolahan-Data.ppt por
MPI-sess_12-Pengolahan-Data.pptMPI-sess_12-Pengolahan-Data.ppt
MPI-sess_12-Pengolahan-Data.pptNothngIsTrue
27 visualizações34 slides
10 feature engineering-univ-gunadarma por
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarmaArdianDwiPraba
618 visualizações28 slides
Pertemuan 10 - Metodologi Data Science - Copy.pptx por
Pertemuan 10 - Metodologi Data Science - Copy.pptxPertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptxFennyRahmayani
57 visualizações7 slides

Similar a ML.docx(20)

Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... por butest
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
butest2.2K visualizações
PPT KEL 3 DAI - 007.pptx por StevenAdiSantoso
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
StevenAdiSantoso7 visualizações
data mining por dewi2093
data miningdata mining
data mining
dewi20932K visualizações
MPI-sess_12-Pengolahan-Data.ppt por NothngIsTrue
MPI-sess_12-Pengolahan-Data.pptMPI-sess_12-Pengolahan-Data.ppt
MPI-sess_12-Pengolahan-Data.ppt
NothngIsTrue27 visualizações
10 feature engineering-univ-gunadarma por ArdianDwiPraba
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma
ArdianDwiPraba618 visualizações
Pertemuan 10 - Metodologi Data Science - Copy.pptx por FennyRahmayani
Pertemuan 10 - Metodologi Data Science - Copy.pptxPertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptx
FennyRahmayani57 visualizações
MODUL DATA MINING por NanzalXIV
MODUL DATA MININGMODUL DATA MINING
MODUL DATA MINING
NanzalXIV18 visualizações
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803 por Alvian yudha Prawira
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
Alvian yudha Prawira503 visualizações
Machine learning dan data mining por Alvian yudha Prawira
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data mining
Alvian yudha Prawira10.9K visualizações
Data Mining Diskusi 3.pdf por HendroGunawan8
Data Mining Diskusi 3.pdfData Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdf
HendroGunawan83 visualizações
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ... por Suhaili Hanafi
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Suhaili Hanafi8.1K visualizações
02 Dasar-dasar SIM por Arif Rahman
02 Dasar-dasar SIM02 Dasar-dasar SIM
02 Dasar-dasar SIM
Arif Rahman359 visualizações
Matriks por Dvd Devid
MatriksMatriks
Matriks
Dvd Devid1.7K visualizações
Matriks por Dvd Devid
MatriksMatriks
Matriks
Dvd Devid14.5K visualizações
Manajemen basis data por 'Oke Aflatun'
Manajemen basis data Manajemen basis data
Manajemen basis data
'Oke Aflatun'580 visualizações
PRESENTASI SIM KEL 6 FIX.pptx por AgungWahyudi66
PRESENTASI SIM KEL 6 FIX.pptxPRESENTASI SIM KEL 6 FIX.pptx
PRESENTASI SIM KEL 6 FIX.pptx
AgungWahyudi662 visualizações
Pertemuan1.pptx por adzimkomik
Pertemuan1.pptxPertemuan1.pptx
Pertemuan1.pptx
adzimkomik3 visualizações

ML.docx

  • 1. 1. Cari sebuah dataset dengan jumlah features dan samples bebas Iris Dataset Dataset Iris merupakan dataset multivariate yang diperkenalkan oleh ahli statistika dan biologi inggris, Ronald Fisher, pada tahun 1936. Dataset bunga Iris ini sangat terkenal di dunia Machine Learning yang digunakan untuk klasifikasi. Dataset ini terdiri dari 3 spesies Iris yaitu Iris Setosa, Iris Virginica, dan Iris Versicolor dan tiap spesiesnya memiliki 50 sampel. Dalam data Iris terdapat 4 atribut yang dapat mempengaruhi klasifikasi yaitu, sepal length, sepal width, petal length, dan petal width dalam centimeter yang berbeda-beda. 2. jenis learningnya, apakah regression? classification? clusterization? dimension reduction? Regresi termasuk ke dalam supervised learning yang digunakan untuk memprediksi nilai kontinu. Klasifikasi(classification) juga termasuk ke dalam supervised learning. Klasifikasi adalah sebuah teknik untuk mengklasifikasikan atau mengkategorikan beberapa item yang belum berlabel ke dalam sebuah set kelas diskrit. clustering mengidentifikasi kelompok data yang berbeda, sedangkan pada Dimensionality reduction mencari representasi data yang lebih ringkas 3. Lakukan proses preprocessing Preprocessing merupakan salah satu tahapan yang penting untuk data pada proses mining. Data yang digunakan dalam proses mining tidak selamanya dalam kondisi yang ideal untuk diproses.Data Dokumen untuk diproses Representasi Data  Cleaning data dengan menghilangkan tanda baca atau karakter selain teks dengan fungsi punctuation removal. Punctuation Removal  Case Folding yang merupakan proses untuk merubah setiap kata menjadi sama, misal huruf kecil dengan menggunakan fungsi lowercase.
  • 2. Case Fold  Stopword Removal, menghapus kata-kata yang terlalu umum dan kurang penting, ciri-ciri pada kata ini adalah frekwensi kemunculannya yang jumlahnya cukup banyak dibandingkan dengan kata yang lainnya, contoh kata : aku, kamu, dengan, yang dst. Stopword Removal  Stemming, adalah proses untuk mengubah kata pada setiap kalimat ke bentuk dasar atau menghapus kata-kata imbuhan. Stemming  Tokenizing. Merupakan tahap untuk memengal setiap kata dalam kalimat termasuk karakter. Tokenizing 4. Lakukan proses pipeline Pipeline adalah sebuah proses yang bertujuan untuk mempermudah aliran pembentukan model machine learning. Tanpa pipeline, maka kita perlu mengatur satu persatu preprocessing, dan ini akan menambah kerumitan kode sumber kita.
  • 3. 5. Lakukan proses pembentukan model model classification, kita akan preprocessing terlebih dahulu, yang dimulai dengan fungsi get_dummies(), yaitu fungsi untuk mengubah dependent variable y diagnosis kita, yaitu huruf menjadi angka, dan kemudian dilanjutkan dengan mengambil dua features, yaitu radius_mean, dan concave points mean sebagai independent variable X.
  • 4. 6. Lakukan proses fitting Proses fit dan evaluate, sangat mudah dan juga mirip dengan model - model lainnya, karena memang pada dasarnya package sklearn adalah sebuah package yang konsisten dalam proses machine learningnya, dan disini kita gunakan fungsi fit() dan predict() untuk memulai pembelajaran model, dan melakukan proses prediksinya. Setelah itu untuk masalah classification, salah satu bentuk pengukurannya adalah dengan mengunakan fungsi accuracy_score() untuk menghitung berapa persentase akurasi yang kita dapatkan untuk membandingkan hasil prediksi dengan y_test. 7. Lakukan proses evaluation Setelah berhasil melakukan fit() dan predict(), maka untuk selanjutnya kita akan mendapatkan cluster_centers_, dimana data ini adalah data titik tengah dari setiap cluster yang ada, dan pada eksperimen dibawah, kita coba menggambarkan titik tengah dari setiap cluster.
  • 5. 8. Sebutkan kesimpulan, dan upload file dataset dan notebook.