Data mining 7

D
Algoritma K-Means : Analisis Cluster
pada Data Mining
Dedi Darwis, M.Kom.
Kosep Algoritma K-Means
 Clustering adalah pengelompokan sejumlah obyek yang
besar berdasarkan ciri atau atribut tertentu ke dalam
sejumlah kelompok atau cluster.
 Algoritma K-Mean merupakan algoritma yang relatif
sederhana untuk mengklasifikasikan atau
mengelompokkan sejumlah besar obyek dengan atribut
tertentu ke dalam kelompok-kelompok sebanyak K.
 K-Mean salah satu metode data clustering non hirarki
yang berusaha mempartisi data yang ado ke dalam
bentuk satu atau lebih cluster atau kelompok.
Kosep Algoritma K-Means
 Terdapat dua jenis data clustering yang sering
dipergunakan dalam proses pengelompokan data yaitu
Hierarchical dan Non-Hierarchical, dan K-Means
merupakan salah satu metode data clustering non-
hierarchical atau Partitional Clustering.
Kosep Algoritma K-Means
 Metode K-Means Clustering berusaha
mengelompokkan data yang ada ke dalam beberapa
kelompok, dimana data dalam satu kelompok mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai
karakteristik yang berbeda dengan data yang ada di dalam
kelompok yang lain.
Kosep Algoritma K-Means
 Dengan kata lain, metode K-Means Clustering
bertujuan untuk meminimalisasikan objective
function yang diset dalam proses clustering dengan
cara meminimalkan variasi antar data yang ada di
dalam suatu cluster dan memaksimalkan variasi
dengan data yang ada di cluster lainnya.
Kosep Algoritma K-Means
 K-Means merupakan metode data clustering yang
digolongkan sebagai metode pengklasifikasian
yang bersifat unsupervised (tanpa arahan).
 Pengkategorian metode-metode pengklasifikasian data
antara supervised dan unsupervised classification
didasarkan pada adanya dataset yang data itemnya sudah
sejak awal mempunyai label kelas atau tidak.
 Untuk data yang sudah mempunyai label kelas, metode
pengklasifikasian yang digunakan merupakan
metode supervised classification dan untuk data yang
belum mempunyai label kelas, metode pengklasifikasian
yang digunakan adalah metode unsupervised
classification.
Cara Kerja Algoritma K-Means
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam cluster secara random
3. Hitung centroid/rata-rata dari data yang ada di masing-
masing cluster
4. Alokasikan masing-masing data ke centroid/rata-rata
terdekat
5. Kembali ke Step 3, apabila masih ada data yang
berpindah cluster atau apabila perubahan nilai centroid,
ada yang di atas nilai threshold yang ditentukan atau
apabila perubahan nilai pada objective function yang
digunakan di atas nilai threshold yang ditentukan
Karakteristik K-Means
 K-Means sangat cepat dalam proses clustering
 K-Means sangat sensitif pada pembangkitan centroid awal
secara random
 Memungkinkan suatu cluster tidak mempunyai anggota
 Hasil clustering dengan K-Means bersifat tidak unik (selalu
berubah-ubah) – terkadang baik, terkadang jelek
 K-means sangat sulit untuk mencapai global optimum
Karakteristik K-Means
 Memperhatikan input dalam algoritma K-Means, dapat
dikatakan bahwa algoritma ini hanya mengolah data kuantitatif
atau numerik.
 Sebuah basis data tidak mungkin hanya berisi satu macam tipe
data saja, akan tetapi beragam tipe.
Sebuah basis data dapat berisi data-
data dengan tipe sebagai berikut: binary, nominal, ordinal,
interval dan ratio.
 Berbagai macam atribut dalam basis data yang berbeda tipe
disebut sebagai data multivariate.
Tipe data seperti nominal dan ordinal harus diolah terlebih
dahulu menjadi data numerik (bisa dilakukan dengan cara
diskritisasi), sehingga dapat diberlakukan algoritma K-
Means dalam pembentukan clusternya.
Contoh Kasus Perhitungan K-Means Clustering
 Ditentukan banyaknya cluster yang dibentuk dua (k=2).
Banyaknya cluster harus lebih kecil dari pada banyaknya
data (k<n).
Contoh Dataset K-Means
Inisialisasi centroid dataset pada tabel dataset diatas
adalah C1 = {1 , 1} dan C2 = {2 , 1}. Inisialiasasi centroid
dapat ditentukan secara manual ataupun random.
Contoh Kasus Perhitungan K-Means Clustering
 Untuk pengulangan berikutnya (pengulangan ke-1 sampai
selesai), centroid baru dihitung dengan menghitung nilai
rata-rata data pada setiap cluster.
 Jika centroid baru berbeda dengan centroid sebelumnya,
maka proses dilanjutkan ke langkah berikutnya. Namun
jika centroid yang baru dihitung sama dengan centroid
sebelumnya, maka proses clustering selesai.
Contoh Kasus Perhitungan K-Means Clustering
 Rumus yang digunakan untuk menghitung distance space
atau jarak data dengan centroid menggunakan Euclidiean
Distance.
Persamaan Euclidean Distance :
Contoh Kasus Perhitungan K-Means Clustering
 Pengulangan ke-1 / Iterasi ke-1
 Jarak data dengan Centroid C1 adalah:
Contoh Kasus Perhitungan K-Means Clustering
 Jarak data dengan Centroid C2 adalah:
 Untuk seterusnya, hitung jarak pada setiap baris data
Contoh Kasus Perhitungan K-Means Clustering
 Hasil Perhitungan Pengulangan ke-1
Contoh Kasus Perhitungan K-Means Clustering
 Kelompokan data sesuai dengan cluster-nya, yaitu data
yang memiliki jarak terpendek.
 Contoh; karena d(x1,c1) < d(x1,c2) maka x1 masuk ke
dalam cluster 1. Pada tabel hasil perhitungan iterasi ke-1,
data n=1 masuk ke dalam cluster 1 karena dc1 < dc2,
sedangkan n=2,3,4 masuk ke dalam cluster 2 karena dc2
< dc1.
Contoh Kasus Perhitungan K-Means Clustering
 Setelah mendapatkan label cluster untuk masing-masing
data n=1,2,3,4 maka dicari nilai rata-ratanya dengan
menjumlahkan seluruh anggota masing-masing cluster dan
dibagi jumlah anggotanya.
Nilai Rata-Rata Centroid pada Pengulangan ke-1
C2 (a) = (2+4+5)/3 C2 (b) = (1+3+4)/3
C1 (a) = 1/1 C1 (b) = 1/1
Contoh Kasus Perhitungan K-Means Clustering
 Pengulangan ke-2 / Iterasi Ke-2
Pengelompokan Data pada Pengulangan ke-2
Nilai Rata-Rata Centroid pada Pengulangan ke-2
Contoh Kasus Perhitungan K-Means Clustering
 Pengulangan ke-3 / Iterasi Ke-3
Pengelompokan Data pada Pengulangan ke-3
Nilai Rata-Rata Centroid pada Pengulangan ke-3
 Karena centroid tidak mengalami perubahan (sama dengan
centroid sebelumnya) maka proses clustering selesai.
Latihan Analisis Cluster (K-Means)
 Diketahui Dataset sebagai berikut :
Data Ke - i a b
1 1 1
2 4 1
3 6 1
4 1 2
5 2 3
6 5 3
7 2 5
8 3 5
9 2 6
10 3 8
Inisialisasi centroid
dataset pada tabel
dataset adalah C2 =
{4 , 1} , C4 = {1,2}
dan C6 = {5 , 3}.
1 de 20

Recomendados

Penjelasan tentang kontur dan representasi citra por
Penjelasan tentang kontur dan representasi citraPenjelasan tentang kontur dan representasi citra
Penjelasan tentang kontur dan representasi citraIztHo'ell Shoerento
1.3K visualizações2 slides
Data mining 5 klasifikasi decision tree dan random forest por
Data mining 5   klasifikasi decision tree dan random forestData mining 5   klasifikasi decision tree dan random forest
Data mining 5 klasifikasi decision tree dan random forestIrwansyahSaputra1
1.5K visualizações56 slides
kriptografi hill cipher por
kriptografi hill cipherkriptografi hill cipher
kriptografi hill cipherAdi Ginanjar Kusuma
4K visualizações23 slides
Contoh peyelesaian logika fuzzy por
Contoh peyelesaian logika fuzzyContoh peyelesaian logika fuzzy
Contoh peyelesaian logika fuzzyZaenal Khayat
191.2K visualizações40 slides
Arsitektur dan model data mining por
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data miningUniversitas Bina Darma Palembang
7.4K visualizações28 slides
Metode pencarian heuristik por
Metode pencarian heuristikMetode pencarian heuristik
Metode pencarian heuristikBaguss Chandrass
27.1K visualizações27 slides

Mais conteúdo relacionado

Mais procurados

Proses Data Mining por
Proses Data MiningProses Data Mining
Proses Data Miningdedidarwis
24.5K visualizações178 slides
Metode statistika por
Metode statistikaMetode statistika
Metode statistikamus_lim
21K visualizações13 slides
Analisis komponen utama (Principal Component Analysis) por
Analisis komponen utama (Principal Component Analysis)Analisis komponen utama (Principal Component Analysis)
Analisis komponen utama (Principal Component Analysis)Indah Fitri Hapsari
16K visualizações8 slides
Penyederhanaan Karnaugh Map por
Penyederhanaan Karnaugh MapPenyederhanaan Karnaugh Map
Penyederhanaan Karnaugh MapCheria Asyifa
58.8K visualizações29 slides
Laporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVI por
Laporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVILaporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVI
Laporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVIAhmad Dani
7.3K visualizações44 slides
Data mining 3 similarity and disimilarity por
Data mining 3   similarity and disimilarityData mining 3   similarity and disimilarity
Data mining 3 similarity and disimilarityIrwansyahSaputra1
244 visualizações13 slides

Mais procurados(20)

Proses Data Mining por dedidarwis
Proses Data MiningProses Data Mining
Proses Data Mining
dedidarwis24.5K visualizações
Metode statistika por mus_lim
Metode statistikaMetode statistika
Metode statistika
mus_lim21K visualizações
Analisis komponen utama (Principal Component Analysis) por Indah Fitri Hapsari
Analisis komponen utama (Principal Component Analysis)Analisis komponen utama (Principal Component Analysis)
Analisis komponen utama (Principal Component Analysis)
Indah Fitri Hapsari16K visualizações
Penyederhanaan Karnaugh Map por Cheria Asyifa
Penyederhanaan Karnaugh MapPenyederhanaan Karnaugh Map
Penyederhanaan Karnaugh Map
Cheria Asyifa58.8K visualizações
Laporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVI por Ahmad Dani
Laporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVILaporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVI
Laporan Praktikum PCD (Pengolahan Citra Digital) menggunakan software ENVI
Ahmad Dani7.3K visualizações
Data mining 3 similarity and disimilarity por IrwansyahSaputra1
Data mining 3   similarity and disimilarityData mining 3   similarity and disimilarity
Data mining 3 similarity and disimilarity
IrwansyahSaputra1244 visualizações
Modul 3 pencarian heuristik por ahmad haidaroh
Modul 3   pencarian heuristikModul 3   pencarian heuristik
Modul 3 pencarian heuristik
ahmad haidaroh22.4K visualizações
Algoritma Apriori por dedidarwis
Algoritma AprioriAlgoritma Apriori
Algoritma Apriori
dedidarwis13.6K visualizações
Pertemuan 6 & 7 ars. gerbang logika por Buhori Muslim
Pertemuan 6 & 7 ars. gerbang logikaPertemuan 6 & 7 ars. gerbang logika
Pertemuan 6 & 7 ars. gerbang logika
Buhori Muslim119.1K visualizações
Kelompok 3 integrasi numerik fix por liabika
Kelompok 3 integrasi numerik fixKelompok 3 integrasi numerik fix
Kelompok 3 integrasi numerik fix
liabika32.1K visualizações
Contoh Soal Huffman Code por Albertus H.
Contoh Soal Huffman CodeContoh Soal Huffman Code
Contoh Soal Huffman Code
Albertus H.5.2K visualizações
Program transpose matriks por Simon Patabang
Program transpose matriksProgram transpose matriks
Program transpose matriks
Simon Patabang5.3K visualizações
Slide minggu 6 (citra digital) por Setia Juli Irzal Ismail
Slide minggu 6 (citra digital)Slide minggu 6 (citra digital)
Slide minggu 6 (citra digital)
Setia Juli Irzal Ismail22.5K visualizações
Jenis-Jenis Format Citra por Lesmardin Hasugian
Jenis-Jenis Format CitraJenis-Jenis Format Citra
Jenis-Jenis Format Citra
Lesmardin Hasugian8.5K visualizações
6 Divergensi dan CURL por Simon Patabang
6 Divergensi dan CURL6 Divergensi dan CURL
6 Divergensi dan CURL
Simon Patabang41.8K visualizações
pengolahan-citra por fitriyutarihidayah
pengolahan-citrapengolahan-citra
pengolahan-citra
fitriyutarihidayah2.1K visualizações
Basis data por tafrikan
Basis dataBasis data
Basis data
tafrikan4.5K visualizações
Pcd 06 - perbaikan citra por Febriyani Syafri
Pcd   06 - perbaikan citraPcd   06 - perbaikan citra
Pcd 06 - perbaikan citra
Febriyani Syafri1.3K visualizações
Contoh soal dan penyelesaian metode biseksi por muhamadaulia3
Contoh soal dan penyelesaian metode biseksiContoh soal dan penyelesaian metode biseksi
Contoh soal dan penyelesaian metode biseksi
muhamadaulia312.3K visualizações
Modul bahan-ajar-kecerdasan-buatan-ptiik-final por Ramla Lamantha
Modul bahan-ajar-kecerdasan-buatan-ptiik-finalModul bahan-ajar-kecerdasan-buatan-ptiik-final
Modul bahan-ajar-kecerdasan-buatan-ptiik-final
Ramla Lamantha11.9K visualizações

Similar a Data mining 7

Klasterisasi - Algoritma K-Means Clustering.pdf por
Klasterisasi - Algoritma K-Means Clustering.pdfKlasterisasi - Algoritma K-Means Clustering.pdf
Klasterisasi - Algoritma K-Means Clustering.pdfElvi Rahmi
231 visualizações33 slides
K-MEANS CLUSTERING.pptx por
K-MEANS CLUSTERING.pptxK-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptxGemmaDwiPrasetya
9 visualizações11 slides
Machine Learning Diskusi 9.pdf por
Machine Learning Diskusi 9.pdfMachine Learning Diskusi 9.pdf
Machine Learning Diskusi 9.pdfHendroGunawan8
7 visualizações10 slides
Machine Learning Diskusi 10.pdf por
Machine Learning Diskusi 10.pdfMachine Learning Diskusi 10.pdf
Machine Learning Diskusi 10.pdfHendroGunawan8
10 visualizações5 slides
Belajar mudah algoritma data mining k means por
Belajar mudah algoritma data mining k meansBelajar mudah algoritma data mining k means
Belajar mudah algoritma data mining k meansilmuBiner
19.2K visualizações5 slides
LN s10-machine vision-s2 por
LN s10-machine vision-s2LN s10-machine vision-s2
LN s10-machine vision-s2Binus Online Learning
320 visualizações11 slides

Similar a Data mining 7(20)

Klasterisasi - Algoritma K-Means Clustering.pdf por Elvi Rahmi
Klasterisasi - Algoritma K-Means Clustering.pdfKlasterisasi - Algoritma K-Means Clustering.pdf
Klasterisasi - Algoritma K-Means Clustering.pdf
Elvi Rahmi231 visualizações
K-MEANS CLUSTERING.pptx por GemmaDwiPrasetya
K-MEANS CLUSTERING.pptxK-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptx
GemmaDwiPrasetya9 visualizações
Machine Learning Diskusi 9.pdf por HendroGunawan8
Machine Learning Diskusi 9.pdfMachine Learning Diskusi 9.pdf
Machine Learning Diskusi 9.pdf
HendroGunawan87 visualizações
Machine Learning Diskusi 10.pdf por HendroGunawan8
Machine Learning Diskusi 10.pdfMachine Learning Diskusi 10.pdf
Machine Learning Diskusi 10.pdf
HendroGunawan810 visualizações
Belajar mudah algoritma data mining k means por ilmuBiner
Belajar mudah algoritma data mining k meansBelajar mudah algoritma data mining k means
Belajar mudah algoritma data mining k means
ilmuBiner19.2K visualizações
Clustering _IgedeAris.ppt por PandeKadek3
Clustering _IgedeAris.pptClustering _IgedeAris.ppt
Clustering _IgedeAris.ppt
PandeKadek37 visualizações
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means por ym.ygrex@comp
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-meansJurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
ym.ygrex@comp227 visualizações
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... por butest
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
butest2.2K visualizações
PPT_Data_Mining_Kel_3.pptx por AbdulMajid84127
PPT_Data_Mining_Kel_3.pptxPPT_Data_Mining_Kel_3.pptx
PPT_Data_Mining_Kel_3.pptx
AbdulMajid841278 visualizações
Metode statistik multivariat por kartiko edhi
Metode statistik multivariatMetode statistik multivariat
Metode statistik multivariat
kartiko edhi12.1K visualizações
BAB III 4.docx por RekaRismawati
BAB III 4.docxBAB III 4.docx
BAB III 4.docx
RekaRismawati2 visualizações
Pert 04 clustering data mining por aiiniR
Pert 04 clustering   data miningPert 04 clustering   data mining
Pert 04 clustering data mining
aiiniR10.8K visualizações
PPT KEL 3 DAI - 007.pptx por StevenAdiSantoso
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
StevenAdiSantoso7 visualizações
HibahProdi Genap 2012/2013 por achmad fauzan
HibahProdi Genap 2012/2013HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013
achmad fauzan429 visualizações

Mais de dedidarwis

Cv dedi darwis por
Cv dedi darwisCv dedi darwis
Cv dedi darwisdedidarwis
2K visualizações3 slides
Manajemen pengetahuan por
Manajemen pengetahuanManajemen pengetahuan
Manajemen pengetahuandedidarwis
172 visualizações16 slides
Metadata pada Data Warehouse por
Metadata pada Data WarehouseMetadata pada Data Warehouse
Metadata pada Data Warehousededidarwis
5.2K visualizações14 slides
Siklus Pendapatan por
Siklus PendapatanSiklus Pendapatan
Siklus Pendapatandedidarwis
636 visualizações42 slides
Pengendalian SIA Berbasis Komputer por
Pengendalian SIA Berbasis KomputerPengendalian SIA Berbasis Komputer
Pengendalian SIA Berbasis Komputerdedidarwis
205 visualizações37 slides
Sistem Pengendalian Internal por
Sistem Pengendalian InternalSistem Pengendalian Internal
Sistem Pengendalian Internaldedidarwis
83 visualizações22 slides

Mais de dedidarwis(20)

Cv dedi darwis por dedidarwis
Cv dedi darwisCv dedi darwis
Cv dedi darwis
dedidarwis2K visualizações
Manajemen pengetahuan por dedidarwis
Manajemen pengetahuanManajemen pengetahuan
Manajemen pengetahuan
dedidarwis172 visualizações
Metadata pada Data Warehouse por dedidarwis
Metadata pada Data WarehouseMetadata pada Data Warehouse
Metadata pada Data Warehouse
dedidarwis5.2K visualizações
Siklus Pendapatan por dedidarwis
Siklus PendapatanSiklus Pendapatan
Siklus Pendapatan
dedidarwis636 visualizações
Pengendalian SIA Berbasis Komputer por dedidarwis
Pengendalian SIA Berbasis KomputerPengendalian SIA Berbasis Komputer
Pengendalian SIA Berbasis Komputer
dedidarwis205 visualizações
Sistem Pengendalian Internal por dedidarwis
Sistem Pengendalian InternalSistem Pengendalian Internal
Sistem Pengendalian Internal
dedidarwis83 visualizações
Model data dan desain database por dedidarwis
Model data dan desain databaseModel data dan desain database
Model data dan desain database
dedidarwis554 visualizações
Pengantar e-business por dedidarwis
Pengantar e-businessPengantar e-business
Pengantar e-business
dedidarwis142 visualizações
Siklus sistem informasi akuntansi por dedidarwis
Siklus sistem informasi akuntansiSiklus sistem informasi akuntansi
Siklus sistem informasi akuntansi
dedidarwis1.2K visualizações
Konsep Dasar Sistem Informasi Akuntansi por dedidarwis
Konsep Dasar Sistem Informasi AkuntansiKonsep Dasar Sistem Informasi Akuntansi
Konsep Dasar Sistem Informasi Akuntansi
dedidarwis376 visualizações
Pert 14 publikasi hasil penelitian por dedidarwis
Pert 14 publikasi hasil penelitianPert 14 publikasi hasil penelitian
Pert 14 publikasi hasil penelitian
dedidarwis1.6K visualizações
Pert 13 pengujian hasil penelitian por dedidarwis
Pert 13  pengujian hasil penelitianPert 13  pengujian hasil penelitian
Pert 13 pengujian hasil penelitian
dedidarwis109 visualizações
Pert 13 pengujian hasil penelitian por dedidarwis
Pert 13  pengujian hasil penelitianPert 13  pengujian hasil penelitian
Pert 13 pengujian hasil penelitian
dedidarwis856 visualizações
Pert 12 metode eksperimen por dedidarwis
Pert 12   metode eksperimenPert 12   metode eksperimen
Pert 12 metode eksperimen
dedidarwis923 visualizações
Pert 11 kesalahan penelitian por dedidarwis
Pert 11  kesalahan penelitianPert 11  kesalahan penelitian
Pert 11 kesalahan penelitian
dedidarwis474 visualizações
Slide trik skripsi ftik s1 por dedidarwis
Slide trik skripsi ftik s1Slide trik skripsi ftik s1
Slide trik skripsi ftik s1
dedidarwis611 visualizações
Pert 9 proposal penelitian por dedidarwis
Pert 9 proposal penelitianPert 9 proposal penelitian
Pert 9 proposal penelitian
dedidarwis847 visualizações
Pert 6 literatur review por dedidarwis
Pert 6 literatur reviewPert 6 literatur review
Pert 6 literatur review
dedidarwis808 visualizações
Pert 5 pengolahan data por dedidarwis
Pert 5 pengolahan dataPert 5 pengolahan data
Pert 5 pengolahan data
dedidarwis462 visualizações
Pert 5 pengumpulan-data por dedidarwis
Pert 5 pengumpulan-dataPert 5 pengumpulan-data
Pert 5 pengumpulan-data
dedidarwis593 visualizações

Data mining 7

  • 1. Algoritma K-Means : Analisis Cluster pada Data Mining Dedi Darwis, M.Kom.
  • 2. Kosep Algoritma K-Means  Clustering adalah pengelompokan sejumlah obyek yang besar berdasarkan ciri atau atribut tertentu ke dalam sejumlah kelompok atau cluster.  Algoritma K-Mean merupakan algoritma yang relatif sederhana untuk mengklasifikasikan atau mengelompokkan sejumlah besar obyek dengan atribut tertentu ke dalam kelompok-kelompok sebanyak K.  K-Mean salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ado ke dalam bentuk satu atau lebih cluster atau kelompok.
  • 3. Kosep Algoritma K-Means  Terdapat dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan K-Means merupakan salah satu metode data clustering non- hierarchical atau Partitional Clustering.
  • 4. Kosep Algoritma K-Means  Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain.
  • 5. Kosep Algoritma K-Means  Dengan kata lain, metode K-Means Clustering bertujuan untuk meminimalisasikan objective function yang diset dalam proses clustering dengan cara meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.
  • 6. Kosep Algoritma K-Means  K-Means merupakan metode data clustering yang digolongkan sebagai metode pengklasifikasian yang bersifat unsupervised (tanpa arahan).  Pengkategorian metode-metode pengklasifikasian data antara supervised dan unsupervised classification didasarkan pada adanya dataset yang data itemnya sudah sejak awal mempunyai label kelas atau tidak.  Untuk data yang sudah mempunyai label kelas, metode pengklasifikasian yang digunakan merupakan metode supervised classification dan untuk data yang belum mempunyai label kelas, metode pengklasifikasian yang digunakan adalah metode unsupervised classification.
  • 7. Cara Kerja Algoritma K-Means 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid/rata-rata dari data yang ada di masing- masing cluster 4. Alokasikan masing-masing data ke centroid/rata-rata terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan
  • 8. Karakteristik K-Means  K-Means sangat cepat dalam proses clustering  K-Means sangat sensitif pada pembangkitan centroid awal secara random  Memungkinkan suatu cluster tidak mempunyai anggota  Hasil clustering dengan K-Means bersifat tidak unik (selalu berubah-ubah) – terkadang baik, terkadang jelek  K-means sangat sulit untuk mencapai global optimum
  • 9. Karakteristik K-Means  Memperhatikan input dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif atau numerik.  Sebuah basis data tidak mungkin hanya berisi satu macam tipe data saja, akan tetapi beragam tipe. Sebuah basis data dapat berisi data- data dengan tipe sebagai berikut: binary, nominal, ordinal, interval dan ratio.  Berbagai macam atribut dalam basis data yang berbeda tipe disebut sebagai data multivariate. Tipe data seperti nominal dan ordinal harus diolah terlebih dahulu menjadi data numerik (bisa dilakukan dengan cara diskritisasi), sehingga dapat diberlakukan algoritma K- Means dalam pembentukan clusternya.
  • 10. Contoh Kasus Perhitungan K-Means Clustering  Ditentukan banyaknya cluster yang dibentuk dua (k=2). Banyaknya cluster harus lebih kecil dari pada banyaknya data (k<n). Contoh Dataset K-Means Inisialisasi centroid dataset pada tabel dataset diatas adalah C1 = {1 , 1} dan C2 = {2 , 1}. Inisialiasasi centroid dapat ditentukan secara manual ataupun random.
  • 11. Contoh Kasus Perhitungan K-Means Clustering  Untuk pengulangan berikutnya (pengulangan ke-1 sampai selesai), centroid baru dihitung dengan menghitung nilai rata-rata data pada setiap cluster.  Jika centroid baru berbeda dengan centroid sebelumnya, maka proses dilanjutkan ke langkah berikutnya. Namun jika centroid yang baru dihitung sama dengan centroid sebelumnya, maka proses clustering selesai.
  • 12. Contoh Kasus Perhitungan K-Means Clustering  Rumus yang digunakan untuk menghitung distance space atau jarak data dengan centroid menggunakan Euclidiean Distance. Persamaan Euclidean Distance :
  • 13. Contoh Kasus Perhitungan K-Means Clustering  Pengulangan ke-1 / Iterasi ke-1  Jarak data dengan Centroid C1 adalah:
  • 14. Contoh Kasus Perhitungan K-Means Clustering  Jarak data dengan Centroid C2 adalah:  Untuk seterusnya, hitung jarak pada setiap baris data
  • 15. Contoh Kasus Perhitungan K-Means Clustering  Hasil Perhitungan Pengulangan ke-1
  • 16. Contoh Kasus Perhitungan K-Means Clustering  Kelompokan data sesuai dengan cluster-nya, yaitu data yang memiliki jarak terpendek.  Contoh; karena d(x1,c1) < d(x1,c2) maka x1 masuk ke dalam cluster 1. Pada tabel hasil perhitungan iterasi ke-1, data n=1 masuk ke dalam cluster 1 karena dc1 < dc2, sedangkan n=2,3,4 masuk ke dalam cluster 2 karena dc2 < dc1.
  • 17. Contoh Kasus Perhitungan K-Means Clustering  Setelah mendapatkan label cluster untuk masing-masing data n=1,2,3,4 maka dicari nilai rata-ratanya dengan menjumlahkan seluruh anggota masing-masing cluster dan dibagi jumlah anggotanya. Nilai Rata-Rata Centroid pada Pengulangan ke-1 C2 (a) = (2+4+5)/3 C2 (b) = (1+3+4)/3 C1 (a) = 1/1 C1 (b) = 1/1
  • 18. Contoh Kasus Perhitungan K-Means Clustering  Pengulangan ke-2 / Iterasi Ke-2 Pengelompokan Data pada Pengulangan ke-2 Nilai Rata-Rata Centroid pada Pengulangan ke-2
  • 19. Contoh Kasus Perhitungan K-Means Clustering  Pengulangan ke-3 / Iterasi Ke-3 Pengelompokan Data pada Pengulangan ke-3 Nilai Rata-Rata Centroid pada Pengulangan ke-3  Karena centroid tidak mengalami perubahan (sama dengan centroid sebelumnya) maka proses clustering selesai.
  • 20. Latihan Analisis Cluster (K-Means)  Diketahui Dataset sebagai berikut : Data Ke - i a b 1 1 1 2 4 1 3 6 1 4 1 2 5 2 3 6 5 3 7 2 5 8 3 5 9 2 6 10 3 8 Inisialisasi centroid dataset pada tabel dataset adalah C2 = {4 , 1} , C4 = {1,2} dan C6 = {5 , 3}.