SlideShare uma empresa Scribd logo
1 de 21
DATA MINING
NURLINDASARI TAMSIR
Pengantar Data Mining
 Apa dan Mengapa Data Mining?
Manusia memerlukan melakukan data mining
karena
(1) manusia memproduksi data beragam data
yang jumlah dan ukurannya sangat besar untuk
bidang astronomi, bisnis, kedokteran, ekonomi,
olahraga, cuaca, financial, dan masih banyak
bidang.
(2) Tejadinya pertumbuhan data seperti bidang
astronomi berdasrakan survey yang dilakukan
oleh perusahaan Sloan Digital Sky Survey di
New Mexico pada 2000 bahwa data yang
dihasilkan 140TB selama 10 tahun terakhir.
Sedangkan survey dari perusahaan Large
Synoptic Survey Telescope di Chile pada tahun
2016 bahwa setiap 5 hari dihasilkan data
sebesar 140TB
(3) terjadinya
perubahan kultur dan
perilaku manusia
bahwa tiap detik social
media menghasilkan
data yang fantastis
Pengantar Data Mining
Pengantar Data Mining
(4). Terjadinya tsunami data
 Mobile Electronics market : 7B
smartphone subscriptions in 2015
 Web & Social Networks generates
amount of data
 Google processes 100 PB per day, 3
million servers
 Facebook has 300 PB of user data per
day
 Youtube has 1000PB video storage
Manusia kebanjiran data tetapi miskin
pengetahuan untuk itu diperlukan bagaimana
manusia bisa mengubah data menjadi
pengetahuan.
 Data harus olah menjadi pengetahuan
supaya bisa bermanfaat bagi manusia.
Dengan pengetahuan tersebut, manusia
dapat:
 Melakukan estimasi dan prediksi apa
yang terjadi di depan
 Melakukan analisis tentang asosiasi,
korelasi dan pengelompokan antar data
dan atribut
 Membantu pengambilan keputusan dan
DEFINISI
 Menambang/menggali/menemukan
pengetahuan dari data yang banyak yang
sebelumnya tidak diketahui
 Suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di
dalam database
 Proses menggunakan teknik statistika,
matematika, kecerdasan buatan dan machine
learning
 Suatu proses menemukan hubungan, pola
 disiplin ilmu yang mempelajari metode untuk
mengekstrak pengetahuan atau menemukan
pola dari suatu data yang besar
Nama lain data mining
 Knowledge Discovery in Database
(KDD)
 Big data
 Business intelligence
 Knowledge extraction
 Pattern analysis
 Information harvestin
Karateristik data mining
 Data mining berhubungan dengan
penemuan sesuatu yang tersembunyi
dan pola data tertentu yang tidak
diketahui sebelumnya.
 Data mining biasa menggunakan data
yang sangat besar. Biasanya data yang
besar digunakan untuk membuat hasil
lebih dipercaya.
 Data mining berguna untuk membuat
keputusan yang kritis, terutama dalam
strategi
 Ekstraksi dari data ke pengetahuan:
 1. data: fakta yang terekam dan tidak membawa arti
 2. informasi: rekap, rangkuman, penjelasan dan
statistik dari data
 3. pengetahuan: pola, rumus, aturan atau model
yang muncul dari data
Penerapan data mining
 Puluhan ribu data mahasiswa di
kampus yang diambil dari sistem
informasi akademik
 Apakah pernah kita ubah menjadi
pengetahuan yang lebih bermanfaat?
TIDAK!
 Seperti apa pengetahuan itu? Rumus,
Pola, Aturan
Penerapan data mining
 Pendidikan
 Data mining membantu tenaga mendidik
dalam mengakses data siswa, memprediksi
tingkat pencapaian dan memberi pandangan
tentang siswa atau kelompok siswa mana
saja yang membutuhkan perhatian ekstra
 Perbankan
 Data mining membantu perusahaan jasa
keuangan untuk mendapatkan pandangan
yang lebih baik tentang risiko pasar,
mendeteksi penipuan, mengelola pemenuhan
peraturan dan untuk mendapatkan return
optimal dari investasi pemasaran.
Penerapan data mining
 Komunikasi
 Data mining digunakan oleh perusahaan
multimedia dan telekomunikasi untuk memahami
banyaknya data pelanggan, memprediksi
perilaku mereka dan menawarkan kampanye
yang sesuai target atau relevan.
 Asuransi
 Penerapan lain data mining adalah pada
industri asuransi. Perusahaan asuransi
umumnya menggunakan teknik data
mining untuk mendeteksi penipuan,
mengidentifikasi faktor risiko pada pengajuan
klaim, analisa pelanggan, hingga untuk
menemukan cara menawarkan produk kompetitif
ke basis pelanggan yang ada.
Penerapan data mining
 kesehatan
 Salah satu pemanfaatan data mining pada
bidang kesehatan adalah penerapan data
mining untuk melakukan klasifikasi prediksi
penyakit ISPA (Infeksi Saluran Pernapasan
Akut). Data pasien yang terkena ISPA dapat
digunakan untuk menunjukkan gejala
penyakit ISPA yang diderita pasien.
Klasifikasi ini bertujuan untuk membentuk
model pohon keputusan untuk memprediksi
penyakit pasien dan melihat variabel yang
paling mempengaruhi penyakit pasien
dengan kategori ISPA. Objek penelitian ini
ialah data pasien, status imunisasi, jenis
kelamin,usia dan kriteria gizi
Penerapan data mining
 Ekonomi dan bisnis : data saham 
kenaikan, penurunan dll
 Cuaca : BMG, data suhu, curah hujan
dll
 Olahraga : CR7 brapa mencetak gol
dalam 1 musim dll
Data set
 Dataset/Himpunan Data/Data
Latih adalah sebuah himpunan data
yang berasal dari informasi masa-masa
lampau dan dikelola menjadi sebuah
informasi untuk melakukan teknik dari
ilmu data mining.
 Sebuah data set dapat dipandang
sebagai sebuah koleksi dari objek- objek
data. Nama lain dari sebuah objek data
adalah record, titik, vektor, pola, event,
case, sample, observasi atau entitas
Jenis data set
 dua jenis dataset yaitu Private dan Public.
 Private Dataset, adalah data set yang dapat
diambil dari sebuah organisasi yang akan kita
lakukan sebagai objek penelitian misalnya
seperti data bank, rumah sakit, universitas,
perusahaan dan lain sebagainya
 Public Dataset, adalag data set yang bisa
kita ambil dari repository publik yang
disepakati oleh ulama-ulama peneliti data
mining, misalnya seperti UCI
Repository (http://www.ics.uci.edu/~mlearn/
MLRepository.html), ACM
KDD (http://www.sigkdd.org/kddcup/).
Data set
 Terdapat bermacam-macam cara untuk
merepresentasikan data set contohnya
yaitu atribut yang digunakan untuk
meng-gambarkan jenis objek
 baris yang menyatakan objek-objek data
dan kolom disebut atribut. Atribut juga
dapat disebut dengan variabel, field, fitur
atau dimensi.
Jenis Atribut
Presentation1.pptx

Mais conteúdo relacionado

Semelhante a Presentation1.pptx

adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdfadoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
DinarSafa1
 
INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...
INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...
INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...
andiekuA
 
Cara pengumpulan dan analisis data penelitian.pptx
Cara pengumpulan dan analisis data penelitian.pptxCara pengumpulan dan analisis data penelitian.pptx
Cara pengumpulan dan analisis data penelitian.pptx
KevinTandarto1
 
Big Data, Media, Social Network and Statistics
Big Data, Media, Social Network and StatisticsBig Data, Media, Social Network and Statistics
Big Data, Media, Social Network and Statistics
Ismail Fahmi
 

Semelhante a Presentation1.pptx (20)

adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdfadoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
 
Pertemuan 1.pptx
Pertemuan 1.pptxPertemuan 1.pptx
Pertemuan 1.pptx
 
Eps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfEps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdf
 
Data, Informasi, dan Pengetahuan
Data, Informasi, dan PengetahuanData, Informasi, dan Pengetahuan
Data, Informasi, dan Pengetahuan
 
Informasi data
Informasi dataInformasi data
Informasi data
 
tugas remed bio.docx
tugas remed bio.docxtugas remed bio.docx
tugas remed bio.docx
 
BIG DATA & CONSUMER BERHAVIOUR
BIG DATA & CONSUMER BERHAVIOURBIG DATA & CONSUMER BERHAVIOUR
BIG DATA & CONSUMER BERHAVIOUR
 
15015 2 konsep dasar data mining
15015 2 konsep dasar data mining15015 2 konsep dasar data mining
15015 2 konsep dasar data mining
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big data
 
Sains Data Kelompok 3.pptx
Sains Data Kelompok 3.pptxSains Data Kelompok 3.pptx
Sains Data Kelompok 3.pptx
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...
INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...
INFORMATIKA RUMPUN KESEHATAN SMK KELAS X_BAB 6 ANALISIS DATA DAN DAMPAK SOSIA...
 
3. bab 1 sim
3. bab 1 sim3. bab 1 sim
3. bab 1 sim
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big data
 
Hasil kajian Big Data di Indonesia
Hasil kajian Big Data di IndonesiaHasil kajian Big Data di Indonesia
Hasil kajian Big Data di Indonesia
 
1 data mining-dm2016
1 data mining-dm20161 data mining-dm2016
1 data mining-dm2016
 
Cara pengumpulan dan analisis data penelitian.pptx
Cara pengumpulan dan analisis data penelitian.pptxCara pengumpulan dan analisis data penelitian.pptx
Cara pengumpulan dan analisis data penelitian.pptx
 
Big Data, Media, Social Network and Statistics
Big Data, Media, Social Network and StatisticsBig Data, Media, Social Network and Statistics
Big Data, Media, Social Network and Statistics
 
Sim week 03 chapter 01
Sim week 03   chapter 01Sim week 03   chapter 01
Sim week 03 chapter 01
 
BIG DATA PSIKOLOGI PERILAKU KONSUMEN DAN EKONOMI
BIG DATA PSIKOLOGI PERILAKU KONSUMEN DAN EKONOMIBIG DATA PSIKOLOGI PERILAKU KONSUMEN DAN EKONOMI
BIG DATA PSIKOLOGI PERILAKU KONSUMEN DAN EKONOMI
 

Último

BAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptx
BAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptxBAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptx
BAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptx
JuliBriana2
 

Último (20)

PPT AKSI NYATA KOMUNITAS BELAJAR .ppt di SD
PPT AKSI NYATA KOMUNITAS BELAJAR .ppt di SDPPT AKSI NYATA KOMUNITAS BELAJAR .ppt di SD
PPT AKSI NYATA KOMUNITAS BELAJAR .ppt di SD
 
Lingkungan bawah airLingkungan bawah air.ppt
Lingkungan bawah airLingkungan bawah air.pptLingkungan bawah airLingkungan bawah air.ppt
Lingkungan bawah airLingkungan bawah air.ppt
 
Kontribusi Islam Dalam Pengembangan Peradaban Dunia - KELOMPOK 1.pptx
Kontribusi Islam Dalam Pengembangan Peradaban Dunia - KELOMPOK 1.pptxKontribusi Islam Dalam Pengembangan Peradaban Dunia - KELOMPOK 1.pptx
Kontribusi Islam Dalam Pengembangan Peradaban Dunia - KELOMPOK 1.pptx
 
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdfContoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
 
MAKALAH KELOMPOK 7 ADMINISTRASI LAYANAN KHUSUS.pdf
MAKALAH KELOMPOK 7 ADMINISTRASI LAYANAN KHUSUS.pdfMAKALAH KELOMPOK 7 ADMINISTRASI LAYANAN KHUSUS.pdf
MAKALAH KELOMPOK 7 ADMINISTRASI LAYANAN KHUSUS.pdf
 
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptxRefleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
 
DAFTAR PPPK GURU KABUPATEN PURWOREJO TAHUN 2024
DAFTAR PPPK GURU KABUPATEN PURWOREJO TAHUN 2024DAFTAR PPPK GURU KABUPATEN PURWOREJO TAHUN 2024
DAFTAR PPPK GURU KABUPATEN PURWOREJO TAHUN 2024
 
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptxPendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
 
PPT Mean Median Modus data tunggal .pptx
PPT Mean Median Modus data tunggal .pptxPPT Mean Median Modus data tunggal .pptx
PPT Mean Median Modus data tunggal .pptx
 
Modul Projek - Batik Ecoprint - Fase B.pdf
Modul Projek  - Batik Ecoprint - Fase B.pdfModul Projek  - Batik Ecoprint - Fase B.pdf
Modul Projek - Batik Ecoprint - Fase B.pdf
 
BAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptx
BAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptxBAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptx
BAB 5 KERJASAMA DALAM BERBAGAI BIDANG KEHIDUPAN.pptx
 
Stoikiometri kelas 10 kurikulum Merdeka.ppt
Stoikiometri kelas 10 kurikulum Merdeka.pptStoikiometri kelas 10 kurikulum Merdeka.ppt
Stoikiometri kelas 10 kurikulum Merdeka.ppt
 
power point bahasa indonesia "Karya Ilmiah"
power point bahasa indonesia "Karya Ilmiah"power point bahasa indonesia "Karya Ilmiah"
power point bahasa indonesia "Karya Ilmiah"
 
LATAR BELAKANG JURNAL DIALOGIS REFLEKTIF.ppt
LATAR BELAKANG JURNAL DIALOGIS REFLEKTIF.pptLATAR BELAKANG JURNAL DIALOGIS REFLEKTIF.ppt
LATAR BELAKANG JURNAL DIALOGIS REFLEKTIF.ppt
 
MODUL AJAR BAHASA INDONESIA KELAS 6 KURIKULUM MERDEKA.pdf
MODUL AJAR BAHASA INDONESIA KELAS 6 KURIKULUM MERDEKA.pdfMODUL AJAR BAHASA INDONESIA KELAS 6 KURIKULUM MERDEKA.pdf
MODUL AJAR BAHASA INDONESIA KELAS 6 KURIKULUM MERDEKA.pdf
 
Salinan dari JUrnal Refleksi Mingguan modul 1.3.pdf
Salinan dari JUrnal Refleksi Mingguan modul 1.3.pdfSalinan dari JUrnal Refleksi Mingguan modul 1.3.pdf
Salinan dari JUrnal Refleksi Mingguan modul 1.3.pdf
 
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMMAKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
 
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptxSesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
 
algoritma dan pemrograman komputer, tugas kelas 10
algoritma dan pemrograman komputer, tugas kelas 10algoritma dan pemrograman komputer, tugas kelas 10
algoritma dan pemrograman komputer, tugas kelas 10
 
DEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptx
DEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptxDEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptx
DEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptx
 

Presentation1.pptx

  • 2. Pengantar Data Mining  Apa dan Mengapa Data Mining? Manusia memerlukan melakukan data mining karena (1) manusia memproduksi data beragam data yang jumlah dan ukurannya sangat besar untuk bidang astronomi, bisnis, kedokteran, ekonomi, olahraga, cuaca, financial, dan masih banyak bidang. (2) Tejadinya pertumbuhan data seperti bidang astronomi berdasrakan survey yang dilakukan oleh perusahaan Sloan Digital Sky Survey di New Mexico pada 2000 bahwa data yang dihasilkan 140TB selama 10 tahun terakhir. Sedangkan survey dari perusahaan Large Synoptic Survey Telescope di Chile pada tahun 2016 bahwa setiap 5 hari dihasilkan data sebesar 140TB
  • 3. (3) terjadinya perubahan kultur dan perilaku manusia bahwa tiap detik social media menghasilkan data yang fantastis Pengantar Data Mining
  • 4. Pengantar Data Mining (4). Terjadinya tsunami data  Mobile Electronics market : 7B smartphone subscriptions in 2015  Web & Social Networks generates amount of data  Google processes 100 PB per day, 3 million servers  Facebook has 300 PB of user data per day  Youtube has 1000PB video storage
  • 5. Manusia kebanjiran data tetapi miskin pengetahuan untuk itu diperlukan bagaimana manusia bisa mengubah data menjadi pengetahuan.  Data harus olah menjadi pengetahuan supaya bisa bermanfaat bagi manusia. Dengan pengetahuan tersebut, manusia dapat:  Melakukan estimasi dan prediksi apa yang terjadi di depan  Melakukan analisis tentang asosiasi, korelasi dan pengelompokan antar data dan atribut  Membantu pengambilan keputusan dan
  • 6. DEFINISI  Menambang/menggali/menemukan pengetahuan dari data yang banyak yang sebelumnya tidak diketahui  Suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database  Proses menggunakan teknik statistika, matematika, kecerdasan buatan dan machine learning  Suatu proses menemukan hubungan, pola  disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar
  • 7. Nama lain data mining  Knowledge Discovery in Database (KDD)  Big data  Business intelligence  Knowledge extraction  Pattern analysis  Information harvestin
  • 8. Karateristik data mining  Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.  Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.  Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi
  • 9.  Ekstraksi dari data ke pengetahuan:  1. data: fakta yang terekam dan tidak membawa arti  2. informasi: rekap, rangkuman, penjelasan dan statistik dari data  3. pengetahuan: pola, rumus, aturan atau model yang muncul dari data
  • 10. Penerapan data mining  Puluhan ribu data mahasiswa di kampus yang diambil dari sistem informasi akademik  Apakah pernah kita ubah menjadi pengetahuan yang lebih bermanfaat? TIDAK!  Seperti apa pengetahuan itu? Rumus, Pola, Aturan
  • 11.
  • 12.
  • 13. Penerapan data mining  Pendidikan  Data mining membantu tenaga mendidik dalam mengakses data siswa, memprediksi tingkat pencapaian dan memberi pandangan tentang siswa atau kelompok siswa mana saja yang membutuhkan perhatian ekstra  Perbankan  Data mining membantu perusahaan jasa keuangan untuk mendapatkan pandangan yang lebih baik tentang risiko pasar, mendeteksi penipuan, mengelola pemenuhan peraturan dan untuk mendapatkan return optimal dari investasi pemasaran.
  • 14. Penerapan data mining  Komunikasi  Data mining digunakan oleh perusahaan multimedia dan telekomunikasi untuk memahami banyaknya data pelanggan, memprediksi perilaku mereka dan menawarkan kampanye yang sesuai target atau relevan.  Asuransi  Penerapan lain data mining adalah pada industri asuransi. Perusahaan asuransi umumnya menggunakan teknik data mining untuk mendeteksi penipuan, mengidentifikasi faktor risiko pada pengajuan klaim, analisa pelanggan, hingga untuk menemukan cara menawarkan produk kompetitif ke basis pelanggan yang ada.
  • 15. Penerapan data mining  kesehatan  Salah satu pemanfaatan data mining pada bidang kesehatan adalah penerapan data mining untuk melakukan klasifikasi prediksi penyakit ISPA (Infeksi Saluran Pernapasan Akut). Data pasien yang terkena ISPA dapat digunakan untuk menunjukkan gejala penyakit ISPA yang diderita pasien. Klasifikasi ini bertujuan untuk membentuk model pohon keputusan untuk memprediksi penyakit pasien dan melihat variabel yang paling mempengaruhi penyakit pasien dengan kategori ISPA. Objek penelitian ini ialah data pasien, status imunisasi, jenis kelamin,usia dan kriteria gizi
  • 16. Penerapan data mining  Ekonomi dan bisnis : data saham  kenaikan, penurunan dll  Cuaca : BMG, data suhu, curah hujan dll  Olahraga : CR7 brapa mencetak gol dalam 1 musim dll
  • 17. Data set  Dataset/Himpunan Data/Data Latih adalah sebuah himpunan data yang berasal dari informasi masa-masa lampau dan dikelola menjadi sebuah informasi untuk melakukan teknik dari ilmu data mining.  Sebuah data set dapat dipandang sebagai sebuah koleksi dari objek- objek data. Nama lain dari sebuah objek data adalah record, titik, vektor, pola, event, case, sample, observasi atau entitas
  • 18. Jenis data set  dua jenis dataset yaitu Private dan Public.  Private Dataset, adalah data set yang dapat diambil dari sebuah organisasi yang akan kita lakukan sebagai objek penelitian misalnya seperti data bank, rumah sakit, universitas, perusahaan dan lain sebagainya  Public Dataset, adalag data set yang bisa kita ambil dari repository publik yang disepakati oleh ulama-ulama peneliti data mining, misalnya seperti UCI Repository (http://www.ics.uci.edu/~mlearn/ MLRepository.html), ACM KDD (http://www.sigkdd.org/kddcup/).
  • 19. Data set  Terdapat bermacam-macam cara untuk merepresentasikan data set contohnya yaitu atribut yang digunakan untuk meng-gambarkan jenis objek  baris yang menyatakan objek-objek data dan kolom disebut atribut. Atribut juga dapat disebut dengan variabel, field, fitur atau dimensi.