SlideShare uma empresa Scribd logo
1 de 11
VALIDITAS DAN RELIABILITAS TES:
                      Deskripsi Konsep dan Aplikasinya dalam Evaluasi
Abstract
Validity of a test is its most important characteristic. A test is valid to the degree that it
accurately measures some characteristics. There are three basic types of validity: content
validity, which is most important for the classroom teacher’s achievement test, describes the
adequacy of the test to sample the domains of a subject as stressed in classroom instruction.
Criterion-related validity describes the relationship between test scores and independent
external criterion measures. Construct validity is the degree to which test scores can be
accounted for by certain explanatory actions that support a psychological theory.
Reliability of test result is a universal criterion of educational measurement. Higher reliability
measures are obtained as chance errors associated with the complete process of testing are
reduced. Coefficients of reliability are the best statistical data available to the teacher who is
striving to determine the degree of success in testing and who is making efforts to improve
future tests. One major aspect of test reliability is the degree to which a test measures with
consistency.

Kata Kunci: validitas, reliabilitas

A. PENDAHULUAN
Evaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode dan
format penilaian yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan.
Informasi tersebut diperlukan dalam menafsir dan menetapkan keputusan untuk kepentingan
pendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi dan memahami
berbagai macam perspektif penilaian, baik penilaian kontekstual dan proses maupun
penilaian hasil. Karena penilaian merupakan pusat kontrol keberhasilan program pendidikan,
maka terdapat dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu
validitas dan reliabilitas.
Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes.
Validitas merupakan karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes.
Validasi suatu instrumen mencakup pengumpulan data empiris dan argumentasi logis untuk
menunjukkan bahwa kesimpulan tertentu adalah tepat. Sedangkan reliabilitas yang berarti
konsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian pendidikan.
Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran berikutnya
merupakan ciri terpenting dari instrumen yang berkualitas tinggi.
Tulisan ini adalah sebuah kajian teoretis tentang apa dan bagaimana validitas dan reliabilitas
itu apabila dikaitkan dengan kualitas instrumen dan penerapannya dalam penilaian hasil suatu
program pembelajaran. Selanjutnya, tulisan ini diharapkan untuk mengundang wacana bagi
pembaca tentang: Bagaimana instrumen penilaian yang berkualitas? Bagaimana
meningkatkan validitas dan reliabilitas suatu instrumen penilaian? Faktor-faktor apa yang
mempengaruhi validitas dan reliabilitas suatu instrumen penilaian?
B. DESKRIPSI KONSEP
1. Konsep Validitas
Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan oleh
penyusun atau pengguna instrumen untuk mengumpulkan data secara empiris guna
mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan validitas adalah
kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.
Untuk menjadi valid suatu instrumen tidak hanya konsisten dalam penggunaannya, namun
yang terpenting adalah harus mampu mengukur sasaran ukurnya. Hal ini berarti bahwa
validitas merupakan ciri instrumen yang terpenting. Berbagai usaha dilakukan untuk
meningkatkan validitas instrumen, baik langsung ataupun tidak berhubungan dengan
peningkatan validitas instrumen itu sendiri. Untuk menjadi valid maka suatu instrumen harus
dikonstruksi dengan baik dan mencakup materi yang benar-benar mewakili sasaran ukurnya.
Validitas instrumen bersifat relatif terhadap situasi tertentu dan tergantung pada kondisi
tertentu. Instrumen yang mempunyai validitas tinggi terhadap tujuan atau kegunaan tertentu
mungkin akan mempunyai validitas sedang atau mungkin rendah terhadap tujuan lainnya.
Menurut Messik (1989) terdapat lima aspek yang berbeda dalam konsep validitas. Kelima
aspek tersebut secara bersama-sama berfungsi sebagai ukuran validitas umum atau standar
untuk semua pengukuran psikologis dan pendidikan. Kelima aspek tersebut adalah: (1)
Substansi. Aspek substansi validitas mencakup verifikasi proses utama dalam pengungkapan
tugas penilaian. Hal ini dapat dikenali melalui penggunaan teori substansi dan pemodelan
proses. Ketika menentukan substansi instrumen, seseorang perlu mempertimbangkan dua hal
pokok: Pertama, tugas penilaian harus mewakili materi yang akan dinilai. Kedua, penilaian
harus ditetapkan berdasarkan fakta-fakta empiris. (2) Strukrur pensekoran. Strukrur
pensekoran harus secara rasional konsisten dengan apa yang diketahui tentang sifat hubungan
struktural dari keberadaan konstruk yang dipersoalkan. Struktur internal penilaian harus
konsisten dengan apa yang diketahui tentang struktur internal dari domain konstruk. (3)
Ketergeneralisasian. Ketergene-ralisasian penilaian harus memenuhi keterwakilan isi dan
konstruk. Hal ini memungkinkan penafsiran skor untuk penggeneralisasian secara luas dalam
konstruk yang ditetapkan. Fakta seperti kemampuan generalisasi tersebut tergantung pada
tingkat korelasi suatu tugas dengan tugas lainnya yang juga mewakili konstruk atau aspek-
aspek konstruk. (4) Faktor-faktor eksternal. Aspek eksternal dari validitas mengacu pada
tingkat hubungan skor assessment dengan ukuran lain dan perilaku nonassessment yang
mencerminkan tinggi, rendah, dan hubungan interaksi antara konstruk yang ditetapkan. (5)
Akibat dari validitas. Akibat validitas meliputi bukti dan dasar pemikiran dalam
mengevaluasi konsekuensi penafsiran dan menggunakan skor yang tidak diharapkan dan
yang diharapkan. Penyelidikan jenis ini terutama penting ketika berhubungan dengan akibat
yang merugikan bagi individu dan kelompok yang dihubungkan dengan penyimpangan dalam
penskoran dan penafsiran.
Ke lima aspek validitas tersebut berlaku bagi semua pengukuran psikologis dan pendidikan;
umumnya penafsiran berbasis skor dan kesimpulan tindakan mengasumsikannya secara tegas
atau secara tersembunyi. Tantangan dalam validasi instrumen selanjutnya adalah
menghubungkan kesimpulan ini terhadap fakta-fakta terpusat yang mendukungnya seperti
halnya terhadap fakta-fakta berbeda yang merupakan bagian kesimpulan tandingan yang
rasional.
2. Konsep Reliabilitas
Reliabilitas telah didefinisikan dengan cara yang berbeda oleh pengarang yang berbeda. Cara
yang terbaik untuk membahas reliabilitas adalah sejauhmana hasil pengukuran dari suatu
instrumen mewakili karakteristik yang diukur. Sebagai contoh, reliabilitas didefinisikan
seberapa besar konsistensi skor tes yang dicapai peserta tes pada pengujian ulang. Definisi ini
akan memuaskan jika skor tes dapat menggambarkan kemampuan peserta tes; jika tidak maka
skor tes tidak sistematis, tidak dapat diulangi atau tidak terikat. Reliabilitas juga diartikan
sebagai indikator ketidakhadiran kesalahan acak. Jika kesalahan acak dapat diperkecil maka
skor tes akan lebih konsisten dari suatu pengujian ke pengujian berikutnya.
Definisi teoretis dari reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh
keragaman sistematis dalam populasi peserta tes. Jika terdapat keragaman sistematis yang
lebih besar dalam suatu populasi dibanding dengan populasi lainnya, seperti dalam semua
siswa sekolah negeri dibandingkan hanya dengan kelas tertentu, tes akan mempunyai
reliabilitas lebih besar untuk populasi yang lebih bervariasi. Reliabilitas adalah karakteristik
bersama antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompok
dengan kelompok lainnya.
Para profesional pengukuran menganggap reliabilitas sebagai persyaratan utama suatu
instrumen penilaian. Dalam teori tes diakui bahwa skor tes akan valid (benar) jika skor tes
tersebut reliabel (Mehrens & Lehmann, 1991). Asumsi ini didasarkan pada suatu model
matematika teori tes dimana skor perolehan terdiri atas skor tulen dan skor galat (obtained
score = true score + error score). Semakin sedikit kesalahan dalam suatu tes (yaitu semakin
reliabel) semakin valid skor tes. Karenanya, suatu penilaian yang tidak reliabel secara
otomatis tidak valid.
Penekanan utama dalam mengumpulkan data untuk menentukan reliabilitas tes adalah pada
konsistensi dihubungkan dengan reliabilitas skor atau reliabilitas penilai. Reliabilitas skor
berarti bahwa jika suatu tes telah diadministrasikan pada penempuh ujian untuk kedua
kalinya, maka penempuh ujian akan tetap memperoleh skor yang sama dengan
pengadministrasian yang pertama. Salah satu cara para spesialis pengukuran dalam
menentukan reliabilitas skor tes adalah melalui tes standar. Jika penempuh ujian diuji
kembali, mereka harus melengkapi tugas yang sama persis dalam kondisi yang juga persis
sama. Hal ini akan membantu dalam pencapaian hasil tes yang konsisten.

C. PEMBAHASAN
   1. Validitas
   2. a. Jenis-jenis Validitas dan Ukurannya

   Crocker dan Algina (1986) membedakan tiga jenis validitas, yaitu: 1) validitas isi,
   mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; 2) validitas konstruk,
   mengkaji sifat-sifat psikologis yang menjelaskan keragaman skor responden dalam
   instrumen tertentu; 3) dan validitas relasi kriteria, membandingkan skor responden
   dengan satu atau lebih variabel eksternal.
   Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan
   validitas kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-syarat
   yang terdapat dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas
   konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak, dengan gagasan
   teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak dengan bekal suatu
   konstruk, kemudian mengembangkan instrumen untuk mengukur konstruk tersebut.
   Selanjutnya, butir-butir instrumen yang telah dikembambangkan diujicobakan secara
   empiris.
   Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen
   dengan tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui
   pengkajian secara teoretis dan secara empiris, yang mencakup: (1) menjelaskan pokok
   bahasan dan sub pokok bahasan; (2) menetapkan pokok bahasan dan subpokok bahasan
yang diukur oleh setiap butir instrumen; (3) mencocokkan butir-butir instrumen dengan
pokok bahasan dan subpokok bahasan yang diukurnya. Secara teoretis validitas isi dan
validitas konstruk dapat dikaji melalui penilaian panelis. Penilaian panelis dimaksudkan
untuk menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokok
bahasan yang diukurnya. Prosedur yang digunakan adalah meminta para panelis untuk
mencermati butir-butir instrumen. Kemudian menilai kesesuaian setiap butir instrumen
dengan pokok bahasan dan subpokok bahasan yang diukurnya.
Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukan
melalui penilaian panelis (pakar). Pengembangan prosedur penilaian panelis dapat
dilakukan melalui beberapa langkah, yaitu: Pertama, menetapkan skala yang digunakan,
yaitu: 1 = tidak relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan 5 =
sangat relevan. Kedua, menetapkan kriteria penilaian yang mencakup: (1) mengukur
indikatornya; (2) hanya memiliki satu arti; (3) jelas dan mudah dipahami; (4) tidak
bersifat faktual; dan (5) tidak tumpang tindih dengan butir-butir lainnya. Ketiga,
menetapkan pilihan, yaitu: 1 (tidak relevan) jika hanya satu atau semua kriteria tidak
terpenuhi; 2 (kurang relevan) jika hanya dua kriteria yang terpenuhi; 3 (cukup relevan)
jika hanya tiga kriteria yang terpenuhi; 4 (relevan) jika hanya empat kriteria yang
terpenuhi; dan 5 (sangat relevan) jika semua kriteria terpenuhi. Keempat, kualitas masing-
masing butir instrumen didasarkan atas rerata hasil penilaian panelis, dengan kriteria
sebagai berikut:
Rerata Penilaian Keputusan
1,0 – 2,9 Tidak sesuai Direvisi
3,0 – 3,9 Cukup sesuai Diterima dengan revisi
4,0 – 5,0 SesuaiDiterima
Penilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicoba
instrumen kepada responden yang sesuai dengan karakteristik responden tempat
pemberlakuan instrumen final. Penetapan jumlah sampel dapat diacuh dari pendapat
Nunnaly (1970) bahwa untuk mengurangi resiko kehilangan butir-butir instrumen dan
agar memungkinkan untuk mengeliminasi faktor-faktor yang tidak dikehendaki maka
dalam analisis instrumen direkomendasikan untuk digunakan sampel 5–10 kali jumlah
butir instrumen.
Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitas
konstruk instrumen secara empiris. Validitas isi biasanya digunakan untuk menyebut
validitas instrumen tes, sedangkan validitas konstruk biasanya digunakan untuk menyebut
validitas instrumen non tes. Secara empiris, kedua jenis validitas tersebut dianalisis
dengan cara yang berbeda.
Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuk
tes pilihan ganda) adalah Item and Test Analysis (ITEMAN). Alat analisis ini
dimaksudkan untuk mendapatkan informasi tentang: indeks kesukaran butir tes, indeks
daya beda butir, dan keberfungsian pengecoh. Disamping itu, juga untuk menentukan:
korelasi biserial titik (point biserial correlation), dan keseimbangan isi atau keterwakilan
materi yang hendak diukur. Secara empiris kelima informasi tersebut dibutuhkan karena
saling berhubungan antara satu dengan yang lainnya, dimana keberfungsian pilihan dapat
meningkatkan indeks kesukaran butir tes, indeks kesukaran butir tes dapat menentukan
daya beda butir, dan indeks kesukaran dan daya beda butir dapat mempengaruhi
interkorelasi butir, dan secara keseluruhan kelima informasi tersebut merupakan penentu
tingkat reliabilitas tes. Untuk jelasnya prosedur analisis butir dan penetapan kriteria untuk
menerima, menolak atau merevisi butir-butir tes, secara berturut-turut sebagai berikut:
(1) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yang
menjawab benar butir tes. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling
baik pada 0,5; karena p=0,5 dapat memberikan kontribusi optimal terhadap korelasi
biserial titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang memiliki indeks
kesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan apabila ada
pertimbangan keterwakilan pokok bahasan yang diukurnya.
(2) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untuk
membedakan siswa mampu dan kurang mampu. Indeks daya beda butir mempunyai
rentang nilai –1 ke +1, namun nilai negatif dan rendah menunjukkan kinerja butir yang
rendah. Suatu butir tes dapat dipertahankan apabila memiliki nilai D ³ 2,0. Indeks daya
beda butir dihitung dengan menggunakan rumus: D= pu - pi; dimana: pu = proporsi
kelompok atas yang menjawab benar, pi = proporsi kelompok bawah yang menjawab
benar. Pembagian kelompok responden didasarkan atas pendapat Kelly (1939) yang
dikutip oleh Crocker dan Algina (1996) bahwa indeks daya beda butir yang lebih stabil
dan sensitif dapat dicapai dengan menggunakan 27 persen kelompok atas dan 27 persen
kelompok bawah.
(3) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tes
dengan skor total. Korelasi biserial titik dapat disamakan dengan daya beda butir, namun
rpbi itu sendiri perlu dihitung karena dapat menyediakan refleksi yang sebenarnya dari
kontribusi setiap butir tes terhadap keberfungsian tes. Semakin tinggi rpbi suatu butir tes
semakin tinggi kontribusinya dalam memprediksi kriteria. Suatu butir tes dapat
dipertahankan apabila memiliki rpbi ³ 0,30.
(4) Keberfungsian pengecoh. Suatu pengecoh dapat dipertahankan apabila memenuhi
syarat-syarat: (1) kunci jawaban (keyed answer) harus dipilih lebih banyak oleh
kelompok atas daripada kelompok bawah; (2) setiap penggagal (foils) harus dipilih
minimal 2 persen dari keseluruhan peserta tes dan dipilih minimal 5 persen kelompok
bawah, (3) Indeks daya beda kunci jawaban harus positif dan indeks daya beda penggagal
harus negatif.
Validitas konstruk. Sama halnya dengan prosedur ujicoba instrumen tes, instrumen non
tes juga diujicobakan secara empiris kepada sejumlah responden (5-10 kali jumlah butir
instrumen). Data hasil ujicoba secara empiris dari instrumen non tes biasanya dianalisis
dengan menggunakan Analisis Faktor Konfirmasi (Confirmatory Factor Analysis) dengan
menggunakan metode ekstraksi komponen utama (principle component extraction).
Analisis tersebut bertujuan untuk menguji kebenaran konstruk teori yang dijadikan acuan
dalam pengembangan instrumen, dengan cara menentukan struktur atau model faktor dari
sejumlah butir instrumen berdasarkan muatan faktor (factor loading) jumlah varians
(eigenvalue), dan proporsi varians (communality). Dalam analisis ini juga digunakan
rotasi ortogonal dan varimax. Beberapa kriteria yang dijadikan acuan dalam analisis
faktor adalah:
(1) Ukuran kecukupan pensampelan (sampling adequacy). Ditentukan dengan
    menggunakan rumus Kaiser-Meyer-Olkin (KMO), yaitu dengan membandingkan
    nilai koefisien korelasi observasi dengan koefisien korelasi parsial (Norusis, 1996).
    Jika koefisien korelasi parsial kecil maka nilai KMO besar (mendekati satu) berarti
    dapat digunakan analisis faktor, sebaliknya jika nilai koefisien korelasi parsial besar
    maka nilai KMO kecil (mendekati nol) berarti tidak dapat digunakan analisis faktor.
    Jelasnya penafsiran nilai KMO diacuh dari ciri yang dikemukakan oleh Kaiser
    (1974) seperti dikutip oleh Norusis (1996) bahwa KMO 0,90 baik sekali
(marvelous); 0,80 baik (meritorius); 0,70 sedang (middling); 0,60 kurang
     (mediocre); 0,50 sangat kurang (miserable); dan dibawah 0,50 tidak dapat diterima
     (unacceptable).
(2) Uji Bartlett tentang bentuk matriks korelasi (Bartlett’s test of sphericity). Uji ini
    dimaksudkan untuk memastikan apakah matriks korelasi berasal dari matriks
    identitas atau bukan. Dalam uji ini digunakan pendekatan Chisquare dan dibutuhkan
    data yang berasal dari populasi normal multivariat. Dengan ketentuan bahwa bila
    matriks korelasi merupakan matriks identitas (makriks dengan diagonal 1 dan selain
    diagonal 0) maka tidak dapat digunakan analisis faktor, sebaliknya bila matriks
    korelasi bukan matriks identitas maka dapat digunakan analisis faktor.
(3) Banyaknya faktor. Banyaknya faktor ditetapkan berdasarkan aturan yang
    dikemukakan oleh Norusis (1996) bahwa jumlah faktor harus diekstraksi sama
    dengan jumlah faktor yang mempunyai varians (eigenvalue) lebih besar dari 1,0.

     (4) Muatan faktor (factor loading). Muatan faktor diseleksi setelah melalui ekstraksi
     komponen utama (extracting principal component) dengan rotasi ortogonal untuk
     memaksimalkan varians (variance maximizing/ varimax) antara variabel utama.
     Muatan faktor yang tetap dipertahankan adalah di atas 0,3. Hal ini sesuai dengan
     aturan yang dikemukakan oleh Crocker dan Algina (1996) bahwa muatan faktor
     yang lebih dari 0,3 cenderung siginifikan, sebaliknya muatan faktor yang kurang
     dari 0,3 tidak dapat memberikan kontribusi yang siginifikan terhadap suatu faktor
     tertentu.

     b. Penyebab invaliditas
     Ancaman utama terhadap validitas instrumen adalah: (1) ketakterwakilan konstruk;
     menunjukkan bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi
     penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak mungkin untuk
     mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur
     oleh instrumen; (2) penyimpangan keragaman konstruk berarti bahwa instrumen
     tersebut mengukur terlalu banyak variabel, dan kebanyakan variabel tersebut tidak
     relevan terhadap isi konstruk. Jenis penyimpangan validitas seperti ini mencakup
     dua bentuk, yaitu penyimpangan kemudahan konstruk (Construct irrelevant
     easiness) dan penyimpangan kesukaran konstruk (Construct irrelevant difficulty).
     Penyimpangan kemudahan konstruk terjadi ketika faktor-faktor luar seperti kata-
     kata kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab benar
     dengan cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan
     kesukaran konstruk terjadi bila aspek-aspek luar dari tugas membuat tingkat
     kesukaran tugas tidak sejalan terhadap sebagian atau keseluruhan anggota
     kelompok. Sementara bila terjadi penyimpangan keragaman konstruk yang pertama
     menyebabkan seseorang memperoleh skor yang lebih tinggi dibanding dengan
     kemampuan yang sebenarnya, dan terjadinya penyimpangan keragaman konstruk
     yang kedua menyebabkan seseorang memperoleh skor yang lebih rendah dibanding
     dengan kemampuan yang sebenarnya.
     2. Reliabilitas
     a. Ukuran Reliabilitas
Terdapat beberapa statistik yang digunakan untuk menghitung stabilitas skor
seperangkat tes dari suatu kelompok peserta tes, yaitu: reliabilitas test-retest,
reliabilitas split-half, dan reliabilitas konsistensi internal.
Reliabilitas test-retest. Suatu koefisien reliabilitas test-retest diperoleh dengan
mengadministrasikan tes yang sama dua kali dan mengkorelasikan skor tes tersebut.
Dalam konsep, hal ini merupakan ukuran konsistensi skor yang sempurna sebab
memungkinkan pengukuran konsistensi langsung dari suatu ujian ke ujian
berikutnya. Namun, koefisien ini tidaklah direkomendasikan dalam praktek, oleh
karena masalah dan keterbatasannya, yaitu memerlukan dua kali pengadministrasian
tes yang sama dalam kelompok yang sama dan memerlukan pemilihan waktu yang
tepat. Jika interval waktunya singkat, mungkin skor siswa akan sangat konsisten
sebab mereka masih mengingat sebagian atau seluruh pertanyaan dan jawaban
mereka. Dan jika intervalnya lama, maka hasilnya akan dipengaruhi oleh perubahan
belajar dan kematangan yang terjadi pada diri siswa.
Reliabilitas Split-Half. Sesuai dengan namanya, reliabilitas split-half adalah suatu
koefisien yang diperoleh dengan pembagian suatu skor tes ke dalam dua bagian
yang masing-masing separuhnya, kemudian kedua bagian skor tes tersebut
dikorelasikan untuk menentukan koefisien reliabilitasnya. Pembagian data dipecah
atas nomor ganjil dan genap, memecah butir-butir tes menjadi dua bagian yang sama
jumlahnya, memilih butir secara acak, atau berdasarkan keseimbangan materi dan
tingkat kesukaran. Pendekatan ini mempunyai suatu keuntungan, yakni hanya
memerlukan satu kali pengujian. Kelemahannya adalah koefisien yang dihasilkan
akan bervariasi tergantung bagaimana tes tersebut dipecah. Juga tidak cocok
digunakan untuk mengukur reliabilitas tes kecepatan (speed test), karena skor siswa
dipengaruhi oleh seberapa banyak butir tes yang dijawab dalam waktu yang tersedia.
Konsistensi internal. Konsistensi internal tergantung pada interkorelasi butir tes,
yang juga disebut homogenitas. Rumus statistik terbaik yang digunakan untuk
menentukan koefisien reliabilitas konsistensi internal adalah: Alpha Cronbach dan
Kuder-Richardson (KR-20 dan KR-21). Kebanyakan program pengujian
melaporkan bahwa hasil pengujian dengan Alfa Cronbach secara fungsional setara
dengan KR-20.
Keuntungan penggunaan statistik ini adalah hanya memerlukan satu kali
administrasi tes dan tidak tergantung pada pemecahan materi tes. Sedangkan
kerugiannya adalah akan efektif diterapkan jika tes hanya mengukur area
keterampilan tunggal. Hanya membutuhkan rerata skor tes, simpangan baku atau
varians, dan sejumlah butir, KR-20 adalah rumusan reliabilitas yang paling
sederhana. Dan rumus KR-21 hampir selalu menghasilkan koefisien yang lebih
rendah dari KR-20. Kesederhanaannya menjadikannya sebagai rumus reliabilitas
yang paling banyak digunakan khususnya untuk mengevaluasi tes yang
dikembangkan di kelas. Namun, rumus ini tidak dapat digunakan untuk menentukan
reliabilitas skor dikotomi.
b. Seberapa Tinggi Koefisien Reliabilitas
Reliabilitas tes adalah proporsi varians tulen (true variance) dalam skor tes
(Guilford, 1982). Penilaian kecukupan koefisien reliabilitas tes dapat diacuh dari
pendapat Aiken (1988) bahwa jika tes akan digunakan untuk menentukan
signifikansi perbedaan rerata skor dua kelompok siswa maka koefisien reliabilitas
sebesar 0,65 dianggap memuaskan. Dan jika tes akan digunakan untuk
membandingkan siswa yang satu dengan yang lainnya maka paling tidak diperlukan
koefisien reliabilitas sebesar 0,85. Untuk menjelaskan keberartian koefisien
reliabilitas dapat pula diacuh dari galat baku pengukuran, yang dihitung dengan
menggunakan rumus: ; dimana: Sm = galat baku pengukuran; Sx = simpangan baku
skor tes; dan rx = koefisien reliabilitas tes.
Misalnya, dari hasil perhitungan koefisien reliabilitas instrumen dengan
menggunakan rumus Alpha Cronbach diperoleh 0,93 dengan galat baku pengukuran
6,88. Hal ini berarti bahwa tes tersebut sangat terandalkan karena dapat mengukur
93 persen keragaman skor yang sebenarnya, dan bila dalam jangka waktu tertentu
dan dalam kondisi yang sama para responden merespon kembali tes tersebut maka
rentangan penyimpangan skor total yang dicapai masing-masing responden berkisar
antara + 6,88; jadi bila pada tes pertama seseorang siswa memperoleh skor total 450
maka kemungkinan rentangan skor total yang dicapai pada tes berikutnya adalah -
450+ 6,88 atau paling rendah 443,12 dan paling tinggi 456,88.
Jika tes yang diadministrasikan memiliki konsekuensi tinggi, seperti tes yang
digunakan untuk penempatan dalam pendidikan, misalnya ujian akhir SMU, dan
sertifikasi profesional, maka diperlukan reliabilitas konsistensi internal yang tinggi
paling sedikit di atas 0,90, dan paling baik jika di atas 0,95. Kesalahan klasifikasi
yang disebabkan oleh kesalahan pengukuran harus diperkecil. Tetapi perlu dicatat
bahwa tidak satu pun tes dengan sendirinya dapat digunakan untuk membuat suatu
keputusan penting bagi seseorang.
Tes di kelas tidak selalu membutuhkan koefisien reliabilitas tinggi. Ketika para
siswa lebih menguasai materi yang diujikan, variabilitas tes akan menurun, sehingga
reliabilitas tes juga akan menurun. Para guru mengawasi siswa mereka sepanjang
hari dan mempunyai peluang untuk mengumpulkan masukan dari berbagai sumber
informasi. Jika pengetahuan dan pertimbangan guru digunakan bersama dengan
informasi yang diperoleh dari tes, maka akan dapat menyediakan informasi yang
lebih lengkap. Jika suatu tes tidak reliabel atau tidak akurat untuk siswa secara
perorangan, maka guru perlu membuat koreksi penyesuaian. Suatu koefisien
reliabilitas sebesar 0.50 atau 0.60 mungkin cukup untuk tes di kelas.
Selanjutnya, reliabilitas adalah karakteristik bersama antara tes dan kelompok
peserta tes. Reliabilitas juga perlu dievaluasi dalam kaitan dengan kelompok peserta
tes. Suatu tes dengan koefisien reliabilitas 0.92 ketika diujikan pada siswa dalam
beberapa kelas maka koefisien reliabilitas yang diperoleh tidak akan sama jika tes
tersebut hanya diujikan pada satu kelas saja.
Reliabilitas berhubungan dengan konsistensi hasil pengukuran. Reliabiltas
dipengaruhi oleh cakupan instrumen penilaian. Misalnya, suatu instrumen tes
tertentu yang mencakup sasaran belajar dan butir yang terbatas memiliki reliabilitas
yang lebih rendah dibanding dengan tes yang mencakup sasaran belajar yang lebih
luas dengan jumlah butir yang lebih banyak.
Instrumen yang representatif dengan kesalahan pengukuran yang relatif kecil akan
memiliki reliabilitas tinggi. Kesalahan pengukuran dapat diperkecil melalui
penulisan butir instrumen yang jelas, petunjuk yang mudah dipahami, administrasi
instrumen yang sesuai, dan penskoran yang konsisten. Suatu instrumen tes adalah
suatu sampel perilaku dari keterampilan yang diinginkan, tes lebih panjang dengan
sampel yang lebih besar, memungkinkan untuk lebih reliabel. Hasil ujian akhir dari
suatu unit pembelajaran dengan waktu satu jam akan lebih reliabel ketimbang hasil
ujian harian dengan jangkauan materi dan waktu yang terbatas.
c. Ancaman terhadap Reliabilitas
Semua jenis instrumen tes atau nontes tidak terlepas kesalahan. Hal ini berlaku
untuk instrumen tes dalam ilmu-ilmu eksakta dan dalam ilmu-ilmu psikologi dan
pendidikan. Misalnya, dalam mengukur panjang dengan suatu penggaris, mungkin
ada kesalahan sistematis berhubungan dengan di mana titik nol dicetak pada
penggaris dan kesalahan acak berhubungan dengan kemampuan mata dalam
membaca tanda-tanda dan memperhitungkan tanda-tanda tersebut. Juga
memungkinkan bahwa panjang obyek dapat berubah dari waktu ke waktu dan pada
lingkungan yang berbeda (misalnya perubahan temperatur). Salah satu tujuan
penilaian adalah untuk mengurangi kesalahan tersebut hingga ke tingkatan yang
sesuai dengan tujuan tes. Tes yang beresiko tinggi (high-stakes tes), seperti ujian
untuk mendapatkan SIM, harus mempunyai kesalahan yang sangat kecil. Tes di
kelas dapat mentolerir kesalahan yang lebih tinggi secara wajar kesalahan tersebut
mudah dikoreksi sepanjang proses pengujian. Reliabilitas hanya mengacu pada
derajat tingkat kesalahan yang tidak sistematis, yang disebut kesalahan acak.
Ada tiga sumber kesalahan utama, yaitu: faktor dalam tes itu sendiri, faktor siswa
yang dites, dan faktor penskoran. Umumnya tes berisi suatu koleksi butir yang
mengukur keterampilan tertentu. Adakalanya guru secara khas menggeneralisasikan
masing-masing butir tes ke semua materi yang diukur oleh tes itu. Sebagai contoh,
jika seorang siswa dapat memecahkan beberapa permasalahan seperti 7x8, maka
mungkin akan disamaratakan kemampuannya dalam mengalikan angka tunggal
bilangan bulat. Juga mungkin akan menyamaratakan suatu kumpulan materi kepada
suatu domein yang lebih luas. Jika siswa dapat menyelesaikan penjumlahan,
pengurangan, perkalian, dan pembagian, maka mungkin akan disimpulkan bahwa
siswa tersebut mampu menyele-saikan operasi pecahan. Kesalahan dapat pula
disebabkan oleh pemilihan butir untuk mengukur domein dan keterampilan tertentu.
Materi yang tercakup dalam tes berbeda menurut format masing-masing tes,
kesalahan pensampelan, pembatasan butir tes, dan karena menyamaratakan ke data
yang tidak diamati, yakni, kemampuan siswa terhadap keseluruhan butir yang
mungkin terdapat dalam tes. Ketika keterampilan dan domain yang diukur menjadi
lebih rumit, mungkin akan terjadi lebih banyak kesalahan yang disebabkan oleh
pensampelan materi. Sumber lain kesalahan tes adalah ketidakefektifan pengecoh
dalam tes pilihan ganda, seperti jawaban benar yang lebih banyak, dan tingkat
kesukaran butir tes.
Sebagai manusia, para siswa tidaklah selalu konsisten dan juga tidak terlepas dari
kesalahan dalam menyelesaikan tes. Apakah tes itu dimaksudkan untuk mengukur
kemampuan khusus atau kemampuan siswa secara optimal, perubahan dalam
berbagai hal seperti sikap siswa, kesehatan, dan rasa kantuk dapat mempengaruhi
kualitas usaha dan konsistensi siswa dalam menyelesaikan tes. Sebagai contoh,
peserta tes mungkin membuat kesalahan karena teledor, salah menafsirkan petunjuk
tes, melupakan instruksi tes, melupakan beberapa butir tes, atau salah baca butir tes.
Kesalahan penskoran merupakan sumber sepertiga dari kesalahan potensial. Pada
bentuk tes objektif, penskoran bersifat mekanik, dan kesalahan penskoran harus
diperkecil. Pada tes uraian, sumber kesalahan meliputi ketidakjelasan rubrik
penskoran, ketidakjelasan apa yang diharapkan dari siswa, dan beberapa kesalahan
yang bersumber dari penilai. Para penilai tidaklah selalu konsisten, kadang-kadang
merubah ukuran-ukuran mereka selagi menskor, dan terkadang terpengaruh oleh
hal-hal yang tidak berhubungan dengan skor tes seperti efek halo, latar belakang
siswa, perbedaan persepsi, kebaikan hati atau kepelikan, dan kesalahan dalam
penskalaan (Rudner, 1992).

D. KESIMPULAN
Validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.
Validitas dibedakan atas: validitas isi mengkaji kepadanan sampel yang terdapat
dalam suatu instrumen; validitas konstruk mengkaji sifat-sifat psikologis yang dapat
menjelaskan perbedaan-perbedaan responden dalam hal keragaman pencapaian skor
tes dalam instrumen tertentu; dan validitas relasi kriteria membandingkan skor
responden dengan satu atau lebih variabel eksternal.
Reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman
sistematis dalam populasi peserta tes. Reliabilitas adalah karakteristik bersama
antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompok
dengan kelompok lainnya. Terdapat beberapa statistik untuk menghitung stabilitas
skor tes yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas konsistensi
internal.
Para profesional pengukuran menempatkan kebanyakan penekanan mereka dalam
penilaian pada reliabilitas. Suatu pengakuan umum dalam teori tes bahwa suatu tes
akan menjadi valid (benar) jika tes tersebut reliabel. Asumsi ini didasarkan pada
suatu model matematika teori tes dimana skor perolehan terdiri atas skor tulen dan
galat. Semakin sedikit kesalahan dalam suatu tes (yaitu semakin reliabel) semakin
valid skor tes tersebut. Suatu penilaian yang tidak reliabel secara otomatis tidak
valid. Instrumen yang memiliki reliabilitas tinggi diperlukan jika hasil penilaian
akan digunakan untuk pengambilan keputusan yang penting. Sebaliknya, reliabilitas
tingkat menengah diperlukan jika hasil penilain kurang penting, dan penilaian
didasarkan atas beberapa sumber informasi.
Faktor-faktor yang mempengaruhi reliabilitas suatu instumen adalah: (1) instrumen
yang lebih panjang lebih reliabel dari instrumen yang lebih pendek; (2) reliabilitas
akan rendah bila penyebaran skor rendah; (3) semakin obyektif penskoran semakin
tinggi reliabilitas; (4) reliabilitas instrumen akan berbeda jika diadministrasikan
kepada responden yang memiliki sebaran kemampuan yang berbeda; (5) interval
waktu pengambilan data dalam penentuan reliabilitas test-retest juga dapat
mengaruhi relibiabilitas instrumen.

DAFTAR PUSTAKA
Aiken, lewis R. Psychological Testing and Assessment. Massachusetts: Allyn and
Bacon Inc., 1988.
Anastasi, A. Psychological Testing. New York: MacMillan Publishing Company,
1987.
Bloom, B. S., Madaus, G.F., & Hastings, J. T. Evaluation to Improve Learning. New
York: McGraw-Hill Book Company, 1981.
Crocker, Linda and James Algina. Introduction to Classical and Modern Test
Theory. Orlando, Florida: Holt, Rinehart and Winston, Inc., 1986.
Cronbach, L. J. Essentials of Psychological Testing. Third Edition. New York:
Harper & Row, Publishers, 1970.
Fredericksen, J.R., & Collins, A. A systems approach to educational testing.
Educational Researcher, 1989.
Gregory, Robert J. Psychological Testing History, Principles, and Applications.
Boston: Allyn & Bacon, 2000.
Gronlund, Norman E. Measurement and Evaluation in Teaching. New York:
McMillan Publishing Company, 1985.
Guilford, J.P. Psychomeric Methods. New Delhi: Tata McGraw-Hill Publishing Co.
Ltd., 1982.
Hopkins, Charles D., and Richard L. Antes. Classroom Measurement and
Evaluation. Itasca, Illinois, 1990.
Linn, R. L., & Gronlund, N. E. Measurement and Assessment in Teaching, Seventh
Edition. Englewood Cliffs, NJ: Merrill, an imprint of Prentice Hall, 1995.
Mehrens, W. A., & Lehmann, I. J. Measurement and Evaluation in Education and
Psychology. Fourth Edition. Fort Worth, TX: Holt, Rinehart, and Winston, Inc.,
1991.
Messick, S. Validity In Educational Measurement. Robert Linn (Ed.). Washington,
DC: American Council on Education, 1989.
Nitko, A. J. Educational Assessment of Students. Englewood Cliffs, NJ: Merrill an
imprint of Prentice Hall, 1996.
Nunnaly, Jum C. Jr. Introduction to Psychological Measurement. New York:
McGraw-Hill Book Company, 1970.
Oosterhof, A. Developing and Using Classroom Assessments. Englewood Cliffs,
NJ: Merrill, an imprint of Prentice Hall, 1996.
Popham, W. James. Classroom Assessment, What Teachers Need to Know. Boston:
Allyn and Bacon, 1998.
Shavelson, R., G. Baxter, & J. Pine. Performance Assessments: Political Rhetoric
and Measurement Reality. Educational Researcher, 1992.
Stapleton, Connie D. Basic Concepts in Exploratory Factor Analysis (EFA) as a
Tool to Evaluate Score Validity : A Right-Brained Approach.
http://www.utexas.Edu /stat/packs. html., 2002.

Mais conteúdo relacionado

Mais procurados

Regresi Linear Berganda
Regresi Linear BergandaRegresi Linear Berganda
Regresi Linear BergandaDian Arisona
 
Makalah regresi dan korelasi new
Makalah regresi dan korelasi newMakalah regresi dan korelasi new
Makalah regresi dan korelasi newSilihk
 
Laporan Praktikum TI Semester 1: SPSS analisa frekuensi
Laporan Praktikum TI Semester 1: SPSS analisa frekuensiLaporan Praktikum TI Semester 1: SPSS analisa frekuensi
Laporan Praktikum TI Semester 1: SPSS analisa frekuensiLaras Kun Rahmanti Putri
 
Statistik deskriptif dan inferensial
Statistik deskriptif dan inferensialStatistik deskriptif dan inferensial
Statistik deskriptif dan inferensialIkaMufarrohah
 
Uji untuk 2 sampel dependen
Uji untuk 2 sampel dependenUji untuk 2 sampel dependen
Uji untuk 2 sampel dependenAngga Mahendra
 
Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...
Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...
Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...Maulana Husada
 
Peubah acak diskrit dan kontinu
Peubah acak diskrit dan kontinuPeubah acak diskrit dan kontinu
Peubah acak diskrit dan kontinuAnderzend Awuy
 
Metodologi Penelitian - Cara Membuat Kuisioner
Metodologi Penelitian - Cara Membuat KuisionerMetodologi Penelitian - Cara Membuat Kuisioner
Metodologi Penelitian - Cara Membuat KuisionerDeady Rizky Yunanto
 
Contoh soal statistika & peluang beserta jawabannya
Contoh soal statistika & peluang beserta jawabannyaContoh soal statistika & peluang beserta jawabannya
Contoh soal statistika & peluang beserta jawabannyaVidi Al Imami
 
Materi 1 (penelitian dan statistika)
Materi 1 (penelitian dan statistika)Materi 1 (penelitian dan statistika)
Materi 1 (penelitian dan statistika)Sayid Rizqi Ramdhani
 
Kriteria Instrumen Evaluasi
Kriteria Instrumen EvaluasiKriteria Instrumen Evaluasi
Kriteria Instrumen EvaluasiRofiani Intan
 
Materi 4 penyelesaian spl tiga atau lebih variabel
Materi 4 penyelesaian spl tiga atau lebih variabelMateri 4 penyelesaian spl tiga atau lebih variabel
Materi 4 penyelesaian spl tiga atau lebih variabelradar radius
 
CONTOH JURNAL SKRIPSI GUNADARMA
CONTOH JURNAL SKRIPSI GUNADARMACONTOH JURNAL SKRIPSI GUNADARMA
CONTOH JURNAL SKRIPSI GUNADARMAFaza Zahrah
 

Mais procurados (20)

Regresi Linear Berganda
Regresi Linear BergandaRegresi Linear Berganda
Regresi Linear Berganda
 
Makalah regresi dan korelasi new
Makalah regresi dan korelasi newMakalah regresi dan korelasi new
Makalah regresi dan korelasi new
 
Laporan Praktikum TI Semester 1: SPSS analisa frekuensi
Laporan Praktikum TI Semester 1: SPSS analisa frekuensiLaporan Praktikum TI Semester 1: SPSS analisa frekuensi
Laporan Praktikum TI Semester 1: SPSS analisa frekuensi
 
Analisis jalur (path analysis)
Analisis jalur (path analysis)Analisis jalur (path analysis)
Analisis jalur (path analysis)
 
Statistik deskriptif dan inferensial
Statistik deskriptif dan inferensialStatistik deskriptif dan inferensial
Statistik deskriptif dan inferensial
 
Uji untuk 2 sampel dependen
Uji untuk 2 sampel dependenUji untuk 2 sampel dependen
Uji untuk 2 sampel dependen
 
Pengantar Statistika 2
Pengantar Statistika 2Pengantar Statistika 2
Pengantar Statistika 2
 
Tahap perkembangan moral kohlberg
Tahap perkembangan moral kohlbergTahap perkembangan moral kohlberg
Tahap perkembangan moral kohlberg
 
Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...
Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...
Populasi dan Sampel Penelitian Kualitatif dan Kuantitatif (Anantyo Bimosuseno...
 
Peubah acak diskrit dan kontinu
Peubah acak diskrit dan kontinuPeubah acak diskrit dan kontinu
Peubah acak diskrit dan kontinu
 
Metodologi Penelitian - Cara Membuat Kuisioner
Metodologi Penelitian - Cara Membuat KuisionerMetodologi Penelitian - Cara Membuat Kuisioner
Metodologi Penelitian - Cara Membuat Kuisioner
 
Contoh soal statistika & peluang beserta jawabannya
Contoh soal statistika & peluang beserta jawabannyaContoh soal statistika & peluang beserta jawabannya
Contoh soal statistika & peluang beserta jawabannya
 
Ppt penilaian autentik
Ppt penilaian autentikPpt penilaian autentik
Ppt penilaian autentik
 
Materi 1 (penelitian dan statistika)
Materi 1 (penelitian dan statistika)Materi 1 (penelitian dan statistika)
Materi 1 (penelitian dan statistika)
 
Kriteria Instrumen Evaluasi
Kriteria Instrumen EvaluasiKriteria Instrumen Evaluasi
Kriteria Instrumen Evaluasi
 
Skala pengukuran dalam penelitian
Skala pengukuran dalam penelitianSkala pengukuran dalam penelitian
Skala pengukuran dalam penelitian
 
Materi 4 penyelesaian spl tiga atau lebih variabel
Materi 4 penyelesaian spl tiga atau lebih variabelMateri 4 penyelesaian spl tiga atau lebih variabel
Materi 4 penyelesaian spl tiga atau lebih variabel
 
Statistika inferensial 1
Statistika inferensial 1Statistika inferensial 1
Statistika inferensial 1
 
CONTOH JURNAL SKRIPSI GUNADARMA
CONTOH JURNAL SKRIPSI GUNADARMACONTOH JURNAL SKRIPSI GUNADARMA
CONTOH JURNAL SKRIPSI GUNADARMA
 
Chi Kuadrat
Chi KuadratChi Kuadrat
Chi Kuadrat
 

Destaque

12 pengantar teori klasik
12 pengantar teori klasik12 pengantar teori klasik
12 pengantar teori klasikAgus Suratno
 
Laporan Evaluasi Pembelajaran Validitas dan Reliabilitas Instrument
Laporan Evaluasi Pembelajaran   Validitas dan Reliabilitas InstrumentLaporan Evaluasi Pembelajaran   Validitas dan Reliabilitas Instrument
Laporan Evaluasi Pembelajaran Validitas dan Reliabilitas InstrumentRahma Siska Utari
 
Validasi soal pilihan ganda
Validasi soal pilihan gandaValidasi soal pilihan ganda
Validasi soal pilihan gandamahardikayudo
 
Validity, reliability & practicality
Validity, reliability & practicalityValidity, reliability & practicality
Validity, reliability & practicalitySamcruz5
 

Destaque (6)

12 pengantar teori klasik
12 pengantar teori klasik12 pengantar teori klasik
12 pengantar teori klasik
 
Tes dan Validitas tes
Tes dan Validitas tesTes dan Validitas tes
Tes dan Validitas tes
 
Jenis jenis tes
Jenis jenis tesJenis jenis tes
Jenis jenis tes
 
Laporan Evaluasi Pembelajaran Validitas dan Reliabilitas Instrument
Laporan Evaluasi Pembelajaran   Validitas dan Reliabilitas InstrumentLaporan Evaluasi Pembelajaran   Validitas dan Reliabilitas Instrument
Laporan Evaluasi Pembelajaran Validitas dan Reliabilitas Instrument
 
Validasi soal pilihan ganda
Validasi soal pilihan gandaValidasi soal pilihan ganda
Validasi soal pilihan ganda
 
Validity, reliability & practicality
Validity, reliability & practicalityValidity, reliability & practicality
Validity, reliability & practicality
 

Semelhante a VALIDITAS DAN RELIABILITAS

AFI PARNAWI, M.Pd. Evaluasi pembelajaran
AFI PARNAWI, M.Pd. Evaluasi pembelajaranAFI PARNAWI, M.Pd. Evaluasi pembelajaran
AFI PARNAWI, M.Pd. Evaluasi pembelajaranDr. Afi Parnawi, M.Pd
 
Validitas dan reliabilitas suatu instrumen penelitian
Validitas dan reliabilitas suatu instrumen penelitianValiditas dan reliabilitas suatu instrumen penelitian
Validitas dan reliabilitas suatu instrumen penelitianVivii Charmeiliaa
 
PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)
PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)
PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)vina serevina
 
Validitas dan Reliabilitas.pptx
Validitas dan Reliabilitas.pptxValiditas dan Reliabilitas.pptx
Validitas dan Reliabilitas.pptxpaksobat
 
Reliabilitas validitas-edit
Reliabilitas validitas-editReliabilitas validitas-edit
Reliabilitas validitas-editFrihapma Semita
 
P. KUANTITATIF Kel 3 (1).pptx
P. KUANTITATIF Kel 3 (1).pptxP. KUANTITATIF Kel 3 (1).pptx
P. KUANTITATIF Kel 3 (1).pptxNana Citra
 
instrumen pengukuran kinerja
instrumen pengukuran kinerjainstrumen pengukuran kinerja
instrumen pengukuran kinerjaKiki ObeNk
 
Analisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptx
Analisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptxAnalisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptx
Analisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptxglenbahaudin
 
Validitas tes
Validitas tesValiditas tes
Validitas tesBun Faris
 
Validitas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdf
Validitas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdfValiditas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdf
Validitas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdfAPRILIANYUNTIARI
 
Penilaian pembelajaran matematika
Penilaian pembelajaran matematikaPenilaian pembelajaran matematika
Penilaian pembelajaran matematikaHendra Ariyudha
 
Apa sih supervisi manajerial itu
Apa sih supervisi manajerial ituApa sih supervisi manajerial itu
Apa sih supervisi manajerial itusfiraru
 
Apa sih supervisi manajerial itu
Apa sih supervisi manajerial ituApa sih supervisi manajerial itu
Apa sih supervisi manajerial itusfiraru
 
Artikel jenis jenis data dan teknik analisis data
Artikel jenis jenis data dan teknik analisis dataArtikel jenis jenis data dan teknik analisis data
Artikel jenis jenis data dan teknik analisis dataHannisaNurdini
 
PERTEMUAN 2 - materi 10 OK.pptx
PERTEMUAN 2 - materi 10 OK.pptxPERTEMUAN 2 - materi 10 OK.pptx
PERTEMUAN 2 - materi 10 OK.pptxdidinFt
 

Semelhante a VALIDITAS DAN RELIABILITAS (20)

AFI PARNAWI, M.Pd. Evaluasi pembelajaran
AFI PARNAWI, M.Pd. Evaluasi pembelajaranAFI PARNAWI, M.Pd. Evaluasi pembelajaran
AFI PARNAWI, M.Pd. Evaluasi pembelajaran
 
Validitas dan reliabilitas suatu instrumen penelitian
Validitas dan reliabilitas suatu instrumen penelitianValiditas dan reliabilitas suatu instrumen penelitian
Validitas dan reliabilitas suatu instrumen penelitian
 
Mkalah evaluasi
Mkalah evaluasiMkalah evaluasi
Mkalah evaluasi
 
PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)
PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)
PRINSIP DAN TEKNIK EVALUASI (LARAS&NUR ASIAH)
 
Resume 5 ok
Resume 5 okResume 5 ok
Resume 5 ok
 
Validitas dan Reliabilitas.pptx
Validitas dan Reliabilitas.pptxValiditas dan Reliabilitas.pptx
Validitas dan Reliabilitas.pptx
 
Reliabilitas validitas-edit
Reliabilitas validitas-editReliabilitas validitas-edit
Reliabilitas validitas-edit
 
P. KUANTITATIF Kel 3 (1).pptx
P. KUANTITATIF Kel 3 (1).pptxP. KUANTITATIF Kel 3 (1).pptx
P. KUANTITATIF Kel 3 (1).pptx
 
instrumen pengukuran kinerja
instrumen pengukuran kinerjainstrumen pengukuran kinerja
instrumen pengukuran kinerja
 
Analisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptx
Analisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptxAnalisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptx
Analisis Hasil Test terhadap Analisi Logis Intrumen Penilaian.pptx
 
Pengertian validitas
Pengertian validitasPengertian validitas
Pengertian validitas
 
Pengertian validitas
Pengertian validitasPengertian validitas
Pengertian validitas
 
Validitas tes
Validitas tesValiditas tes
Validitas tes
 
Validitas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdf
Validitas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdfValiditas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdf
Validitas & Reliabilitas Instrumen Evaluasi Pembelajaran.pdf
 
Penilaian pembelajaran matematika
Penilaian pembelajaran matematikaPenilaian pembelajaran matematika
Penilaian pembelajaran matematika
 
kelompok 8
kelompok 8kelompok 8
kelompok 8
 
Apa sih supervisi manajerial itu
Apa sih supervisi manajerial ituApa sih supervisi manajerial itu
Apa sih supervisi manajerial itu
 
Apa sih supervisi manajerial itu
Apa sih supervisi manajerial ituApa sih supervisi manajerial itu
Apa sih supervisi manajerial itu
 
Artikel jenis jenis data dan teknik analisis data
Artikel jenis jenis data dan teknik analisis dataArtikel jenis jenis data dan teknik analisis data
Artikel jenis jenis data dan teknik analisis data
 
PERTEMUAN 2 - materi 10 OK.pptx
PERTEMUAN 2 - materi 10 OK.pptxPERTEMUAN 2 - materi 10 OK.pptx
PERTEMUAN 2 - materi 10 OK.pptx
 

Mais de Stevie Principe (20)

Laporan kerja praktek
Laporan kerja praktekLaporan kerja praktek
Laporan kerja praktek
 
Contoh proposalskripsi
Contoh proposalskripsiContoh proposalskripsi
Contoh proposalskripsi
 
Rs sisflow
Rs sisflowRs sisflow
Rs sisflow
 
Rs sisflow
Rs sisflowRs sisflow
Rs sisflow
 
Payroll
PayrollPayroll
Payroll
 
Rekrutmen and seleksi
Rekrutmen and seleksiRekrutmen and seleksi
Rekrutmen and seleksi
 
Payroll
PayrollPayroll
Payroll
 
Payroll
PayrollPayroll
Payroll
 
Payroll
PayrollPayroll
Payroll
 
Payroll
PayrollPayroll
Payroll
 
Payroll
PayrollPayroll
Payroll
 
Payroll
PayrollPayroll
Payroll
 
20100325 1 pengenalankonsepimk
20100325 1 pengenalankonsepimk20100325 1 pengenalankonsepimk
20100325 1 pengenalankonsepimk
 
Chapter1 introduction to hci
Chapter1 introduction to hciChapter1 introduction to hci
Chapter1 introduction to hci
 
4 piranti interaktif - new
4   piranti interaktif - new4   piranti interaktif - new
4 piranti interaktif - new
 
3 interface metaphors dan model konseptual-donz
3   interface metaphors dan model konseptual-donz3   interface metaphors dan model konseptual-donz
3 interface metaphors dan model konseptual-donz
 
1 pengenalan-konsep-imk
1 pengenalan-konsep-imk1 pengenalan-konsep-imk
1 pengenalan-konsep-imk
 
Penulisan syntax vb
Penulisan syntax vbPenulisan syntax vb
Penulisan syntax vb
 
Fungsi string vb
Fungsi string vbFungsi string vb
Fungsi string vb
 
Fungsi date vb
Fungsi date vbFungsi date vb
Fungsi date vb
 

Último

Mengenal Rosa777: Situs Judi Online yang Populer
Mengenal Rosa777: Situs Judi Online yang PopulerMengenal Rosa777: Situs Judi Online yang Populer
Mengenal Rosa777: Situs Judi Online yang PopulerHaseebBashir5
 
Perspektif Psikologi dalam Perubahan Organisasi
Perspektif Psikologi dalam Perubahan OrganisasiPerspektif Psikologi dalam Perubahan Organisasi
Perspektif Psikologi dalam Perubahan OrganisasiSeta Wicaksana
 
Manajemen_Risiko_PT_Murni_Sadar_Tbk.pdf man
Manajemen_Risiko_PT_Murni_Sadar_Tbk.pdf manManajemen_Risiko_PT_Murni_Sadar_Tbk.pdf man
Manajemen_Risiko_PT_Murni_Sadar_Tbk.pdf manrasyidakhdaniyal10
 
Slide tentang Akuntansi Perpajakan Indonesia
Slide tentang Akuntansi Perpajakan IndonesiaSlide tentang Akuntansi Perpajakan Indonesia
Slide tentang Akuntansi Perpajakan IndonesiaNovrinKartikaTumbade
 
tugas kelompok Analisis bisnis aplikasi bukalapak
tugas kelompok Analisis bisnis aplikasi bukalapaktugas kelompok Analisis bisnis aplikasi bukalapak
tugas kelompok Analisis bisnis aplikasi bukalapaksmkpelayarandemak1
 
Tajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di Indonesia
Tajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di IndonesiaTajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di Indonesia
Tajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di IndonesiaHaseebBashir5
 
ASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptx
ASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptxASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptx
ASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptxMuhammadDidikJasaGb
 
04 AKMEN new.pdf........................
04 AKMEN new.pdf........................04 AKMEN new.pdf........................
04 AKMEN new.pdf........................rendisalay
 
Time Value of Money Mata Kuliah Ekonomi 2
Time Value of Money Mata Kuliah Ekonomi 2Time Value of Money Mata Kuliah Ekonomi 2
Time Value of Money Mata Kuliah Ekonomi 2PutriMuaini
 
Tentang Gerhanatoto: Situs Judi Online yang Menarik Perhatian
Tentang Gerhanatoto: Situs Judi Online yang Menarik PerhatianTentang Gerhanatoto: Situs Judi Online yang Menarik Perhatian
Tentang Gerhanatoto: Situs Judi Online yang Menarik PerhatianHaseebBashir5
 
PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...
PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...
PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...FORTRESS
 
BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...
BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...
BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...FORTRESS
 
UNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama Linkaja
UNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama LinkajaUNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama Linkaja
UNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama Linkajaunikbetslotbankmaybank
 
SV388: Platform Taruhan Sabung Ayam Online yang Populer
SV388: Platform Taruhan Sabung Ayam Online yang PopulerSV388: Platform Taruhan Sabung Ayam Online yang Populer
SV388: Platform Taruhan Sabung Ayam Online yang PopulerHaseebBashir5
 
Perkembangan Perbankan di Indonesia Perkembangan Perbankan di Indonesia
Perkembangan Perbankan di Indonesia Perkembangan Perbankan di IndonesiaPerkembangan Perbankan di Indonesia Perkembangan Perbankan di Indonesia
Perkembangan Perbankan di Indonesia Perkembangan Perbankan di Indonesialangkahgontay88
 
KUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptx
KUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptxKUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptx
KUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptxFORTRESS
 
CALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing Solo
CALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing SoloCALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing Solo
CALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing Solojasa marketing online
 
UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...
UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...
UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...FORTRESS
 
UNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak Bonus
UNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak BonusUNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak Bonus
UNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak Bonusunikbetslotbankmaybank
 

Último (20)

Mengenal Rosa777: Situs Judi Online yang Populer
Mengenal Rosa777: Situs Judi Online yang PopulerMengenal Rosa777: Situs Judi Online yang Populer
Mengenal Rosa777: Situs Judi Online yang Populer
 
Perspektif Psikologi dalam Perubahan Organisasi
Perspektif Psikologi dalam Perubahan OrganisasiPerspektif Psikologi dalam Perubahan Organisasi
Perspektif Psikologi dalam Perubahan Organisasi
 
Manajemen_Risiko_PT_Murni_Sadar_Tbk.pdf man
Manajemen_Risiko_PT_Murni_Sadar_Tbk.pdf manManajemen_Risiko_PT_Murni_Sadar_Tbk.pdf man
Manajemen_Risiko_PT_Murni_Sadar_Tbk.pdf man
 
Slide tentang Akuntansi Perpajakan Indonesia
Slide tentang Akuntansi Perpajakan IndonesiaSlide tentang Akuntansi Perpajakan Indonesia
Slide tentang Akuntansi Perpajakan Indonesia
 
tugas kelompok Analisis bisnis aplikasi bukalapak
tugas kelompok Analisis bisnis aplikasi bukalapaktugas kelompok Analisis bisnis aplikasi bukalapak
tugas kelompok Analisis bisnis aplikasi bukalapak
 
abortion pills in Kuwait City+966572737505 get Cytotec
abortion pills in Kuwait City+966572737505 get Cytotecabortion pills in Kuwait City+966572737505 get Cytotec
abortion pills in Kuwait City+966572737505 get Cytotec
 
Tajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di Indonesia
Tajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di IndonesiaTajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di Indonesia
Tajuk: SV388: Platform Unggul Taruhan Sabung Ayam Online di Indonesia
 
ASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptx
ASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptxASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptx
ASKEP WAHAM KELOMPOK 4 vvvvvvvvvPPT.pptx
 
04 AKMEN new.pdf........................
04 AKMEN new.pdf........................04 AKMEN new.pdf........................
04 AKMEN new.pdf........................
 
Time Value of Money Mata Kuliah Ekonomi 2
Time Value of Money Mata Kuliah Ekonomi 2Time Value of Money Mata Kuliah Ekonomi 2
Time Value of Money Mata Kuliah Ekonomi 2
 
Tentang Gerhanatoto: Situs Judi Online yang Menarik Perhatian
Tentang Gerhanatoto: Situs Judi Online yang Menarik PerhatianTentang Gerhanatoto: Situs Judi Online yang Menarik Perhatian
Tentang Gerhanatoto: Situs Judi Online yang Menarik Perhatian
 
PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...
PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...
PREMIUM!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Kamar Mandi di ...
 
BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...
BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...
BERKELAS!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Aluminium Kamar Mandi di...
 
UNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama Linkaja
UNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama LinkajaUNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama Linkaja
UNIKBET : Agen Slot Resmi Pragmatic Play Ada Deposit Sesama Linkaja
 
SV388: Platform Taruhan Sabung Ayam Online yang Populer
SV388: Platform Taruhan Sabung Ayam Online yang PopulerSV388: Platform Taruhan Sabung Ayam Online yang Populer
SV388: Platform Taruhan Sabung Ayam Online yang Populer
 
Perkembangan Perbankan di Indonesia Perkembangan Perbankan di Indonesia
Perkembangan Perbankan di Indonesia Perkembangan Perbankan di IndonesiaPerkembangan Perbankan di Indonesia Perkembangan Perbankan di Indonesia
Perkembangan Perbankan di Indonesia Perkembangan Perbankan di Indonesia
 
KUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptx
KUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptxKUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptx
KUAT!!! WA 0821 7001 0763 (FORTRESS) Harga Pintu Besi Plat Polos di Serang .pptx
 
CALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing Solo
CALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing SoloCALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing Solo
CALL/WA: 0822 348 60 166 ( TSEL ) Jasa Digital Marketing Solo
 
UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...
UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...
UNGGUL!!! WA 0821 7001 0763 (FORTRESS) Bahan Pintu Aluminium Putih di Pangkal...
 
UNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak Bonus
UNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak BonusUNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak Bonus
UNIKBET : Bandar Slot Pragmatic Play Bisa Deposit Ovo 24 Jam Online Banyak Bonus
 

VALIDITAS DAN RELIABILITAS

  • 1. VALIDITAS DAN RELIABILITAS TES: Deskripsi Konsep dan Aplikasinya dalam Evaluasi Abstract Validity of a test is its most important characteristic. A test is valid to the degree that it accurately measures some characteristics. There are three basic types of validity: content validity, which is most important for the classroom teacher’s achievement test, describes the adequacy of the test to sample the domains of a subject as stressed in classroom instruction. Criterion-related validity describes the relationship between test scores and independent external criterion measures. Construct validity is the degree to which test scores can be accounted for by certain explanatory actions that support a psychological theory. Reliability of test result is a universal criterion of educational measurement. Higher reliability measures are obtained as chance errors associated with the complete process of testing are reduced. Coefficients of reliability are the best statistical data available to the teacher who is striving to determine the degree of success in testing and who is making efforts to improve future tests. One major aspect of test reliability is the degree to which a test measures with consistency. Kata Kunci: validitas, reliabilitas A. PENDAHULUAN Evaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode dan format penilaian yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan. Informasi tersebut diperlukan dalam menafsir dan menetapkan keputusan untuk kepentingan pendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi dan memahami berbagai macam perspektif penilaian, baik penilaian kontekstual dan proses maupun penilaian hasil. Karena penilaian merupakan pusat kontrol keberhasilan program pendidikan, maka terdapat dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas. Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes. Validitas merupakan karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes. Validasi suatu instrumen mencakup pengumpulan data empiris dan argumentasi logis untuk menunjukkan bahwa kesimpulan tertentu adalah tepat. Sedangkan reliabilitas yang berarti konsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian pendidikan. Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran berikutnya merupakan ciri terpenting dari instrumen yang berkualitas tinggi. Tulisan ini adalah sebuah kajian teoretis tentang apa dan bagaimana validitas dan reliabilitas itu apabila dikaitkan dengan kualitas instrumen dan penerapannya dalam penilaian hasil suatu program pembelajaran. Selanjutnya, tulisan ini diharapkan untuk mengundang wacana bagi pembaca tentang: Bagaimana instrumen penilaian yang berkualitas? Bagaimana meningkatkan validitas dan reliabilitas suatu instrumen penilaian? Faktor-faktor apa yang mempengaruhi validitas dan reliabilitas suatu instrumen penilaian? B. DESKRIPSI KONSEP 1. Konsep Validitas Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan oleh penyusun atau pengguna instrumen untuk mengumpulkan data secara empiris guna
  • 2. mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya. Untuk menjadi valid suatu instrumen tidak hanya konsisten dalam penggunaannya, namun yang terpenting adalah harus mampu mengukur sasaran ukurnya. Hal ini berarti bahwa validitas merupakan ciri instrumen yang terpenting. Berbagai usaha dilakukan untuk meningkatkan validitas instrumen, baik langsung ataupun tidak berhubungan dengan peningkatan validitas instrumen itu sendiri. Untuk menjadi valid maka suatu instrumen harus dikonstruksi dengan baik dan mencakup materi yang benar-benar mewakili sasaran ukurnya. Validitas instrumen bersifat relatif terhadap situasi tertentu dan tergantung pada kondisi tertentu. Instrumen yang mempunyai validitas tinggi terhadap tujuan atau kegunaan tertentu mungkin akan mempunyai validitas sedang atau mungkin rendah terhadap tujuan lainnya. Menurut Messik (1989) terdapat lima aspek yang berbeda dalam konsep validitas. Kelima aspek tersebut secara bersama-sama berfungsi sebagai ukuran validitas umum atau standar untuk semua pengukuran psikologis dan pendidikan. Kelima aspek tersebut adalah: (1) Substansi. Aspek substansi validitas mencakup verifikasi proses utama dalam pengungkapan tugas penilaian. Hal ini dapat dikenali melalui penggunaan teori substansi dan pemodelan proses. Ketika menentukan substansi instrumen, seseorang perlu mempertimbangkan dua hal pokok: Pertama, tugas penilaian harus mewakili materi yang akan dinilai. Kedua, penilaian harus ditetapkan berdasarkan fakta-fakta empiris. (2) Strukrur pensekoran. Strukrur pensekoran harus secara rasional konsisten dengan apa yang diketahui tentang sifat hubungan struktural dari keberadaan konstruk yang dipersoalkan. Struktur internal penilaian harus konsisten dengan apa yang diketahui tentang struktur internal dari domain konstruk. (3) Ketergeneralisasian. Ketergene-ralisasian penilaian harus memenuhi keterwakilan isi dan konstruk. Hal ini memungkinkan penafsiran skor untuk penggeneralisasian secara luas dalam konstruk yang ditetapkan. Fakta seperti kemampuan generalisasi tersebut tergantung pada tingkat korelasi suatu tugas dengan tugas lainnya yang juga mewakili konstruk atau aspek- aspek konstruk. (4) Faktor-faktor eksternal. Aspek eksternal dari validitas mengacu pada tingkat hubungan skor assessment dengan ukuran lain dan perilaku nonassessment yang mencerminkan tinggi, rendah, dan hubungan interaksi antara konstruk yang ditetapkan. (5) Akibat dari validitas. Akibat validitas meliputi bukti dan dasar pemikiran dalam mengevaluasi konsekuensi penafsiran dan menggunakan skor yang tidak diharapkan dan yang diharapkan. Penyelidikan jenis ini terutama penting ketika berhubungan dengan akibat yang merugikan bagi individu dan kelompok yang dihubungkan dengan penyimpangan dalam penskoran dan penafsiran. Ke lima aspek validitas tersebut berlaku bagi semua pengukuran psikologis dan pendidikan; umumnya penafsiran berbasis skor dan kesimpulan tindakan mengasumsikannya secara tegas atau secara tersembunyi. Tantangan dalam validasi instrumen selanjutnya adalah menghubungkan kesimpulan ini terhadap fakta-fakta terpusat yang mendukungnya seperti halnya terhadap fakta-fakta berbeda yang merupakan bagian kesimpulan tandingan yang rasional. 2. Konsep Reliabilitas Reliabilitas telah didefinisikan dengan cara yang berbeda oleh pengarang yang berbeda. Cara yang terbaik untuk membahas reliabilitas adalah sejauhmana hasil pengukuran dari suatu instrumen mewakili karakteristik yang diukur. Sebagai contoh, reliabilitas didefinisikan seberapa besar konsistensi skor tes yang dicapai peserta tes pada pengujian ulang. Definisi ini akan memuaskan jika skor tes dapat menggambarkan kemampuan peserta tes; jika tidak maka skor tes tidak sistematis, tidak dapat diulangi atau tidak terikat. Reliabilitas juga diartikan
  • 3. sebagai indikator ketidakhadiran kesalahan acak. Jika kesalahan acak dapat diperkecil maka skor tes akan lebih konsisten dari suatu pengujian ke pengujian berikutnya. Definisi teoretis dari reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman sistematis dalam populasi peserta tes. Jika terdapat keragaman sistematis yang lebih besar dalam suatu populasi dibanding dengan populasi lainnya, seperti dalam semua siswa sekolah negeri dibandingkan hanya dengan kelas tertentu, tes akan mempunyai reliabilitas lebih besar untuk populasi yang lebih bervariasi. Reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompok dengan kelompok lainnya. Para profesional pengukuran menganggap reliabilitas sebagai persyaratan utama suatu instrumen penilaian. Dalam teori tes diakui bahwa skor tes akan valid (benar) jika skor tes tersebut reliabel (Mehrens & Lehmann, 1991). Asumsi ini didasarkan pada suatu model matematika teori tes dimana skor perolehan terdiri atas skor tulen dan skor galat (obtained score = true score + error score). Semakin sedikit kesalahan dalam suatu tes (yaitu semakin reliabel) semakin valid skor tes. Karenanya, suatu penilaian yang tidak reliabel secara otomatis tidak valid. Penekanan utama dalam mengumpulkan data untuk menentukan reliabilitas tes adalah pada konsistensi dihubungkan dengan reliabilitas skor atau reliabilitas penilai. Reliabilitas skor berarti bahwa jika suatu tes telah diadministrasikan pada penempuh ujian untuk kedua kalinya, maka penempuh ujian akan tetap memperoleh skor yang sama dengan pengadministrasian yang pertama. Salah satu cara para spesialis pengukuran dalam menentukan reliabilitas skor tes adalah melalui tes standar. Jika penempuh ujian diuji kembali, mereka harus melengkapi tugas yang sama persis dalam kondisi yang juga persis sama. Hal ini akan membantu dalam pencapaian hasil tes yang konsisten. C. PEMBAHASAN 1. Validitas 2. a. Jenis-jenis Validitas dan Ukurannya Crocker dan Algina (1986) membedakan tiga jenis validitas, yaitu: 1) validitas isi, mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; 2) validitas konstruk, mengkaji sifat-sifat psikologis yang menjelaskan keragaman skor responden dalam instrumen tertentu; 3) dan validitas relasi kriteria, membandingkan skor responden dengan satu atau lebih variabel eksternal. Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak, dengan gagasan teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk mengukur konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah dikembambangkan diujicobakan secara empiris. Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen dengan tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui pengkajian secara teoretis dan secara empiris, yang mencakup: (1) menjelaskan pokok bahasan dan sub pokok bahasan; (2) menetapkan pokok bahasan dan subpokok bahasan
  • 4. yang diukur oleh setiap butir instrumen; (3) mencocokkan butir-butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya. Secara teoretis validitas isi dan validitas konstruk dapat dikaji melalui penilaian panelis. Penilaian panelis dimaksudkan untuk menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya. Prosedur yang digunakan adalah meminta para panelis untuk mencermati butir-butir instrumen. Kemudian menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya. Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukan melalui penilaian panelis (pakar). Pengembangan prosedur penilaian panelis dapat dilakukan melalui beberapa langkah, yaitu: Pertama, menetapkan skala yang digunakan, yaitu: 1 = tidak relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan 5 = sangat relevan. Kedua, menetapkan kriteria penilaian yang mencakup: (1) mengukur indikatornya; (2) hanya memiliki satu arti; (3) jelas dan mudah dipahami; (4) tidak bersifat faktual; dan (5) tidak tumpang tindih dengan butir-butir lainnya. Ketiga, menetapkan pilihan, yaitu: 1 (tidak relevan) jika hanya satu atau semua kriteria tidak terpenuhi; 2 (kurang relevan) jika hanya dua kriteria yang terpenuhi; 3 (cukup relevan) jika hanya tiga kriteria yang terpenuhi; 4 (relevan) jika hanya empat kriteria yang terpenuhi; dan 5 (sangat relevan) jika semua kriteria terpenuhi. Keempat, kualitas masing- masing butir instrumen didasarkan atas rerata hasil penilaian panelis, dengan kriteria sebagai berikut: Rerata Penilaian Keputusan 1,0 – 2,9 Tidak sesuai Direvisi 3,0 – 3,9 Cukup sesuai Diterima dengan revisi 4,0 – 5,0 SesuaiDiterima Penilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicoba instrumen kepada responden yang sesuai dengan karakteristik responden tempat pemberlakuan instrumen final. Penetapan jumlah sampel dapat diacuh dari pendapat Nunnaly (1970) bahwa untuk mengurangi resiko kehilangan butir-butir instrumen dan agar memungkinkan untuk mengeliminasi faktor-faktor yang tidak dikehendaki maka dalam analisis instrumen direkomendasikan untuk digunakan sampel 5–10 kali jumlah butir instrumen. Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitas konstruk instrumen secara empiris. Validitas isi biasanya digunakan untuk menyebut validitas instrumen tes, sedangkan validitas konstruk biasanya digunakan untuk menyebut validitas instrumen non tes. Secara empiris, kedua jenis validitas tersebut dianalisis dengan cara yang berbeda. Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuk tes pilihan ganda) adalah Item and Test Analysis (ITEMAN). Alat analisis ini dimaksudkan untuk mendapatkan informasi tentang: indeks kesukaran butir tes, indeks daya beda butir, dan keberfungsian pengecoh. Disamping itu, juga untuk menentukan: korelasi biserial titik (point biserial correlation), dan keseimbangan isi atau keterwakilan materi yang hendak diukur. Secara empiris kelima informasi tersebut dibutuhkan karena saling berhubungan antara satu dengan yang lainnya, dimana keberfungsian pilihan dapat meningkatkan indeks kesukaran butir tes, indeks kesukaran butir tes dapat menentukan daya beda butir, dan indeks kesukaran dan daya beda butir dapat mempengaruhi interkorelasi butir, dan secara keseluruhan kelima informasi tersebut merupakan penentu tingkat reliabilitas tes. Untuk jelasnya prosedur analisis butir dan penetapan kriteria untuk
  • 5. menerima, menolak atau merevisi butir-butir tes, secara berturut-turut sebagai berikut: (1) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yang menjawab benar butir tes. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling baik pada 0,5; karena p=0,5 dapat memberikan kontribusi optimal terhadap korelasi biserial titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang memiliki indeks kesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan apabila ada pertimbangan keterwakilan pokok bahasan yang diukurnya. (2) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untuk membedakan siswa mampu dan kurang mampu. Indeks daya beda butir mempunyai rentang nilai –1 ke +1, namun nilai negatif dan rendah menunjukkan kinerja butir yang rendah. Suatu butir tes dapat dipertahankan apabila memiliki nilai D ³ 2,0. Indeks daya beda butir dihitung dengan menggunakan rumus: D= pu - pi; dimana: pu = proporsi kelompok atas yang menjawab benar, pi = proporsi kelompok bawah yang menjawab benar. Pembagian kelompok responden didasarkan atas pendapat Kelly (1939) yang dikutip oleh Crocker dan Algina (1996) bahwa indeks daya beda butir yang lebih stabil dan sensitif dapat dicapai dengan menggunakan 27 persen kelompok atas dan 27 persen kelompok bawah. (3) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tes dengan skor total. Korelasi biserial titik dapat disamakan dengan daya beda butir, namun rpbi itu sendiri perlu dihitung karena dapat menyediakan refleksi yang sebenarnya dari kontribusi setiap butir tes terhadap keberfungsian tes. Semakin tinggi rpbi suatu butir tes semakin tinggi kontribusinya dalam memprediksi kriteria. Suatu butir tes dapat dipertahankan apabila memiliki rpbi ³ 0,30. (4) Keberfungsian pengecoh. Suatu pengecoh dapat dipertahankan apabila memenuhi syarat-syarat: (1) kunci jawaban (keyed answer) harus dipilih lebih banyak oleh kelompok atas daripada kelompok bawah; (2) setiap penggagal (foils) harus dipilih minimal 2 persen dari keseluruhan peserta tes dan dipilih minimal 5 persen kelompok bawah, (3) Indeks daya beda kunci jawaban harus positif dan indeks daya beda penggagal harus negatif. Validitas konstruk. Sama halnya dengan prosedur ujicoba instrumen tes, instrumen non tes juga diujicobakan secara empiris kepada sejumlah responden (5-10 kali jumlah butir instrumen). Data hasil ujicoba secara empiris dari instrumen non tes biasanya dianalisis dengan menggunakan Analisis Faktor Konfirmasi (Confirmatory Factor Analysis) dengan menggunakan metode ekstraksi komponen utama (principle component extraction). Analisis tersebut bertujuan untuk menguji kebenaran konstruk teori yang dijadikan acuan dalam pengembangan instrumen, dengan cara menentukan struktur atau model faktor dari sejumlah butir instrumen berdasarkan muatan faktor (factor loading) jumlah varians (eigenvalue), dan proporsi varians (communality). Dalam analisis ini juga digunakan rotasi ortogonal dan varimax. Beberapa kriteria yang dijadikan acuan dalam analisis faktor adalah: (1) Ukuran kecukupan pensampelan (sampling adequacy). Ditentukan dengan menggunakan rumus Kaiser-Meyer-Olkin (KMO), yaitu dengan membandingkan nilai koefisien korelasi observasi dengan koefisien korelasi parsial (Norusis, 1996). Jika koefisien korelasi parsial kecil maka nilai KMO besar (mendekati satu) berarti dapat digunakan analisis faktor, sebaliknya jika nilai koefisien korelasi parsial besar maka nilai KMO kecil (mendekati nol) berarti tidak dapat digunakan analisis faktor. Jelasnya penafsiran nilai KMO diacuh dari ciri yang dikemukakan oleh Kaiser (1974) seperti dikutip oleh Norusis (1996) bahwa KMO 0,90 baik sekali
  • 6. (marvelous); 0,80 baik (meritorius); 0,70 sedang (middling); 0,60 kurang (mediocre); 0,50 sangat kurang (miserable); dan dibawah 0,50 tidak dapat diterima (unacceptable). (2) Uji Bartlett tentang bentuk matriks korelasi (Bartlett’s test of sphericity). Uji ini dimaksudkan untuk memastikan apakah matriks korelasi berasal dari matriks identitas atau bukan. Dalam uji ini digunakan pendekatan Chisquare dan dibutuhkan data yang berasal dari populasi normal multivariat. Dengan ketentuan bahwa bila matriks korelasi merupakan matriks identitas (makriks dengan diagonal 1 dan selain diagonal 0) maka tidak dapat digunakan analisis faktor, sebaliknya bila matriks korelasi bukan matriks identitas maka dapat digunakan analisis faktor. (3) Banyaknya faktor. Banyaknya faktor ditetapkan berdasarkan aturan yang dikemukakan oleh Norusis (1996) bahwa jumlah faktor harus diekstraksi sama dengan jumlah faktor yang mempunyai varians (eigenvalue) lebih besar dari 1,0. (4) Muatan faktor (factor loading). Muatan faktor diseleksi setelah melalui ekstraksi komponen utama (extracting principal component) dengan rotasi ortogonal untuk memaksimalkan varians (variance maximizing/ varimax) antara variabel utama. Muatan faktor yang tetap dipertahankan adalah di atas 0,3. Hal ini sesuai dengan aturan yang dikemukakan oleh Crocker dan Algina (1996) bahwa muatan faktor yang lebih dari 0,3 cenderung siginifikan, sebaliknya muatan faktor yang kurang dari 0,3 tidak dapat memberikan kontribusi yang siginifikan terhadap suatu faktor tertentu. b. Penyebab invaliditas Ancaman utama terhadap validitas instrumen adalah: (1) ketakterwakilan konstruk; menunjukkan bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur oleh instrumen; (2) penyimpangan keragaman konstruk berarti bahwa instrumen tersebut mengukur terlalu banyak variabel, dan kebanyakan variabel tersebut tidak relevan terhadap isi konstruk. Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu penyimpangan kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran konstruk (Construct irrelevant difficulty). Penyimpangan kemudahan konstruk terjadi ketika faktor-faktor luar seperti kata- kata kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab benar dengan cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan kesukaran konstruk terjadi bila aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan terhadap sebagian atau keseluruhan anggota kelompok. Sementara bila terjadi penyimpangan keragaman konstruk yang pertama menyebabkan seseorang memperoleh skor yang lebih tinggi dibanding dengan kemampuan yang sebenarnya, dan terjadinya penyimpangan keragaman konstruk yang kedua menyebabkan seseorang memperoleh skor yang lebih rendah dibanding dengan kemampuan yang sebenarnya. 2. Reliabilitas a. Ukuran Reliabilitas
  • 7. Terdapat beberapa statistik yang digunakan untuk menghitung stabilitas skor seperangkat tes dari suatu kelompok peserta tes, yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas konsistensi internal. Reliabilitas test-retest. Suatu koefisien reliabilitas test-retest diperoleh dengan mengadministrasikan tes yang sama dua kali dan mengkorelasikan skor tes tersebut. Dalam konsep, hal ini merupakan ukuran konsistensi skor yang sempurna sebab memungkinkan pengukuran konsistensi langsung dari suatu ujian ke ujian berikutnya. Namun, koefisien ini tidaklah direkomendasikan dalam praktek, oleh karena masalah dan keterbatasannya, yaitu memerlukan dua kali pengadministrasian tes yang sama dalam kelompok yang sama dan memerlukan pemilihan waktu yang tepat. Jika interval waktunya singkat, mungkin skor siswa akan sangat konsisten sebab mereka masih mengingat sebagian atau seluruh pertanyaan dan jawaban mereka. Dan jika intervalnya lama, maka hasilnya akan dipengaruhi oleh perubahan belajar dan kematangan yang terjadi pada diri siswa. Reliabilitas Split-Half. Sesuai dengan namanya, reliabilitas split-half adalah suatu koefisien yang diperoleh dengan pembagian suatu skor tes ke dalam dua bagian yang masing-masing separuhnya, kemudian kedua bagian skor tes tersebut dikorelasikan untuk menentukan koefisien reliabilitasnya. Pembagian data dipecah atas nomor ganjil dan genap, memecah butir-butir tes menjadi dua bagian yang sama jumlahnya, memilih butir secara acak, atau berdasarkan keseimbangan materi dan tingkat kesukaran. Pendekatan ini mempunyai suatu keuntungan, yakni hanya memerlukan satu kali pengujian. Kelemahannya adalah koefisien yang dihasilkan akan bervariasi tergantung bagaimana tes tersebut dipecah. Juga tidak cocok digunakan untuk mengukur reliabilitas tes kecepatan (speed test), karena skor siswa dipengaruhi oleh seberapa banyak butir tes yang dijawab dalam waktu yang tersedia. Konsistensi internal. Konsistensi internal tergantung pada interkorelasi butir tes, yang juga disebut homogenitas. Rumus statistik terbaik yang digunakan untuk menentukan koefisien reliabilitas konsistensi internal adalah: Alpha Cronbach dan Kuder-Richardson (KR-20 dan KR-21). Kebanyakan program pengujian melaporkan bahwa hasil pengujian dengan Alfa Cronbach secara fungsional setara dengan KR-20. Keuntungan penggunaan statistik ini adalah hanya memerlukan satu kali administrasi tes dan tidak tergantung pada pemecahan materi tes. Sedangkan kerugiannya adalah akan efektif diterapkan jika tes hanya mengukur area keterampilan tunggal. Hanya membutuhkan rerata skor tes, simpangan baku atau varians, dan sejumlah butir, KR-20 adalah rumusan reliabilitas yang paling sederhana. Dan rumus KR-21 hampir selalu menghasilkan koefisien yang lebih rendah dari KR-20. Kesederhanaannya menjadikannya sebagai rumus reliabilitas yang paling banyak digunakan khususnya untuk mengevaluasi tes yang dikembangkan di kelas. Namun, rumus ini tidak dapat digunakan untuk menentukan reliabilitas skor dikotomi. b. Seberapa Tinggi Koefisien Reliabilitas Reliabilitas tes adalah proporsi varians tulen (true variance) dalam skor tes (Guilford, 1982). Penilaian kecukupan koefisien reliabilitas tes dapat diacuh dari pendapat Aiken (1988) bahwa jika tes akan digunakan untuk menentukan signifikansi perbedaan rerata skor dua kelompok siswa maka koefisien reliabilitas sebesar 0,65 dianggap memuaskan. Dan jika tes akan digunakan untuk
  • 8. membandingkan siswa yang satu dengan yang lainnya maka paling tidak diperlukan koefisien reliabilitas sebesar 0,85. Untuk menjelaskan keberartian koefisien reliabilitas dapat pula diacuh dari galat baku pengukuran, yang dihitung dengan menggunakan rumus: ; dimana: Sm = galat baku pengukuran; Sx = simpangan baku skor tes; dan rx = koefisien reliabilitas tes. Misalnya, dari hasil perhitungan koefisien reliabilitas instrumen dengan menggunakan rumus Alpha Cronbach diperoleh 0,93 dengan galat baku pengukuran 6,88. Hal ini berarti bahwa tes tersebut sangat terandalkan karena dapat mengukur 93 persen keragaman skor yang sebenarnya, dan bila dalam jangka waktu tertentu dan dalam kondisi yang sama para responden merespon kembali tes tersebut maka rentangan penyimpangan skor total yang dicapai masing-masing responden berkisar antara + 6,88; jadi bila pada tes pertama seseorang siswa memperoleh skor total 450 maka kemungkinan rentangan skor total yang dicapai pada tes berikutnya adalah - 450+ 6,88 atau paling rendah 443,12 dan paling tinggi 456,88. Jika tes yang diadministrasikan memiliki konsekuensi tinggi, seperti tes yang digunakan untuk penempatan dalam pendidikan, misalnya ujian akhir SMU, dan sertifikasi profesional, maka diperlukan reliabilitas konsistensi internal yang tinggi paling sedikit di atas 0,90, dan paling baik jika di atas 0,95. Kesalahan klasifikasi yang disebabkan oleh kesalahan pengukuran harus diperkecil. Tetapi perlu dicatat bahwa tidak satu pun tes dengan sendirinya dapat digunakan untuk membuat suatu keputusan penting bagi seseorang. Tes di kelas tidak selalu membutuhkan koefisien reliabilitas tinggi. Ketika para siswa lebih menguasai materi yang diujikan, variabilitas tes akan menurun, sehingga reliabilitas tes juga akan menurun. Para guru mengawasi siswa mereka sepanjang hari dan mempunyai peluang untuk mengumpulkan masukan dari berbagai sumber informasi. Jika pengetahuan dan pertimbangan guru digunakan bersama dengan informasi yang diperoleh dari tes, maka akan dapat menyediakan informasi yang lebih lengkap. Jika suatu tes tidak reliabel atau tidak akurat untuk siswa secara perorangan, maka guru perlu membuat koreksi penyesuaian. Suatu koefisien reliabilitas sebesar 0.50 atau 0.60 mungkin cukup untuk tes di kelas. Selanjutnya, reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas juga perlu dievaluasi dalam kaitan dengan kelompok peserta tes. Suatu tes dengan koefisien reliabilitas 0.92 ketika diujikan pada siswa dalam beberapa kelas maka koefisien reliabilitas yang diperoleh tidak akan sama jika tes tersebut hanya diujikan pada satu kelas saja. Reliabilitas berhubungan dengan konsistensi hasil pengukuran. Reliabiltas dipengaruhi oleh cakupan instrumen penilaian. Misalnya, suatu instrumen tes tertentu yang mencakup sasaran belajar dan butir yang terbatas memiliki reliabilitas yang lebih rendah dibanding dengan tes yang mencakup sasaran belajar yang lebih luas dengan jumlah butir yang lebih banyak. Instrumen yang representatif dengan kesalahan pengukuran yang relatif kecil akan memiliki reliabilitas tinggi. Kesalahan pengukuran dapat diperkecil melalui penulisan butir instrumen yang jelas, petunjuk yang mudah dipahami, administrasi instrumen yang sesuai, dan penskoran yang konsisten. Suatu instrumen tes adalah suatu sampel perilaku dari keterampilan yang diinginkan, tes lebih panjang dengan sampel yang lebih besar, memungkinkan untuk lebih reliabel. Hasil ujian akhir dari
  • 9. suatu unit pembelajaran dengan waktu satu jam akan lebih reliabel ketimbang hasil ujian harian dengan jangkauan materi dan waktu yang terbatas. c. Ancaman terhadap Reliabilitas Semua jenis instrumen tes atau nontes tidak terlepas kesalahan. Hal ini berlaku untuk instrumen tes dalam ilmu-ilmu eksakta dan dalam ilmu-ilmu psikologi dan pendidikan. Misalnya, dalam mengukur panjang dengan suatu penggaris, mungkin ada kesalahan sistematis berhubungan dengan di mana titik nol dicetak pada penggaris dan kesalahan acak berhubungan dengan kemampuan mata dalam membaca tanda-tanda dan memperhitungkan tanda-tanda tersebut. Juga memungkinkan bahwa panjang obyek dapat berubah dari waktu ke waktu dan pada lingkungan yang berbeda (misalnya perubahan temperatur). Salah satu tujuan penilaian adalah untuk mengurangi kesalahan tersebut hingga ke tingkatan yang sesuai dengan tujuan tes. Tes yang beresiko tinggi (high-stakes tes), seperti ujian untuk mendapatkan SIM, harus mempunyai kesalahan yang sangat kecil. Tes di kelas dapat mentolerir kesalahan yang lebih tinggi secara wajar kesalahan tersebut mudah dikoreksi sepanjang proses pengujian. Reliabilitas hanya mengacu pada derajat tingkat kesalahan yang tidak sistematis, yang disebut kesalahan acak. Ada tiga sumber kesalahan utama, yaitu: faktor dalam tes itu sendiri, faktor siswa yang dites, dan faktor penskoran. Umumnya tes berisi suatu koleksi butir yang mengukur keterampilan tertentu. Adakalanya guru secara khas menggeneralisasikan masing-masing butir tes ke semua materi yang diukur oleh tes itu. Sebagai contoh, jika seorang siswa dapat memecahkan beberapa permasalahan seperti 7x8, maka mungkin akan disamaratakan kemampuannya dalam mengalikan angka tunggal bilangan bulat. Juga mungkin akan menyamaratakan suatu kumpulan materi kepada suatu domein yang lebih luas. Jika siswa dapat menyelesaikan penjumlahan, pengurangan, perkalian, dan pembagian, maka mungkin akan disimpulkan bahwa siswa tersebut mampu menyele-saikan operasi pecahan. Kesalahan dapat pula disebabkan oleh pemilihan butir untuk mengukur domein dan keterampilan tertentu. Materi yang tercakup dalam tes berbeda menurut format masing-masing tes, kesalahan pensampelan, pembatasan butir tes, dan karena menyamaratakan ke data yang tidak diamati, yakni, kemampuan siswa terhadap keseluruhan butir yang mungkin terdapat dalam tes. Ketika keterampilan dan domain yang diukur menjadi lebih rumit, mungkin akan terjadi lebih banyak kesalahan yang disebabkan oleh pensampelan materi. Sumber lain kesalahan tes adalah ketidakefektifan pengecoh dalam tes pilihan ganda, seperti jawaban benar yang lebih banyak, dan tingkat kesukaran butir tes. Sebagai manusia, para siswa tidaklah selalu konsisten dan juga tidak terlepas dari kesalahan dalam menyelesaikan tes. Apakah tes itu dimaksudkan untuk mengukur kemampuan khusus atau kemampuan siswa secara optimal, perubahan dalam berbagai hal seperti sikap siswa, kesehatan, dan rasa kantuk dapat mempengaruhi kualitas usaha dan konsistensi siswa dalam menyelesaikan tes. Sebagai contoh, peserta tes mungkin membuat kesalahan karena teledor, salah menafsirkan petunjuk tes, melupakan instruksi tes, melupakan beberapa butir tes, atau salah baca butir tes. Kesalahan penskoran merupakan sumber sepertiga dari kesalahan potensial. Pada bentuk tes objektif, penskoran bersifat mekanik, dan kesalahan penskoran harus diperkecil. Pada tes uraian, sumber kesalahan meliputi ketidakjelasan rubrik penskoran, ketidakjelasan apa yang diharapkan dari siswa, dan beberapa kesalahan yang bersumber dari penilai. Para penilai tidaklah selalu konsisten, kadang-kadang
  • 10. merubah ukuran-ukuran mereka selagi menskor, dan terkadang terpengaruh oleh hal-hal yang tidak berhubungan dengan skor tes seperti efek halo, latar belakang siswa, perbedaan persepsi, kebaikan hati atau kepelikan, dan kesalahan dalam penskalaan (Rudner, 1992). D. KESIMPULAN Validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya. Validitas dibedakan atas: validitas isi mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; validitas konstruk mengkaji sifat-sifat psikologis yang dapat menjelaskan perbedaan-perbedaan responden dalam hal keragaman pencapaian skor tes dalam instrumen tertentu; dan validitas relasi kriteria membandingkan skor responden dengan satu atau lebih variabel eksternal. Reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman sistematis dalam populasi peserta tes. Reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompok dengan kelompok lainnya. Terdapat beberapa statistik untuk menghitung stabilitas skor tes yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas konsistensi internal. Para profesional pengukuran menempatkan kebanyakan penekanan mereka dalam penilaian pada reliabilitas. Suatu pengakuan umum dalam teori tes bahwa suatu tes akan menjadi valid (benar) jika tes tersebut reliabel. Asumsi ini didasarkan pada suatu model matematika teori tes dimana skor perolehan terdiri atas skor tulen dan galat. Semakin sedikit kesalahan dalam suatu tes (yaitu semakin reliabel) semakin valid skor tes tersebut. Suatu penilaian yang tidak reliabel secara otomatis tidak valid. Instrumen yang memiliki reliabilitas tinggi diperlukan jika hasil penilaian akan digunakan untuk pengambilan keputusan yang penting. Sebaliknya, reliabilitas tingkat menengah diperlukan jika hasil penilain kurang penting, dan penilaian didasarkan atas beberapa sumber informasi. Faktor-faktor yang mempengaruhi reliabilitas suatu instumen adalah: (1) instrumen yang lebih panjang lebih reliabel dari instrumen yang lebih pendek; (2) reliabilitas akan rendah bila penyebaran skor rendah; (3) semakin obyektif penskoran semakin tinggi reliabilitas; (4) reliabilitas instrumen akan berbeda jika diadministrasikan kepada responden yang memiliki sebaran kemampuan yang berbeda; (5) interval waktu pengambilan data dalam penentuan reliabilitas test-retest juga dapat mengaruhi relibiabilitas instrumen. DAFTAR PUSTAKA Aiken, lewis R. Psychological Testing and Assessment. Massachusetts: Allyn and Bacon Inc., 1988. Anastasi, A. Psychological Testing. New York: MacMillan Publishing Company, 1987. Bloom, B. S., Madaus, G.F., & Hastings, J. T. Evaluation to Improve Learning. New York: McGraw-Hill Book Company, 1981. Crocker, Linda and James Algina. Introduction to Classical and Modern Test Theory. Orlando, Florida: Holt, Rinehart and Winston, Inc., 1986.
  • 11. Cronbach, L. J. Essentials of Psychological Testing. Third Edition. New York: Harper & Row, Publishers, 1970. Fredericksen, J.R., & Collins, A. A systems approach to educational testing. Educational Researcher, 1989. Gregory, Robert J. Psychological Testing History, Principles, and Applications. Boston: Allyn & Bacon, 2000. Gronlund, Norman E. Measurement and Evaluation in Teaching. New York: McMillan Publishing Company, 1985. Guilford, J.P. Psychomeric Methods. New Delhi: Tata McGraw-Hill Publishing Co. Ltd., 1982. Hopkins, Charles D., and Richard L. Antes. Classroom Measurement and Evaluation. Itasca, Illinois, 1990. Linn, R. L., & Gronlund, N. E. Measurement and Assessment in Teaching, Seventh Edition. Englewood Cliffs, NJ: Merrill, an imprint of Prentice Hall, 1995. Mehrens, W. A., & Lehmann, I. J. Measurement and Evaluation in Education and Psychology. Fourth Edition. Fort Worth, TX: Holt, Rinehart, and Winston, Inc., 1991. Messick, S. Validity In Educational Measurement. Robert Linn (Ed.). Washington, DC: American Council on Education, 1989. Nitko, A. J. Educational Assessment of Students. Englewood Cliffs, NJ: Merrill an imprint of Prentice Hall, 1996. Nunnaly, Jum C. Jr. Introduction to Psychological Measurement. New York: McGraw-Hill Book Company, 1970. Oosterhof, A. Developing and Using Classroom Assessments. Englewood Cliffs, NJ: Merrill, an imprint of Prentice Hall, 1996. Popham, W. James. Classroom Assessment, What Teachers Need to Know. Boston: Allyn and Bacon, 1998. Shavelson, R., G. Baxter, & J. Pine. Performance Assessments: Political Rhetoric and Measurement Reality. Educational Researcher, 1992. Stapleton, Connie D. Basic Concepts in Exploratory Factor Analysis (EFA) as a Tool to Evaluate Score Validity : A Right-Brained Approach. http://www.utexas.Edu /stat/packs. html., 2002.