Tes merupakan suatu bentuk alat evaluasi
untuk mengukur seberapa jauh tujuan pembelajaran telah tercapai. Hal ini
berarti evaluasi terhadap hasil belajar.
Tes yang baik harus memenuhi beberapa
persyaratan :
(1)
harus efisien (parsimony);
(2)
harus baku (standardize);
(3)
mempunyai norma;
(4)
objektif;
(5)
valid (sahih); dan
(6)
reliabel (andal).
Salah satu bentuk tes hasil belajar adalah
Tes Pilihan Ganda.
Tes pilihan ganda adalah bentuk tes
obyektif yang mempunyai ciri utama kunci jawaban jelas dan pasti
sehingga hasilnya dapat diskor secara obyektif.
Hopkins dan Antes (1990) bahwa soal
pilihan ganda terdiri dari pernyataan dan pertanyaan yang harus dijawab dengan memilih
salah satu dari beberapa alternatif yang tersedia lainnya disebut pengecoh
(distractor).
Keunggulan Tes Pilihan Ganda:
(1) komprehensif, karena dalam waktu tes yang
singkat dapat memuat lebih banyak butir/item;
(2) pemeriksaan jawaban dan pemberian skornya
mudah dan cepat;
(3) penggunaan lembar jawaban menjadikan tes
efisien dan hemat bahan;
(4) kualitas butir/item dapat dianalisis
secara empirik;
(5) objektifitasnya tinggi; dan
(6) umumnya memiliki reliabilitas yang
memuaskan.
Kelemahan Tes Pilihan Ganda:
- pembuatannya sulit dan memakan banyak waktu dan tenaga;
- tidak mudah ditulis untuk mengungkapkan tingkat kompetensi tinggi; dan
- ada kemungkinan jawaban benar semata-mata karena tebakan (guesing).
Analisis tes dapat dilakukan dengan jalan
menentukan/menghitung:
- validitas butir tes (r butir);
- indeks kesukaran/tingkat kesulitan;
- daya pembeda;
- pengecoh (distractor);
- validitas tes; dan
- reliabilitas tes.
LANGKAH-LANGKAH MENGANALISIS TES
A. Menghitung Validitas Butir (r
butir)
Setiap soal di analisis validitas butirnya
dengan jalan sebagai berikut:
1. Tabel skor di urutkan
dari total skor terbesar ke terendah
2. Setiap butir soal dihitung r nya dangan
rumus:
3. Harga r dikonfirmasikan dengan
tabel
kritik product moment pada taraf
singnifikansi 4% dan dk n-1.
kritik product moment pada taraf
singnifikansi 4% dan dk n-1.
Keterangan:
0,8≤ r ≤ 1 à sangat tinggi
0,6
≤ r ≤0,79 à tinggi
0,4
≤ r ≤ 0,59 àcukup
0,2
≤ r ≤0,39 à rendah
0,0
≤ r ≤ 0,19 à rendah
sekali (Suharsimi, 2003).
Apabila hasil perhitungan validitas butir
untuk soal tertentu diperoleh r butir (r hitung) lebih besar bila dibandingkan
dengan r tabel pada taraf signifikansi 5% dan dk n-1 berarti soal tersebut valid.
Perhitungan serupa dilakukan untuk semua
soal yang ada.
Dari sejumlah soal yang ada maka
kemungkinan terdapat beberapa soal yang tidak valid.
B. Menghitung Indeks Kesukaran /Tingkat
Kesulitan
- Hasil tes setelah diperiksa diberi skor untuk jawaban benar 1 dan untuk jawaban salah 0.
- Skor yang diperoleh di urut dari skor yang paling tinggi ke skor yang paling rendah serta di bagi 2 menjadi kelompok atas dan kelompok bawah.
- Untuk menentukan jumlah kelompok atas dan kelompok bawah dipakai rumus 27% x N.
- 4. Bila ada butir soal yang hampir tidak ada peserta tes yang menjawab benar maka butir soal tersebut dikatakan butir yang sukar, dan sebaliknya bila hampir semua peserta tes menjawab benar maka butir tersebut dikatakan mudah.
- 5. Batas sulit dan mudah dibuat klasifikasi sbb:
- Butir dengan indeks kesukaran:
- 0,00 - 0,30 à tergolong sukar
- 0,31 - 0,70 à sedang
- 0,71 - 1,00 à mudah
Rumus untuk menghitung indeks kesukaran
(tingkat kesulitan):
A+B
N
Dimana:
A = jumlah kelompok atas yang
menjawab benar
B = jumlah kelompok bawah yang
menjawab benar
N = jumlah peserta tes
C. Menghitung Daya Beda
Suatu butir soal harus dapat membedakan
kelompok yang pandai dengan kelompok yang lemah dalam hal ini kelompok atas dan
kelompok bawah.
Klasifikasi daya beda adalah sebagai
berikut:
(1)
D ≤0,19 à jelek
(2)
0,20 - 0,29 à cukup
(3)
0,30 - 0,39 à baik
(4)
D ≥ 0,40 àbaik sekali
D. Menghitung Reliabilitas
Nunnally (1981) menyatakan bahwa
reliabilitas adalah kestabilan skor yang
diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi
yang berbeda atau dari satu pengukuran ke pengukuran lainnya.
Sementara itu Allen & Yen (1979)
menyatakan bahwa tes dikatakan reliabel jika skor amatan mempunyai korelasi
yang tinggi dengan skor sebenarnya.
Tabel . Interpretasi Reliabilitas Instrumen
Besarnya
Nilai r Interpretasi
0,80
-1,00 Tinggi
0,60
-0,80 Cukup
0,40
-0,60 Agak
rendah
0,20
-0,40 Rendah
0,00
–0,20 Sangat
rendah
E. Distribusi Jawaban
- Apabila dilihat strukturnya tes bentuk pilihan ganda berisi permasalahan yang akan ditanyakan dan sejumlah kemungkinan jawaban atau option.
- Kemungkinan jawaban itu dibagi dua yaitu kunci jawaban dan pengecoh atau distractor (Surapranata, 2004).
- 3. Menurut Azwar (1987) efektivitas distraktor dapat dilihat dari dua kriteria, yaitu (1) distraktor dipilih oleh peserta tes dari kelompok rendah, dan (2) pemilih distraktor tersebar relatif proporsional pada masing-masing distraktor yang ada.
- 4. Lebih lanjut Surapranata (2004) suatu pengecoh dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% peserta tes.
- 5. Apabila pengecoh dipilih secara merata, maka termasuk pengecoh yang sangat baik.
- 6. Apabila pengecoh lebih banyak dipilih oleh peserta tes dari kelompok atas dibandingkan dengan kelompok bawah, maka termasuk pengecoh yang menyesatkan.
- Masrun (1975) mengemukakan distribusi jawaban dapat diketahui:
- (1) banyaknya peserta tes yang menjawab betul,
- (2) pengecoh yang bagi peserta tes terlalu mencolok kesalahannya sehingga tidak ada yang memilih sebagai jawaban betul,
- (3) pengecoh yang menyesatkan, dan
- (4) pengecoh yang mempunyai daya tarik bagi peserta tes yang kurang pandai.
Reliabilitas
Reliabilitas adalah ukuran yang menunjukkan ketetapan alat
evaluasi mengukur sesuatu yang diukur.
Macam-macam cara untuk menentukan reliabilitas suatu test, seperti test-retest,
bentuk-bentuk ekuivalen (equivalent forms), metode-metode membagi dua
(splithalf methods).
Jika alat ukur telah dinyatakan valid,
maka selanjutnya reliabilitas alat ukur tsb diuji. Reliabilitas adalah suatu
nilai yang menunjukkan konsistensi suatu alat pengukur di dalam mengukur gejala
yang sama.
Untuk mengukur reliabilitas suatu test
buatan peneliti perlu menggunakan cara yang lebih singkat sebagai berikut.
Andaikan kita mengadakan test 80 anak dalam materi pelajaran matematika.
Jika rata-rata hitungnya adalah 50, dan
standar deviasinya adalah 7. Kemudian hitunglah reliabilitas itu dengan rumus.
Dimana :
r = reliabilitas test
n = banyak soal dalam test itu
a = standar deviasi dari nilai-nilai
(angka-angka) dari test
M = rata-rata hitung dari nilai-nilai
(angka-angka) dari test
Maka, r = 0,62
Jadi test itu reliabilitasnya adalah 0,62
yang berarti tidak begitu tinggi.
Kita perlu juga meneliti dan mengganti
(bila diperlukan) suatu alat evaluasi yang terlalu sukar atau terlalu mudah.
Biasanya guru yang berpengalaman secara intuitif dapat melihat mana soal yang
terlalu sukar dan mana soal yang terlalu mudah bagi tingkat tertentu. Soal-soal
yang terlalu sukar, rata-rata hitung nilai-nilainya rendah, sebarannya
(rangenya) berkisar di sekitar nilai yang rendah.
Sedangkan soal-soal yang terlalu mudah
rata-rata hitung nilainya tinggi dan
sebarannya berkisar di sekitar nilai-nilai yang tinggi (besar). Tetapi agar
kita lebih yakin dapat melihat mana soal yang terlalu sukar atau terlalu mudah
dapat digunakan rumus indeks kesukaran:
• Dimana :
• I.K. = indeks kesukaran
• Nb = banyaknya anak pada kelompok baik
yang menjawab benar
• Nj = banyaknya anak pada kelompok jelek
yang menjawab benar
• N = banyaknya anak dari kelompok baik atau
jelek (25%)
• Misalkan kita lihat soal nomor 10, dimana
dari kelompok pandai yang menjawab soal itu benar sebanyak 16 dan dari kelompok
jelek sebanyak 4 orang , sehingga:
Validitas
• Instrumen, baik tes maupun non tes à harus:
(1) memiliki bukti kesahihan (validitas) dan
keandalan (reliabilitas);
(2) hasilnya dapat dibandingkan, dan
(3) ekonomis.
• Tes yang baik, harus dibuat sedemikian rupa sehingga mudah
digunakan.
• Validitas
merupakan dukungan bukti dan teori terhadap penafsiran skor tes sesuai dengan
tujuan penggunaan tes.
• Validitas
merupakan fundamen paling dasar dalam mengembangkan dan mengevaluasi suatu tes.
• Validitas
adalah penafsiran skor tes seperti yang tercantum pada tujuan penggunaan tes,
bukan tes itu sendiri.
• Apabila skor tes digunakan
ditafsirkan lebih dari satu makna, setiap penafsiran/pemaknaan harus
divalidasi.
• Kesahihan isi dilihat dari kisi-kisi,
yaitu matrik yang menunjukkan bahan tes serta tingkat berpikir yang terlibat.
• Kesahihan ditelaah sebelum tes digunakan
• Kesahihan konstrak àdari hasil analisis faktor
• Kesahihan konstrak à hasil penggunaan tes, yaitu data empirik
• Kesahihan prediktif à data empirik untuk dapat menghitung.
Contoh:
- Mengetahui berat cincin emas à mengg. timbangan emas agar hasilnya valid.
- Menghitung waktu tempuh (kota ke kota) à cukup mengg. jam tangan, tetapi untuk mengukur waktu seorang atlit pelari 100 meter?
- Jika ingin mengukur kemampuan bahasa seseorang, maka harus ada definisi tentang bahasa à Tes TOEFL
- Valid à untuk mengukur apa, valid bagi siapa
- Di dalam bidang ilmu sosial dan psikologi kata validitas atau kesahihan digunakan sekurang-kurangnya dalam tiga konteks, yaitu:
- (A) validitas penelitian (research validity),
- (B) validitas soal (item validity), dan
- (C) validitas alat ukur atau tes (test validity).
Validitas penelitian mengandung
dua sisi, yaitu:
• (1) validitas internal, dan
• (2) validitas eksternal.
Validitas internal penelitian mempersoalkan kesesuaian antara data
hasil penelitian dengan keadaan yang sebenarnya
à Mengembangkan instrumen pengambil data
yang memenuhi persyaratan ilmiah.
Validitas Internal digunakan untuk
menjawab pertanyaan apakah penelitian sudah menggunakan konsep yang seharusnya
(actually).
- Content Validity
- Criterion-related validity
- Construct validity
Validitas internal biasanya
membantu mengatasi kelemahan validitas eksternal.
Bila data yang dicapai dapat digeneralisasi kesemua objek, situasi
dan waktu yang berbeda.
1. Pemilihan sampel yang tidak
bias
2. Jumlah sampel besar
3. Melibatkan banyak situasi
4. Periode waktu yang relatif
panjang
Validitas
soal (item validity)
• Validitas soal adalah derajat kesesuaian
antara sesuatu soal dengan perangkat soal-soal lain.
• Ukuran validitas soal adalah korelasi
antara skor pada soal itu dengan skor pada perangkat soal (item-total
correlation) à dihitung
dg. korelasi biserial. Isi validitas soal adalah daya pembeda soal (item
discreminating power).
• Informasi yang dimiliki hanyalah kumpulan
atau perangkat soal itu bersama-sama mengukur sesuatu.
Validitas alat ukur/tes
• Validitas alat ukur adalah "sejauhmana tes itu mengukur
apa yang dimaksudkan untuk diukur“.
• Validitas tes pada dasarnya menunjuk kepada derajat fungsi mengukurnya
suatu tes, atau derajat kecermatan ukurnya sesuatu tes.
Validitas isi
• Tipe Validitas ini merupakan validitas
yang diestimasi lewat pengujian terhadap isi tes dengan analisis rasional
(profesional judgment), "sejauhmana item-item dalam tes mencakup
keseluruhan kawasan isi objek yang hendak diukur" atau "sejauhmana
isi tes mencerminkan ciri atribut yang hendak diukur".
• Pengertian "mencakup keseluruhan
kawasan" isi tidak saja menunjukkan bahwa tes tersebut harus memuat
isi yang komprehensif dan relevan pada batasan tujuan ukur.
• Estimasi validitas ini tidak melibatkan
perhitungan statistik apapun melainkan hanya analisis rasional maka
tidaklah diharapkan setiap orang akan sama sependapat mengenai sejauhmana
validitas isi suatu tes telah tercapai.
Validitas isi terbagi menjadi dua tipe, yaitu face validity
(validitas muka) dan logical validity (validitas logik).
• a. Validitas muka adalah tipe validitas yang paling rendah
signifikansinya karena hanya didasarkan pada penilaian terhadap format
penampilan (appearance) tes.
• Apabila penampilan tes telah
meyakinkan dan memberikan kesan mampu mengungkap apa yang hendak diukur maka
dapat dikatakan bahwa validitas muka telah terpenuhi.
• b. Validitas logik disebut sebagai validitas sampling
(sampling validity).
• Validitas ini menunjuk pada sejauhmana isi
tes merupakan representasi dari ciri-ciri atribut yang hendak diukur.
• Untuk memperoleh validitas logik yang
tinggi suatu tes harus dirancang, hanya berisi item yang relevan.
• Suatu objek ukur yang hendak diungkap haruslah
dibatasi kawasan perilaku secara seksama dan konkret à tidak relevan terikut dan tertinggalnya bagian
penting dari objek ukur.
VALIDITAS KONSTRUK
• Merupakan tipe validitas yang menunjukkan
sejauhmana tes mengungkap suatu trait atau konstruk teoretik yang hendak
diukur.
• Pengujian validitas konstrak merupakan
proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait
yang diukur.
• Walaupun pengujian validitas konstrak
biasanya memerlukan teknik analisis statistika yang lebih kompleks, namun hasil
estimasi validitas konstruk tidak dinyatakan dalam bentuk koefisien validitas.
VALIDITAS BERDASARKAN KRITERIA
• Prosedur pendekatan validitas berdasar
kriteria menghendaki tersedianya kriteria eksternal yang dapat dijadikan dasar
pengujian skor tes.
• Suatu kriteria adalah variabel perilaku
yang akan diprediksikan oleh skor tes atau berupa suatu ukuran lain yang
relevan.
• Untuk
melihat tingginya validitas berdasar kriteria dilakukan komputasi korelasi
antara skor tes dengan skor kriteria.
• Koefisien ini merupakan koefisien validitas
bagi tes yang bersangkutan, yaitu rxy, dimana X melambangkan skor tes dan Y
melambangkan skor kriteria.
• Prosedur
validasi berdasar
kriteria menghasilkan dua macam validitas, yaitu:
• (1)
validitas prediktif (predictive validity) dan
• (2)
validitas konkuren (concurrent validity).
• Validitas prediktif sangat penting artinya bila tes
dimaksudkan untuk berfungsi sebagai prediktor bagi performansi di waktu yang
akan datang. Contoh situasi yang menghendaki adanya prediksi performansi ini
antara lain dalam seleksi mahasiswa baru.
• Tes yang digunakan untuk seleksi masuk
perguruan tinggi, untuk menguji validitas prediktif tes seleksi tersebut diperlukan kriteria
performansi yang akan datang, yang dalam hal ini adalah indeks prestasi (IP)
setelah calon mahasiswa diterima menjadi mahasiswa dan menempuh pelajaran
beberapa semester atau beberapa tahun kemudian.
• Tes seleksi masuk perguruan tinggi
tersebut memiliki validitas yang tinggi apabila tes tersebut bila dikorelasikan
dengan IP memiliki koefisien korelasi yang tinggi.
• Koefisien korelasi antara skor tes dan
skor kriteria merupakan indikator mengenai saling hubungan antara skor tes
dengan skor kriteria sebagai koefisien validitas prediktif.
• Prosedur validasi prediktif pada umumnya
memerlukan waktu yang lama dan mungkin pula biaya yang tidak sedikit karena
prosedur ini pada dasarnya bukan pekerjaan yang dianggap selesai karena lebih
merupakan kontinyuitas dalam proses pengembangan tes.
• Validitas konkuren adalah apabila skor tes
dan skor kriterianya dapat diperoleh dalam waktu yang sama, maka korelasi
antara kedua skor.
• Misalnya dalam penyusunan suatu skala
inteligensi. Maka dapat menguji validitas skala inteligensi yang sedang disusun
dengan cara menghitung korelasi antara skor skala tersebut dengan skor pada tes
inteligensi lain yang telah valid, misalnya Skala Wechsler.
• Di samping itu, estimasi validitas skala
inteligensi tersebut dapat pula diperoleh lewat perhitungan koefisien
korelasinya dengan skor pada variabel lain yang relevan, yaitu yang dapat
dianggap sebagai indikator tingkat inteligensi.
Langkah dalam melakukan uji
validitas dan reliabilitas internal adalah sebagai berikut:
- Cobalah item di lapangan kepada paling sedikit 30 orang responden (batas sampel besar dalam statistik)
- Tabulasi data yang telah masuk
- Ujilah validitas dan reliabilitasnya
-Uji validitas dilakukan dengan
mengkorelasikan skor item dengan skor total.
-Korelasi Rank Spearman jika data yang diperoleh adalah data ordinal,
-sedangkan jika data yang diperoleh data interval kita bisa menggunakan
korelasi Product Moment.
-Sedangkan uji reliabilitas yang paling sering
digunakan adalah uji, Cronbach Alpha,
Hoyt dan Spearman Brown