Minggu, 02 Desember 2012

Validitas dan Reliabiliras Dalam Evaluasi Pendidikan


  Tes merupakan suatu bentuk alat evaluasi untuk mengukur seberapa jauh tujuan pembelajaran telah tercapai. Hal ini berarti evaluasi terhadap hasil belajar.
  Tes yang baik harus memenuhi beberapa persyaratan :
                (1) harus efisien (parsimony);
                (2) harus baku (standardize);
                (3) mempunyai norma;
                (4) objektif;
                (5) valid (sahih); dan
                (6) reliabel (andal).
  Salah satu bentuk tes hasil belajar adalah Tes Pilihan Ganda.
  Tes pilihan ganda adalah bentuk tes obyektif yang mempunyai ciri utama kunci jawaban jelas dan pasti sehingga hasilnya dapat diskor secara obyektif.
  Hopkins dan Antes (1990) bahwa soal pilihan ganda terdiri dari pernyataan dan pertanyaan yang harus dijawab dengan memilih salah satu dari beberapa alternatif yang tersedia lainnya disebut pengecoh (distractor).
Keunggulan Tes Pilihan Ganda:
(1)    komprehensif, karena dalam waktu tes yang singkat dapat memuat lebih banyak butir/item;
(2)    pemeriksaan jawaban dan pemberian skornya mudah dan cepat;
(3)    penggunaan lembar jawaban menjadikan tes efisien dan hemat bahan;
(4)    kualitas butir/item dapat dianalisis secara empirik;
(5)    objektifitasnya tinggi; dan
(6)    umumnya memiliki reliabilitas yang memuaskan.
Kelemahan Tes Pilihan Ganda:
  1. pembuatannya sulit dan memakan banyak waktu dan tenaga;
  2. tidak mudah ditulis untuk mengungkapkan tingkat kompetensi tinggi; dan
  3. ada kemungkinan jawaban benar semata-mata karena tebakan (guesing).
Analisis tes dapat dilakukan dengan jalan menentukan/menghitung:
  1. validitas butir tes (r butir);
  2. indeks kesukaran/tingkat kesulitan;
  3. daya pembeda;
  4. pengecoh (distractor);
  5. validitas tes; dan
  6. reliabilitas tes.

LANGKAH-LANGKAH MENGANALISIS TES
A. Menghitung Validitas Butir (r butir)
Setiap soal di analisis validitas butirnya dengan jalan sebagai berikut:
1. Tabel skor di urutkan dari total skor terbesar ke terendah
2. Setiap butir soal dihitung r nya dangan rumus:

3. Harga r dikonfirmasikan dengan tabel 
    kritik product moment pada taraf
    singnifikansi
4% dan dk n-1.
Keterangan:
                                0,8≤ r ≤ 1              à sangat tinggi
                                0,6 ≤ r ≤0,79 à tinggi
                                0,4 ≤ r ≤ 0,59 àcukup
                                0,2 ≤ r ≤0,39        à rendah
                                0,0 ≤ r ≤ 0,19 à rendah sekali (Suharsimi, 2003).
  Apabila hasil perhitungan validitas butir untuk soal tertentu diperoleh r butir (r hitung) lebih besar bila dibandingkan dengan r tabel pada taraf signifikansi 5% dan dk n-1 berarti soal tersebut valid.
  Perhitungan serupa dilakukan untuk semua soal yang ada.
  Dari sejumlah soal yang ada maka kemungkinan terdapat beberapa soal yang tidak valid.
B. Menghitung Indeks Kesukaran /Tingkat Kesulitan
               
  1. Hasil tes setelah diperiksa diberi skor untuk jawaban benar 1 dan untuk jawaban salah 0.
  2. Skor yang diperoleh di urut dari skor yang paling tinggi ke skor yang paling rendah serta di bagi 2 menjadi kelompok atas dan kelompok bawah.
  3. Untuk menentukan jumlah kelompok atas dan kelompok bawah dipakai rumus 27% x N.
  4. 4. Bila ada butir soal yang hampir tidak ada peserta tes yang menjawab benar maka butir soal tersebut dikatakan butir yang sukar, dan sebaliknya bila hampir semua peserta tes menjawab benar maka butir tersebut dikatakan mudah.
  5. 5. Batas sulit dan mudah dibuat klasifikasi sbb:
  6.                 Butir dengan indeks kesukaran:
  7.                                 0,00 - 0,30            à tergolong sukar
  8.                                 0,31 - 0,70            à sedang
  9.                                 0,71 - 1,00            à mudah

Rumus untuk menghitung indeks kesukaran (tingkat kesulitan):
A+B
N
Dimana:
                A             = jumlah kelompok atas yang menjawab benar
                B             = jumlah kelompok bawah yang menjawab benar
                N             = jumlah peserta tes
C. Menghitung Daya Beda
  Suatu butir soal harus dapat membedakan kelompok yang pandai dengan kelompok yang lemah dalam hal ini kelompok atas dan kelompok bawah.
  Klasifikasi daya beda adalah sebagai berikut:
                (1) D ≤0,19          à jelek               
                (2) 0,20 - 0,29     à cukup
                (3) 0,30 - 0,39     à baik
                (4) D ≥ 0,40         àbaik sekali
D. Menghitung Reliabilitas
  Nunnally (1981) menyatakan bahwa reliabilitas adalah kestabilan skor  yang diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran ke pengukuran lainnya.
  Sementara itu Allen & Yen (1979) menyatakan bahwa tes dikatakan reliabel jika skor amatan mempunyai korelasi yang tinggi dengan skor sebenarnya.
  Tabel . Interpretasi Reliabilitas Instrumen 
                               
                                Besarnya Nilai r                                Interpretasi
                                0,80 -1,00                                             Tinggi
                                0,60 -0,80                                             Cukup
                                0,40 -0,60                                             Agak rendah
                                0,20 -0,40                                             Rendah                               
                                0,00 –0,20                                            Sangat rendah
E. Distribusi Jawaban
  1. Apabila dilihat strukturnya tes bentuk pilihan ganda berisi permasalahan yang akan ditanyakan dan sejumlah kemungkinan jawaban atau option.
  2. Kemungkinan jawaban itu dibagi dua yaitu kunci jawaban dan pengecoh atau distractor (Surapranata, 2004).
  3. 3. Menurut Azwar (1987) efektivitas distraktor dapat dilihat dari dua kriteria, yaitu  (1) distraktor dipilih oleh peserta tes dari kelompok rendah, dan (2) pemilih distraktor tersebar relatif proporsional pada masing-masing distraktor yang ada.
  4. 4. Lebih lanjut Surapranata (2004) suatu pengecoh dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% peserta tes.
  5. 5. Apabila pengecoh dipilih secara merata, maka termasuk pengecoh yang sangat baik.
  6. 6. Apabila pengecoh lebih banyak dipilih oleh peserta tes dari kelompok atas dibandingkan dengan kelompok bawah, maka termasuk pengecoh yang menyesatkan.
  7. Masrun (1975) mengemukakan distribusi jawaban dapat diketahui:
  8. (1) banyaknya peserta tes yang menjawab betul,
  9. (2) pengecoh yang bagi peserta tes terlalu mencolok kesalahannya sehingga tidak ada yang memilih sebagai jawaban betul,
  10. (3) pengecoh yang menyesatkan, dan
  11. (4) pengecoh yang mempunyai daya tarik bagi peserta tes yang kurang pandai.


Reliabilitas
  Reliabilitas adalah ukuran yang menunjukkan ketetapan alat evaluasi mengukur sesuatu yang  diukur. Macam-macam cara untuk menentukan reliabilitas suatu test, seperti test-retest, bentuk-bentuk ekuivalen (equivalent forms), metode-metode membagi dua (splithalf methods).
  Jika alat ukur telah dinyatakan valid, maka selanjutnya reliabilitas alat ukur tsb diuji. Reliabilitas adalah suatu nilai yang menunjukkan konsistensi suatu alat pengukur di dalam mengukur gejala yang sama.
  Untuk mengukur reliabilitas suatu test buatan peneliti perlu menggunakan cara yang lebih singkat sebagai berikut. Andaikan kita mengadakan test 80 anak dalam materi pelajaran matematika.
  Jika rata-rata hitungnya adalah 50, dan standar deviasinya adalah 7. Kemudian hitunglah reliabilitas itu dengan rumus.

  Dimana :
  r = reliabilitas test
  n = banyak soal dalam test itu
  a = standar deviasi dari nilai-nilai (angka-angka) dari test
  M = rata-rata hitung dari nilai-nilai (angka-angka) dari test
  Maka, r = 0,62
  Jadi test itu reliabilitasnya adalah 0,62 yang berarti tidak begitu tinggi.
  Kita perlu juga meneliti dan mengganti (bila diperlukan) suatu alat evaluasi yang terlalu sukar atau terlalu mudah. Biasanya guru yang berpengalaman secara intuitif dapat melihat mana soal yang terlalu sukar dan mana soal yang terlalu mudah bagi tingkat tertentu. Soal-soal yang terlalu sukar, rata-rata hitung nilai-nilainya rendah, sebarannya (rangenya) berkisar di sekitar nilai yang rendah.
  Sedangkan soal-soal yang terlalu mudah rata-rata hitung nilainya tinggi  dan sebarannya berkisar di sekitar nilai-nilai yang tinggi (besar). Tetapi agar kita lebih yakin dapat melihat mana soal yang terlalu sukar atau terlalu mudah dapat digunakan rumus indeks kesukaran:
       Dimana :
       I.K. = indeks kesukaran
       Nb = banyaknya anak pada kelompok baik yang menjawab benar
       Nj = banyaknya anak pada kelompok jelek yang menjawab benar
       N = banyaknya anak dari kelompok baik atau jelek (25%)
       Misalkan kita lihat soal nomor 10, dimana dari kelompok pandai yang menjawab soal itu benar sebanyak 16 dan dari kelompok jelek sebanyak 4 orang , sehingga:






Validitas
       Instrumen, baik tes maupun non tes à harus:
(1)    memiliki bukti kesahihan (validitas) dan keandalan (reliabilitas);
(2)    hasilnya dapat dibandingkan, dan
(3)    ekonomis.
       Tes yang baik, harus dibuat sedemikian rupa sehingga mudah digunakan.
       Validitas merupakan dukungan bukti dan teori terhadap penafsiran skor tes sesuai dengan tujuan penggunaan tes.
       Validitas merupakan fundamen paling dasar dalam mengembangkan dan mengevaluasi suatu tes.
       Validitas adalah penafsiran skor tes seperti yang tercantum pada tujuan penggunaan tes, bukan tes itu sendiri.
       Apabila skor tes digunakan  ditafsirkan lebih dari satu makna, setiap penafsiran/pemaknaan harus divalidasi.
       Kesahihan isi dilihat dari kisi-kisi, yaitu matrik yang menunjukkan bahan tes serta tingkat berpikir yang terlibat.
       Kesahihan ditelaah sebelum tes digunakan
       Kesahihan konstrak àdari hasil analisis faktor
       Kesahihan konstrak à hasil penggunaan tes, yaitu data empirik
       Kesahihan prediktif à data empirik untuk dapat menghitung.
Contoh:
  1. Mengetahui berat cincin emas à mengg. timbangan emas agar hasilnya valid.
  2. Menghitung waktu tempuh (kota ke kota) à cukup mengg. jam tangan, tetapi untuk mengukur  waktu seorang atlit pelari 100 meter?
  3. Jika ingin mengukur kemampuan bahasa seseorang, maka harus ada definisi tentang bahasa à Tes TOEFL
  4. Valid à untuk mengukur apa, valid bagi siapa
  5. Di dalam bidang ilmu sosial dan psikologi kata validitas atau kesahihan digunakan sekurang-kurangnya dalam tiga konteks, yaitu:
  6. (A) validitas penelitian (research validity),
  7. (B) validitas soal (item validity), dan
  8. (C) validitas alat ukur atau tes (test validity).

Validitas penelitian mengandung dua sisi, yaitu:
       (1) validitas internal, dan
       (2) validitas eksternal.
Validitas internal penelitian mempersoalkan kesesuaian antara data hasil penelitian dengan keadaan yang sebenarnya
                à Mengembangkan instrumen pengambil data yang memenuhi persyaratan ilmiah.
Validitas Internal digunakan untuk menjawab pertanyaan apakah penelitian sudah menggunakan konsep yang seharusnya (actually).
  1. Content Validity
  2. Criterion-related validity
  3. Construct validity
                Validitas internal biasanya membantu mengatasi kelemahan validitas eksternal.
                Bila data yang dicapai dapat digeneralisasi kesemua objek, situasi dan waktu yang berbeda.
                1. Pemilihan sampel yang tidak bias
                2. Jumlah sampel besar
                3. Melibatkan banyak situasi
                4. Periode waktu yang relatif panjang

Validitas soal (item  validity)
       Validitas soal adalah derajat kesesuaian antara sesuatu soal dengan perangkat soal-soal lain.
       Ukuran validitas soal adalah korelasi antara skor pada soal itu dengan skor pada perangkat soal (item-total correlation) à dihitung dg. korelasi biserial. Isi validitas soal adalah daya pembeda soal (item discreminating power).
       Informasi yang dimiliki hanyalah kumpulan atau perangkat soal itu bersama-sama mengukur sesuatu.

Validitas alat ukur/tes
       Validitas alat ukur adalah "sejauhmana tes itu mengukur apa yang dimaksudkan untuk diukur“.
       Validitas tes pada dasarnya menunjuk kepada derajat fungsi mengukurnya suatu tes, atau derajat kecermatan ukurnya sesuatu tes.
Validitas isi
       Tipe Validitas ini merupakan validitas yang diestimasi lewat pengujian terhadap isi tes dengan analisis rasional (profesional judgment), "sejauhmana item-item dalam tes mencakup keseluruhan kawasan isi objek yang hendak diukur" atau "sejauhmana isi tes mencerminkan ciri atribut yang hendak diukur".
       Pengertian "mencakup keseluruhan kawasan" isi tidak saja menunjukkan bahwa tes tersebut harus memuat isi yang komprehensif dan relevan pada batasan tujuan ukur.
       Estimasi validitas ini tidak melibatkan perhitungan statistik apapun melainkan hanya analisis rasional maka tidaklah diharapkan setiap orang akan sama sependapat mengenai sejauhmana validitas isi suatu tes telah tercapai.
Validitas isi terbagi menjadi dua tipe, yaitu face validity (validitas muka) dan logical validity (validitas logik).

       a. Validitas muka adalah tipe validitas yang paling rendah signifikansinya karena hanya didasarkan pada penilaian terhadap format penampilan (appearance) tes.
       Apabila penampilan tes telah meyakinkan dan memberikan kesan mampu mengungkap apa yang hendak diukur maka dapat dikatakan bahwa validitas muka telah terpenuhi.
       b. Validitas logik disebut sebagai validitas sampling (sampling validity).
       Validitas ini menunjuk pada sejauhmana isi tes merupakan representasi dari ciri-ciri atribut yang hendak diukur.
       Untuk memperoleh validitas logik yang tinggi suatu tes harus dirancang, hanya berisi item yang relevan.
       Suatu objek ukur yang hendak diungkap haruslah dibatasi kawasan perilaku secara seksama dan konkret à tidak relevan terikut dan tertinggalnya bagian penting dari objek ukur.
VALIDITAS KONSTRUK
       Merupakan tipe validitas yang menunjukkan sejauhmana tes mengungkap suatu trait atau konstruk teoretik yang hendak diukur.
       Pengujian validitas konstrak merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait yang diukur.
       Walaupun pengujian validitas konstrak biasanya memerlukan teknik analisis statistika yang lebih kompleks, namun hasil estimasi validitas konstruk tidak dinyatakan dalam bentuk koefisien validitas.
VALIDITAS BERDASARKAN KRITERIA
       Prosedur pendekatan validitas berdasar kriteria menghendaki tersedianya kriteria eksternal yang dapat dijadikan dasar pengujian skor tes.
       Suatu kriteria adalah variabel perilaku yang akan diprediksikan oleh skor tes atau berupa suatu ukuran lain yang relevan.
         Untuk melihat tingginya validitas berdasar kriteria dilakukan komputasi korelasi antara skor tes dengan skor kriteria.
         Koefisien ini merupakan koefisien validitas bagi tes yang bersangkutan, yaitu rxy, dimana X melambangkan skor tes dan Y melambangkan skor kriteria.
          Prosedur  validasi berdasar kriteria menghasilkan dua macam validitas, yaitu:
        (1) validitas prediktif (predictive validity) dan
        (2) validitas konkuren (concurrent validity).
       Validitas prediktif sangat penting artinya bila tes dimaksudkan untuk berfungsi sebagai prediktor bagi performansi di waktu yang akan datang. Contoh situasi yang menghendaki adanya prediksi performansi ini antara lain dalam seleksi mahasiswa baru.
       Tes yang digunakan untuk seleksi masuk perguruan tinggi, untuk menguji validitas prediktif  tes seleksi tersebut diperlukan kriteria performansi yang akan datang, yang dalam hal ini adalah indeks prestasi (IP) setelah calon mahasiswa diterima menjadi mahasiswa dan menempuh pelajaran beberapa semester atau beberapa tahun kemudian.
       Tes seleksi masuk perguruan tinggi tersebut memiliki validitas yang tinggi apabila tes tersebut bila dikorelasikan dengan IP memiliki koefisien korelasi yang tinggi.
       Koefisien korelasi antara skor tes dan skor kriteria merupakan indikator mengenai saling hubungan antara skor tes dengan skor kriteria sebagai koefisien validitas prediktif.
       Prosedur validasi prediktif pada umumnya memerlukan waktu yang lama dan mungkin pula biaya yang tidak sedikit karena prosedur ini pada dasarnya bukan pekerjaan yang dianggap selesai karena lebih merupakan kontinyuitas dalam proses pengembangan tes.
       Validitas konkuren adalah apabila skor tes dan skor kriterianya dapat diperoleh dalam waktu yang sama, maka korelasi antara kedua skor.
       Misalnya dalam penyusunan suatu skala inteligensi. Maka dapat menguji validitas skala inteligensi yang sedang disusun dengan cara menghitung korelasi antara skor skala tersebut dengan skor pada tes inteligensi lain yang telah valid, misalnya Skala Wechsler.
       Di samping itu, estimasi validitas skala inteligensi tersebut dapat pula diperoleh lewat perhitungan koefisien korelasinya dengan skor pada variabel lain yang relevan, yaitu yang dapat dianggap sebagai indikator tingkat inteligensi.


  Langkah dalam melakukan uji validitas dan reliabilitas internal adalah sebagai berikut:
  1. Cobalah item di lapangan kepada paling sedikit 30 orang responden (batas sampel besar dalam statistik)
  2. Tabulasi data yang telah masuk
  3. Ujilah validitas dan reliabilitasnya
                -Uji validitas dilakukan dengan mengkorelasikan skor item dengan skor total. 
                -Korelasi Rank Spearman jika data yang diperoleh adalah data ordinal,
                -sedangkan jika data yang diperoleh data interval kita bisa menggunakan korelasi Product Moment. 
                -Sedangkan uji reliabilitas yang paling sering digunakan adalah  uji, Cronbach Alpha, Hoyt dan Spearman Brown