Sebelum memahami karakteristik tes bahasa yang baik silahkan membaca jenis tes bahasa berdasarkan sasaran dan tes bahasa khusus DISINI.
Untuk memenuhi syarat-syarat tes yang baik, tes dapat menunaikan fungsinya dalam umpan balik kepada penyelenggaraan pembelajaran apabila sesuai (valid) dengan kemampuan yang menjadi sasaran tes, memberikan hasil yang dapat diandalkan (reliable) dan secara teknis dapat dilaksanakan tanpa terlalu banyak kesulitan (praktis).
A. Validitas
Gronlund (1985), dalam Surapranata (2005), menyatakan bahwa validitas berkaitan dengan hasil suatu alat ukur, menunjukkan tingkatan, dan bersifat khusus sesuai dengan tujuan pengukuran yang akan dilakukan. Hal senada diungkapkan oleh Mardapi (2008) bahwa pengertian validitas suatu tes mengacu tingkat kebenaran penafsiran skor tes. Penafsiran ini berdasarkan pada tujuan penggunaan tes. Dalam proses validasi, sebenarnya kita tidak bertujuan melakukan validasi tes tetapi melakukan validasi terhadap interpretasi data yang diperoleh melalui prosedur tertentu.
Jadi, Istilah validitas pada dasarnya berkaitan dengan hasil tes. Namun, masih banyak terdapat kerancuan bahwa istilah validitas cenderung dikaitkan dengan tes itu sendiri daripada dikaitkan dengan hasil tes. Sementara itu, M. Ainin dkk. (2006) menegaskan bahwa suatu tes sebenarnya tidak mempunyai sifat valid. Jadi, pertanyaan: “Apakah tes ini valid?” tidaklah tepat. Pertanyaan yang tepat adalah: “Bagaimanakah tingkat validitas hasil/skor yang diperoleh dari tes ini?” Tambahan pula, validitas bukanlah ukuran yang bersifat dikotomis (valid – tidak valid), melainkan ditunjukkan dalam bentuk rentangan atau tingkatan (sangat tinggi, tinggi, sedang, rendah, sangat rendah).
Hasil suatu tes atau pengukuran dikatakan valid apabila hasil tes atau pengukuran tersebut benar-benar menggambarkan kemampuan yang diukur/diteskan. Misalnya, jika seorang guru bermaksud mengukur kemampuan membaca siswa, maka ia menyusun tes yang terdiri atas teks bacaan dan pertanyaan-pertanyaan tentang kemampuan membaca. Melalui pertanyaan-pertanyaan tersebut, ia berusaha menanyakan isi teks bacaan, seperti (a) ide pokok; (b) ide penunjang; dan (c) fakta. Dengan tes tersebut, akan dapat diperoleh hasil tes dengan tingkat validitas yang relatif tinggi.
Di dalam ilmu psikologi bila berbicara mengenai validitas, maka akan dibicarakan validitas dalam konteks : Penelitian (research validity), soal (item validity) dan validitas alat ukur atau tes. Validitas penelitian berbicara mengenai sejauh mana kesesuaian hasil penelitian dengan keadaan yang sebenarnya atau sejauh mana hasil penelitian mencerminkan keadaan yang sebenarnya. Validitas penelitian dapat dilihat dari dua sudut pandang, yaitu :
Validitas internal
Validitas internal berbicara mengenai sejauh mana kesesuaian antara data hasil penelitian dan keadaan sebenarnya. Validitas ini diperoleh dengan penggunaan instrument pengambil data yang memenuhi persyaratan ilmiah (valid dan reliable)
Validitas eksternal
Validitas eksternal membicarakan sejauh mana kesesuaian antara generalisasi hasil penelitian dan keadaan yang sebenarnya. Validitas ini dapat terpenuhi dengan baik bila pengambilan sampel yang kita lakukan representative.
Adapun validitas soal berbicara mengenai sejauh mana kesesuaian antara sebuah soal dan perangkat soal-soal lain. Hal yang perlu diperhatikan dalam membicarakan validitas soal adalah tentang daya beda soal (butir) dan taraf kesukaran soal (butir). Adapun validitas tes membicarakan sejauh mana derajat kecermatan pengukuran dengan alat tes.Apakah alat tes yang ada telah mengukur sasaran yang akan diukur. Dalam validitas tes terdapat tipe-tipe validitas. Menurut The American psychological association, the American education research association dan The national council on measurement used in education (Kerliager 1986). Di antaranya ialah validitas isi (content validity), validitas kriteria (criterion related validity) dan validitas konsepsi (construct validity).
Validitas isi berfungsi untuk mengetahui apakah alat ukur atau tes yang dibuat telah memenuhi validitas isi, maka dapat dilakukan dengan meminta penilaian dari orang yang kompeten (pakar). Validitas isi merupakan kerepresentatifan butir-butir dalam instrument pengukuran. Apakah butir-butir yang ada mewakili sesuatu yang akan diukur atau tidak. Validitas isi memiliki dua jenis:
Validitas muka/tampang (face validity)
Validitas ini sesungguhnya hanya didasarkan pada penilaian terhadap format tampilan dari alat ukur yang ada. Validitas ini dianggap telah terpenuhi apabila penampilan alat ukur atau tes telah meyakinkan dan memberi kesan mampu mengungkapkan apa yang hendak diukur.
Validitas logis (logical validity/sampling validity)
Validitas ini membicarakan sejauh mana isi alat ukur atau tes yang ada telah merepresentasikan ciri-ciri atribut yang hendak diukur. Butir atau item yang dipergunakan sudah relevan untuk mengukur hal yang akan diukur.
Adapun validitas kriteria didapat dari hasil membandingkan skor pengukuran atau tes yang dilakukan dengan suatu kriteria yang telah ada. Validitas kriteria pun dibagi menjadi dua yaitu:
Validitas prediktif (predictive validity)
Validitas ini sangat penting artinya bila alat ukur atau tes yang dimaksud dapat memprediksi performa di waktu yang akan datang.
Validitas serentak (concurrent validity)
Validitas ini terpenuhi jika skor alat ukur atau tes dan skor kriteria yang telah ditetapkan dapat diperoleh dalam waktu yang bersamaan..
Sedangkan dalam validitas konsepsi membicarakan sejauh mana alat ukur atau tes yang ada apakah sudah benar-benar mengungkapkan suatu konsepsi teoritis yang diukur. Dalam rangka untuk memenuhi validitas konsepsi, maka akan terus-menerus dilakukan pengujian mengenai konsep yang diukur.
Validitas factorial (factorial validity)
Dalam kehidupan sehari-hari, perilaku kita (manusia) memiliki banyak variasi atau ragam yang dapat dimunculkan. Di antara sekian banyak variasi atau ragam perilaku yang ada, dapat ditemukan atau didefinisikan faktor-faktor apa saja yang mendasari variasi atau ragam tersebut dengan bantuan analisis faktor.
Validitas multiciri dan multimerode (multitrait-multimethod)
Dalam validitas multiciri dan multimetode ini digunakan suatu referensi pembanding, yaitu : lebih dari satu ciri (sifat) dan lebih dari satu metode.
Validasi konvergen.
Yaitu suatu tes harus berkorelasi tinggi dengan variable-variabel yang secara teoritis harus berkorelasi tinggi (terhadap kesesuaian dengan referensi yang cocok). Validitas tinggi bila cocok, dan sebaliknya validitas rendah bila tidak cocok.
Validasi diskriminan
Yaitu sesuatu tes harus tidak berkorelasi dengan variable-variabel lain yang secara teoretis tidak berkorelasi (terdapat perbedaan dengan referensi yang beda). Validitas tinggi bila beda, dan sebaliknya validitas rendah bila tidak beda.
B. Reliabilitas
Istilah reliabilitas bermakna keajegan (konsisten), yang dalam bahasa Arab disebut (الثبات). Surapranata (2005) menyatakan bahwa reliabilitas merupakan kestabilan skor yang diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran ke pengukuran lainnya. Jadi, istilah reliabilitas berkaitan dengan konsistensi hasil tes.
Jika kita menyusun atau memiliki suatu alat tes, kita perlu mempertanyakan, apakah alat tes tersebut terpercaya?. Jika tes itu diujicobakan lebih dari satu kali kepada subjek yang sama, apakah dapat memberikan hasil yang kurang lebih sama?; artinya, walau terjadi perbedaan, perbedaan itu tidak signifikan. Beberapa pertanyaan tersebut berkaitan dengan masalah ketepercayaan (reliabilitas) tes. Jika sebuah tes diujicobakan lebih dari satu kali kepada subjek yang sama dapat menghasilkan data yang kurang lebih sama, tes itu dikatakan terpercaya. Alat tes tersebut dapat mengukur secara konsisten, secara ajeg adanya sifat keajegan inilah terutama yang dituntut oleh sebuah tes untuk dapat disebut tercepercaya. Kriteria ketepercayaan tes menunjuk pada pengertian apakah suatu tes dapat mengukur secara konsisten sesuatu yang akan diukur dari waktu ke waktu (Tuchman, 1975 :254).
Pengertian konsisten dalam ketepercayaan tes berhubungan dengan hal-hal : (1) tes dapat memberikan hasil yang relatif tetap terhadap sesuatu yang diukur, (2) jawaban siswa terhadap butir-butir tes secara relatif tetap, dan (3) hasil tes diperiksa oleh siapa pun juga akan menghasilkan skor yang kurang lebih sama. Ketiga hal tersebut merupakan sesuatu yang akan mempengaruhi tinggi atau rendahnya tingkat ketepercayaan tes. Perlu diketahui bahwa tidak ada satu pun instrumen tes dan atau prosedur pengukuran yang benar-benar sempurna walau hal itu telah diusahakan secara baik. Suatu pengukuran terhadap kemampuan tertentu yang dilakukan dua kali dalam kondisi dan subjek yang sama, tidak akan menghasilkan data yang persis sama. Misalnya, kita melakukan pengukuran kemampuan membaca pemahaman siswa. Dengan melakukan pengukuran, kita bermaksud mendapatkan skor yang sesungguhnya yang dicapai seorang siswa, misalnya skor kemampuan membaca pemahaman tersebut.
Paling tidak ada beberapa faktor yang mempengaruhi reliabilitas, namun secara garis besar, dapat dikelompokkan menjadi dua, yaitu: (1) faktor instrument, mencakup jumlah butir soal, homogenitas isi butir soal, dan tingkat kesulitan soal; dan (2) faktor subjek/individu, mencakup heterogenitas kemampuan individu, kemampuan memahami cara mengerjakan soal, dan motivasi, kesehatan, dan kelelahan individu.
Koefisien Reliabilitas
Tinggi rendahnya reliabilitas alat ukur atau tes tidak dapat ditentukan dengan pasti. Namun demikian, kita masih dapat melakukan estimasi terhadap tinggi rendahnya reliabilitas suatu alat ukur. Ada beberapa pendekatan yang sering dilakukan untuk mencari koefisien reliabilitas suatu alat ukur yaitu dengan cara :
- Ukur ulang (test retest)
- Ukur setara (parallel form/equivalent form/alternative form)
- Sekali ukur (one shot)
Pengukuran atau tes hanya diberikan satu kali pada sekelompok sobjek. Alat ukur atau tes yang disusun haruslah memiliki cukup banyak butir (pertanyaan/pernyataan) yang mengukur aspek yang sama. Jumlah butir bisa sekitar 30-60. Pendekatan sekali ukur ini menghasilkan informasi mengenai konsistensi internal (internal consistency) alat ukur. Teknik estimasi reliabilitas yang dapat digunakan untuk pengukuran satu kali, yaitu dengan membelah suatu tes menjadi beberapa bagian (dua bagian, tiga bagian atau bisa multi bagian).
Ada juga pakar yang membagi pendekatan terhadap reliabilitas menjadi:
Uji-Uji Ulang (koefisien reliabilitas stabilitas)
Yaitu suatu pengukuran atau tes diberikan kepada kelompok sobjek yang sama sebanyak dua kali dengan memberi tenggang waktu antara pengukuran pertama dan kedua. Selang waktu tersebut sebaiknya tidak terlalu dekat (cepat) dan tidak terlalu jauh (lambat). Kalau waktunya terlalu dekat, maka ada kemungkinan sobjek masih ingat tentang pengukuran (tes) yang diberikan. Kalau terlalu lama, maka sobjek telah mengalami banyak perubahan dalam sikap, tingkah laku, maupun pengetahuan yang dimilikinya. Adapun tenggang waktu sebaiknya berkisar antara 15-30 hari. Reliabilitas diperoleh dengan menghitung korelasi antara skor pada pengukuran pertama dan skor pengukuran kedua.
Tes uji ulang ini adalah teknik memperkirakan tingkat kepercayaan tes dengan melakukan kegiatan pengukuran dua kali terhadap tes yang sama kepada siswa yang sama pula. Hasil tes pertama dan kedua kemudian dikorelasikan. Jika koefisien korelasi yang diperoleh cukup tinggi, tes yang diujicobakan itu dinyatakan terpercaya. Teknik tes ulang uji sebagai pengukur tingkat ketepercayaan tes mempunyai beberapa kelemahan. Kelemahan-kelemahan yang dimaksud adalah sebagai berikut:
- Sulit untuk menghilangkan pengaruh jawaban tes yang pertama. Hal ini akan lebih terasa untuk butir-butir tes yang mengukur sesuatu yang bersifat ingatan dan pemahaman, dan tenggang waktu antara tes pertama dan kedua secara relatif tidak lama.
- Mungkin terdapat berbagai faktor yang mempengaruhi hasil tes kedua, misalnya berupa meningkatnya kemampuan siswa sebagai hasil belajar. Masalah initerjadi terutama jika tenggang waktu antara tes pertama dan kedua cukup lama.
- Sulit untuk menciptakan dua kondisi diselenggarakannya dua kali tes yang sama. Ada berbagai faktor yang mempengaruhi kondisi tersebut, baik berasal dari pihak siswa (faktor internal) maupun pihak di luar siswa (faktor eksternal) seperti situasi dan kondisi yang ada di sekolah itu sendiri.
- Menuntut siswa untuk mengalami dua kali tes. Hal ini dirasa kurang menguntungkan dan memberatkan siswa.
Teknik ulang uji sebagai teknik pengukur ketepercayaan tes banyak kelemahannya, maka untuk keperluan tersebut disarankan mempergunakan teknik lain yang lebih menguntungkan.
Uji Paralel
Pengujian tingkat reliabilitas tes dengan teknik butir paralel dilakukan terhadap, adanya dua perangkat tes yang bersifat paralel. Kedua perangkat tes itu dimaksudkan untuk mengukur tujuan atau kemampuan yang sama, dengan jumlah butir, susunan, dan tingkat kesulitan yang kurang lebih sama pula. Untuk menguji tingkat ketepercayaan tes, kedua perangkat tes tersebut diujicobakan kepada sejumlah subjek yang sama, kemudian hasilnya dikorelasikan. Tinggi rendahnya koefisien korelasi yang diperoleh mencerminkan tinggi rendahnya tingkat ketepercayaan kedua perangkat tes itu.
Teknik ini ada persamaannya dengan teknik ulang uji jika dilihat dari banyaknya tes yang dialami siswa, sama-sama menuntut dua kali tes. Akan tetapi, teknik bentuk paralel mengujikan perangkat tes yang tidak sama. Hal ini dipandang sebagai keuntungan dibanding dengan teknik ulang uji karena adanya “pengaruh jawaban dari tes pertama” tidak akan terjadi pada tes yang kedua. Akan tetapi, menyiapkan dua perangkat tes yang paralel bukan merupakan pekerjaan yang mudah. Hal ini dipandang sebagai kelemahan teknik bentuk paralel sebagai pengukur tingkat ketepercayaan tes.
C. Kepraktisan
Selain validitas dan realibilitas, tes yang baik juga harus memiliki kriteria kepraktisan. Suharsimi Arikunto (2005) menyebutkan empat kriteria tes yang praktis sebagai berikut:
- Mudah dilaksanakan, misalnya tidak memerlukan peralatan yang banyak dan memberi kebebasan kepada peserta tes untuk mengerjakan terlebih dahulu bagian yang dianggap mudah oleh peserta tes
- Mudah pemeriksaannya, artinya tes tersebut dilengkapi dengan kunci jawaban atau pedoman penskorannya dan lembar jawaban.
- Dilengkapi dengan petunjuk cara mengerjakan soal tes dengan jelas
- Ekonomis, pelaksanaan tes tersebut tidak membutuhkan biaya yang mahal, tenaga yang banyak, dan waktu yang lama.
2 Responses