Validitas empirik adalah aspek yang menentukan apakah suatu hasil pengukuran sudah sesuai dengan variabel yang hendak diukur berdasarkan uji coba (bukti-bukti) di lapangan. Validitas empirik instrumen tes dapat diuji dengan dua pendekatan yakni Teori tes klasik dan teori respon butir. Artikel ini akan membahasa Validitas Empirik berdasarkan Teori tes klasik.
Daftar Isi
Validitas Empirik
Classical Test Theory (CTT) atau Teori Tes Klasik merupakan pendekatan tradisional dalam memahami dan mengkuantifikasi pengukuran dalam tes psikologis dan pendidikan. Dikembangkan sepanjang awal abad ke-20 dan diformalkan oleh para peneliti seperti Charles Spearman serta kemudian oleh Harold Gulliksen, CTT menyediakan kerangka kerja statistik untuk penyusunan tes, interpretasi skor, dan penilaian kualitas instrumen.
Pada intinya, Teori Tes Klasik (CTT) didasarkan pada gagasan yang sederhana namun kuat bahwa setiap skor tes yang diperoleh (observed score) terdiri atas dua komponen: kemampuan atau sifat sejati yang sedang diukur, dan kesalahan pengukuran yang bersifat acak. Kesederhanaan konseptual ini, yang dipadukan dengan prosedur statistik yang relatif mudah diterapkan, telah menjadikan CTT sebagai paradigma pengukuran yang dominan dalam bidang psikologi dan pendidikan selama beberapa dekade.
A. Prinsip Pengembangan
Landasan dari Teori Tes Klasik (Classical Test Theory) adalah model skor sejati (true score model), yang dinyatakan dalam persamaan fundamental berikut:
X = T + E
Di mana
X : Skore yang Teramati
T : Skor Sejati
E : Kesalahan Pengukuran yang bersifat Random
Persamaan yang tampak sederhana ini sebenarnya menjadi dasar bagi seluruh analisis yang berbasis pada Teori Tes Klasik (CTT).
Asumsi CTT
Persamaan matematikan ini berasal dari asumsi
| Asumsi | Deskripsi | Implikasi |
|---|---|---|
| Random Error | Kesalahan pengukuran bersifat acak dan memiliki nilai rata-rata (mean) sama dengan nol. | Kesalahan pengukuran akan saling meniadakan (cancel out) apabila pengukuran dilakukan berulang kali. |
| Independen | Skor kesalahan (error scores) tidak berkorelasi dengan skor sejati (true scores). | Kesalahan tidak secara sistematis memengaruhi hasil pengukuran. |
| Kesalahan tidak saling berhubungan | Kesalahan-kesalahan pengukuran tidak saling berkorelasi (tidak berhubungan satu sama lain). | Memungkinkan dilakukannya estimasi reliabilitas bentuk paralel |
| Skor Sejati Tetap | Skor sejati bersifat konstan untuk setiap individu. | Variasi dalam skor yang diamati (observed scores) disebabkan oleh kesalahan pengukuran (error). |
Tet Pararel
Konsep penting dalam Teori Tes Klasik (CTT) adalah tes paralel (parallel tests), yaitu bentuk tes yang berbeda tetapi mengukur konstruk yang sama dengan tingkat ketepatan yang setara.
Tes paralel memiliki:
- Rata-rata skor sejati yang sama
- Varians skor sejati yang sama
- Varians kesalahan (error variance) yang sama
Konstruksi teoretis ini memungkinkan dilakukannya estimasi reliabilitas melalui metode tes ulang (test-retest) dan bentuk alternatif (alternate forms reliability).
B. Reliabilitas
Dalam Teori Tes Klasik (Classical Test Theory), reliabilitas didefinisikan sebagai proporsi varians skor yang diamati (observed score variance) yang disebabkan oleh varians skor sejati (true score variance).
\[\rho = \frac{\sigma_T^2}{\sigma_X^2} = \frac{\sigma_T^2}{\sigma_T^2 + \sigma_E^2}\]Koefisien ini bernilai antara 0 hingga 1, di mana nilai yang lebih tinggi menunjukkan tingkat pengukuran yang semakin reliabel. Teori Tes Klasik (CTT) menyediakan beberapa metode untuk mengestimasi reliabilitas, yang masing-masing sesuai untuk situasi pengujian yang berbeda.
Jenis-Jenis Tes Reliabilitas
Teori Tes Klasik (Classical Test Theory / CTT) mengakui adanya beberapa bentuk reliabilitas, yang masing-masing berkaitan dengan sumber kesalahan pengukuran yang berbeda. Berikut penjelasan tiap jenisnya:
1. Test-Retest
Reliabilitas tes-ulang mengukur konsistensi skor dari waktu ke waktu.
Dilakukan dengan memberikan tes yang sama kepada kelompok yang sama pada dua kesempatan berbeda, lalu menghitung korelasi antara kedua skor tersebut.
- Mengukur stabilitas temporal
- Cocok untuk konstruk yang relatif stabil (misalnya kemampuan kognitif)
- Rentan terhadap efek latihan (practice effect)
2. Tes Pararel
Reliabilitas bentuk paralel menilai konsistensi antara dua versi tes yang berbeda tetapi setara dalam mengukur konstruk yang sama.
- Kedua bentuk memiliki rata-rata dan varians skor sejati yang sama
- Korelasi skor dari kedua bentuk menjadi estimasi reliabilitas
- Mengurangi efek hafalan dibanding test-retest
3. Konsistensi internal
Konsistensi internal menunjukkan sejauh mana butir-butir dalam tes mengukur konstruk yang sama.
Umumnya diestimasi menggunakan:
- Alpha Cronbach’s
- KR-20 (Kuder-Richardson 20) untuk soal dikotomis
Semakin tinggi koefisien alpha (biasanya ≥ 0.70 dianggap memadai), semakin konsisten antarbutir dalam tes tersebut.
4. Kesepakatan Antar Rater
Reliabilitas antar-penilai mengukur tingkat kesepakatan antara dua atau lebih penilai (rater).
- Penting untuk tes esai, wawancara, atau penilaian performa
- Dapat dihitung dengan korelasi, koefisien Kappa, atau ICC (Intraclass Correlation Coefficient)
- Menjamin objektivitas dalam penilaian subjektif
Kesalahan Baku Pengkuran
Standard Error of Measurement (SEM) atau Kesalahan Baku Pengukuran adalah ukuran dalam Teori Tes Klasik (Classical Test Theory / CTT) yang menunjukkan seberapa besar kemungkinan kesalahan dalam skor individu akibat error pengukuran.
SEM menggambarkan sejauh mana skor yang diperoleh seseorang dapat menyimpang dari skor sejatinya (true score).
\[SEM = \sigma_X \sqrt{1 – \rho_{XX}}\]Keterangan:
- SEM = Standard Error of Measurement
- σX = standar deviasi skor tes
- ρ = koefisien reliabilitas tes
Karena reliabilitas didefinisikan sebagai proporsi varians sejati terhadap varians total, maka semakin tinggi reliabilitas (ρ mendekati 1), semakin kecil nilai SEM.
SEM digunakan untuk membentuk interval kepercayaan (confidence interval) di sekitar skor yang diamati, sehingga memberikan rentang nilai di mana skor sejati kemungkinan besar berada.
Sebagai contoh, interval kepercayaan 95% kira-kira berada pada rentang ±2 SEM dari skor yang diamati. Artinya, skor sejati individu diperkirakan berada dalam rentang tersebut dengan tingkat keyakinan sekitar 95%.
C. Keterbatasan Teori Tes Klasik
Meskipun digunakan secara luas, Teori Tes Klasik (Classical Test Theory / CTT) memiliki beberapa keterbatasan penting yang kemudian mendorong berkembangnya teori pengukuran modern
| Keterbatasan | Deskirpsi | Konsekuensi |
|---|---|---|
| Bergantung Sampel | Statistik butir dan statistik tes bergantung pada sampel yang diuji. | Hasilnya mungkin tidak dapat digeneralisasikan ke populasi lain. |
| Bergantung Tes | Parameter individu bergantung pada tes spesifik yang digunakan. | Skor tidak dapat dibandingkan secara langsung antar tes yang berbeda. |
| Kesalahan tunggal | Mengasumsikan bahwa kesalahan pengukuran sama untuk semua tingkat skor. | Besarnya kesalahan pada skor-skor ekstrem kadang tidak dipertimbangkan atau diremehkan |
| Asumsi Linier | Mengasumsikan adanya hubungan linear antara variabel-variabel. | Mungkin tidak mampu menangkap hubungan pengukuran yang kompleks. |
| Berfokus pada tingkat kelompok | Statistik yang digunakan merupakan rata-rata berbasis populasi (population-based averages). | Memberikan informasi yang terbatas mengenai presisi pengukuran pada tingkat individu. |
