Validitas Empirik Instrumen Dalam Teori Tes Klasik

ditulis oleh :

Ahmad Dahlan

di

Validitas empirik adalah aspek yang menentukan apakah suatu hasil pengukuran sudah sesuai dengan variabel yang hendak diukur berdasarkan uji coba (bukti-bukti) di lapangan. Validitas empirik instrumen tes dapat diuji dengan dua pendekatan yakni Teori tes klasik dan teori respon butir. Artikel ini akan membahasa Validitas Empirik berdasarkan Teori tes klasik.

Daftar Isi

Validitas Empirik

Classical Test Theory (CTT) atau Teori Tes Klasik merupakan pendekatan tradisional dalam memahami dan mengkuantifikasi pengukuran dalam tes psikologis dan pendidikan. Dikembangkan sepanjang awal abad ke-20 dan diformalkan oleh para peneliti seperti Charles Spearman serta kemudian oleh Harold Gulliksen, CTT menyediakan kerangka kerja statistik untuk penyusunan tes, interpretasi skor, dan penilaian kualitas instrumen.

Pada intinya, Teori Tes Klasik (CTT) didasarkan pada gagasan yang sederhana namun kuat bahwa setiap skor tes yang diperoleh (observed score) terdiri atas dua komponen: kemampuan atau sifat sejati yang sedang diukur, dan kesalahan pengukuran yang bersifat acak. Kesederhanaan konseptual ini, yang dipadukan dengan prosedur statistik yang relatif mudah diterapkan, telah menjadikan CTT sebagai paradigma pengukuran yang dominan dalam bidang psikologi dan pendidikan selama beberapa dekade.

A. Prinsip Pengembangan

Landasan dari Teori Tes Klasik (Classical Test Theory) adalah model skor sejati (true score model), yang dinyatakan dalam persamaan fundamental berikut:

X = T + E

Di mana

X : Skore yang Teramati
T : Skor Sejati
E : Kesalahan Pengukuran yang bersifat Random

Persamaan yang tampak sederhana ini sebenarnya menjadi dasar bagi seluruh analisis yang berbasis pada Teori Tes Klasik (CTT).

Asumsi CTT

Persamaan matematikan ini berasal dari asumsi

Asumsi	Deskripsi	Implikasi
Random Error	Kesalahan pengukuran bersifat acak dan memiliki nilai rata-rata (mean) sama dengan nol.	Kesalahan pengukuran akan saling meniadakan (cancel out) apabila pengukuran dilakukan berulang kali.
Independen	Skor kesalahan (error scores) tidak berkorelasi dengan skor sejati (true scores).	Kesalahan tidak secara sistematis memengaruhi hasil pengukuran.
Kesalahan tidak saling berhubungan	Kesalahan-kesalahan pengukuran tidak saling berkorelasi (tidak berhubungan satu sama lain).	Memungkinkan dilakukannya estimasi reliabilitas bentuk paralel
Skor Sejati Tetap	Skor sejati bersifat konstan untuk setiap individu.	Variasi dalam skor yang diamati (observed scores) disebabkan oleh kesalahan pengukuran (error).

Tet Pararel

Konsep penting dalam Teori Tes Klasik (CTT) adalah tes paralel (parallel tests), yaitu bentuk tes yang berbeda tetapi mengukur konstruk yang sama dengan tingkat ketepatan yang setara.

Tes paralel memiliki:

Rata-rata skor sejati yang sama
Varians skor sejati yang sama
Varians kesalahan (error variance) yang sama

Konstruksi teoretis ini memungkinkan dilakukannya estimasi reliabilitas melalui metode tes ulang (test-retest) dan bentuk alternatif (alternate forms reliability).

B. Reliabilitas

Dalam Teori Tes Klasik (Classical Test Theory), reliabilitas didefinisikan sebagai proporsi varians skor yang diamati (observed score variance) yang disebabkan oleh varians skor sejati (true score variance).

\[\rho = \frac{\sigma_T^2}{\sigma_X^2} = \frac{\sigma_T^2}{\sigma_T^2 + \sigma_E^2}\]

Koefisien ini bernilai antara 0 hingga 1, di mana nilai yang lebih tinggi menunjukkan tingkat pengukuran yang semakin reliabel. Teori Tes Klasik (CTT) menyediakan beberapa metode untuk mengestimasi reliabilitas, yang masing-masing sesuai untuk situasi pengujian yang berbeda.

Jenis-Jenis Tes Reliabilitas

Teori Tes Klasik (Classical Test Theory / CTT) mengakui adanya beberapa bentuk reliabilitas, yang masing-masing berkaitan dengan sumber kesalahan pengukuran yang berbeda. Berikut penjelasan tiap jenisnya:

1. Test-Retest

Reliabilitas tes-ulang mengukur konsistensi skor dari waktu ke waktu.
Dilakukan dengan memberikan tes yang sama kepada kelompok yang sama pada dua kesempatan berbeda, lalu menghitung korelasi antara kedua skor tersebut.

Mengukur stabilitas temporal
Cocok untuk konstruk yang relatif stabil (misalnya kemampuan kognitif)
Rentan terhadap efek latihan (practice effect)

2. Tes Pararel

Reliabilitas bentuk paralel menilai konsistensi antara dua versi tes yang berbeda tetapi setara dalam mengukur konstruk yang sama.

Kedua bentuk memiliki rata-rata dan varians skor sejati yang sama
Korelasi skor dari kedua bentuk menjadi estimasi reliabilitas
Mengurangi efek hafalan dibanding test-retest

3. Konsistensi internal

Konsistensi internal menunjukkan sejauh mana butir-butir dalam tes mengukur konstruk yang sama.

Umumnya diestimasi menggunakan:

Alpha Cronbach’s
KR-20 (Kuder-Richardson 20) untuk soal dikotomis

Semakin tinggi koefisien alpha (biasanya ≥ 0.70 dianggap memadai), semakin konsisten antarbutir dalam tes tersebut.

4. Kesepakatan Antar Rater

Reliabilitas antar-penilai mengukur tingkat kesepakatan antara dua atau lebih penilai (rater).

Penting untuk tes esai, wawancara, atau penilaian performa
Dapat dihitung dengan korelasi, koefisien Kappa, atau ICC (Intraclass Correlation Coefficient)
Menjamin objektivitas dalam penilaian subjektif

Kesalahan Baku Pengkuran

Standard Error of Measurement (SEM) atau Kesalahan Baku Pengukuran adalah ukuran dalam Teori Tes Klasik (Classical Test Theory / CTT) yang menunjukkan seberapa besar kemungkinan kesalahan dalam skor individu akibat error pengukuran.

SEM menggambarkan sejauh mana skor yang diperoleh seseorang dapat menyimpang dari skor sejatinya (true score).

\[SEM = \sigma_X \sqrt{1 – \rho_{XX}}\]

Keterangan:

SEM = Standard Error of Measurement
σX = standar deviasi skor tes
ρ = koefisien reliabilitas tes

Karena reliabilitas didefinisikan sebagai proporsi varians sejati terhadap varians total, maka semakin tinggi reliabilitas (ρ mendekati 1), semakin kecil nilai SEM.

SEM digunakan untuk membentuk interval kepercayaan (confidence interval) di sekitar skor yang diamati, sehingga memberikan rentang nilai di mana skor sejati kemungkinan besar berada.

Sebagai contoh, interval kepercayaan 95% kira-kira berada pada rentang ±2 SEM dari skor yang diamati. Artinya, skor sejati individu diperkirakan berada dalam rentang tersebut dengan tingkat keyakinan sekitar 95%.

C. Keterbatasan Teori Tes Klasik

Meskipun digunakan secara luas, Teori Tes Klasik (Classical Test Theory / CTT) memiliki beberapa keterbatasan penting yang kemudian mendorong berkembangnya teori pengukuran modern

Keterbatasan	Deskirpsi	Konsekuensi
Bergantung Sampel	Statistik butir dan statistik tes bergantung pada sampel yang diuji.	Hasilnya mungkin tidak dapat digeneralisasikan ke populasi lain.
Bergantung Tes	Parameter individu bergantung pada tes spesifik yang digunakan.	Skor tidak dapat dibandingkan secara langsung antar tes yang berbeda.
Kesalahan tunggal	Mengasumsikan bahwa kesalahan pengukuran sama untuk semua tingkat skor.	Besarnya kesalahan pada skor-skor ekstrem kadang tidak dipertimbangkan atau diremehkan
Asumsi Linier	Mengasumsikan adanya hubungan linear antara variabel-variabel.	Mungkin tidak mampu menangkap hubungan pengukuran yang kompleks.
Berfokus pada tingkat kelompok	Statistik yang digunakan merupakan rata-rata berbasis populasi (population-based averages).	Memberikan informasi yang terbatas mengenai presisi pengukuran pada tingkat individu.

One response to “Validitas Empirik Instrumen Dalam Teori Tes Klasik”

February 24, 2026

Modul Kualitas Instrumen Dalam Asesmen Pembelajaran – Ahmad Dahlan

[…] Pert. II – Validitas Empirik Teori Klasik […]