Validitas Empirik Instrumen Dalam Teori Tes Klasik

Teori Tes Klasik Instrumen Tes

ditulis oleh :

di

Validitas empirik adalah aspek yang menentukan apakah suatu hasil pengukuran sudah sesuai dengan variabel yang hendak diukur berdasarkan uji coba (bukti-bukti) di lapangan. Validitas empirik instrumen tes dapat diuji dengan dua pendekatan yakni Teori tes klasik dan teori respon butir. Artikel ini akan membahasa Validitas Empirik berdasarkan Teori tes klasik.

Validitas Empirik

Classical Test Theory (CTT) atau Teori Tes Klasik merupakan pendekatan tradisional dalam memahami dan mengkuantifikasi pengukuran dalam tes psikologis dan pendidikan. Dikembangkan sepanjang awal abad ke-20 dan diformalkan oleh para peneliti seperti Charles Spearman serta kemudian oleh Harold Gulliksen, CTT menyediakan kerangka kerja statistik untuk penyusunan tes, interpretasi skor, dan penilaian kualitas instrumen.

Pada intinya, Teori Tes Klasik (CTT) didasarkan pada gagasan yang sederhana namun kuat bahwa setiap skor tes yang diperoleh (observed score) terdiri atas dua komponen: kemampuan atau sifat sejati yang sedang diukur, dan kesalahan pengukuran yang bersifat acak. Kesederhanaan konseptual ini, yang dipadukan dengan prosedur statistik yang relatif mudah diterapkan, telah menjadikan CTT sebagai paradigma pengukuran yang dominan dalam bidang psikologi dan pendidikan selama beberapa dekade.

A. Prinsip Pengembangan

Landasan dari Teori Tes Klasik (Classical Test Theory) adalah model skor sejati (true score model), yang dinyatakan dalam persamaan fundamental berikut:

X = T + E

Di mana

X : Skore yang Teramati
T : Skor Sejati
E : Kesalahan Pengukuran yang bersifat Random

Persamaan yang tampak sederhana ini sebenarnya menjadi dasar bagi seluruh analisis yang berbasis pada Teori Tes Klasik (CTT).

Asumsi CTT

Persamaan matematikan ini berasal dari asumsi

AsumsiDeskripsiImplikasi
Random ErrorKesalahan pengukuran bersifat acak dan memiliki nilai rata-rata (mean) sama dengan nol.Kesalahan pengukuran akan saling meniadakan (cancel out) apabila pengukuran dilakukan berulang kali.
IndependenSkor kesalahan (error scores) tidak berkorelasi dengan skor sejati (true scores).Kesalahan tidak secara sistematis memengaruhi hasil pengukuran.
Kesalahan tidak saling berhubunganKesalahan-kesalahan pengukuran tidak saling berkorelasi (tidak berhubungan satu sama lain).Memungkinkan dilakukannya estimasi reliabilitas bentuk paralel
Skor Sejati TetapSkor sejati bersifat konstan untuk setiap individu.Variasi dalam skor yang diamati (observed scores) disebabkan oleh kesalahan pengukuran (error).

Tet Pararel

Konsep penting dalam Teori Tes Klasik (CTT) adalah tes paralel (parallel tests), yaitu bentuk tes yang berbeda tetapi mengukur konstruk yang sama dengan tingkat ketepatan yang setara.

Tes paralel memiliki:

  1. Rata-rata skor sejati yang sama
  2. Varians skor sejati yang sama
  3. Varians kesalahan (error variance) yang sama

Konstruksi teoretis ini memungkinkan dilakukannya estimasi reliabilitas melalui metode tes ulang (test-retest) dan bentuk alternatif (alternate forms reliability).

B. Reliabilitas

Dalam Teori Tes Klasik (Classical Test Theory), reliabilitas didefinisikan sebagai proporsi varians skor yang diamati (observed score variance) yang disebabkan oleh varians skor sejati (true score variance).

\[\rho = \frac{\sigma_T^2}{\sigma_X^2} = \frac{\sigma_T^2}{\sigma_T^2 + \sigma_E^2}​\]

Koefisien ini bernilai antara 0 hingga 1, di mana nilai yang lebih tinggi menunjukkan tingkat pengukuran yang semakin reliabel. Teori Tes Klasik (CTT) menyediakan beberapa metode untuk mengestimasi reliabilitas, yang masing-masing sesuai untuk situasi pengujian yang berbeda.

Jenis-Jenis Tes Reliabilitas

Teori Tes Klasik (Classical Test Theory / CTT) mengakui adanya beberapa bentuk reliabilitas, yang masing-masing berkaitan dengan sumber kesalahan pengukuran yang berbeda. Berikut penjelasan tiap jenisnya:

1. Test-Retest

Reliabilitas tes-ulang mengukur konsistensi skor dari waktu ke waktu.
Dilakukan dengan memberikan tes yang sama kepada kelompok yang sama pada dua kesempatan berbeda, lalu menghitung korelasi antara kedua skor tersebut.

  1. Mengukur stabilitas temporal
  2. Cocok untuk konstruk yang relatif stabil (misalnya kemampuan kognitif)
  3. Rentan terhadap efek latihan (practice effect)
2. Tes Pararel

Reliabilitas bentuk paralel menilai konsistensi antara dua versi tes yang berbeda tetapi setara dalam mengukur konstruk yang sama.

  1. Kedua bentuk memiliki rata-rata dan varians skor sejati yang sama
  2. Korelasi skor dari kedua bentuk menjadi estimasi reliabilitas
  3. Mengurangi efek hafalan dibanding test-retest
3. Konsistensi internal

Konsistensi internal menunjukkan sejauh mana butir-butir dalam tes mengukur konstruk yang sama.

Umumnya diestimasi menggunakan:

  1. Alpha Cronbach’s
  2. KR-20 (Kuder-Richardson 20) untuk soal dikotomis

Semakin tinggi koefisien alpha (biasanya ≥ 0.70 dianggap memadai), semakin konsisten antarbutir dalam tes tersebut.

4. Kesepakatan Antar Rater

Reliabilitas antar-penilai mengukur tingkat kesepakatan antara dua atau lebih penilai (rater).

  1. Penting untuk tes esai, wawancara, atau penilaian performa
  2. Dapat dihitung dengan korelasi, koefisien Kappa, atau ICC (Intraclass Correlation Coefficient)
  3. Menjamin objektivitas dalam penilaian subjektif

Kesalahan Baku Pengkuran

Standard Error of Measurement (SEM) atau Kesalahan Baku Pengukuran adalah ukuran dalam Teori Tes Klasik (Classical Test Theory / CTT) yang menunjukkan seberapa besar kemungkinan kesalahan dalam skor individu akibat error pengukuran.

SEM menggambarkan sejauh mana skor yang diperoleh seseorang dapat menyimpang dari skor sejatinya (true score).

\[SEM = \sigma_X \sqrt{1 – \rho_{XX}}\]

Keterangan:

  1. SEM = Standard Error of Measurement
  2. σX = standar deviasi skor tes
  3. ρ = koefisien reliabilitas tes

Karena reliabilitas didefinisikan sebagai proporsi varians sejati terhadap varians total, maka semakin tinggi reliabilitas (ρ mendekati 1), semakin kecil nilai SEM.

SEM digunakan untuk membentuk interval kepercayaan (confidence interval) di sekitar skor yang diamati, sehingga memberikan rentang nilai di mana skor sejati kemungkinan besar berada.

Sebagai contoh, interval kepercayaan 95% kira-kira berada pada rentang ±2 SEM dari skor yang diamati. Artinya, skor sejati individu diperkirakan berada dalam rentang tersebut dengan tingkat keyakinan sekitar 95%.

C. Keterbatasan Teori Tes Klasik

Meskipun digunakan secara luas, Teori Tes Klasik (Classical Test Theory / CTT) memiliki beberapa keterbatasan penting yang kemudian mendorong berkembangnya teori pengukuran modern

KeterbatasanDeskirpsiKonsekuensi
Bergantung SampelStatistik butir dan statistik tes bergantung pada sampel yang diuji.Hasilnya mungkin tidak dapat digeneralisasikan ke populasi lain.
Bergantung TesParameter individu bergantung pada tes spesifik yang digunakan.Skor tidak dapat dibandingkan secara langsung antar tes yang berbeda.
Kesalahan tunggalMengasumsikan bahwa kesalahan pengukuran sama untuk semua tingkat skor.Besarnya kesalahan pada skor-skor ekstrem kadang tidak dipertimbangkan atau diremehkan
Asumsi LinierMengasumsikan adanya hubungan linear antara variabel-variabel.Mungkin tidak mampu menangkap hubungan pengukuran yang kompleks.
Berfokus pada tingkat kelompokStatistik yang digunakan merupakan rata-rata berbasis populasi (population-based averages).Memberikan informasi yang terbatas mengenai presisi pengukuran pada tingkat individu.

Komentar

Index