Item-level test-retest/inter-rater agreement
(Kappa, weighted kappa)
Q1: test-retest reliability 與 inter-rater reliability 二者有何差異?
l 再測信度/施測者內信度:
在不同時間點,使用同一評估工具於相同個案,所獲結果之一致性。
l 施測者間信度:
不同施測者評估相同對象,所得結果之一致性。
Q2: 何時使用 test-retest
reliability 或 inter-rater reliability?
A:
- 問卷性質不同,造成工具誤差之來源不同
- 看何者的影響大,即較適合選擇該項
二、研究設計
l 再測信度/施測者內信度:
1.
同一施測者於一段時間後再測
2.
施測當下錄影,於一段時間後再看影帶施測
l 施測者間信度
1.
不同施測者輪流施測(雙盲)
2.
一施測者施測,另一人同時評估結果
3.
錄影表現,由多位施測者同時評分
Q: 錄影可控制個案之功能不變,以驗證 test-retest/inter-rater/intra-rater reliability, 但有何缺點?
A:
- 當評估涉及rater與個案的互動,錄影會少了rater評估的歷程,或受限於錄影角度,可能導致高估或低估。
三、研究設計之影響因素
l 再測信度/施測者內信度:
(1) 再測間隔時間
(2) 測驗性質
(3) 施測對象特質
1. 間隔時間約一到兩週。易受練習、記憶或身心成熟的影響。
2. 認知評估受練習及記憶影響較大,再測時間間隔應更長。
3. 個案評估特質於再測期間沒有變化。
舉例:對尚在變化過程中的中風病人施測時間宜短,以減少病人因隨時間而成熟變化,然而時間又不至於短到讓病人有記憶練習施測內容的機會,而對長期慢性精神病人,則施測時間間隔可較長些。
l 施測者間信度(關係、指導語、態度/接受度、訓練品質)
1.
施測間隔時間
2.
評估流程一致性
3.
評估關係建立
4.
施測情境
1. 兩施測者施測間隔不超過1個月
2. 用以檢驗工具的評估結果是否受到『評估者』或『施測者』的主觀判斷影響。(experimenter's bias)
Q: test-retest reliability 與 inter-rater reliability 之再測時間間距設計,需考量那些因素?
A:
-
間隔短à記憶、練習效應
-
間隔長à個案變化
四、統計分析
個別項目à 名義、順序變項
名義變項:Kappa(κ)、Percentage of agreement
順序變項:Weighted Kappa(kw)
總分à 等距、等比變項
組內相關係數 (intraclass correlation coefficient,ICC)
1.
Percentage of agreement
測量信度,個別項目評分一致性或百分比。
(1) 名義變項,非次序量尺
(2) 簡單易用,但較為粗略
(3) 難以排除機率一致(chance agreement)因素,高估了一致的機率
(4) 適用於較少的評估者、太多評估者計算麻煩
(5) 例如:在比賽中,評委們於5題中的3題達成共識,協議百分比為3/5=60%
Q: % agreement 數值主要受到那些因素影響?
A: 真正的一致性、機率、分布(天花板或地板效應)
2.
Kappa、weighted
Kappa
Kappa
(1) 名義變項,非次序量尺
(2) 相較Percentage of agreement可以校正項目一致之機率,減少chance agreement的高估
(3) 樣本數小、分數集中(如天花板效應)時à同意一致的機率過高à易產生誤差而低估à不能使用kappa計算
weighted Kappa
(1) 名義變項,次序量尺。
(2) 相較kappa可以校正項目間差異程度,減少chance agreement的高估
(3) 樣本數小、分數集中(如天花板效應)時,同樣不適用
Q1: Kappa 或 weighted Kappa 係數值主要受到那些因素影響?
A: 真正的一致性、機率、分布(天花板或地板效應),*看差異的程度*
Q2: Kappa 或 weighted Kappa 數值可提供那些實用價值?
A: 可校正 % agreement。
五、數值解釋
值可落在-1與1之間,但通常介於0與1之間。
當完全一致時,則值為1,當完全不一致時,則值為0。
percentage of agreement(Po), kappa(K), weighted kappa(Kw)皆然
沒有留言:
張貼留言