Scale-level test-retest/inter-rater
agreement/association
(ICC/ Pearson r)
一、概念
量表的總分在不同時間、同一情境下,重複施測於同一受試者時多次測驗結果的一致性。
二、統計分析
l ICC (Intraclass Correlation Coefficients):
兩次測驗或兩位施測者之相關性及一致性
1.
依照不同的研究設計,使用不同的ICC Form
2.
判斷流程:依序選擇Model à Type à Definition
3.
Model
(1) One-way random effects:設定好同一位個案要由幾個rater來評,假設為兩個。有一個rater pool。將個案編號,從pool裡隨機抽兩個,評完放回去,下一個個案,再抽。結果可能沒那麼好,但概化程度高。
(2)
Two-way
random effects:從rater pool抽兩個,評所有case。
(3)
Two-way
mixed effects:結果可能較好,但概化程度差。
4.
Type
(1)
Single
rater/measurement:用一位rater的分數來計
(2)
Multiple
rater/measurement:多位raters的分數取平均
à理論上,應該要平均(Ex. OSCE時,個別rater差異大,用三個rater的平均較可信;聯考作文由三個老師來改…)但臨床上,受限於現實,通常是用前者。
5.
Definition
(1)
Absolute agreement:
反應評估結果的差異(完全一致)
(2)
Consistency:
反應評估結果的趨勢(只看相關)
6.
ICC解讀
前提 :至少 30 位具特異性之樣本和至少 3 位施測者
*不是只看單純的數值,還要看confidence interval*
Q1: ICC models的選擇需考慮那些因素?請以 inter-rater reliability 說明之。
A: (即Model à Type à Definition)
(1) 研究設計(怎麼產生rater, rater的代表性)
(2) Single or multiple
(3) 是看完全一致性(臨床通常看)還是相關性
Q2: ICC 不同 models 之分析結果,在解釋上,有哪些主要差異?
A:(概化的差異;最難做的,最能概化)
- rater 的選擇方式與評個案的組合不同。
- one-way random effects 較有代表性,較能概化。
- two-way random effects, two-way mixed effects 均為方便樣本,概化程度有限。
l Pearson r
1.
多次測驗或多個施測者之間的相關性
2.
價值有限
Q1:以 ICC, Pearson r, and paired t test 分析 scale-level test-retest/inter-rater reliability 各有何缺點? 各容易受到那些因素影響?
A:
(1)
ICC提供的較多元,但看不清到底是什麼造成,為目前主流
Pearson r + pair t可更詳細,但解讀比較麻煩
ICC將相關性與完全一致性混著看
Pearson r + pair T 搭配看,會比ICC得到的訊息更詳細完整
(相關性)+(兩者的差異agreement)
(2)
ICC能看三個以上的相關性
Pearson r和pair t只能看兩兩之間
(3)
均受資料的[分布與集中程度]影響
Q2: ICC, Pearson r, and paired t test 主要提供 group-level 或
individual-level test-retest reliability 的訊息? 各能告訴我們什麼具體訊息?
A: group-level。只能知道大致的信度。
滿仔細的,好像講義。
回覆刪除有問題嗎?