Intraklassen-Korrelation
Die Intraklassen-Korrelation ist ein parametrisches statistisches Verfahren zur Quantifizierung der Übereinstimmung (Interrater-Reliabilität) zwischen mehreren Beurteilern (Ratern) in Bezug auf mehrere Beobachtungsobjekte. Das dazugehörige Maß, der Intraklassen-Korrelationskoeffizient (IKK oder ICC, Asendorpf und Wallbott 1979, Shrout und Fleiss 1979, McGraw und Wong 1996, Wirtz und Caspar 2002) setzt intervallskalierte Daten voraus und wird in der Regel berechnet, wenn mehr als zwei Beobachter vorhanden sind oder/und mehrere Beobachtungszeitpunkte miteinander verglichen werden sollen.
Zur Bestimmung der Interrater-Reliabilität wird die Varianz zwischen verschiedenen Ratings in Bezug auf dasselbe Messobjekt (= Beobachtungsgegenstand, Fall, Person bzw. Merkmalsträger usw.) mit der über alle Ratings und Messobjekte entstandenen Varianz verglichen.
Von einer reliablen Beobachtung kann ausgegangen werden, wenn die Unterschiede zwischen den Messobjekten relativ groß sind (was auf systematische Unterschiede zwischen den beobachteten Fällen hinweist) und gleichzeitig die Varianz zwischen den Beobachtern in Bezug auf die Messobjekte klein. Bei großer Urteilskonkordanz (also geringer Varianz zwischen den Einschätzungswerten) ist der ICC hoch.
Wie bei anderen Korrelationskoeffizienten kann der ICC Werte zwischen −1,0 und +1,0 annehmen. Da Reliabilitätsmaße definitionsgemäß auf einen Wertebereich von 0 bis 1 beschränkt sind, indizieren negative ICCs eine Reliabilität von 0 (Wirtz und Caspar [2002, S. 234]). Im Streudiagramm für die beiden Messwerte bedeutet der Intraklassenkorrelationskoeffizient ICC die Abweichung der Werte von der Winkelhalbierenden.
Arten des ICC
[Bearbeiten | Quelltext bearbeiten]Es lassen sich bis zu sechs verschiedene Arten des ICC unterscheiden (Shrout und Fleiss 1979), je nachdem ob alle Rater alle oder verschiedene Fälle einschätzen oder ob die Rater zufällig aus einer größeren Menge von Ratern ausgewählt wurden oder nicht. Außerdem macht es einen Unterschied, ob die Einzelwerte der Rater miteinander verglichen werden oder es sich (z. B. um die Stabilität zu erhöhen) um gemittelte Einschätzungen einer Ratergruppe handelt.
Arten und Auswahl des ICC | ||||||
---|---|---|---|---|---|---|
Frage 1 | Wird jeder Fall von allen Ratern eingeschätzt? | |||||
Nein | Ja | |||||
Frage 2 | die Rater wurden zufällig ausgewählt. | Wurden die Rater zufällig ausgewählt? | ||||
Ja | Nein | |||||
Frage 3 Sind Ratingrohwerte einzelner Rater oder Mittelwerte k verschiedener Rater Datengrundlage? |
Einzelwert | Mittelwert | Einzelwert | Mittelwert | Einzelwert | Mittelwert |
ICC-Typ (Shrout und Fleiss) | ICC(1,1) | ICC(1,k) | ICC(2,1) | ICC(2,k) | ICC(3,1) | ICC(3,k) |
ICC-Typ (McGraw und Wong) | ICC(1) | ICC(k) | ICC(A,1) | ICC(A,k) | ICC(C,1) | ICC(C,k) |
SPSS-Modell | one-way random | two-way random | two-way mixed | |||
single measure | average measure | single measure | average measure | single measure | average measure |
Eine weitere Unterscheidung, die SPSS beim two-way Modell benötigt, ist, ob die Schätzung justiert oder unjustiert erfolgen soll. Justiert und unjustiert bezieht sich darauf, ob Mittelwertsunterschiede zwischen den Ratern (z. B. ein strenger vs. ein milder Rater) im Modell aus der Fehlervarianz herausgerechnet werden oder, wie beim unjustierten Modell, als Teil der Fehlervarianz erhalten bleiben (Wirtz und Caspar 2002). SPSS bezeichnet das justierte Modell als Consistency und das unjustierte als Absolute Agreement. Das unjustierte Modell entspricht der strengeren Prüfung.
Andere Bezeichnungen für die unterschiedlichen Arten des ICC gehen auf Bartko (1976) zurück. Er bezeichnet das ICC(1,1) als ICC(1) und das ICC(1,k) als ICC(2) (siehe dazu Bliese 2000).
Berechnung
[Bearbeiten | Quelltext bearbeiten]Das Grundprinzip der Berechnung (d. h. das mathematische Modell) des ICC entspricht dem einer Varianzanalyse; auch hier geht es um die Zerlegung von Varianzbestandteilen und deren Verhältnis. Wenn
- die Anzahl der Rater ist,
- die Anzahl der Messobjekte (Fälle),
- die Varianz zwischen den Fällen (= Messobjekten, Personen) (mit ),
- die Varianz innerhalb der Fälle (mit ),
- die Varianz zwischen den Ratern (mit ) und
- die Restvarianz (mit ),
so gilt:
- .
Literatur
[Bearbeiten | Quelltext bearbeiten]- Asendorpf, J. und Wallbott, H. G. (1979): Maße der Beobachterübereinstimmung: Ein systematischer Vergleich. In: Zeitschrift für Sozialpsychologie, 10, 243–252.
- Bartko, J.J. (1976). On various intraclass correlation reliability coefficients. In: Psychological Bulletin, 83, 762–765.
- Bliese, P.D. (2000). Within-group agreement, non-independence, and reliability: Implications for data aggregation and analysis. In: K. J. Klein und S.W. Kozlowski (Eds.), Multilevel theory, research, and methods in organizations (pp. 349–381). San Francisco, CA: Jossey-Bass.
- Fleiss, J. L. and Cohen, J. (1973): The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. In: Educational and Psychological Measurement 33, 613–619.
- Müller, R. und Büttner, P. (1994): A critical discussion of intraclass correlation coefficients. In: Statistics in Medicine, 13, 2465–2476.
- McGraw, K. O. und Wong, S. P. (1996): Forming inferences about some intraclass correlation coefficients. In: Psychological Methods, 1, 30–46.
- Shrout, P. E. und Fleiss, J. L. (1979): Intraclass correlation: Uses in assessing rater reliability. In: Psychological Bulletin, 86, 420–428.
- Wirtz, M. und Caspar, F. (2002): Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe.