Einfaktorielle Varianzanalyse

Diese läßt sich am Beispiel der Datei rats.dat demonstrieren (sie wurde letzte Stunde kurz besprochen bei der Erstellung deskriptiver Statistiken). Bisher wurden nur t-Tests für einzelne Gruppen berechnet; aber eigentlich handelt es sich bei den Daten in der Datei rats.dat um fünf Versuchsbedingungen.

Warum macht man keine t-Tests? Eine erste Antwort auf diese Frage lautet: Es wären zu viele. Um alle Paare vergleichen zu können, müßten bei 5 Gruppen 4 + 3 + 2 + 1 = 10 Tests durchgeführt werden. Bei jedem von diesen bestünde eine Irrtumswahrscheinlichkeit von beispielsweise alpha = 0.05. Bei 10 Tests wäre dann die gesamte Wahrscheinlichkeit für das fälschliche Akzeptieren eines tatsächlich nicht vorhandenen Unterschiedes (also für einen alpha-Fehler) nach folgender Formel zu berechnen:

1 - (1 - a )¹⁰ = 1 - 0.95¹⁰ = 1 - 0.599 = 0.401

Mit anderen Worten, bei so vielen Tests können schon zufällig welche signifikant sein; eine gefundene Signifikanz wäre somit schwierig zu interpretieren.

Die Varianzanalyse testet für mehr als 2 Gruppen (z.B. an Versuchspersonen) "auf einen Schlag", ob signifikante Mittelwertsunterschiede vorliegen. Dem liegen folgende Hypothesen zugrunde:

Nullhypothese H₀: m ₁ = m ₂= ... = m _m.

Alternativhypothese H₁: Mindestens zwei Mittelwerte unterscheiden sich; d.h. zwischen irgendwelchen Gruppen ergibt sich ein Treatmenteffekt. Im Beispiel mit den Ratten (rats.dat) handelt es sich beim Treatment um die unterschiedlich lange dauernde Schlafdeprivierung.

Was macht die Varianzanalyse? Sie zerlegt die Varianz in den Daten in verschiedene Bestandteile, nämlich in diejenige Varianz, die innerhalb der einzelnen Treatment-Gruppen auftritt und die Varianz zwischen den verschiendenen Gruppen (die also auf das Treatment zurückzuführen ist). Da hierbei die Varianzen betrachtet werden, wurde die Bezeichnung Varianzanalyse gewählt (auf englisch ANalysis Of VAriance oder kurz ANOVA). Die Zerlegung erfolgt nach der Formel SS_tot = SS_bt + SS_wt. Dabei ist im einzelnen:

SS_tot: Die Gesamtvarianz, also die quadrierte Abweichung aller Meßwerte vom Gesamtmittelwert.

SS_bt: "between treatments", also die Varianz zwischen den Versuchsbedingungen. Es handelt sich um ein Maß für die Größe der Effekte (Mittelwertsunterschiede).

SS_wt: "within treatments", also die Varianz innerhalb der Gruppen (in diesem Fall als Fehlervarianz zu betrachten).

Aus diesen Werten wird ein F-Wert berechnet: ; dabei bezeichnet df_bt die Anzahl der Freiheitsgrade zwischen den Gruppen (also die Anzahl der Faktorenstufen m - 1) und df_wt die Anzahl der Freiheitsgrade innerhalb der einzelnen Faktoren (also die Differenz aus Stichprobenumfang und Anzahl der Gruppen, n - m). Ist der F-Wert signifikant, bedeutet dies, daß sich zumindest zwei der Mittelwerte signifikant unterscheiden.

Eventuell sind im Anschluß an eine Varianzanalyse mit signifikantem Ergebnis post hoc-Tests nötig, um festzustellen, um welche Mittelwerte es sich handelt (wo genau steckt der Effekt; eventuell ist außerdem eine alpha-Korrektur durchzuführen. Mehr dazu siehe Gravetter & Wallnau). In folgenden Situationen werden solche post-hoc-Tests durchgeführt:

die Nullhypothese wurde verworfen;

es liegen mindestens drei Faktorenstufen vor.

Bei den post-hoc-Tests werden im allgemeinen paarweise Vergleiche (der Mittelwerte) durchgeführt. Durch die wiederholte Durchführung von Signifikanztests tritt aber das eingangs erwähnte Problem "zufälliger" Signifikanzen auf; es muß eine alpha-Korrektur durchgeführt werden.

Intuitive Erklärung: Folgende Gründe lassen sich für Unterschiede zwischen zwei Meßwerten aus verschiedenen Gruppen aufführen:

Treatment,

individuelle Unterschiede (alle Ratten sind verschieden),

Meßfehler oder zufällige Schwankungen.

Bei Unterschieden innerhalb einer Gruppe fällt dagegen die erste Erklärungsmöglichkeit weg. Der F-Bruch gibt also Auskunft über die Größe des Treatment-Effekts:

Durchführung der einfaktoriellen Varianzanalyse für unabhängige Messungen:

Erstellen einer Datei, in der die Meßwerte der Reihe nach enthalten sind. Als Splitter zwischen den Gruppen muß (standardmäßig) der Wert -1 stehen (andere Splitter müssen durch die Option -s "angemeldet" werden).

Aufruf von oneway mit den Parametern -p für eine graphische Darstellung, -s für den Splitter und mit den Namen der einzelnen Treatments:

oneway -p -s -1 6st 12st 18st 24st 30st < rats1.dat

Folgender Output wird damit erzeugt:

Name          N     Mean       SD      Min      Max
6st           5   10.200    2.387    7.000   13.000 
12st          5   13.400    4.336    8.000   18.000 
18st          5   20.400    3.362   16.000   24.000 
24st          5   16.400    3.362   12.000   20.000 
30st          5   12.000    3.873    7.000   16.000 
Total        25   14.480    4.874    7.000   24.000 
 
6st       |<-=====(===#===)====->                                      |
12st      |   <---========(======#======)========>                     |
18st      |                               <---======(=====#====)======>|
24st      |                 <---======(=====#====)======>              |
30st      |<--========(=====#=====)=======>                            |
           7.000                                                 24.000
 
Weighted Means Analysis:
Source           SS    df         MS        F     p
Between     321.840     4     80.460    6.478 0.002 **
Within      248.400    20     12.420

Selberrechnen

An dem gerade berechnetem Beispiel soll nun kurz demonstriert werden, wie man "von Hand" eine Varianzanalyse durchführen kann:

SS_tot ausrechnen:

. Dazu benötigt man eine Datei mit allen Meßwerten in einer Spalte. Folgende Einzelschritte sind notwendig:

kopiere rats1.dat nach ratstot.dat

entferne unter Verwendung von edit alle Splitters (-1); dabei ist zu beachten, daß keine Leerzeilen zurückbleiben und daß der letzte Wert auch der letzte Eintrag ist.

Berechnen des Mittelwerts (es kommt 14.48 heraus).

stats mean < ratstot.dat

mit dm die Abweichungsquadrate berechnen (es kommt 570.24 heraus):

dm "(x1 - 14.48)^2" < ratstot.dat | stats sum

SS_bt berechnen:

. Die quadrierte Abweichung der Gruppenmittelwerte vom Gesamtmittelwert. Dies geschieht in folgenden Schritten:

Erstellen der Datei ratsbt.dat, in der für jede Gruppe der Gruppenmittelwert steht.

Überprüfen, ob auch der selbe Gesamtmittelwert herauskommt (wenn nicht, hat man sich im Datenfile vertippt):

stats mean < ratsbt.dat

Berechnung der Abweichungsquadrate und anschließendes Aufsummieren (ergibt 321.84): Zuerst wird die quadrierte Abweichung der Gruppenmittelwerte vom Gesamtmittel bestimmt:
dm "(x1 - 14.48)^2" < ratsbt.dat | stats sum
Als Ergebnis erhält man hier 64.368. Da aber in jeder Gruppe fünf Beobachtungen vorliegen, muss man diesen Wert noch mit dem Faktor fünf multiplizieren und erhält somit das Ergebnis 321.84 für die Abweichungsquadrate "zwischen den Gruppen".

SS_wt ausrechnen: Nach SS_tot = SS_bt + SS_wt ist (mit calc nachrechnen):
SS_wt = SS_tot - SS_bt = 570.24 - 321.84 = 248.4
Mit dem Output von oneway vergleichen
Nachrechnen mit calc:
Wahrscheinlichkeit für F(4;20) = 6.4782 nachrechnen:
probdist prob f 4 20 6.4782 = 0.001635 (also hoch signifikant)

F(4;20)-Verteilung visualisieren:

probdist rand f 4 20 100 | desc -h.

Man bekommt dann:

       Midpt    Freq
       0.190      20 ********************
       0.571      30 ******************************
       0.951      12 ************
       1.332       8 ********
       1.713      13 *************
       2.093       7 *******
       2.474       2 **
       2.854       3 ***
       3.235       2 **
       3.615       0
       3.996       2 **
       4.377       0
       4.757       0
       5.138       0
       5.518       1 *

Vergleicht man die Ergebnisse beim Selberrechnen mit denen der von UNIXSTAT ausgeführten Varianzanalyse, kommt (natürlich bis auf Rundungsunterschiede) dasselbe Ergebnis heraus:

Selberrechnen: p = 0.001635;
oneway: p = 0.002.

Hausaufgabe 4 rechnen.

zurück zur Hauptseite zum Seminar "Rechnergestützte Auswertung von psychologischen Experimenten"

Anmerkungen und Mitteilungen an

rainer@zwisler.de

Einfaktorielle Varianzanalyse

Selberrechnen

Last modified 1-13-99