Einfaktorielle Varianzanalyse

Diese läßt sich am Beispiel der Datei rats.dat demonstrieren (sie wurde letzte Stunde kurz besprochen bei der Erstellung deskriptiver Statistiken). Bisher wurden nur t-Tests für einzelne Gruppen berechnet; aber eigentlich handelt es sich bei den Daten in der Datei rats.dat um fünf Versuchsbedingungen.

Warum macht man keine t-Tests? Eine erste Antwort auf diese Frage lautet: Es wären zu viele. Um alle Paare vergleichen zu können, müßten bei 5 Gruppen 4 + 3 + 2 + 1 = 10 Tests durchgeführt werden. Bei jedem von diesen bestünde eine Irrtumswahrscheinlichkeit von beispielsweise alpha = 0.05. Bei 10 Tests wäre dann die gesamte Wahrscheinlichkeit für das fälschliche Akzeptieren eines tatsächlich nicht vorhandenen Unterschiedes (also für einen alpha-Fehler) nach folgender Formel zu berechnen:

1 - (1 - a )10 = 1 - 0.9510 = 1 - 0.599 = 0.401

Mit anderen Worten, bei so vielen Tests können schon zufällig welche signifikant sein; eine gefundene Signifikanz wäre somit schwierig zu interpretieren.

Die Varianzanalyse testet für mehr als 2 Gruppen (z.B. an Versuchspersonen) "auf einen Schlag", ob signifikante Mittelwertsunterschiede vorliegen. Dem liegen folgende Hypothesen zugrunde:

Was macht die Varianzanalyse? Sie zerlegt die Varianz in den Daten in verschiedene Bestandteile, nämlich in diejenige Varianz, die innerhalb der einzelnen Treatment-Gruppen auftritt und die Varianz zwischen den verschiendenen Gruppen (die also auf das Treatment zurückzuführen ist). Da hierbei die Varianzen betrachtet werden, wurde die Bezeichnung Varianzanalyse gewählt (auf englisch ANalysis Of VAriance oder kurz ANOVA). Die Zerlegung erfolgt nach der Formel SStot = SSbt + SSwt. Dabei ist im einzelnen:

Aus diesen Werten wird ein F-Wert berechnet: ; dabei bezeichnet dfbt die Anzahl der Freiheitsgrade zwischen den Gruppen (also die Anzahl der Faktorenstufen m - 1) und dfwt die Anzahl der Freiheitsgrade innerhalb der einzelnen Faktoren (also die Differenz aus Stichprobenumfang und Anzahl der Gruppen, n - m). Ist der F-Wert signifikant, bedeutet dies, daß sich zumindest zwei der Mittelwerte signifikant unterscheiden.

Eventuell sind im Anschluß an eine Varianzanalyse mit signifikantem Ergebnis post hoc-Tests nötig, um festzustellen, um welche Mittelwerte es sich handelt (wo genau steckt der Effekt; eventuell ist außerdem eine alpha-Korrektur durchzuführen. Mehr dazu siehe Gravetter & Wallnau). In folgenden Situationen werden solche post-hoc-Tests durchgeführt:

Bei den post-hoc-Tests werden im allgemeinen paarweise Vergleiche (der Mittelwerte) durchgeführt. Durch die wiederholte Durchführung von Signifikanztests tritt aber das eingangs erwähnte Problem "zufälliger" Signifikanzen auf; es muß eine alpha-Korrektur durchgeführt werden.

Intuitive Erklärung: Folgende Gründe lassen sich für Unterschiede zwischen zwei Meßwerten aus verschiedenen Gruppen aufführen:

Bei Unterschieden innerhalb einer Gruppe fällt dagegen die erste Erklärungsmöglichkeit weg. Der F-Bruch gibt also Auskunft über die Größe des Treatment-Effekts:

Durchführung der einfaktoriellen Varianzanalyse für unabhängige Messungen:

  1. Erstellen einer Datei, in der die Meßwerte der Reihe nach enthalten sind. Als Splitter zwischen den Gruppen muß (standardmäßig) der Wert -1 stehen (andere Splitter müssen durch die Option -s "angemeldet" werden).
  2. Aufruf von oneway mit den Parametern -p für eine graphische Darstellung, -s für den Splitter und mit den Namen der einzelnen Treatments:

oneway -p -s -1 6st 12st 18st 24st 30st < rats1.dat

Folgender Output wird damit erzeugt:
Name          N     Mean       SD      Min      Max
6st           5   10.200    2.387    7.000   13.000 
12st          5   13.400    4.336    8.000   18.000 
18st          5   20.400    3.362   16.000   24.000 
24st          5   16.400    3.362   12.000   20.000 
30st          5   12.000    3.873    7.000   16.000 
Total        25   14.480    4.874    7.000   24.000 
 
6st       |<-=====(===#===)====->                                      |
12st      |   <---========(======#======)========>                     |
18st      |                               <---======(=====#====)======>|
24st      |                 <---======(=====#====)======>              |
30st      |<--========(=====#=====)=======>                            |
           7.000                                                 24.000
 
Weighted Means Analysis:
Source           SS    df         MS        F     p
Between     321.840     4     80.460    6.478 0.002 **
Within      248.400    20     12.420


Selberrechnen

An dem gerade berechnetem Beispiel soll nun kurz demonstriert werden, wie man "von Hand" eine Varianzanalyse durchführen kann:

  1. SStot ausrechnen: . Dazu benötigt man eine Datei mit allen Meßwerten in einer Spalte. Folgende Einzelschritte sind notwendig:
  2. stats mean < ratstot.dat

    dm "(x1 - 14.48)^2" < ratstot.dat | stats sum

  3. SSbt berechnen: . Die quadrierte Abweichung der Gruppenmittelwerte vom Gesamtmittelwert. Dies geschieht in folgenden Schritten:
  4. stats mean < ratsbt.dat

  5. SSwt ausrechnen: Nach SStot = SSbt + SSwt ist (mit calc nachrechnen):

    SSwt = SStot - SSbt = 570.24 - 321.84 = 248.4

  6. Mit dem Output von oneway vergleichen

  7. Nachrechnen mit calc:

  8. Wahrscheinlichkeit für F(4;20) = 6.4782 nachrechnen:

    probdist prob f 4 20 6.4782 = 0.001635 (also hoch signifikant)

  9. F(4;20)-Verteilung visualisieren:

    probdist rand f 4 20 100 | desc -h.

    Man bekommt dann:

           Midpt    Freq
           0.190      20 ********************
           0.571      30 ******************************
           0.951      12 ************
           1.332       8 ********
           1.713      13 *************
           2.093       7 *******
           2.474       2 **
           2.854       3 ***
           3.235       2 **
           3.615       0
           3.996       2 **
           4.377       0
           4.757       0
           5.138       0
           5.518       1 *
    

Vergleicht man die Ergebnisse beim Selberrechnen mit denen der von UNIXSTAT ausgeführten Varianzanalyse, kommt (natürlich bis auf Rundungsunterschiede) dasselbe Ergebnis heraus:

 

Hausaufgabe 4 rechnen.


zurück zur Hauptseite zum Seminar "Rechnergestützte Auswertung von psychologischen Experimenten"

Anmerkungen und Mitteilungen an

rainer@zwisler.de

Last modified 1-13-99