Besprechung der Hausaufgabe 5:

  1. Erzeugung zufälliger normalverteilter Daten.

  2. Vergleich der Ergebnisse in unterschiedlichen Intelligenztests: Zuerst müssen die Ergebnisse der beiden Versuchspersonen nach der entsprechenden Formel [z = (x - mu)/sigma] z-standardisiert werden. Man erhält für VP1 als z-Wert (124 - 100) / 20 = 1.2 und für VP2 den z-Wert (64 - 50) / 10 = 1.4. Daraus kann man mit folgender Eingabe berechnen, wie viele Prozent der Gesamtbevölkerung maximal gleich gut sind:
     probdist prob n 1.2
     probdist prob n 1.4 
    Man erhält für VP1 das Ergebnis 0.885 und für VP2 0.919. Zieht man diese Werte von 1 ab, erhält man die Wanrscheinlichkeit dafür, daß jemand aus der Gesamtpopulation besser ist als die jeweilige Versuchsperson (VP1: 0.115; VP2: 0.081).

  3. Hier geht es darum, festzustellen, ob die beiden Werte (Trikotnummer und Anzahl der Tore) miteinander korrelieren. In der Datei fussb.dat stehen in zwei Spalten die Trikotnummern und daneben die Anzahl der Tore. Da es sich bei der Trikotnummer um ein ordinales Merkmal handelt, muß auch ein entsprechender Test gerechnet werden (z.B. Rangkorrelation nach Spearman). Dazu eignet sich das Programm rankrel, das folgendermaßen aufgerufen werden kann:
     rankrel < fussb.dat 
    Man erhält unter anderem folgende Ausgabe, die aufgrund der hohen Korrelation der vermuteten Verdacht bestätigt:
     Spearman Rank Correlation (rho) [corrected for ties]:
             Critical r (.05) t approximation        0.631897
             Critical r (.01) t approximation        0.764592
             rho                                     0.886887  
    Es scheint also ein Zusammenhang zwischen Angriffsposition (niedrige Trikotnummer?) und Anzahl der Tore zu bestehen.

  4. Aufgabe zum Speed-Accuraccy-Trade-Off bei der Mausbedienung: Da es sich bei den Variablen Geschwindigkeit und Genauigkeit um metrische Daten handelt, kann die Produkt-Moment-Korrelation zwischen diesen Wertepaaren berechnet werden. Dazu dient das Kommando
     pair -sp < speed1.dat 
    (in der Datei speed1.dat stehen die Werte für die erste Versuchspersonengruppe in zwei Spalten; die Option -sp bewirkt das Zeichnen eines scatter plots) bzw.
     pair -sp < speed2.dat 
    für die zweite Versuchspersonengruppe, deren Daten in der Datei speed2.dat abgelegt sind. Für die erste Gruppe erhält man:
     Correlation        r-squared             t(8)        p
              -0.7118           0.5066          -2.8661   0.0210
            Intercept            Slope
            1753.4004          -0.6379
     |--------------------------------------------------|1.02e+03
     |        1               1                         |
     |1                   1         1                   |
     | 1                                                |
     |                                                  |
     |            1                                     |
     |                                                  |
     |                                                  |
     |                                         1        |
     |                                     1            |
     |                                                  |Column 2
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                 1|
     |--------------------------------------------------|480
     1110.000                                    1650.000
                          Column 1
    also eine signifikante Korrelation. Auch für die zweite Gruppe sieht das Ergebnis so aus:
     Correlation        r-squared             t(8)        p
              -0.7722           0.5962          -3.4371   0.0089
            Intercept            Slope
            1479.0120          -0.7147
     |--------------------------------------------------|1.03e+03
     |        1                                         |
     |1                                                 |
     |                                                  |
     |                                                  |
     |                                                  |
     |                           1                      |
     |                                                  |
     |                                                  |
     |                                                  |
     |            1                                     |Column 2
     |                                                  |
     |                      1                           |
     |                                                  |
     |                                                  |
     |                                                  |
     |                                                  |
     |                1                1                |
     |                              1                  1|
     |                                   1              |
     |--------------------------------------------------|440
     740.000                                     1550.000
                          Column 1
    Diese Korrelation ist sogar noch etwas deutlicher.

    Berechnet man die Korrelation für die Gesamtstichprobe mit der Zeile

    pair -sp < speedall.dat 
    (Die Datei speedall.dat ist durch folgende Sequenz erzeugbar:
     type speed1.dat > speedall.dat
     type speed2.dat >> speedall.dat 
    )
    , erhält man folgendes Ergebnis (mit Plot):
    Correlation        r-squared            t(18)                p
             -0.3165           0.1002          -1.4158           0.1739
           Intercept            Slope
           1142.5397          -0.2908
    |--------------------------------------------------|1.03e+03
    |       1                 1        1               |
    |1                   1           1     1           |
    |                     1                            |
    |                                                  |
    |                            1                     |
    |                        1                         |
    |                                                  |
    |                                          1  1    |
    |                                                  |
    |           1                                      |Column 2
    |                                                  |
    |                   1                              |
    |                                                  |
    |                                                  |
    |                                                  |
    |                                                  |
    |              1              1                    |
    |                          1                 1    1|
    |                               1                  |
    |--------------------------------------------------|440
    740.000                                     1650.000
                         Column 1
    Diese Korrelation ist deutlich geringer und nicht mehr signifikant. Also: Aufpassen beim Poolen von Daten. Liegt in zwei Teilstichproben eine Korrelation vor, kann sich diese beim Poolen der beiden Stichproben auflösen.

  5. Um feststellen zu können, ob die Studentinnen aus den verschiedenen Ländern aus der selben Grundgesamtheit bezüglich Größe und Gewicht stammen, muß man jeweils ein Varainzanalyse dazu rechnen (da drei Gruppen vorliegen, reicht ein t-Test nicht aus). Da die Frage nur jeweils für Größe bzw. Gewicht gestellt wurde, reicht außerdem eine einfaktorielle Varianzanalyse (oneway) aus. Die amerikanischen Daten müssen allerdings noch umgerechnet werden. Dies geschieht folgendermaßen: Angenommen, die Daten liegen in drei Dateien germ.dat, usa.dat und dansk.dat so vor, wie sie in der Aufgabenstellung stehen. Geeignete Inputfiles weights.dat (die Gewichtsangaben) sowie heights.dat (die Körpergrößen) für anova werden folgendermaßen erzeugt:
     dm s1 < germ.dat > weights.dat
     echo -1 >> weights.dat
     dm s1 < usa_n.dat >> weights.dat
     echo -1 >> weights.dat
     dm s1 < dansk.dat >> weights.dat
     dm s2 < germ.dat > heights.dat
     echo -1 >> heights.dat
     dm s2 < usa_n.dat >> heights.dat
     echo -1 >> heights.dat
     dm s2 < dansk.dat >> heights.dat 
    Nun läßt sich mit
    oneway -p < weights.dat 
    bestimmen, ob die Studentinnen aus den drei Ländern aus der selben Gewichts-Grundgesamtheit stammen:
    Name          N     Mean       SD      Min      Max 
    Group-1       8   62.500    9.651   51.000   82.000 
    Group-2       7   61.225    5.482   54.934   69.916 
    Group-3       8   65.000    7.838   55.000   80.000 
    Total        23   62.982    7.741   51.000   82.000 
    
    Group-1   |<--============(======#=====)============------------------>|
    Group-2   |       <-======(===#===)=======----->                       |
    Group-3   |       <---==========(=====#====)==========------------->   |
               51.000                                                82.000
    
    Weighted Means Analysis:
    Source           SS    df         MS        F     p
    Between      56.043     2     28.022    0.444 0.648 
    Within     1262.322    20     63.116 
    Die Gruppen unterscheiden sich nicht signifikant, es liegt also kein Einfluß vor. Dies gilt auch für die Größen, wie man nach Ausführung von
     oneway -p < heights.dat 
    sehen kann: Hier ist der Unterschied zwischen den Gruppen knapp nicht signifikant.
    Name          N     Mean       SD      Min      Max 
    Group-1       8  174.375    9.927  163.000  193.000 
    Group-2       7  166.914    6.674  157.480  175.260 
    Group-3       8  162.625   10.809  152.000  182.000 
    Total        23  168.017   10.312  152.000  193.000 
    
    Group-1   |                <-=========(====#====)==========----------->|
    Group-2   |        <---======(==#===)======-->                         |
    Group-3   |<========(=====#=====)==========----------->                |
               152.000                                              193.000
    
    Weighted Means Analysis:
    Source           SS    df         MS        F     p
    Between     564.494     2    282.247    3.180 0.063 
    Within     1775.031    20     88.752 


zurück zur Hauptseite zum Seminar "Rechnergestützte Auswertung von psychologischen Experimenten"

Anmerkungen und Mitteilungen an

rainer@zwisler.de
Last modified 11-7-98