Besprechung der Hausaufgabe 5:

Erzeugung zufälliger normalverteilter Daten.

a) Durch die folgende Befehlszeile werden 100 zufällige normalverteilte Werte erzeugt, anschließend in den gewünschten Wertebereich transformiert und schließlich werden deskriptive Statistiken berechnet:
```
 probdist rand z 100 | dm "2.8 * x1 + 165" | desc 
```
Es werden auch Mittelwert und Varianz der neuen Werte anzeigen (z.B. Mittelwert mean = 165.261 und Standardabweichung SD = 2,71).

b1) Für einen Sichprobenumfang von n = 10 ergeben sich beispielsweise folgende Mittelwerte: 165.378, 165.178, 164.991, 163.393, 165.607, 165.950, 164.075, 166.063, 165.779, 164.496; Mit dem Kommando stats mean kann die gewünschten Aktion (Mittelwertsberechnung) einzeln ausgeführt werden:

 probdist rand z 10 | dm "2.8 * x1 + 165" | stats mean

Daraufhin können die 10 so erhaltenen Mittelwerte in einer datei, z.B. mean10.dat, gespeichert werden. Mit dem Kommando

 desc -o -h < mean10.dat

erhält man folgenden Output (die gesuchte geschätzte Varianz der Mittelwerte ist fett hervorgehoben; die Option -o steht für ordinale Statistiken und -h für die Anzeige eines Histogramms):

------------------------------------------------------------
 Under Range    In Range  Over Range         Sum
           0          10           0    1650.910
------------------------------------------------------------
        Mean      Median    Midpoint   Geometric    Harmonic
     165.091     165.278     164.728     165.089     165.087
------------------------------------------------------------
          SD   Quart Dev       Range     SE mean
       0.869       0.642       2.670       0.275
------------------------------------------------------------
     Minimum  Quartile 1  Quartile 2  Quartile 3     Maximum
     163.393     164.496     165.278     165.779     166.063
------------------------------------------------------------
        Skew     SD Skew    Kurtosis     SD Kurt
      -0.628       0.775       1.974       1.549
------------------------------------------------------------
   Null Mean           t    prob (t)           F    prob (F)
       0.000     600.974       0.000  361169.925       0.000
------------------------------------------------------------
       Midpt    Freq
     163.342       1 *
     164.027       1 *
     164.712       2 **
     165.397       3 ***
     166.082       3 ***

b2) Analoges gilt für den Fall mit jeweils 100 Rohwerten: Mittelwerte für n = 100 seien beispielsweise: 164.898, 165.295, 164.842, 165.096, 165.436, 165.189, 164.972, 165.108, 164.742, 164.544, die in der Datei mean100.dat gespeichert sind. Mit folgendem Kommando können die gewünschten Aktionen ausgeführt werden:

 desc -o -h < mean100.dat

Man erhält dann folgenden Output:

------------------------------------------------------------
 Under Range    In Range  Over Range         Sum
           0          10           0    1650.122
------------------------------------------------------------
        Mean      Median    Midpoint   Geometric    Harmonic
     165.012     165.034     164.990     165.012     165.012
------------------------------------------------------------
          SD   Quart Dev       Range     SE mean
       0.267       0.174       0.892       0.085
------------------------------------------------------------
     Minimum  Quartile 1  Quartile 2  Quartile 3     Maximum
     164.544     164.842     165.034     165.189     165.436
------------------------------------------------------------
        Skew     SD Skew    Kurtosis     SD Kurt
      -0.121       0.775       1.845       1.549
------------------------------------------------------------
   Null Mean           t    prob (t)           F    prob (F)
       0.000    1952.407       0.000 3811894.921       0.000
------------------------------------------------------------
       Midpt    Freq
     164.161       0 
     164.482       1 *
     164.803       3 ***
     165.124       4 ****
     165.445       2 **

c) Eine Varianz von 81 bedeutet eine Standardabweichung von 9. Die gewünschte Transformation ist beispielsweise durch Rücktransformieren und anschließendes Neu-Transformieren auf folgende Weise möglich:
```
 probdist rand z 100 | dm "x1 * 2.8 + 165" | dm "((x1 -165) / 2.8) * 9 +175" 
```

Vergleich der Ergebnisse in unterschiedlichen Intelligenztests: Zuerst müssen die Ergebnisse der beiden Versuchspersonen nach der entsprechenden Formel [z = (x - mu)/sigma] z-standardisiert werden. Man erhält für VP1 als z-Wert (124 - 100) / 20 = 1.2 und für VP2 den z-Wert (64 - 50) / 10 = 1.4. Daraus kann man mit folgender Eingabe berechnen, wie viele Prozent der Gesamtbevölkerung maximal gleich gut sind:
```
 probdist prob n 1.2
 probdist prob n 1.4 
```
Man erhält für VP1 das Ergebnis 0.885 und für VP2 0.919. Zieht man diese Werte von 1 ab, erhält man die Wanrscheinlichkeit dafür, daß jemand aus der Gesamtpopulation besser ist als die jeweilige Versuchsperson (VP1: 0.115; VP2: 0.081).
Hier geht es darum, festzustellen, ob die beiden Werte (Trikotnummer und Anzahl der Tore) miteinander korrelieren. In der Datei fussb.dat stehen in zwei Spalten die Trikotnummern und daneben die Anzahl der Tore. Da es sich bei der Trikotnummer um ein ordinales Merkmal handelt, muß auch ein entsprechender Test gerechnet werden (z.B. Rangkorrelation nach Spearman). Dazu eignet sich das Programm rankrel, das folgendermaßen aufgerufen werden kann:
```
 rankrel < fussb.dat 
```
Man erhält unter anderem folgende Ausgabe, die aufgrund der hohen Korrelation der vermuteten Verdacht bestätigt:
```
 Spearman Rank Correlation (rho) [corrected for ties]:
         Critical r (.05) t approximation        0.631897
         Critical r (.01) t approximation        0.764592
         rho                                     0.886887  
```
Es scheint also ein Zusammenhang zwischen Angriffsposition (niedrige Trikotnummer?) und Anzahl der Tore zu bestehen.

Aufgabe zum Speed-Accuraccy-Trade-Off bei der Mausbedienung: Da es sich bei den Variablen Geschwindigkeit und Genauigkeit um metrische Daten handelt, kann die Produkt-Moment-Korrelation zwischen diesen Wertepaaren berechnet werden. Dazu dient das Kommando

 pair -sp < speed1.dat

(in der Datei speed1.dat stehen die Werte für die erste Versuchspersonengruppe in zwei Spalten; die Option -sp bewirkt das Zeichnen eines scatter plots) bzw.

 pair -sp < speed2.dat

für die zweite Versuchspersonengruppe, deren Daten in der Datei speed2.dat abgelegt sind. Für die erste Gruppe erhält man:

 Correlation        r-squared             t(8)        p
          -0.7118           0.5066          -2.8661   0.0210
        Intercept            Slope
        1753.4004          -0.6379
 |--------------------------------------------------|1.02e+03
 |        1               1                         |
 |1                   1         1                   |
 | 1                                                |
 |                                                  |
 |            1                                     |
 |                                                  |
 |                                                  |
 |                                         1        |
 |                                     1            |
 |                                                  |Column 2
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                 1|
 |--------------------------------------------------|480
 1110.000                                    1650.000
                      Column 1

also eine signifikante Korrelation. Auch für die zweite Gruppe sieht das Ergebnis so aus:

 Correlation        r-squared             t(8)        p
          -0.7722           0.5962          -3.4371   0.0089
        Intercept            Slope
        1479.0120          -0.7147
 |--------------------------------------------------|1.03e+03
 |        1                                         |
 |1                                                 |
 |                                                  |
 |                                                  |
 |                                                  |
 |                           1                      |
 |                                                  |
 |                                                  |
 |                                                  |
 |            1                                     |Column 2
 |                                                  |
 |                      1                           |
 |                                                  |
 |                                                  |
 |                                                  |
 |                                                  |
 |                1                1                |
 |                              1                  1|
 |                                   1              |
 |--------------------------------------------------|440
 740.000                                     1550.000
                      Column 1

Diese Korrelation ist sogar noch etwas deutlicher.

Berechnet man die Korrelation für die Gesamtstichprobe mit der Zeile

pair -sp < speedall.dat

(Die Datei speedall.dat ist durch folgende Sequenz erzeugbar:

 type speed1.dat > speedall.dat
 type speed2.dat >> speedall.dat

), erhält man folgendes Ergebnis (mit Plot):

Correlation        r-squared            t(18)                p
         -0.3165           0.1002          -1.4158           0.1739
       Intercept            Slope
       1142.5397          -0.2908
|--------------------------------------------------|1.03e+03
|       1                 1        1               |
|1                   1           1     1           |
|                     1                            |
|                                                  |
|                            1                     |
|                        1                         |
|                                                  |
|                                          1  1    |
|                                                  |
|           1                                      |Column 2
|                                                  |
|                   1                              |
|                                                  |
|                                                  |
|                                                  |
|                                                  |
|              1              1                    |
|                          1                 1    1|
|                               1                  |
|--------------------------------------------------|440
740.000                                     1650.000
                     Column 1

Diese Korrelation ist deutlich geringer und nicht mehr signifikant. Also: Aufpassen beim Poolen von Daten. Liegt in zwei Teilstichproben eine Korrelation vor, kann sich diese beim Poolen der beiden Stichproben auflösen.

Um feststellen zu können, ob die Studentinnen aus den verschiedenen Ländern aus der selben Grundgesamtheit bezüglich Größe und Gewicht stammen, muß man jeweils ein Varainzanalyse dazu rechnen (da drei Gruppen vorliegen, reicht ein t-Test nicht aus). Da die Frage nur jeweils für Größe bzw. Gewicht gestellt wurde, reicht außerdem eine einfaktorielle Varianzanalyse (oneway) aus. Die amerikanischen Daten müssen allerdings noch umgerechnet werden. Dies geschieht folgendermaßen:

Größe (1 cm = 0.3937 inch, also 1 inch = 2.54 cm,);
Gewicht (1 kg = 2.2046 pound, also 1 pound = 0.454 kg).
Umrechnung von beiden Variablen Gewicht und Größe simultan mit:
```
 dm "x1 * 0.454" "x2 * 2.54" < usa.dat > usa_n.dat 
```
das die Daten aus der Datei usa.dat liest und die transformierten Werte in der Datei usa_n.dat ablegt.

Angenommen, die Daten liegen in drei Dateien germ.dat, usa.dat und dansk.dat so vor, wie sie in der Aufgabenstellung stehen. Geeignete Inputfiles weights.dat (die Gewichtsangaben) sowie heights.dat (die Körpergrößen) für anova werden folgendermaßen erzeugt:

 dm s1 < germ.dat > weights.dat
 echo -1 >> weights.dat
 dm s1 < usa_n.dat >> weights.dat
 echo -1 >> weights.dat
 dm s1 < dansk.dat >> weights.dat
 dm s2 < germ.dat > heights.dat
 echo -1 >> heights.dat
 dm s2 < usa_n.dat >> heights.dat
 echo -1 >> heights.dat
 dm s2 < dansk.dat >> heights.dat

Nun läßt sich mit

oneway -p < weights.dat

bestimmen, ob die Studentinnen aus den drei Ländern aus der selben Gewichts-Grundgesamtheit stammen:

Name          N     Mean       SD      Min      Max 
Group-1       8   62.500    9.651   51.000   82.000 
Group-2       7   61.225    5.482   54.934   69.916 
Group-3       8   65.000    7.838   55.000   80.000 
Total        23   62.982    7.741   51.000   82.000 

Group-1   |<--============(======#=====)============------------------>|
Group-2   |       <-======(===#===)=======----->                       |
Group-3   |       <---==========(=====#====)==========------------->   |
           51.000                                                82.000

Weighted Means Analysis:
Source           SS    df         MS        F     p
Between      56.043     2     28.022    0.444 0.648 
Within     1262.322    20     63.116

Die Gruppen unterscheiden sich nicht signifikant, es liegt also kein Einfluß vor. Dies gilt auch für die Größen, wie man nach Ausführung von

 oneway -p < heights.dat

sehen kann: Hier ist der Unterschied zwischen den Gruppen knapp nicht signifikant.

Name          N     Mean       SD      Min      Max 
Group-1       8  174.375    9.927  163.000  193.000 
Group-2       7  166.914    6.674  157.480  175.260 
Group-3       8  162.625   10.809  152.000  182.000 
Total        23  168.017   10.312  152.000  193.000 

Group-1   |                <-=========(====#====)==========----------->|
Group-2   |        <---======(==#===)======-->                         |
Group-3   |<========(=====#=====)==========----------->                |
           152.000                                              193.000

Weighted Means Analysis:
Source           SS    df         MS        F     p
Between     564.494     2    282.247    3.180 0.063 
Within     1775.031    20     88.752

zurück zur Hauptseite zum Seminar "Rechnergestützte Auswertung von psychologischen Experimenten"

Anmerkungen und Mitteilungen an

rainer@zwisler.de

Besprechung der Hausaufgabe 5:

Last modified 11-7-98