UNIXSTAT
, calc und probdist
UNIXSTAT ist ein Statistikpaket, das public domain deklariert ist, also frei vertrieben werden kann. Es ist relativ einfach zu bedienen, einigermaßen dokumentiert und enthält alle wichtigen Funktionen. Besonders vorteilhaft: Die einzelnen Programme lassen sich über piping miteinander verknüpfen. Ein weiterer Vorteil sind die verhältnismäßig gut interpretierbaren Ausgaben der einzelnen Programme. Zum Aufnehmen der UNIXSTAT-Programme in den aktuellen Pfad muß die Batch-Datei g:\unixstat\setpath gestartet werden (durch Eingebe von eben diesem Kommando).
Wichtig: Zu allen Kommandos liegen sog. Manual-Einträge vor, deren Stil sich nach den sogenannten "man-pages" der UNIX-Programme richtet. Die Manuals zu den später erläuterten Statistik-Teilprogrammen können nach Eingabe von
man < kommando >
betrachtet werden. Daraufhin wird eine kurze englische Beschreibung des jeweiligen Kommandos angegeben. Die Manual-Einträge untergliedern sich im wesentlichen in folgende Abschnitte:
- NAME
: Name des Kommandos und Stichwort zur Funktion;
- SYNOPSIS
: Kommandostruktur (Argumente etc.);
- DESCRIPTION
: Natürlichsprachliche Beschreibung des Kommandos (was macht es);
- OPTIONS
: Beschreibung der möglichen Schalter und ihrer Effekte;
- EXAMPLES
: Anwendungsbeispiele.
Im folgenden sollen einige der einfacheren Programme erklärt werden:
calc ist ein Programm, das den Taschenrechner ersetzen soll. Der Programmaufruf und die Berechnung der Summe von 4 und 3 führen zu folgenden Bildschirmausgaben:
calc: version 5.2 11/2/85 (Copyright 1981 Gary Perlman)
Enter expressions after the prompt 'CALC: '
Quit with ^Z, get help with ?
CALC: 4 + 3
(4 + 3) = 7
Dabei können verschiedene Operationen mit den Zahlen durchgeführt werden:
- *
, /, + und - ("Punkt vor Strich" wir berücksichtigt)
- Exponentialschreibweise 2^3; Wurzel sqrt(2)
- Logarithmus (zur Basis e): log(10)
- Testen von Bedingungen: ==, !=, >=, <=, >, <
- Verknüpfen von Bedingungen mit &, | , !
Besonderheiten:
- calc kann mit einem Dateinamen als Argument aufgerufen werden (calc foo). Dann werden die einzelnen Zeilen jeweils ausgerechnet.
- Verwendung von Variablen: Mit dem Gleichheitszeichen können Variablen definiert werden, indem ihnen bestimmte Werte zugewiesen werden, z.B. xxx = 42.
- Das Anzeigen aller definierter Variablen geschieht durch Eingabe von ^V. Daraufhin werden für jede definierte Variable in jeweils einer Zeile folgende Inhalte angegeben:
<Name> <aktueller Wert> <Definition>
- Die Definition von Konstanten erfolgt mit dem Gartenzaum #: Beispielsweise
zzz = # xxx
bewirkt, daß sich der Wert von zzz nicht ändert, wenn sich der Wert von xxx verändert (ohne den Gartenzaun wäre dies schon der Fall).
probdist kann (zufällige) Realisierungen von unterschiedlich verteilten Zufallsvariablen erzeugen; außerdem können Prüfgrößen auf deren Signifikanz überprüft werden und es können zu bestimmten Signifikanzniveaus die entsprechenden Größen berechnet werden. Dabei wird folgende Syntax verwendet:
probdist [-v] [-s seed] [function distribution [parameters] value ]
Probdist dient also einerseits der Erzeugung von Zufallszahlen aus verschiedenen Verteilungen: Das Beispiel
probdist rand uniform 100
erzeugt 100 gleichverteilte Zufallszahlen zwischen 0 und 1. Andererseits können Wahrscheinlichkeiten in kritische Werte der Prüfgrößen umgewandelt werden und umgekehrt.
Folgende Funktionen (function) sind möglich:
- prob
(Wahrscheinlichkeit einer erhaltenen Statistik, entspricht den Tabellen mit den kritischen Werten aus den Anhängen der Statistikbücher)
- crit
oder quantile (kritische Statistiken für bestimmte Wahrscheinlichkeits- bzw. Signifikanzniveaus)
- rand
(zufällige Realisierung einer bestimmten Variablen)
Folgende Verteilungen können eingesetzt werden (mit ihren spezifischen Parametern):
- uniform
(Gleichverteilung)
- normal-z
(Normalverteilung)
- binomial N p
(Binomialverteilung)
- chi-square df
(Chi-Quadrat-Verteilung)
- F df1 df2
(F-Verteilung)
- t df
(Studentīs t-Verteilung)
Die Funktionen und Verteilungen können durch ihren ersten Buchstaben abgekürzt werden (genau genommen zählt nur der erste Buchstabe). Zum Schluß noch ein paar Beispiele:
- probdist prob t 20 2.5
gibt die Wahrscheinlichkeit dafür an, daß man bei einem zweiseitigem Test eine t-Statistik von 2.5 erhält, wenn 20 Freiheitsgrade vorliegen.
- probdist prob F 1 20 6.25
gibt die Wahrscheinlichkeit dafür an, daß man bei einem zweiseitigen Test eine F-Statistik von 6.25 erhält, wenn man 1 Zählerfreiheitsgrad und 20 Nennerfreiheitsgrade hat.
- probdist crit chi-square 5 .05
gibt den kritischen Wert der Chi-Quadrat-Verteilung mit 5 Freiheitsgraden an, wenn ein Signifikanzniveau von .05 gelten soll.
- probdist crit n .99
gibt den kritischen Wert für das 99. Perzentil einer Normalverteilung an.
Ergänzung zum Kommando probdist: Bei der Variante probdist crit (zur Bestimmung von kritischen Größen zu einem bestimmten Wahrscheinlichkeitsniveau) sind folgende Konzepte wichtig:
- Prüfgröße:
errechnet sich aus den Daten; somit handelt es sich dabei um eine Statistik (Funktion der Daten);
- kritische Größe:
errechnet sich aus der jeweiligen Verteilung; ist in den Tabellen im Anhang der Statistikbücher angegeben. Eine kritische Größe gibt an, ab welchem Wert die Prüfgröße (evtl. bei bestimmten Freiheitsgraden) signifikant ist, d.h. wie groß Prüfgröße mindestens sein muß, um bei einem gegebenen Signifikanzniveau nicht zufällig zustande gekommen zu sein.
- Signifikanzniveau
: In wie viel Prozent der Fälle ist man bereit, einen Fehler der ersten Art (also einen alpha-Fehler einzugehen)? Man will nämlich möglichst selten einen Unterschied postulieren, wo gar keiner vorliegt (keine weißen Mäuse!).
Hausaufgabe: Von Hausaufgabe2 die ersten vier Aufgaben (1 - 4) bearbeiten.
zurück zur Hauptseite zum Seminar "Rechnergestützte Auswertung von psychologischen Experimenten"
Anmerkungen und Mitteilungen an
rainer@zwisler.de
Last modified 12-10-98