Diese Seite kann auch als Postscript-Datei geladen werden.


Reelle Zufalsvariablen

DEFINITION: Sei X eine Zufallsvariable. Die Funktion

eqnarray26

heißt Verteilungsfunktion von X. Meist schreibt man kurz tex2html_wrap_inline366 anstelle von tex2html_wrap_inline368 . Für Verteilungsfunktionen gilt:

  1. Sie sind monoton steigend. d.h. wenn tex2html_wrap_inline370 , dann ist auch tex2html_wrap_inline372 .
  2. Für kleine Werte von x nähert sich F(x) an Null an: tex2html_wrap_inline378 .
  3. Für große Werte von x nähert sich F(x) an Eins an: tex2html_wrap_inline378 .

DEFINITION: Zufallsvariablen, die nur Werte aus tex2html_wrap_inline386 annehmen, werden reelle Zufallsvariablen genannt. Eine reelle Zufallsvariable besitzt eine Wahrscheinlichkeitsdichte f, falls für die Verteilungsfunktion F eine entsprechende Funktion f existiert, für die gilt:

  eqnarray38

Die Funktion f muß insbesondere stetig sein. Aus der Gleichung 1 folgt

eqnarray44

Erwartungswert

DEFINITION: Der Erwartungswert einer Zufallsvariable ist im diskreten Fall folgendermaßen definiert:

displaymath52

Im stetigen Fall lautet die Definition

displaymath56

wobei tex2html_wrap_inline396 . Es handelt sich also in beiden Fällen um eine (mit den Auftretenswahrscheinlichkeiten) gewichtete Summe von Werten. Zu den Rechenregeln für Erwartungswerte findet sich im Anhang B des Buches von HAYS (1988) eine brauchbare Zusammenfassung.

Besonders wichtig ist, daß der Erwartungswertoperator linear ist: Seien X und Y Zufallsvariablen über dem selben Wahrscheinlichkeitsraum mit den Erwartungswerten tex2html_wrap_inline402 und tex2html_wrap_inline404 und sei tex2html_wrap_inline406 . Dann gilt Homogenität und Additivität:

eqnarray69

Die Linarität ist eine sehr wünschenswerte Eigenschaft, da sie eine Dekomponierbarkeit der Wirkung mehrerer Faktoren erlaubt (jeder einzelne Faktor läßt sich sozusagen einzeln rausrechnen).

Rechnen mit Erwartungswerten

Da Erwartungswerte (vor allem auch in der Testtheorie) eine sehr bedeutende Stellung einnehmen, möchte ich an dieser Stelle einige wichtige Rechenregeln nennen. Zuerst nochmals die Definition des Erwartungswertes einer Zufallsvariable X:

displaymath79

wobei tex2html_wrap_inline410 die Summe über alle möglichen Ausprägungen der Zufallsvariable X ist. Nun folgen die Rechenregeln (die übrigens auch für den stegigen Fall gelten):

  1. Handelt es sich bei a um eine Konstante, dann

    displaymath84

  2. Handelt es sich bei a um eine konstante reelle Zahl und sei X eine Zufallsvariable mit dem Erwartungswert tex2html_wrap_inline402 , dann

    displaymath88

  3. Handelt es sich bei a um eine konstante reelle Zahl und sei X eine Zufallsvariable, dann

    displaymath92

  4. Sei X eine Zufallsvariable mit dem Erwartungswert tex2html_wrap_inline402 und sei Y eine Zufallsvariable mit dem Erwartungswert tex2html_wrap_inline404 , dann

    displaymath98

  5. Es sei eine endliche Anzahl von Zufallsvariablen gegeben; der Erwartungswert der Summe dieser Variablen ist gleich der Summe der Erwartungswerte der einzelnen Variablen. Es gilt also beispielsweise

    displaymath103

  6. Sei X eine Zufallsvariable mit dem Erwartungswert tex2html_wrap_inline402 und sei Y eine Zufallsvariable mit dem Erwartungswert tex2html_wrap_inline404 ; wenn X und Y stochastisch unabhängig sind, gilt

    displaymath111

    Nebenbemerkung: Ist tex2html_wrap_inline446 , dann sind die Variablen X und Y nicht unabhängig.

  7. Es sei eine endliche Anzahl von Zufallsvariablen gegeben, die paarweise unabhängig sind; der Erwartungswert des Produkte dieser Variablen ist gleich dem Produkt der Erwartungswerte der einzelnen Variablen. Es gilt also beispielsweise

    displaymath119

Varianz

Die Varianz bezeichnet die mittlere quadrierte Abweichung vom Erwartungswert; somit gilt im diskreten Fall:

eqnarray127

und im stetigen Fall gilt

eqnarray132

wobei f(x) die Wahrscheinlichkeitsdichte der Zufallsvariable X bezeichnet. Die Standardabweichung von X ist die positive Wurzel aus der Varianz.

Zur praktischen Berechnung der Varianz wird häufig die folgende einfachere Formel tex2html_wrap_inline458 verwendet; sie läßt sich folgendermaßen herleiten:

eqnarray141

Rechnen mit Varianzen

  1. Handelt es sich bei a um eine konstante reelle Zahl und sei X eine Zufallsvariable mit dem Erwartungswert tex2html_wrap_inline402 und der Varianz tex2html_wrap_inline466 , dann, dann besitzt die Zufallsvariable (X + a) folgende Varianz:

    displaymath162

    Deshalb muß auch gelten tex2html_wrap_inline470 .

  2. Handelt es sich bei a um eine konstante reelle Zahl und sei X eine Zufallsvariable mit der Varianz tex2html_wrap_inline466 , dann, dann besitzt die Zufallsvariable (aX) folgende Varianz:

    displaymath164

Diese Formeln wurden folgendem Buch entnommen:

Hays, W. L. (1973). Statistics for the social sciences, 2nd ed. London et al.:Holt, Rinehart and Wilston.

Kovarianz und Korrelation

DEFINITION: Seien X und Y zwei Zufallsvariablen. Der Erwartungswert

  eqnarray172

heißt Kovarianz von X und Y. Anstelle von tex2html_wrap_inline488 schreibt man auch tex2html_wrap_inline490 oder Cov(X, Y). Es läßt sich zeigen, daß gilt

eqnarray180

Die Kovarianz von zwei Zufallsvariablen hängt stark von der Varianz der einzelnen Variablen ab, wie man in Gleichung 2 sieht (es werden auch Abweichungen zum Erwartungswert betrachtet, nur keine quadrierten). Sucht man ein Maß des Zusammenhangs (bzw. gemeinsamen Variierens) zweier Zufallsvariablen, das nicht von deren Streuung abhängt, berechnet man die Korrelation:

DEFINITION: Sind X und Y Zufallsvariablen, dann heißt

eqnarray190

der Korrelationskoeffizient von X und Y; Statt tex2html_wrap_inline502 schreibt man auch tex2html_wrap_inline504 .

Rechnen mit Kovarianzen und Korrelationen

Für zwei Zufallsvariablen X und Y und reelle Konstanten a, b gelten folgende Rechenregeln:

  1. tex2html_wrap_inline512 .
  2. Sind X und Y stochastisch unabhängig, dann ist die Varianz tex2html_wrap_inline518 der Summe gleich der Summe der Varianzen:

    eqnarray198

    ist dagegen die Kovarianz tex2html_wrap_inline488 der beiden Zufallsvariablen von Null verschieden, dann lautet der Zusammenhang

    eqnarray200

  3. tex2html_wrap_inline522 .

Eine besonders wichtige Anwendung der Korrelation in der Testtheorie besteht in der Überprüfung der Güte von Tests. Die Validität eines Tests bezeichnet dessen Korrelation mit einem Außenkriterium; die Reliabilität bezeichnet den Meßfehler des Tests, also das Verhältnis der Varianz des wahren Wertes zur Varianz der beobachteten Werte; sie wird als Quadrat der Korrelation zwischen wahrem Wert und Beobachtungswert berechnet.

Ein Beispiel für die Korrelation

In diesem Beispiel ist eine mittlere Korrelation von 0.53 veranschaulicht: Der Zusammenhang zwischen Anzahl abgearbeiteter Stunden und der dafür bezahlten Vergütung sei nicht deterministisch (nämlich 10 DM pro Stunde), sondern schwanke zufällig, so daß insgesamt eine Korrelation von 0.53 besteht, wie sie für sehr gute psychologische Test als maximale Validität erreicht werden kann.

Die Zufallsvariable Arbeitsstunden sei normalverteilt mit einem Mittelwert von 50 und einer Standardabweichung von 20. Es werden 100 derartige Arbeitszeiten zufällig bestimmt. Zu jeder dieser Zeiten wird der Stundenlohn berechnet, der sich ergibt wenn genau 10 DM pro Stunde bezahlt werden. Dieser ``deterministische'' Lohn wird dann mit einer zufälligen normalverteilten Schwankung (durch Ausprobieren ergab sich, daß eine Standardabweichung von 300 zur gewünschten Korrelation führt) versehen, so daß sich eine Korrelation von 0.53 zwischen den beiden zufallsvariablen ergibt. Die so bestimmten datenpunkte sind in der folgenden Abbildung zu sehen.

figure206

Dieses Beispiel soll demonstrieern, daß eine Korrelation von 0.53, wie sie maximal bei psychologischen Tests erreicht werden kann, sehr starke Schwankungen zuläßt. Die Überprüfung der Homogenität der Probanden mit gleichem Rohwert durch die Korrelation der Testergebnisse mit einem Außenkriterium ist deshalb sehr ungenau.

Kombinatorik

Es sei ein Test mit k Aufgaben gegeben, zu denen es jeweils m Antwortalternativen gibt. Dann gibt es insgesamt tex2html_wrap_inline528 verschiedene Lösungsmuster (wird nur zwischen richtigen und falschen Lösungen unterschieden, reduziert sich diese Anzahl auf tex2html_wrap_inline530 .

Wird nur die Summe der richtig gelösten Aufgaben betrachtet, dann spielt es keine Rolle, welche Aufgaben im Einzelnen gelöst gelöst wurden. Wird nur zwichen richtigen und falschen Lösungen unterschieden, dann berechnet sich die Anzahl N der verschiednen Möglichkeiten, bei denen genau k der insgesamt n Aufgaben richtig gelöst sind, folgendermaßen:

eqnarray211

Erschöpfende Statistik

Eine andere Möglichkeit zur Überprüfung, ob sich Personen mit gleicher Anzahl gelöster Aufgaben in ihrer tatsächlichen Merkmalsausprägung untercheiden, führt über die Betrachtung von erschöpfenden (suffizienten) Statistiken.

Definition Statistik: Eine Statistik ist eine Abbildung

displaymath220

eine Statistik ist also eine Abbildung eines n-elementigen Zufallsvektors (Daten) auf ein r-dimensionales Tupel von (geschätzten) Parametern.

Nun werden die Ergebnisse des Test des Probanden h, der die wahre Fähigkeit tex2html_wrap_inline544 besitzt, untersucht; Das Ergebnis des Tests liege als Antwortvektor tex2html_wrap_inline546 vor; die Statistik tex2html_wrap_inline548 bezeichne die Anzahl der in diesem Antwortvektor vorkommenden richtig gelösten Aufgaben.

Nach der Definition der Bedingten Wahrscheinlichkeit gilt dann:

eqnarray225

weil die Statistik tex2html_wrap_inline548 eine Funktion der Daten tex2html_wrap_inline546 ist und somit die Wahrscheinlichkeit tex2html_wrap_inline554 nicht verändert. Nun wird wieder die Formel der bedingten Wahrscheinlichkeit tex2html_wrap_inline556 eingesetzt:

  eqnarray236

Die Gleichung 3 gilt für jede Statistik; demgegenüber wird für erschöpfende Statistiken folgende Einschränkung gefordert:

eqnarray248

Für erschöpfende Statistiken gilt somit

eqnarray252

dies bedeutet, daß die Wahrscheinlichkeit für einen bestimmten Antwortvektor tex2html_wrap_inline546 bei gegebener Anzahl gelöster Aufgaben nicht weiter von der Personenfähigkeit tex2html_wrap_inline544 abhängt, als durch die Statistsik tex2html_wrap_inline548 bereits erfaßt ist. Dies wiederum kann so interpretiert werden, daß bei gleicher Statistik keine Unterschiede zwischen den Personenfähigkeiten bestehen. Genau dies will man mit einer erschöpfenden Statistik erreichen.

Trifft also die Erschöpfungseigenschaft zu, dann darf die Anzahl richtig gelöster Aufgaben als sinnvoll interpretierbares Testergebnis verwendet werden.

Entscheidungstheoretische Überlegungen

Angenommen, man will aufgrund eines Testergebnisses die Eignung eines Probanden für eine bestimmte Tätigkeit vorhersagen. Probanden ab einem Testwert von tex2html_wrap_inline564 werden für die Tätigkeit akzeptiert; tatsächlich geeignet sind diejenigen, deren Bewährungskriterium Y über der Schwelle tex2html_wrap_inline568 liegt. Bei einer binären Selektionsentscheidung sind dann immer vier Fälle zu betrachten:

figure258

tex2html_wrap_inline570 wahr, tex2html_wrap_inline570 akzeptiert:
richtige Entscheidung, true negatives. tex2html_wrap_inline574 ; hit

tex2html_wrap_inline570 wahr, tex2html_wrap_inline570 abgelehnt:
falsche Entscheidung, false positives. Fehler 2. Art, tex2html_wrap_inline580 -Fehler; tex2html_wrap_inline582 ; miss

tex2html_wrap_inline570 falsch, tex2html_wrap_inline570 akzeptiert:
falsche Entscheidung, false negatives. Fehler 1. Art, tex2html_wrap_inline588 -Fehler; tex2html_wrap_inline590 ; false alarm

tex2html_wrap_inline570 falsch, tex2html_wrap_inline570 abgelehnt:
richtige Entscheidung, true positives; tex2html_wrap_inline596 (Power eines Tests); correct rejection



zurück zur Übungsseite

zurück zu meiner homepage



rainer@zwisler.de