Statistik

  • Maße
    • Mittelwert: x¯=1ninxi\bar{x} = \frac{1}{n} \sum_i^n x_i
    • Stichprobe: sxy=1n1i(xix¯)(yiy¯)s_{xy} = \frac{1}{n - 1} \sum_i (x_i - \bar{x}) (y_i - \bar{y})
    • Stichprobenvarianz sx2=1n1i(xix¯)2s_x^2 = \frac{1}{n - 1} \sum_i (x_ i - \bar{x})^2
    • Varianz: var(X)=E[(XE(X))2]var(X) = E[(X - E(X))^2]
    • Standardabweichung: σX=sX=var(X)\sigma_X = s_X = \sqrt{var(X)}
    • Kovarianz: cov(X,Y)=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y)cov(X, Y) = E[(X - E(X)) (Y - E(Y))] = E(XY) - E(X)E(Y) (anderes Maß für Korrelation)
    • Pearsons Korrelationskoeffizienten r=cov(X,Y)var(X)var(Y),1r1r = \frac{cov(X, Y)}{\sqrt{var(X) var(Y)}}, -1 \leq r \leq 1
    • Empirischer Korrelationskoeffizient: R=sxysxsyR = \frac{s_{xy}}{s_x s_y} (Schätzung für r)
  • Regeln
    • var(X)=cov(X,X)var(X) = cov(X, X)
    • var(X+Y)=var(X)+var(Y)+2cov(X,Y)var(X + Y) = var(X) + var(Y) + 2 cov(X, Y) (Kovarianz ist Ausgleichsterm für Additivität der Varianz)
  • r=0r = 0 \Rightarrow X und Y unkorreliert, X und Y unabhängig r=0\Rightarrow r = 0
  • Korrelation
    • R: (A+C) / (B+D) = R, hoch: R positiv, niedrig: R negativ
    • oder: A + D >> B + C: pos, B + C >> A + D (C | D, A | B)

Korrelation

Boxplot

Regressionsanalyse

y^=b0+b1x1++bpxp+e\hat{y} = b_0 + b_1 x_1 + \ldots + b_p x_p + e

  • y: abhängig, x: unabhängig, bib_i: Modellparameter, e: Fehlervariable
  • Annahmen: ene_n normalverteilt, E(en)=0,var(en)=σ2,cov(em,en)=0,mnE(e_n) = 0, var(e_n) = \sigma^2, cov(e_m, e_n) = 0, m \neq n
  • Minimiere: SAQ(b0,b1)=i=1N(yib0b1xi)2SAQ(b_0, b_1) = \sum_{i = 1}^N (y_i - b_0 - b_1 x_i)^2
    • b0=y¯b1x¯,b1=i=1Nxiyinx¯y¯i=1Nxi2nx¯2b_0 = \bar{y} - b_1 \bar{x}, b_1 = \frac{\sum_{i = 1}^N x_i y_i - n \bar{x} \bar{y}}{\sum_{i = 1}^N x_i^2 - n \bar{x}^2}
    • SQT: erklärende Abweichungen (SQE + SQR), SQE: erklärte, SQR: nichterklärte
  • Bestimmtheitsmaß: r2=SQESQT,SQE=i=1N(y^iy¯)2,SQT=i=1N(yiy¯)2r^2 = \frac{SQE}{SQT}, SQE = \sum_{i = 1}^N (\hat{y}_i - \bar{y})^2, SQT = \sum_{i = 1}^N (y_i - \bar{y})^2
    • 0: keine Erklärung, 1: vollständige Erklärung
  • Lineare logistische Regression
    • abh. Variable Y ist binär
    • Rechne mit Wsk p=P(Y=1)0p1p = P(Y = 1) \Rightarrow 0 \leq p \leq 1
    • Betrachte Chance: P(Y=1)P(Y=0)=p1p\frac{P(Y = 1)}{P(Y = 0)} = \frac{p}{1 - p}
    • Logit-Funktion: logit(p)=ln(p1p)=b0+b1X=zp=ez1+ezlogit(p) = \ln(\frac{p}{1 - p}) = b_0 + b_1 X = z \Rightarrow p = \frac{e^z}{1 + e^z}
    • nur approxmierbar (zB. Maximum-Likelihood)

Testverfahren

  • Signifikanzniveau α\alpha, krititscher Wert cc, Effektgröße γ\gamma
  • einseitig oder zweiseitig
  • Vorgehen
    1. Aufstellung von H0H_0 und HAH_A und Festlegung von α\alpha
    2. Festlegung geeigneter Prüfgröße und Testverteilungsbestimmung
    3. Bestimmung des kritischen Bereichs
    4. Berechnung des Wertes der Prüfgröße
    5. Entscheidung + Interpretation
  • Zusammenhänge
    • α+β\alpha+ \Rightarrow \beta- (höhere Güte)
    • (μ0μA)+β(\mu_0 - \mu_A)+ \Rightarrow \beta- (höhere Güte)
    • n+σ2(1β)+n+ || \sigma^2- \Rightarrow (1 - \beta)+
    • ES- \Rightarrow Güte-
  • t-Test
    • parametrisch, Gleichheit der Erwartungswerte
    • Voraussetzungen: Normalverteilung (Varianz unbekannt)
    • T=X¯μ0SnT = \frac{\bar{X} - \mu_0}{S} \sqrt{n} (T Student-t-verteilt)
    • falls Varianz bekannt: Z=X¯μ0σnZ = \frac{\bar{X} - \mu_0}{\sigma} \sqrt{n}
    • überschätzt / ist aggressiv
  • F-Test für Gleichheit der Varianzen
H0H_0 wahr H0H_0 falsch
H0H_0 ablehnen α\alpha (1. Art) 1β1 - \beta (Güte / Trennschärfe)
H0H_0 annehmen 1α1 - \alpha β\beta (2. Art)

Hypothesen

Güteananalyse

  • 4 Parameter: α,1β,n,γ\alpha, 1 - \beta, n, \gamma (aus 3 ist der 4. berechenbar)
    • n: vor Expirement, ES schätzen mit Pilotstudie / vergl. Expiremnt, Grundlage für Hypothesentest
    • Güte: für Korrekturen am Expirementaufbau (=Wsk selbes Ergebnis)
    • ES: Maß für Vergleich von Studien (γ=μxμyσ\gamma = \frac{\mu_x - \mu_y}{\sigma}, 0.2(klein), 0.5(mittel), 0.8 (groß))
    • α\alpha: ungewöhnlich (meist n und Güte)
  • Standardwerte: α=0.05,β=0.2\alpha = 0.05, \beta = 0.2 (+schätze ES --> berechne n)
  • Auswertung: nur falls Hypothese nicht abgelehnt (bei geringer Güte wird kleiner Effekt angenommen)
  • Probleme
    • Overpowered: zu viele Daten --> kleine, uninteressante Effekte haben Einfluss
    • Underpowered: zu wenige Daten --> Effekt nur mit geringer Wsk zeigbar
  • Wilcoxon-Test braucht im wc 10.864\frac{1}{0.864} mehr Datenpunkte als t-Test (selbe Güte)

Wilcoxon-Rangsummentest

  • nicht parametrisch (keine Ann. über Parameter der Verteilung), Zweistichproben-Test, Gegenstück zum t-Test
    • Überprüfung ob Stichproben selbe Verteilung besitzen (keine Normalverteilungsannahme)
  • Voraussetzungen: X, Y unab., haben stetige Verteilungsfunktionen F, G
    • Hypothesen: H0:F(z)=G(z),H1:zR,θ0:F(zθ)=G(z)H_0: F(z) = G(z), H_1: \forall z \in R, \theta \neq 0: F(z - \theta) = G(z)
    • F, G selbe Form, aber mögl. verschoben
    • F, G normalverteilt --> t-Test (Erwartungswert) + F-Test (Varianz)
  • Vorgehen
    1. Beob. X (Länge m), Y (Länge n), mn,N=m+nm \leq n, N = m + n
    2. Kombiniere Stichproben + sortiere
    3. Vergebe Ränge 1 bis N (bei gleichem Wert, verwende Mittelwert)
    4. Summiere die Ränge von X: WN=i=1NiViW_N = \sum_{i = 1}^{N} i V_i
    5. Wähle α\alpha + Teste H0H_0: lehne ab, falls WNwW_N \leq w (je nach ein- oder zweiseitiger Test)