Chapter 4 The Basics of Data Analysis
4.1 summarize
- Der Befehl summarize berechnet statistische Maße (Mean, etc.)
- Mit der Option detail werden alle Streuungsmaße ausgegeben
sysuse auto, clear
summarize mpg, detail
(1978 Automobile Data)
Mileage (mpg)
-------------------------------------------------------------
Percentiles Smallest
1% 12 12
5% 14 12
10% 14 14 Obs 74
25% 18 14 Sum of Wgt. 74
50% 20 Mean 21.2973
Largest Std. Dev. 5.785503
75% 25 34
90% 29 35 Variance 33.47205
95% 34 35 Skewness .9487176
99% 41 41 Kurtosis 3.975005
4.2 correlation
- Ist das Gewicht eines Autos mit dem Verbrauch assoziiert?
- pwcorr berechnet einen Korrelationskoeffizient
pwcorr mpg weight , sig star(.05) // Korrelation auf dem 5%-Niveau signifikant
> t
| mpg weight
-------------+------------------
mpg | 1.0000
|
|
weight | -0.8072* 1.0000
| 0.0000
|
Option covariance gibt die Kovarianz aus
weight, covariance // Kovarianz correlate mpg
(obs=74)
| mpg weight
-------------+------------------
mpg | 33.472
weight | -3629.43 604030
Inwiefern ein linearer Zusammenhang besteht sollte immer auch graphisch beurteilt werden. Beispielsweise kannst du einen Scatter Plot zur Überprüfung der Linearitätsannahme erstellen, wie im Kapitel Visualisierungen dargestellt ist.
4.3 t-test
- Analog einer Versuchs- und Kontrollgruppenlogik lässt sich mit einem t-test der Frage nachgehen, ob die Unterschiede zwischen zwei Gruppen signifikant sind
- Hierbei gilt es eine Reihe an Anpassungen zu berücksichtigen. Inwiefern sich zwei unabhängige Gruppen hinsichtlich eines numerischen Outcomes unterscheiden, zeigt beispielsweise der nächste Output:
ttest mpg, by(foreign)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Domestic | 52 19.82692 .657777 4.743297 18.50638 21.14747
Foreign | 22 24.77273 1.40951 6.611187 21.84149 27.70396
---------+--------------------------------------------------------------------
combined | 74 21.2973 .6725511 5.785503 19.9569 22.63769
---------+--------------------------------------------------------------------
diff | -4.945804 1.362162 -7.661225 -2.230384
------------------------------------------------------------------------------
diff = mean(Domestic) - mean(Foreign) t = -3.6308
Ho: diff = 0 degrees of freedom = 72
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0003 Pr(|T| > |t|) = 0.0005 Pr(T > t) = 0.9997
4.4 missing values
- mvencode ändert fehlende Werte in der angegebenen Variablenliste in numerische Werte
mvdecode _all, mv(999)
make: string variable ignored
- missings report zeigt eine Übersicht welche Variable fehlende Ausprägungen haben
- Der Befehl stammt aus dem missings Ado und muss installiert werden
report missings
Checking missings in all variables:
5 observations with missing values
-------------
| #
-------+-----
rep78 | 5
-------------
- missings list gibt dir die einzelnen Fälle mit missing values aus, hier mit nur einem Missing da der Auto Datensatz sehr wenige Missings hat
list, minimum(1) missings