Chapter 4 The Basics of Data Analysis
4.1 summarize
- Der Befehl summarize berechnet statistische Maße (Mean, etc.)
- Mit der Option detail werden alle Streuungsmaße ausgegeben
sysuse auto, clear
summarize mpg, detail(1978 Automobile Data)
                        Mileage (mpg)
-------------------------------------------------------------
      Percentiles      Smallest
 1%           12             12
 5%           14             12
10%           14             14       Obs                  74
25%           18             14       Sum of Wgt.          74
50%           20                      Mean            21.2973
                        Largest       Std. Dev.      5.785503
75%           25             34
90%           29             35       Variance       33.47205
95%           34             35       Skewness       .9487176
99%           41             41       Kurtosis       3.9750054.2 correlation
- Ist das Gewicht eines Autos mit dem Verbrauch assoziiert?
- pwcorr berechnet einen Korrelationskoeffizient
pwcorr mpg weight , sig star(.05) // Korrelation auf dem 5%-Niveau signifikant > t 
             |      mpg   weight
-------------+------------------
         mpg |   1.0000 
             |
             |
      weight |  -0.8072*  1.0000 
             |   0.0000
             |Option covariance gibt die Kovarianz aus
correlate mpg weight, covariance // Kovarianz(obs=74)
             |      mpg   weight
-------------+------------------
         mpg |   33.472
      weight | -3629.43   604030Inwiefern ein linearer Zusammenhang besteht sollte immer auch graphisch beurteilt werden. Beispielsweise kannst du einen Scatter Plot zur Überprüfung der Linearitätsannahme erstellen, wie im Kapitel Visualisierungen dargestellt ist.
4.3 t-test
- Analog einer Versuchs- und Kontrollgruppenlogik lässt sich mit einem t-test der Frage nachgehen, ob die Unterschiede zwischen zwei Gruppen signifikant sind
- Hierbei gilt es eine Reihe an Anpassungen zu berücksichtigen. Inwiefern sich zwei unabhängige Gruppen hinsichtlich eines numerischen Outcomes unterscheiden, zeigt beispielsweise der nächste Output:
ttest mpg, by(foreign)Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. Err.   Std. Dev.   [95% Conf. Interval]
---------+--------------------------------------------------------------------
Domestic |      52    19.82692     .657777    4.743297    18.50638    21.14747
 Foreign |      22    24.77273     1.40951    6.611187    21.84149    27.70396
---------+--------------------------------------------------------------------
combined |      74     21.2973    .6725511    5.785503     19.9569    22.63769
---------+--------------------------------------------------------------------
    diff |           -4.945804    1.362162               -7.661225   -2.230384
------------------------------------------------------------------------------
    diff = mean(Domestic) - mean(Foreign)                         t =  -3.6308
Ho: diff = 0                                     degrees of freedom =       72
    Ha: diff < 0                 Ha: diff != 0                 Ha: diff > 0
 Pr(T < t) = 0.0003         Pr(|T| > |t|) = 0.0005          Pr(T > t) = 0.99974.4 missing values
- mvencode ändert fehlende Werte in der angegebenen Variablenliste in numerische Werte
mvdecode _all, mv(999)        make: string variable ignored- missings report zeigt eine Übersicht welche Variable fehlende Ausprägungen haben
- Der Befehl stammt aus dem missings Ado und muss installiert werden
missings reportChecking missings in all variables:
5 observations with missing values
-------------
       |   #
-------+-----
 rep78 |   5
-------------- missings list gibt dir die einzelnen Fälle mit missing values aus, hier mit nur einem Missing da der Auto Datensatz sehr wenige Missings hat
missings list, minimum(1)