Chapter 4 The Basics of Data Analysis

4.1 summarize

Der Befehl summarize berechnet statistische Maße (Mean, etc.)
Mit der Option detail werden alle Streuungsmaße ausgegeben

sysuse auto, clear
summarize mpg, detail

(1978 Automobile Data)

                        Mileage (mpg)
-------------------------------------------------------------
      Percentiles      Smallest
 1%           12             12
 5%           14             12
10%           14             14       Obs                  74
25%           18             14       Sum of Wgt.          74

50%           20                      Mean            21.2973
                        Largest       Std. Dev.      5.785503
75%           25             34
90%           29             35       Variance       33.47205
95%           34             35       Skewness       .9487176
99%           41             41       Kurtosis       3.975005

4.2 correlation

Ist das Gewicht eines Autos mit dem Verbrauch assoziiert?
pwcorr berechnet einen Korrelationskoeffizient

pwcorr mpg weight , sig star(.05) // Korrelation auf dem 5%-Niveau signifikant

> t 

             |      mpg   weight
-------------+------------------
         mpg |   1.0000 
             |
             |
      weight |  -0.8072*  1.0000 
             |   0.0000
             |

Option covariance gibt die Kovarianz aus

correlate mpg weight, covariance // Kovarianz

(obs=74)

             |      mpg   weight
-------------+------------------
         mpg |   33.472
      weight | -3629.43   604030

Inwiefern ein linearer Zusammenhang besteht sollte immer auch graphisch beurteilt werden. Beispielsweise kannst du einen Scatter Plot zur Überprüfung der Linearitätsannahme erstellen, wie im Kapitel Visualisierungen dargestellt ist.

4.3 t-test

Analog einer Versuchs- und Kontrollgruppenlogik lässt sich mit einem t-test der Frage nachgehen, ob die Unterschiede zwischen zwei Gruppen signifikant sind
Hierbei gilt es eine Reihe an Anpassungen zu berücksichtigen. Inwiefern sich zwei unabhängige Gruppen hinsichtlich eines numerischen Outcomes unterscheiden, zeigt beispielsweise der nächste Output:

ttest mpg, by(foreign)

Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. Err.   Std. Dev.   [95% Conf. Interval]
---------+--------------------------------------------------------------------
Domestic |      52    19.82692     .657777    4.743297    18.50638    21.14747
 Foreign |      22    24.77273     1.40951    6.611187    21.84149    27.70396
---------+--------------------------------------------------------------------
combined |      74     21.2973    .6725511    5.785503     19.9569    22.63769
---------+--------------------------------------------------------------------
    diff |           -4.945804    1.362162               -7.661225   -2.230384
------------------------------------------------------------------------------
    diff = mean(Domestic) - mean(Foreign)                         t =  -3.6308
Ho: diff = 0                                     degrees of freedom =       72

    Ha: diff < 0                 Ha: diff != 0                 Ha: diff > 0
 Pr(T < t) = 0.0003         Pr(|T| > |t|) = 0.0005          Pr(T > t) = 0.9997

4.4 missing values

mvencode ändert fehlende Werte in der angegebenen Variablenliste in numerische Werte

mvdecode _all, mv(999)

        make: string variable ignored

missings report zeigt eine Übersicht welche Variable fehlende Ausprägungen haben
Der Befehl stammt aus dem missings Ado und muss installiert werden

missings report

Checking missings in all variables:
5 observations with missing values

-------------
       |   #
-------+-----
 rep78 |   5
-------------

missings list gibt dir die einzelnen Fälle mit missing values aus, hier mit nur einem Missing da der Auto Datensatz sehr wenige Missings hat

missings list, minimum(1)