Chapter 4 The Basics of Data Analysis

4.1 summarize

  • Der Befehl summarize berechnet statistische Maße (Mean, etc.)
  • Mit der Option detail werden alle Streuungsmaße ausgegeben
sysuse auto, clear
summarize mpg, detail
(1978 Automobile Data)

                        Mileage (mpg)
-------------------------------------------------------------
      Percentiles      Smallest
 1%           12             12
 5%           14             12
10%           14             14       Obs                  74
25%           18             14       Sum of Wgt.          74

50%           20                      Mean            21.2973
                        Largest       Std. Dev.      5.785503
75%           25             34
90%           29             35       Variance       33.47205
95%           34             35       Skewness       .9487176
99%           41             41       Kurtosis       3.975005

4.2 correlation

  • Ist das Gewicht eines Autos mit dem Verbrauch assoziiert?
  • pwcorr berechnet einen Korrelationskoeffizient
pwcorr mpg weight , sig star(.05) // Korrelation auf dem 5%-Niveau signifikant 
> t 

             |      mpg   weight
-------------+------------------
         mpg |   1.0000 
             |
             |
      weight |  -0.8072*  1.0000 
             |   0.0000
             |

Option covariance gibt die Kovarianz aus

correlate mpg weight, covariance // Kovarianz
(obs=74)

             |      mpg   weight
-------------+------------------
         mpg |   33.472
      weight | -3629.43   604030

Inwiefern ein linearer Zusammenhang besteht sollte immer auch graphisch beurteilt werden. Beispielsweise kannst du einen Scatter Plot zur Überprüfung der Linearitätsannahme erstellen, wie im Kapitel Visualisierungen dargestellt ist.

4.3 t-test

  • Analog einer Versuchs- und Kontrollgruppenlogik lässt sich mit einem t-test der Frage nachgehen, ob die Unterschiede zwischen zwei Gruppen signifikant sind
  • Hierbei gilt es eine Reihe an Anpassungen zu berücksichtigen. Inwiefern sich zwei unabhängige Gruppen hinsichtlich eines numerischen Outcomes unterscheiden, zeigt beispielsweise der nächste Output:
ttest mpg, by(foreign)
Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. Err.   Std. Dev.   [95% Conf. Interval]
---------+--------------------------------------------------------------------
Domestic |      52    19.82692     .657777    4.743297    18.50638    21.14747
 Foreign |      22    24.77273     1.40951    6.611187    21.84149    27.70396
---------+--------------------------------------------------------------------
combined |      74     21.2973    .6725511    5.785503     19.9569    22.63769
---------+--------------------------------------------------------------------
    diff |           -4.945804    1.362162               -7.661225   -2.230384
------------------------------------------------------------------------------
    diff = mean(Domestic) - mean(Foreign)                         t =  -3.6308
Ho: diff = 0                                     degrees of freedom =       72

    Ha: diff < 0                 Ha: diff != 0                 Ha: diff > 0
 Pr(T < t) = 0.0003         Pr(|T| > |t|) = 0.0005          Pr(T > t) = 0.9997

4.4 missing values

  • mvencode ändert fehlende Werte in der angegebenen Variablenliste in numerische Werte
mvdecode _all, mv(999)
        make: string variable ignored
  • missings report zeigt eine Übersicht welche Variable fehlende Ausprägungen haben
  • Der Befehl stammt aus dem missings Ado und muss installiert werden
missings report
Checking missings in all variables:
5 observations with missing values

-------------
       |   #
-------+-----
 rep78 |   5
-------------
  • missings list gibt dir die einzelnen Fälle mit missing values aus, hier mit nur einem Missing da der Auto Datensatz sehr wenige Missings hat
missings list, minimum(1)