Schräge Dinge geschehen zwischen Hümmel & Erde:
table(my_cars$cyl_f, my_cars$Spass)
FALSE TRUE
4 11 0
6 7 0
8 7 7
> favstats(mpg ~ hp, data = mtcars)
hp min Q1 median Q3 max mean sd n missing
1 52 30.4 30.400 30.40 30.400 30.4 30.40000 NA 1 0
2 62 24.4 24.400 24.40 24.400 24.4 24.40000 NA 1 0
3 65 33.9 33.900 33.90 33.900 33.9 33.90000 NA 1 0
4 66 27.3 28.575 29.85 31.125 32.4 29.85000 3.6062446 2 0
5 91 26.0 26.000 26.00 26.000 26.0 26.00000 NA 1 0
6 93 22.8 22.800 22.80 22.800 22.8 22.80000 NA 1 0
7 95 22.8 22.800 22.80 22.800 22.8 22.80000 NA 1 0
8 97 21.5 21.500 21.50 21.500 21.5 21.50000 NA 1 0
9 105 18.1 18.100 18.10 18.100 18.1 18.10000 NA 1 0
10 109 21.4 21.400 21.40 21.400 21.4 21.40000 NA 1 0
11 110 21.0 21.000 21.00 21.200 21.4 21.13333 0.2309401 3 0
12 113 30.4 30.400 30.40 30.400 30.4 30.40000 NA 1 0
13 123 17.8 18.150 18.50 18.850 19.2 18.50000 0.9899495 2 0
14 150 15.2 15.275 15.35 15.425 15.5 15.35000 0.2121320 2 0
15 175 18.7 18.950 19.20 19.450 19.7 19.20000 0.5000000 3 0
16 180 15.2 15.800 16.40 16.850 17.3 16.30000 1.0535654 3 0
17 205 10.4 10.400 10.40 10.400 10.4 10.40000 NA 1 0
18 215 10.4 10.400 10.40 10.400 10.4 10.40000 NA 1 0
19 230 14.7 14.700 14.70 14.700 14.7 14.70000 NA 1 0
20 245 13.3 13.550 13.80 14.050 14.3 13.80000 0.7071068 2 0
21 264 15.8 15.800 15.80 15.800 15.8 15.80000 NA 1 0
22 335 15.0 15.000 15.00 15.000 15.0 15.00000 NA 1 0
Da ich mich hier nicht bemüßigt fühle, den ganzen Crash-Kurs, den ich grade durchexerziere, komplett mitzupinnen, sondern nur ein paar Ergebnisse präsentieren und ggf. Hinweise, was nicht ganz so wie angegeben funzt, geben will, verweise ich hier an dieser Stelle noch einmal ganz explizit auf diesen Kurs:
https://sebastiansauer.github.io/crashkurs/
Zum Selbernachlesen (bitte).
Hier stelle ich noch mal kurz die Pferdestärken den Zylinderzahlen gegenüber:
favstats(hp ~ cyl, data = mtcars)
cyl min Q1 median Q3 max mean sd n missing
1 4 52 65.50 91.0 96.00 113 82.63636 20.93453 11 0
2 6 105 110.00 110.0 123.00 175 122.28571 24.26049 7 0
3 8 150 176.25 192.5 241.25 335 209.21429 50.97689 14 0
So fein, so gut.
Jetzt sind wir bei den Grafiken/Visualisierungen angelangt:
qplot(x = hp,
y = mpg,
geom = "point",
data = mtcars)
Auch hier ist wunderbarerweise Funzung gegeben. Oder auf gut Deutsch: Das angegebene Beispiel funktioniert (hat fim nicht immer, deshalb erstatte ich hier diese Scout-Meldungen).
qplot(x = factor(cyl),
y = mpg,
data = mtcars,
geom = "boxplot")
Klappert auch:
Was zur Hölle das Kopieren aus R-Studio in meinen Post mit der Formatierung macht ... darüber wollen wir heute nicht reden (es ist noch so viel zu tun, so wenig Zeit nur noch über ... uso).
Das eingangs gezeigte Beispiel mit dem ominösen Quartett ist nicht in Code-Form bereitgestellt, deshalb zeige ich es hier einfach nur wie es im Kurs steht:
Ein Bild sagt bekanntlich mehr als 1000 Worte. Betrachten Sie dazu “Anscombes Quartett”:
Diese vier Datensätze sehen ganz unterschiedlich aus, nicht wahr?
Aber ihre zentralen deskriptiven Statistiken sind praktisch gleich! Ohne
Diagramm wäre uns diese Unterschiedlichkeit nicht (so leicht)
aufgefallen!
Zur Visualisierung empfehle ich das R-Paket ggplot2
. Es wird mit geladen, wenn Sie tidyverse
laden.
qplot(x = hp,
+ data = mtcars,
+ geom = "histogram")
`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
|
|
|
Geben wir keine Y-Variable an, nimmt qplot eigenständig die Häufigkeit pro X-Wert!
Tauschen Sie mal “histogram” mit “density”!
Machen wir doch glatt!
qplot(x = hp,
+ data = mtcars,
+ geom = "density")
|
|
Und hiernach folgt das Modellieren, Schritt 4.
Ich würde vorschlagen, noch ein bisschen zu entspannen, bevor wir mit "Stufe 1c" weitermachen. Lassen wir das Ganze sich noch ein bisschen setzen! | Aloha! |
|
|
Kommentare
Kommentar veröffentlichen