Skip to main content

Erste Schritte

  • Chapter
  • First Online:
Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 17k Accesses

Zusammenfassung

R ist eine freie und kostenlose Umgebung zur computergestützten statistischen Datenverarbeitung (Ihaka & Gentleman, 1996; R Core Team, 2014): R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können. Dabei bezeichnet R sowohl das Programm selbst als auch die Sprache, in der die Auswertungsbefehle geschrieben werden. Denn in R bestehen Auswertungen aus einer Abfolge von Befehlen in Textform, die der Benutzer unter Einhaltung einer bestimmten Syntax selbst einzugeben hat. Jeder Befehl stellt dabei einen eigenen Auswertungsschritt dar, wobei eine vollständige Datenanalyse die Abfolge vieler solcher Schritte umfasst. So könnten Daten zunächst aus einer Datei gelesen und zwei Variablen zu einer neuen verrechnet werden, ehe eine Teilmenge von Beobachtungen ausgewählt und mit ihr ein statistischer Test durchgeführt wird, dessen Ergebnisse im Anschluss grafisch aufzubereiten sind.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Genauer gesagt ist GNU R ursprünglich eine open source Implementierung der Sprache S (Becker, Chambers, & Wilks, 1988). Der open source Programmen zugrundeliegende Quelltext ist frei erhältlich, zudem darf die Software frei genutzt, verbreitet und verändert werden. Genaueres erläutert der Befehl licence()​. Kommerzielle Varianten von R sind u. a. Microsoft R (Microsoft, 2016a) und TIBCO TERR (TIBCO Software Inc, 2016).

  2. 2.

    Abgesehen von der Oberfläche und abweichenden Pfadangaben bestehen nur unwesentliche Unterschiede zwischen der Arbeit mit R unter verschiedenen Betriebssystemen.

  3. 3.

    CRAN (Comprehensive R Archive Network) bezeichnet ein weltweites Netzwerk von mirror servern für R-Installationsdateien, Zusatzpakete und offizielle Dokumentation. Eine durchsuchbare und übersichtlichere Oberfläche mit weiteren Funktionen ist http://r-pkg.org/.

  4. 4.

    R-3.3.2-win.exe ist die im Winter 2016 aktuelle Version von R für Windows. 3.3.2 ist die Versionsnummer. Bei neueren Versionen sind leichte, für den Benutzer jedoch üblicherweise nicht merkliche Abweichungen zur in diesem Manuskript beschriebenen Arbeitsweise von Funktionen möglich.

  5. 5.

    http://www.r-project.org/posting-guide.html

    http://stackoverflow.com/tags/R

    http://stats.stackexchange.com/tags/R

  6. 6.

    https://www.datacamp.com/courses/free-introduction-to-r

    https://www.edx.org/course/introduction-r-data-science-microsoft-dat204x-2

    https://www.edx.org/course/statistics-r-harvardx-ph525-1x

  7. 7.

    http://www.rdocumentation.org/

  8. 8.

    Details zur installierten R-Version sowie zur Systemumgebung liefern die Funktionen Sys.info(), sessionInfo(), R.Version() sowie der Befehl .Platform.

  9. 9.

    RStudio wird derzeit mit hohem Tempo weiterentwickelt. Es ist deshalb möglich, dass im Laufe der Zeit Aussehen und Funktionalität in Details von der folgenden Beschreibung abweichen.

  10. 10.

    Für automatisierte Auswertungen s. Abschn. 4.1. Die Ausgabe lässt sich mit der sink() Funktion entweder gänzlich oder i. S. eines Protokolls aller Vorgänge als Kopie in eine Datei umleiten (Argument split=TRUE). Befehle des Betriebssystems sind mit shell("〈Befehl〉") ausführbar, so können etwa die Netzwerkverbindungen mit shell("netstat") angezeigt werden.

  11. 11.

    Zudem kann jeder Benutzer eines Computers die Datei .Rprofile in seinem Heimverzeichnis anlegen. In dieser Datei können auch die Funktionen namens .First bzw. .Last mit beliebigen Befehlen definiert werden, die dann beim Start als erstes bzw. beim Beenden als letztes ausgeführt werden (Abschn. 17.2).

  12. 12.

    Sofern diese Formatierung nicht mit options(scipen=999) ganz unterbunden wird. Allgemein kann dabei mit ganzzahlig positiven Werten für scipen (scientific penalty) die Schwelle erhöht werden, ab der R die wissenschaftliche Notation für Zahlen verwendet (vgl. ?options).

  13. 13.

    Für die zur Bestimmung der Ausführungsreihenfolge wichtige Assoziativität von Operatoren vgl. ?Syntax.

  14. 14.

    Der Dezimalteil einer Dezimalzahl ergibt sich also als 〈Zahl〉 %% 1.

  15. 15.

    R rundet in der Voreinstellung nicht nach dem vielleicht vertrauten Prinzip des kaufmännischen Rundens, sondern unverzerrt (Bronstein & Semendjajew, 2012). Durch negative Werte für digits kann auch auf Zehnerpotenzen gerundet werden. signif() rundet auf eine bestimmte Anzahl signifikanter Stellen.

  16. 16.

    In diesem Text werden nur die wichtigsten Argumente der behandelten Funktionen vorgestellt, eine vollständige Übersicht liefert jeweils args(〈Funktionsname〉) sowie die zugehörige Hilfe-Seite ?〈Funktionsname〉.

  17. 17.

    In R sind Operatoren wie +, -, * oder / Funktionen, für die lediglich eine bequemere und vertrautere Kurzschreibweise zur Verfügung steht. Operatoren lassen sich auch in der Präfix-Form benutzen, wenn sie in Anführungszeichen gesetzt werden. So ist "/"(1, 10) äquivalent zu 1/10.

  18. 18.

    Gleiches gilt für die Werte von Argumenten, sofern sie aus einer festen Liste von Zeichenketten stammen. Statt cov(〈Matrix〉, use="pairwise.complete.obs") ist also auch cov(〈Matrix〉, u="pairwise") als Funktionsaufruf möglich.

  19. 19.

    Der Lesbarkeit halber werden in diesem Buch vorgestellte Pakete nur bei ihrer ersten Verwendung auch zitiert, bei späteren Erwähnungen wird nur ihr Name genannt. Über den im Index markierten Haupteintrag für ein Paket lässt sich die Zitation finden.

  20. 20.

    Die Installation setzt voraus, dass der Benutzer ausreichende Schreibrechte auf dem Computer besitzt, weshalb es u. U. notwendig ist, R zunächst als Administrator zu starten. Mit dem Argument repos von install.packages() können temporär, mit setRepositories() auch dauerhaft nicht-CRAN server als Paketquelle verwendet werden. Hier ist etwa das BioConductor-Projekt (Gentleman et al., 2004; Huber et al., 2015) mit Paketen vor allem zur Bioinformatik zu nennen. Für die Installation von auf GitHub gehosteten Paketen eignet sich install_github() aus dem Paket devtools (Wickham, 2016a). remove.packages() deinstalliert ein Paket wieder.

  21. 21.

    Bei der Installation einer neuen R-Version müssen zuvor manuell hinzugefügte Pakete erneut installiert werden, wenn es sich um einen großen Versionssprung handelt, z. B. von Version 3.2 zu 3.3 – nicht aber von Version 3.3.1 zu 3.3.2. Das Paket-Verzeichnis kann auch frei gewählt werden. Dafür muss eine Textdatei Renviron.site im Unterordner etc/ des R-Programmordners existieren und eine Zeile der Form R_LIBS="〈Pfad〉" (z. B. R_LIBS="c:/rlibs") mit dem Pfad zu den Paketen enthalten.

  22. 22.

    Wird versucht, ein nicht installiertes Paket zu laden, erzeugt library() einen Fehler. Wenn dagegen das Argument logical.return=TRUE gesetzt wird, erzeugt library() nur eine Warnung und gibt ein später zur Fallunterscheidung verwendbares FALSE zurück (Abschn. 17.1.1). Auch require() warnt nur, wenn ein zu ladendes Paket nicht vorhanden ist.

  23. 23.

    Besitzen verschiedene geladene Pakete Funktionen desselben Namens, maskieren die aus später geladenen Paketen jene aus früher geladenen (Abschn. 1.4.1). Um explizit auf eine so maskierte Funktion zuzugreifen, ist dem Funktionsnamen der Paketname mit zwei Doppelpunkten voranzustellen, etwa base::mean()​.

  24. 24.

    Siehe auch https://mran.revolutionanalytics.com/timemachine/

  25. 25.

    Mit structure() lassen sich auch mehrere Attribute gleichzeitig setzen.

  26. 26.

    Wenn ein Objektname dennoch nicht zulässige Zeichen enthält, kann man nichtsdestotrotz auf das Objekt zugreifen, indem man den Namen in rückwärts gerichtete Hochkommata setzt (‘〈Objektname〉‘).

  27. 27.

    Um analog Objekte mit einem später festgelegten Namen zu erstellen, s. Abschn. 1.4.4.

  28. 28.

    Für reelle Zahlen (numeric) existieren u. a. zwei Möglichkeiten, sie in einem Computer intern zu repräsentieren: Ganze Zahlen können mit einem L hinter der Zahl gekennzeichnet werden (für long integer, z. B. 5L), wodurch R sie dann auch als solche speichert (integer). Andernfalls werden alle Zahlen in R als Gleitkommazahlen mit doppelter Genauigkeit gespeichert (double). Dies lässt sich mit dem Befehl typeof(〈Objekt〉) abfragen. Ob ein Objekt einen bestimmten Speichertyp aufweist, wird mit Funktionen der is.〈Speicherart〉(Objekt) Familie geprüft (z. B. is.double()). Weitere Angaben zur internen Implementierung von Zahlen und den daraus resultierenden Beschränkungen gibt .Machine aus, etwa die größtmögliche ganze Zahl .Machine$integer.max oder die kleinste positive Gleitkommazahl, die noch von 0 unterscheidbar ist .Machine$double.eps.

  29. 29.

    Dies können einfache (’〈Zeichen〉’) oder doppelte ("〈Zeichen〉") Anführungszeichen sein. Innerhalb einfacher Anführungszeichen können auch Zeichenketten stehen, die ihrerseits doppelte Anführungszeichen beinhalten (’a"b’), während diese innerhalb doppelter Anführungszeichen als Escape-Sequenz mit vorangestelltem backslash zu schreiben sind ("a\"b", vgl. ?Quotes).

  30. 30.

    Für Hilfe zu diesem Thema vgl. ?Comparison.

  31. 31.

    Die alphabetische Reihenfolge hängt dabei von den Ländereinstellungen ab, die sich mit Sys.getlocale() erfragen und mit Sys.setlocale() ändern lässt.

  32. 32.

    Tauchen sehr kleine Zahlen, die eigentlich 0 sein sollten, zusammen mit größeren Zahlen in einem Ergebnis auf, eignet sich zapsmall()​, um sie i. S. einer besseren Übersichtlichkeit auch tatsächlich als 0 ausgeben zu lassen.

Literatur

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Wollschläger, D. (2017). Erste Schritte. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53670-4_1

Download citation

Publish with us

Policies and ethics