Ausgezeichnet.org

R bezeichnet eine leistungsstarke Statistik-Umgebung, die durch ihr Open Source Modell und ihre umfassenden Anwendungsmöglichkeiten viele Konkurrenten in den Schatten stellt.

Als die Statistik-Software R 1997 als nicht kommerzielle Alternative zu anderen, teuren Auswertungsprogrammen auf den Markt kam, galt sie als reines Nischenprodukt und wurde vor allem von Statistikern und Biometrikern eingesetzt, die in der wissenschaftlichen Forschung auf statistische Daten zurückgreifen mussten oder ihre Forschungsergebnisse durch statistische Daten aufwerten wollten. Weil das Programm sich ganz offiziell als Core-Paket mit einer offenen Struktur versteht, bildet es im Gegensatz zu den gängigen kommerziellen Programmen eher eine Statistik-Umgebung als eine Statistik-Software ab. Die Basis von R bildet eine Zusammenstellung verschiedener Core-Pakete, die sämtliche Grundfunktionen abdecken und wiederum durch weitere, größtenteils ebenfalls als Open Source erhältliche, Pakete ergänzt werden können. Darüber hinaus lassen sich mit der R-Lizenz auch kostenpflichtige, kommerzielle Pakete anbieten, die z.T. die Weiterentwicklung querfinanzieren. Aufgrund der großen Flexibilität setzen neben der Wissenschaft auch immer mehr Universitäten R ein.

Aufbau der Statistik-Umgebung R

Der größte Vorteil der R-Umgebung besteht in der schieren Masse an Grund- und Erweiterungspaketen, die unendliche Kombinationsvarianten von Paketen und Scripten für die Datenauswertung ermöglicht. Eine große Community von Nutzern und Wissenschaftlern arbeitet beständig an der Weiterentwicklung des Programms – auch wenn ein offizieller Support in vielen Bereichen fehlt, können die R-Anwender dank der Community auf eine Vielzahl von frei verfügbaren Manuals, Tutorials, Foren und Blogs zurückgreifen, um sich bei Schwierigkeiten im Umgang mit der R Software Hilfe zu holen.

Für die Flexibilität von R spricht, dass sich die Pakete auf allen gängigen Betriebssystemen installieren und abspielen lassen – die Software-Umgebung ist sowohl für Windows als auch Mac OS X und Linux (32 und 64 Bit) verfügbar. Mithilfe des Source-Codes können erfahrene Anwender R zudem auf weiteren Plattformen implementieren. Was die Anwendung von R für unerfahrene Nutzer allerdings beeinträchtigt, ist die Bedienfunktion. Während andere Programme neben der Kommandozeile auch ein Menü für die intuitive Nutzung anbieten, verlässt R sich auf die zwar simple Methode der Eingabe über die Kommandozeile, die aber voraussetzt, dass der Anwender mit der Programmiersprache R oder ihrem Vorbild, der Sprache S vertraut ist, um überhaupt mit der Anwendung und Datenanalyse starten zu können. Statistiker, die R beherrschen, sind aufgrund der leistungsfähigen Programmiersprache in der Lage, neue Szenarien in das Programm aufzunehmen, die Datenauswertung zu automatisieren und bis ins letzte Detail zu veranschaulichen. Mit ein bisschen Vorarbeit ist es mit R möglich, in automatisierten Prozessen hoch detaillierte Grafiken zu erstellen, die sich beispielsweise dem Corporate Design des betreffenden Unternehmens oder der Universität anpassen.

Anwendung von R

Je tiefer Sie sich in R einarbeiten, desto größer wird der Leistungsumfang, auf den Sie mit der Statistik-Umgebung zugreifen können, und umso detailliertere Datenanalysen werden Sie durchführen können. Am Beginn der Arbeit mit R steht deshalb die Aneignung der Programmiersprache – die häufig genutzten Funktionen werden schnell im Gehirn abgespeichert. Da seltener genutzte Kürzel aber schnell in Vergessenheit geraten, eignet R sich in der praktischen Anwendung vor allem für Nutzer, die täglich oder annähernd regelmäßig mit dem Programm umgehen. Weil R sämtliche Daten im Arbeitsspeicher ablegt und behält, profitieren die Anwender von einer grundsätzlich schnellen Performance. Soll die Analyse noch schneller vonstatten gehen, kann der R-Code in Bytecode übersetzt werden – häufig genutzte und automatisierte Funktionen, die in Schleifen ablaufen, werden so noch einmal deutlich schneller durchgeführt. Ebenfalls von seinen Konkurrenten unterscheidet sich R in der Bandbreite der Integration von anderen Anwendungen. Native Treiber und Datenbanken wie MySQL, PostgreSQL, Oracle und Teradata kommunizieren mit der Software R. Längst bieten auch andere Programme wie SPSS und SAS die Möglichkeit, R-Skripte zu integrieren, um von deren Funktionsumfang zu profitieren.

Welche Funktionen sind in der Datenanalyse mit R enthalten?

Die Datenanalyse mit R ist aufgrund der Vielzahl an Paketen, die miteinander kombiniert werden können, so individuell wie das jeweilige statistische Projekt, für das die Software eingesetzt wird. In der Basisversion, der sogenannten Standardbibliothek, sind bereits 29 Pakete enthalten, in denen verschiedene Funktionen gebündelt sind. Zu den grundlegenden Funktionen gehören die Verwaltung von Dateien sowie das Erstellen, Prüfen und Umwandeln von Datenstrukturen. Neben einem allgemeinen Datenmanagement enthält das Basispaket außerdem Schleifen, bedingte Anweisungen sowie Verzweigungen.

Zu den gängigen Analysefunktionen von R zählen sowohl deskriptive Maßnahmen als auch statistische Tests, Wahrscheinlichkeitsverteilungen, Verteilungsfunktionen sowie mathematische Funktionen von Mengenoperationen bis hin zu Optimierungsalgorithmen. Die deskriptive Statistik mit R umfasst u.a. lineare und generalisierte lineare Modelle, Varianzanalysen, Zeitreihenanalysen sowie Hauptkomponenten- und Faktorenanalysen. Methoden der multidimensionalen Verteilung und Clusteranalysen runden das Basispaket ab. Um den Funktionsumfang individuell zu erweitern, sind in R Schnittstellen zu weiterer Software, Datenbanken, anderen Programmiersprachen und Webservices implementiert.