Was macht R so attraktiv?

R ist seit längerem in aller Munde und breitet sich auch ausserhalb der Data Science Abteilung in den Unternehmungen aus. Doch warum ist R attraktiv in der Nutzung? Nachfolgend ein kurzer Überblick zu R und wertvolle Tipps für den Start mit R.

Starten wir zuerst mit der Frage „Was ist eigentlich R?“

R ist eine Programmiersprache, welche im Jahr 1992 von Statistikern für statistische Anwendungen entwickelt wurde. Obwohl R im Laufe der Zeit nach und nach auch für Anwendungen in anderen Fachgebieten weiterentwickelt wurde, sind statistische Analysen und die Visualisierung von Daten nach wie vor die Kerndomäne von R. Aus der Wissenschaft und den Universitäten ist R nicht mehr wegzudenken und auch in den Unternehmen nimmt die Bedeutung von R infolge von Big Data und komplexen Fragestellungen in den letzten Jahren stetig zu. Eventuell ist dir auch eher der Begriff „RStudio“ geläufig. RStudio ist eine sehr populäre Entwicklungsumgebung für R. Doch warum ist R beziehungsweise RStudio attraktiv in der Nutzung?

Gerne möchte ich dazu fünf wesentliche Punkte erläutern:

  • R ist Open-Source lizenziert ist grundsätzlich kostenfrei verfügbar. Es ist plattformunabhängig und daher kompatibel mit allen gängigen Betriebssystemen wie Windows, Mac OS oder Linux (rstudio.com/download).
  • R besitzt eine riesige Community von R Anwendern, Entwicklern und Bloggern, welche ihren Code frei zur Verfügung stellen. Dadurch steht ein riesiger Informationspool zur Nutzung von R zur Verfügung. Die Möglichkeit ist daher gross von anderen R Usern zu lernen (www.r-bloggers.com / RStudio Community).
  • Eine wesentliche Stärke von R ist die Verfügbarkeit von Zusatzfunktionen in Form von sogenannten Packages. Diese Packages werden von unabhängigen Entwicklern angeboten und decken Fragestellungen in einem breiten Spektrum, von der klassischen Regression bis zu Machine Learning ab. Die Funktionen und Packages werden stetig weiterentwickelt. Mehr als 12’000 solche Packages stehen auf dem Comprehensive R Archive Network (CRAN) zur Verfügung (CRAN Task Views /RStudio Packages)
  • R funktioniert auch zusammen mit anderen Programmiersprachen und kann in andere Business Intelligence Anwendungen integriert werden. Beispielsweise ermöglicht das Package „dbplyr“ die Einbettung von relationalen Datenbanken in ein R Skript.
  • Zusätzlich zu den eröffneten Möglichkeiten im Bereich der statistischen Analysen besitzt R auch ein ausführliches Toolset für die Visualisierung von Daten. Hierbei möchte ich auf das sehr bekannte Package „ggplot2“ hinweisen. Mit wenigen Codebefehlen kann man so zum Beispiel folgende Grafik erstellen (ggplot2 Erklärung):
Mit wenigen Codebefehlen ist eine solche Grafik erstellt (Quelle: Eigenkreation)
Der verwendete Code für die oben erstellte Grafik (Quelle: Eigenkreation)

Zu guter Letzt hier einige nützliche Hinweise für den Start mit R

  • Bei der lokalen Installation von RStudio muss voher auch R installiert werden.
  • Bei Zusatzfunktionen muss zuerst das Package installiert werden, z.B. install.packages(„ggplot2“) und anschliessend mit dem Befehl library(ggplot2) aktiv gesetzt werden
  • Bei Unklarheiten kann man mit ?Funktionsname (?ggplot) die Hilfeleistung zu einer Funktion aufrufen

Nach der Grundinstallation von R und RStudio empfiehlt es sich, eine Auswahl von weit verbreiteten, hilfreichen Packages zu installieren. Für die Anwendung von R auf dem Gebiet der Business Intelligence empfehle ich unter anderen Tidyverse. Tidyverse ist eine Sammlung hoch-performanter, nutzerfreundlicher Packages, die speziell für effizientere Datenanalyse entwickelt wurden. Sie helfen dabei, die Daten zu modellieren, zu transformieren und zu visualisieren. Die detaillierten Beschreibungen und Funktionen zu den Tidyverse Packages sind hier zu finden.

Zu Beginn erscheint R, sowie RStudio eventuell nicht intuitiv, da die Befehle nicht über ein Userinterface erstellt werden können, sondern gänzlich in Form von Code formuliert werden müssen. Doch mit ein wenig Ausprobieren und Herumspielen mit einem einfachen Test-Datensatz (zum Beispiel mit mpg, welche man in RStudio aufrufen kann) findet man sich mit R nach und nach zurecht. Das Motto zu Beginn der Reise mit R lautet: Probieren geht über Studieren.


Quellen

Titelbild: https://pixabay.com/photos/question-mark-knowledge-question-3255118/

Titelbild: https://www.r-project.org/logo/

Datensatz: https://www.kaggle.com/mcdonalds/nutrition-facts

Beitrag teilen

Esther Kaufmann

Esther Kaufmann ist Controllerin bei der CSS Versicherung AG und bloggt aus dem Unterricht des CAS Business Intelligence & Analytics.

Alle Beiträge ansehen von Esther Kaufmann →

Schreibe einen Kommentar