Auch ohne technischen Hintergrund bin ich beruflich, privat und auch schulisch immer wieder mit Datenanalysen konfrontiert. Vielleicht geht es dir ähnlich und du möchtest gerne tiefer eintauchen und hinter die Fassaden von Zahlen und Daten schauen. Die Hürde dazu ist kleiner als du denkst. Ich zeige dir, wie du damit anfängst – mit kleinem Zeitaufwand und kostenlos.
Der Zugang zu interessanten Datenmengen ist wirklich einfach, versprochen. Die Hürden wurden durch entsprechende Plattformen abgebaut. Open Data sind, wie der Name sagt, frei abrufbare und kostenlose Daten, die weiterverwendet werden dürfen. Das ist ein idealer Einstieg in die Datenanalyse, um Praxis im Umgang mit Daten zu sammeln und effektiv Wissen zu interpretieren.
Open Data bieten eine Fülle von Informationen, die für eine Vielzahl von Anwendungsbereichen genutzt werden können. Es gibt Websites, die einzelne wenige Daten frei veröffentlichen. Um jedoch Zugriff auf eine grössere Auswahl an Datensätzen und Themengebieten zu erhalten, lohnt sich der Zugriff auf grosse Open Data Plattformen, welche das richtige Datenset für einem bereit halten. Um euch im «Dschungel dieser Plattformen» eine Übersicht zu bieten, stelle ich euch folgende drei Empfehlungen meinerseits vor:
- Kaggle: Eine Community-Plattform von Daten-Enthusiasten, die Daten mit der Gemeinschaft teilen. Die Themen sind sehr breit und kreativ. Hier finden sich Datensätze zu Verkaufszahlen von Pizzas bis zu den aktuellen Spotify-Empfehlungen. Als kleiner Tipp: achte auf das Usability-Rating von Kaggle, welches die Qualität der Daten bewertet.
- Eurostat: Das europäische Datenportal bietet eine Vielzahl an Informationen von öffentlichen Behörden aus ganz Europa. Oftmals sind es Auswertung über den ganzen Kontinent, teils aber auch nur landesweit. Die Themenauswahl ist hier im Gegensatz zu Kaggle sicherlich etwas sachlicher z.B. auf Wirtschaft, Bildung und Umwelt ausgerichtet. Vorteil hier: bei europäischen Auswertungen werden die Statistiken mittels Kartengrafik abgebildet, was für zur schnellen Übersicht hilft.
- Weltbank Open Data: Die Weltbank stellt über ihre Website Daten zur weltweiten Entwicklung zur Verfügung. Diese umfassen Themen wie Armut, Entwicklung, Infrastruktur und Umwelt. Im Vergleich zu Eurostat sind hier selbstsprechend weltweite Vergleiche zwischen Regionen und Ländern möglich. Das integrierte Statistiktool ist hier sehr flexibel, mit zahlreichen Möglichkeiten zur Filterung und Anpassung der Ergebnisse.
Von der Theorie zur Praxis – wie du mit Open Data arbeitest
Wie oben beschrieben, bieten gewisse Plattformen bereits eigene Dashboards an, die die Daten aggregieren oder grafisch darstellen. Du kannst die Daten aber auch herunterladen, um selbst in den Daten zu forschen. Dafür kannst du bei Eurostat und Weltbank die Dateien im Excel-Format beziehen. Bei Kaggle wählst du am besten das CSV-Format aus, welches du ebenfalls im Excel öffnest. Dort werden dir die Zeilen als lange Textabschnitte gezeigt, jeweils durch Kommas getrennt. Du kannst mit einfachen Mitteln die Texte entsprechend auf die Spalten aufteilen, in dem du die Excel-Funktion «Text in Spalten» verwendest (Link zum Microsoft Tutorial). Mittels Pivot-Tabellen lassen sich dann aggregierte Daten darstellen oder durch Grafiken Werte entsprechend abbilden.
Warum Open Data eine so wichtige Ressource ist
Der Zugang zu offenen Daten bietet in vielerlei Hinsicht enormes Potenzial. Die Europäische Union rechnet mit der Bereitstellung von Open Data mit enormen Einsparungen von Kosten, durch Effizienzgewinne in den Behörden. In der Wirtschaft werden zusätzliche Arbeitsplätze geschaffen und neue Geschäftsmodelle erschlossen. Der soziale Aspekt ist mit der Transparenz und dem offenen Zugang ebenfalls abgedeckt, weil eine Demokratisierung von Wissen mit der Bereitstellung einhergeht (Quelle: Eurostat).

Fazit: Open Data macht die Datenanalyse zugänglich und effektiv
Open Data ist ein großartiges Mittel, um in die (einfache) Welt der Datenanalyse einzutauchen. Ich habe Eurostat und World Bank bereits für wissenschaftliche Arbeiten genutzt und Kaggle für private Auswertungen verwendet. Weiterführend kannst du natürlich mittels SQL, Python oder R komplexere Analysen durchführen. Aber bekanntlich kommt mit dem Essen der Appetit auf mehr. Versuche auch du, mit Open Data in die Datenwelt einzutauchen – es lohnt sich.
Weiterführende Links: