Ich lerne am besten, wenn ich Theorie an einem konkreten Beispiel ausprobieren und vertiefen kann. Mit gewecktem Interesse an den Möglichkeiten von Daten, entfacht von den zwei CAS Big Date Science und Business Intelligence, habe ich mir darum ein Thema aus meinem Alltag gesucht an welchem ich mich analytisch versuchen kann.
Ausgangslage
Vor kurzem bin ich nach Mettmenstetten in den Bezirk Affoltern gezogen. Weg vom Dorf in dem ich bestens vernetzt bin. Scherzhaft unterhielt ich mich mit einem Freund darüber zu Integrationszwecken einem Verein beizutreten oder gar selbst einen zu gründen. Da war sie meine Herausforderung: Das Vereinswesen meiner neuen Heimat unter die Lupe zu nehmen und mit dem mir noch unvertrauten Programm Tableau Public darzustellen.
Datenbeschaffung
Als erstes habe ich einige grundlegende Informationen recherchiert. Laut Wikipedia gehören zum Bezirk 14 Gemeinden. Wie sich bald herausstellte allesamt mit einem Vereinsverzeichnis auf der jeweiligen Gemeindewebsite. Meine Daten schienen gefunden zu sein und frohen Mutes begann ich mir einige Vereinsinformationen in ein Google Sheet zu kopieren. DIe Minuten liessen sich wohl an einer Hand abzählen und dies wurde ziemlich eintönig – eine effizientere Lösung musste her.
Webscraping mit Besutiful Soup
Nach kurzer Recherche und einem Abend verbracht mit Tutorials zur Python Library Beautiful Soup, war ich in der Lage die Inhalte einer Website automatisiert auszulesen und in ein File zu schreiben. Dies klappte ziemlich gut – trotz bestenfalls mässigen Programmierkentnissen und einen weiteren Abend geprägt von Trial and Error später war ich im Besitz eines Files aller Vereine des Bezirks inklusive dazugehöriger Gemeinde und Vereinsart. Die Analyse konnte beginnen.
Übersicht verschaffen
Als Erstes machte ich mich daran, mir eine Grobübersicht über die bestehenden Vereine im Bezirk Affoltern zu schaffen und habe zuerst die Vereine pro Gemeinde gezählt. Diese Zahl an sich sagt jedoch noch nicht all zu viel aus, darum habe ich sie in Beziehung mit der jeweiligen Einwohnerzahl gesetzt.
Zwischen der Anzahl Vereine und der Gemeindegrösse ist ein klarer Zusammenhang zu erkennen. Gemessen an der Trendlinie ist die Anzahl Vereinen in Mettmenstetten leicht überdurchschnittlich. Dies spricht jedoch noch lange nicht dagegen einen neuen zu gründen wesshalb ich mich entschloss genaueres über die Vereinsarten in Erfahrung zu bringen.
Kein Ort um alt zu werden?
Folgende Darstellung zeigt, in wie vielen der Total 14 Gemeinden eine jeweilige Vereinsart zu finden ist. Blau markiert die Gemeinde Mettmenstetten. Schnell wird sichtbar, dass von den populäreren Vereinsarten in meiner neuen Heimat eine Spitex sowie eine Feuerwehr fehlt. Schockiert von diesem Mangel an Infrastruktur recherchierte ich kurz im Internet. Mit beruhigenden Resultat: Für ältere Menschen und Personen mit brennenden Häusern besteht durchaus Hoffnung. Auch Mettmenstetten verfügt über eine Spitex wie auch Feuerwehr. Mit der frustrierenden Konsequenz für mich: die meiner Analyse zu Grunde liegenden Daten sind unvollständig.
Nächster Versuch auf der Metaebene
Um trotzdem noch zu einem Aussagekräftigen Resultat zu kommen, mache ich am nächsten Tag einen Schritt zurück und betrachte mir mein Problem aus neuer Perspektive. Ich teile die vorhandenen Vereine in 11 Überkategorien, errechne die Verteilung dieser pro Gemeinde und vergleiche sie mit dem Durchschnitt im Bezirk.
Gemessen am Mittelwert des Bezirks ist auf dieser Darstellung gut zu erkennen, dass in Mettmenstetten primär unterdurchschnittlich viele Familienvereine aktiv sind. Dasselbe gilt für Interessengemeinschaften und Sportvereine.
Fazit
Über die Qualität dieser Auswertung lässt sich sicher streiten. Gebracht hat sie mir persönlich trotzdem viel. Nicht dass ich jetzt einen unbändigen Drang verspüre einen Familienverein zu gründen aber aus der mir selbst auferlegten Arbeit habe ich einiges mitgenommen. Gerade bei der Datenbeschaffung traf ich schnell auf Hinternisse die ich zu lösen hatte. Und so lernte ich durch diese Analyse primär Webinhalte zu scrapen. Zudem finde ich mich nun mit Tableu in einem neuen BI Tool einigermassen zurecht und kann das Potenzial dieses Programms grundlegend einschätzen. Und nicht zu vergessen: Spass hat es auch noch gemacht.
Auch hat mir diese Aufgabe aufgezeigt, dass die Analyse der Daten ein relativ kleiner Teil der Daten in Anspruch nimmt und weit mehr Zeit darauf zu verwenden ist die Daten zu beschaffen zu bereinigen und Transformieren.