Obwohl unstrukturierte Daten rund 85% der Unternehmens-Daten darstellen, wird ein Grossteil davon gar nicht analysiert und potentielle Erkenntnisse gehen verloren. Der folgende Beitrag soll für Unternehmen im Bereich unstrukturierte Daten einen Startpunkt setzten.
Die Forrester Umfrage aus dem Jahr 2015 zeigt, dass Unternehmen nur 12% der gesammelten Daten analysieren. In den verbleibenden 88% gehen möglicherweise wertvolle Erkenntnisse verloren. Obwohl unstrukturierte Daten einen Grossteil der gesammelten Unternehmens-Daten darstellen, wird das Potential im Vergleich zu strukturierten Daten kaum ausgeschöpft. Unternehmen verlieren so möglicherweise wichtige Erkenntnisse.
Was sind unstrukturierte Daten?
Strukturierte Daten befinden sich meist in einer tabellarischen Form und können basierend auf den Zeilen- und Spaltenangaben ausgelesen werden. Unstrukturierten Daten besitzen keine solche identifizierbare Form. Zu den gängigsten Kategorien von unstrukturierten Daten gehören:
- Texte: Microsoft Office Dokumente, Spreadsheets, Präsentationen, E-Mails etc.
- Social Media: Informationen von Facebook, Twitter, LinkedIn & Co.
- Medien: MP3, Digitale Fotos sowie Audio und Video Dokumente
- Wissenschaftliche Daten: Informationen über Öl- und Gasbefunde, über den Weltraum und die Atmosphäre
- Sensor Daten: Verkehrs- und Wetterdaten
Wie wir sehen, kommen unstrukturierte Daten in verschiedenen Formaten vor. Damit diese Formate analysiert werden können, werden eine gute IT-Infrastruktur und zahlreiche Datenverarbeitungs- und Datenanalytik-Applikationen benötigt. Je nach Typ (z.B. Medien oder Sensor Daten) werden wahrscheinlich mehrere Werkzeuge benötigt, um eine entsprechende Analyse zu fahren.
Im Rahmen meiner Transferarbeit habe Ich verschiedene Data Science Plattformen verglichen, um gewisse Anwendungsfälle mit unstrukturierten Daten umsetzten zu können. In meiner Arbeit bin Ich nach den drei folgenden Schritten vorgegangen und habe rasch Fortschritte erzielen können.
Erstens: Legen Sie das Ziel fest
Setzen Sie ein klares Arbeitsziel und definieren Sie die Art der Daten, die Sie analysieren wollen. Die Analyse von Sensordaten ist beispielsweise etwas völlig anderes als die von E-Mails oder Social Media. Bei der Analyse von E-Mails müssen Sie zum Beispiel dafür sorgen, dass die Einhaltung der Datenschutzverordnung gewährleistet ist ist ein völlig anderes Ziel als die Analyse des Netzwerkverkehrs für technische Support-Metriken.
Zweitens: Wählen Sie das richtige Tool
In diesem Schritt wählen Sie basierend auf dem Arbeitsziel ein passendes Tool. Wenn eine einzelneDatenquelle zu analysieren ist (z. B. Social-Media-Aktivitäten für Marketingkampagnen), gestaltet sich die Suche etwas einfacher und ein passendes Werkzeug kann einfach gefunden werden. Wenn Informationen aus verschiedenen Quellen gewonnen werden sollen, werden oftmals mehrere Applikationen benötigt. Es gibt eine Menge Anbieter, die verschiedene Lösungen anbieten. Für welche Lösung Sie sich auch entscheiden, es sollte die Ergebnisse übersichtlich darstellen und visualisieren können und auch über mobile Geräte abrufbar sein.
- Anwendungsspezifische Analysen: Wenn eines Ihrer Quellsysteme eine grosse Menge an einzelne unstrukturierte Daten bietet, sollten Sie sich nach Analysetools umsehen, die speziell für diesesQuellsystem entworfen wurde.
- Textanalyse: Die Kategorie umfasst Data Mining, Textanalysen und die Verarbeitung natürlicher Sprache (NLP). Algorithmen untersuchen verschiedene Texttypen auf ihren Inhalt und können diverse .
- Web-Harvesting: Diese Art von Tools durchsucht das Internet nach vorgegeben Mustern oder und speichert die Daten bei entsprechende Übereinstimmung ab.
- Business Intelligence-Software (BI): BI-Tools können oftmals strukturierten sowie auch unstrukturierten Daten analysieren. Data Mining, Reporting und Dashboards werden eingesetzt, um die Daten für Geschäftsentscheidungen aufzubereiten.
Drittens: Planen Sie den Technologie-Stack
Wenn Sie Ihre Werkzeuge zur Analyse von unstrukturierten Daten ausgewählt haben, wählen Sie den Technologie-Stack, der diese Werkzeuge unterstützt. Ein Technologie-Stack Anreihung aller Technologiedienste, die zum Erstellen und Ausführen Ihres gewählten Tools benötigt werden. Oftmals müssen Sie hier mehrere Bereitstellungsentscheidungen treffen.
- Ressourcen und Erfahrung: Für die Auswahl eines Tech-Stacks ist es notwendig, über tiefgreifende technische und architektonische Erfahrungen und Kenntnisse zu verfügen.
- Skalierbarkeit: Die Architektur Ihrer Anwendung muss skalierbar sein. Die Skalierbarkeit bestimmt, ob Ihre Anwendung die Last des Analyse-Tools bewältigen kannund ob es bei Bedarf weiter ausgebaut werden kann.
- Wartung: Eine einfache Wartung ist einer der wichtigsten Faktoren bei der Erstellung eines Technologie-Stacks. Die Wartbarkeit der einzelnen Komponenten sollte auch bei Skalierung für Sie ohne zusätzlichen Aufwand möglich sein.
- Sicherheit: Bei der Bildung von Tech-Stacks ist es wichtig, Technologien zu wählen, die ein hohes Massan Sicherheit bieten. So können Sie sich von unerwünschten Zugriffen schützen.
Mit den drei Schritten kommen Sie dem Ziel näher, die vielen Erkenntnisse, die in den 85% unstrukturierten Daten verborgen liegen, aufzudecken. Werden Sie versuchen Erkenntnisse finden? Falls der Beitrag Ihr Interesse geweckt hat, ein Projekt in ihrem Unternehmen zu lancieren, finden Sie hier noch Beispiel Anwendungsfälle. Viel Erfolg!
Weitere Literatur zum Thema: