In a nutshell: World’s Data explosion


1.7 MB  generierte Daten / Person / Sekunde, was soll das und wohin führt Dies?
Mein Erklärungsversuch inklusive Interview mit einem Insider:


What –> Was ist „Data explosion“
In diversen digitalen Newslettern und Zeitschriften wird über das Thema Datenanstieg geschrieben. Mit dem Datenanstieg ist gemeint, wie viele Daten werden pro Jahr gespeichert. Dabei spielt es keine Rolle ob die Daten von privater Natur (Ferienfotos), juristischer Natur (ERP-Daten) oder durch Maschinen (IoT / Streamingdata) generiert werden. Es spielt auch keine Rolle, wo die Daten gespeichert werden, ob auf einem USB Stick, einer Festplatte oder in der Cloud. Um den Datenanstieg zu messen wird der Speicherplatz angegeben, welcher benötigt wird um alle bisherigen Daten speichern zu können.

Why –> Warum ist dieser starke Anstieg zu verzeichnen?
Der Anstieg in den vergangen Jahren ist einfach gesagt auf eine generelle „Datengeilheit“ zurück zu führen. Dies bedeutet im persönlichen wie auch im beruflichen Umfeld ist das Interesse von Jahr zu Jahr gestiegen, neue und immer grössere Mengen an Daten zu speichern. Im privaten Umfeld zeigt sich dies Beispielsweise mit dem „Self-Tracking“-Hype welcher darin besteht, eigene medizinische Daten mittels diversen Geräten zu speichern und zu analysieren. In den Unternehmen hingegen wird der Druck immer grösser, sich mit dem Thema Big-Data und Analytics zu befassen, was ebenfalls zu einem erheblichen Zuwachs an Datenmengen führt.
Der unfassbar grosse zu erwartende Datenanstieg in den kommenden Jahren ist zum grössten Teil auf IoT (Internet of Things) zurück zu führen. In immer mehr Maschinen (Autos, Smarthome) werden Daten gemessen und gespeichert. Im Gegensatz zur privaten Anwendung werden allerdings im IoT Bereich Daten hoch frequentiell und mit vielen Merkmalen gespeichert.
Nicht zuletzt verdienen Unternehmen viel Geld mit dem Handel von Daten, was es wiederum lukrativ macht, mehr und mehr Daten zu sammeln.

How much –> Wie hoch ist dieser Anstieg – Daten & Fakten
Die meisten Quellen sprechen von einem Datenvolumen von rund 33 Zettabyte (ZB) im Jahre 2018. Dabei steht ein Zettabye für eine 1 mit 21 nachfolgenden Nullern. 33 Zettabytes haben die Grösse von allen gespeicherten Netflix Serien und Filme multipliziert mit 500 Millionen. Experten gehen davon aus, dass sich diese Menge bis zum Jahre 2025 zwischen 160 und 180 Zettabyte bewegen wird. Dies würde einem jährlichen Wachstum von über 30% entsprechen. Solche Schätzungen sind allerdings aufgrund von Innotvationen sowie diverse anderen Faktoren sehr wage.

How long –> technische Grenzen, geht das immer weiter so?
Die meisten normalen Benutzer kennen vom persönlichen Gebrauch den Begriff Megabyte (MB) und Gigabyte (GB). Seit einigen Jahren hört man zunehmend auch Terabyte (TB). Wird 1 Terabyte mit einer Milliarde multipliziert, erhält man ein Zettabye und genau da bewegen sich zur Zeit die aktuellen Datenmengen. Keine Angst, es geht noch lange weiter mit Yottabyte, dann Xona-, Weka-, Vunda- und Udabyte. Weiter geht es mit dem Tredabyte, gefolgt von Sorta-, Rinta-, Quexa-, Pepta-, Ocha-, Nena-, Minga-, Luma-, Hana-, Ana- und Sopho-Byte. Kurz gesagt, technisch gibt es zur Zeit keine Grenzen aber der Mensch kann sich zur Zeit auch noch nicht vorstellen, was für Datenmengen in Zukunft generiert werden.

Data talk –> Interview mit Marco C.
Hi Marco danke für deine Zeit, stelle dich bitte kurz vor.
„Ursprünglich habe ich Psychologie an der Universität Basel studiert. Im Bachelor Studium habe ich mich auf Wirtschaftspsychologie fokussiert. Im Masterstudium habe ich dann meine Fachrichtung auf Neuroscience gewechselt. In diesem Gebiet habe ich dann nach meinem Master meine Promotion begonnen, die ich hoffe, noch dieses Jahr abzuschliessen zu können. Genauer gesagt habe ich ein fMRT (funktionelle Magnetresonanztomographie) Projekt implementiert, umgesetzt und ausgewertet. Ohne zu sehr ins Detail zu gehen, lösten unsere Probanden Aufgaben in einem MRT-Scanner, wobei wir durch verschiedene statistische Verfahren und Datenbereinigungsanalysen die aktivierten Hirnareale identifizieren konnten. Die Originalarbeiten sind hier und hier einsehbar.“

Wo hast du Privat mit welchen Datenmengen zu tun und wie veränderte sich dies in den letzten Jahren? 
„Als Technikfan hat sich bezüglich der Datenanreicherung in meinem privaten Umfeld stark erhöht. In Sachen Smart Devices nutze ich das iPhone und Fitbit, die eigentlich jederzeit Daten über mich sammeln. Zudem arbeite ich täglich die meiste Zeit am Computer, wobei die grossen Tech Firmen wie Microsoft und Google ständig Daten über mich sammeln. Ausserdem fahre ich seit diesem Jahr einen Tesla, der natürlich auch ständig Daten sammelt um die Qualität des Autopilot zu verbessern.“

Du bist bei Feldschlösschen Data Scientist, was für spannende Projekte betreust du?
„Aktuell arbeite ich hauptsächlich daran ein RPA (Robot Process Automatisation) Projekt bei der Feldschlösschen Supply Company AG zu implementieren. Im Spezifischen geht es darum repetitive und hauptsächlich lineare Aufgaben, ohne komplexe Entscheidungsprozesse, Aufgaben mithilfe von Softwarerobotern automatisiert abzuarbeiten. Dazu nutzen wir das Programm UiPath. Einerseits liegt dabei die Herausforderung der technischen Umsetzung der einzelnen automatisierten Prozesse. Auf der anderen Seite, und in einer ersten Phase, vielleicht noch wichtiger als die technische Umsetzung ist der Aufbau eines Konzepts, das eine reibungslose Skalierbarkeit ermöglicht. Darunter fallen Beispielsweise eine saubere Dokumentation, sowie die die Definition der Verantwortlichkeiten der einzelnen automatisierten Prozesse.
Im dritten und vierten Quartal 2020 ist ein Machine Learning Projekt geplant um die Arbeitsstunden der Kommissionierung im Warehouse in bei Feldschlösschen in Rheinfelden vorauszusagen. Hierbei ist der Plan einer Kombination aus Techniken wie Dimension Reduction, Time-Series Analysen, Machine Learning und allenfalls Deep Learning anzuwenden um eine möglichst genaue Prädiktion dieser Arbeitsstunden zu erhalten. Aus diesem Projekt sollen zudem Learnings resultieren, wie wir mit künftigen Projekten dieser Art umgehen. Bezüglich der Programmiersprachen und genutzte Packeges, werde ich voraussichtlich scikit learn für Machine Learning, Facebook Prophet für Time Series Anaysen und Keras und Tensorflow für Deep Learning verwenden.“

Wo siehst du die Gefahren bei der zu erwartenden Datenzunahme der kommenden Jahre?
„Ich selbst bin mir über den Umstand bewusst, dass rund um die Uhr Daten über mich gesammelt werden. Jedoch überwiegen für mich persönlich die Chancen und der Nutzen dieser Anwendungen. Ich bin zudem der Meinung, dass wir die aktuelle technische Revolution nicht aufhalten können, und es darum Sinn macht sich damit intensiv auseinanderzusetzen, um nicht blindlings und unvorbereitet diesem Wandel zu entgegnen.
Ausserdem bin ich mir darüber im Klaren, dass diese Firmen nicht an mir individuell interessiert sind, sondern hauptsächlich daran mein Profil in ein Clustern einzuteilen. Zudem ist mir ebenfalls bewusst, dass wenn man in das Fadenkreuz eines Geheimdienstes, wie z.B. der NSA kommt, es für nahezu niemanden mehr möglich ist deren Überwachung zu entziehen. Als weiterführende Literatur dazu kann ich das Buch «Permanent Record» von Edward Snowden wärmstens empfehlen.“

Und wo siehst du die Chancen?
„Wie bei jeder Revolution sehe ich in der aktuellen digitalen Revolution eine Chance darin, Teil von etwas zu werden neue und innovative Dinge umzusetzen, die zukunftsweisend sind. Manchmal habe ich das Gefühl, dass sich viele Menschen nicht darüber im Klaren sind, dass sie bereits stark von dieser digitalen Veränderung profitieren, sei es Google Maps zur Navigation, WhatsApp zur Kommunikation, Siri oder Alexa zur Sprachsteuerung, Deepl um Texte zu übersetzen, oder Netflix oder YouTube das einem individuell massgeschneiderte Playlists vorschlägt. Dies sind alles Dinge, die vor 20 Jahren noch utopisch geklungen haben und heute als Selbstverständlichkeit gelten. In diesem Sinne bin ich sehr darauf gespannt was heute utopisch klingen mag und in 2040 selbstverständlich sein wird. Wenn ich eine Prognose abgeben müsste würde ich sagen, dass sich die Stromspeicherkapazität stark verändern wird, was mit einem Wandel der Mobilität in Richtung Elektrofahrzeuge einher geht. Zudem denke ich, dass sich der Lebensraum der Menschheit in Zukunft in Richtung Weltraum erweitert.“


„Data is the new oil“ passt meiner Meinung nach sehr gut. Allerdings wird der Welt die Daten nie ausgehen und genau deswegen sind Daten noch viel wertvoller als Öl oder Gold. Jeder kann mit seinen Daten Geld verdienen und wird in Zukunft immer mehr Daten generieren. Unter diesen Voraussetzungen ist jede Person und jede Unternehmung interessiert daran, Daten zu genierieren und zu speichern.

Beitrag teilen

Matthias Erdin

Head of operational KPI bei Feldschlösschen und Teilnehmer am CAS Big Data an der HSLU in Rotkreuz.

Alle Beiträge ansehen von Matthias Erdin →

Schreibe einen Kommentar