Internet Daten Archiv, ein Einblick

Im CAS Business Intelligence and Analytics geht es sehr oft um Daten.  Wo sind die meisten Daten zu finden? Vermutlich im Internet. Historische Daten? Dazu braucht man ein Archiv.  Und wo werden die Daten aus dem Internet archiviert? Ich war neugierig und habe recherchiert…

Eine kurze Einführung zum Internet Archiv und der Wayback Machine.

 

Internet Archiv

Archiv – Sinnbild aus Unsplash.com

Wenn wir Daten suchen, setzen wir uns meistens an einen Rechner mit Internetanschluss.  Schliesslich ist die Flut an Daten und Informationen dort immens. Und wo wird diese enorme Datenflut gespeichert? Das bekannteste Archiv vom Internet ist die Seite archive.org . Hier ein kurzer Einblick.

 

 

Das Internet Archive bietet Kulturgüter digital, kostenlos und frei verfügbar für die Öffentlichkeit an. Es wurde im Oktober 1996 von Brewster Kahle gegründet. Seine Vision: Nicht weniger als der Menschheit Zugang zum gesamten vorhandenen Wissen zu bieten. Das Archiv bietet Zugang zu digitalisierten Inhalten von Texten und Büchern, Musik und Audio-Dateien, Videos, Software und auch zu Bildern, Fotos und Grafiken.  Und vor allem bietet es Zugang zur Zeitmaschine, genannt “Wayback Machine”, die es uns ermöglicht in der Vergangenheit im Internet zu Surfen.

Eine umfassende Beschreibung  über das Internet Archiv , von Alexis Rossi, seinerzeit Direktorin der Abteilung „Media and Access“ des Internet Archive, ist hier  nachzulesen.

 

Die Zeitmaschine im Internet

Foto von Drew Beamer auf Unsplash

Die Wayback Maschine erlaubt es, archivierte Internetseiten zu durchforsten. Da es täglich neue Daten gibt und viele Websites hinzu kommen, wächst der Datenbestand jedes Jahr um mehr als 100 Tera-Byte an. Der aktuelle Datenbestand liegt definitiv schon im Petabyte-Bereich. Doch um die physische Speicherung dieser Daten auf Servern soll es hier nicht gehen, sondern um die Möglichkeit in der Vergangenheit zu surfen.

Es ist erstaunlich simpel:

– WayBack-Machine öffnen (https://archive.org/web/)
– In das Textfeld die gewünschte Domain eingeben. (z.B. www.apple.com)
– In einem Jahres-Zeitstrahl und in Monaten dargestellt erscheinen die Aufnahmen der Seite.
– Mit einem Kick auf ein Datum wird die Website angezeigt, wie sie zum gewählten Datum ausgesehen hat.

Beispiel: Auf apple.com an einem bestimmten Datum im Jahr 2007 springen:

Screenshot – web.archive.org – erstellt durch A. Benoit

Beispiel: Die Seite von Apple am 25.06.2007,  als das allererste Iphone präsentiert wurde:

Screenshot – web.archive.org – erstellet durch A. Benoit

Das Schöne an den Websites des Internet Archive ist, dass die Links und Inhalte klickbar sind. Das bedeutet, dass man mit einem Klick auf den Link auf die jeweilige historische Seite gelangt und nicht auf die Live-Version der URL.

 

Die Digitale Bibliothek für Bücher und vieles Mehr

Bibliothek – Sinnbild – Foto von Gabriel Sollmann auf Unsplash

Das Internet Archive bietet mit der digitalen Bibliothek ein weiteres Recherchetool: Wer etwa eine vergriffene Ausgabe sucht oder vor dem Erwerb einen Blick in ein bestimmtes Buch werfen will, kann die digitale Buchausleihe konsultieren.

 

 

Dazu muss ein Konto eingerichtet werden. Ist man eingeloggt, kann man hier nach dem gewünschten Buch suchen und dafür auf übliche Suchfunktionen zugreifen, etwa was Titel, Autor*in, Jahrgang, etc. betrifft. Auch diverse Filteroptionen sind verfügbar, zum Beispiel bestimmte Sprachen, Sammlungen oder Themen. Diese lassen sich auf der Leiste an der linken Seite an- und abwählen.

 

Beispiel Ergebnisse zur Suche „1984 Orwell“: 

screenshot – archive.org – erstellt durch A. Benoit

Ist das gewünschte Buch gelistet, lässt es sich in digitaler Form ausleihen und im Browser betrachten:  Zugang zum Werk ist für einen begrenzten Zeitraum möglich (für eine Stunde oder 14 Tage). In bestimmten Fällen ist es auch möglich, das Buch herunterzuladen und lokal damit zu arbeiten (z.B. mit  Adobe Digital Editions, die mit einem Kopierschutz arbeitet).

 

 

 

Nicht nur Bücher….

Websites und Bücher sind aber noch nicht alles – das Internet Archive bietet zudem eigene Sparten für alte Software-Programme, Musik- und Sprachaufnahmen, Video- und Filmmaterial und weiteres. Wenn ihr zum Beispiel ein altes Betriebssystem für Euren alten Laptop sucht, es ist gut möglich dass es im Internet Archive noch zu finden ist. Ich konnte dort eine Linux Distribution für meinen alten PowerBook G4  von 2003 finden.

 

Und der Bezug zur Business Intelligence and Analytics?

Ehrlich gesagt weiss ich zur Zeit noch nicht, ob die Information die im Internet Archiv zugänglich ist,  mit den Methoden der Datenanalyse die wir im CAS lernen nutzbar sind. Das wird wohl der weitere Kursverlauf zeigen. Auf jeden Fall fand ich die Recherche zum Internet Archiv spannend, und hoffe das  es den Einstieg ins Internet Archiv für diejenigen erleichtert, die noch nie mit dieser Seite zu tun hatten.

 

Weiterführende Links zum Thema 

Süddeutsche Zeitung:  Wo das ganze Netz gespeichert wird

Wikipedia: Internet Archive

How to use the Internet archive, Video von Alexis Rossi

Beitrag teilen

Andreas Benoit

Andreas Benoit wunderte sich über die Art und Weise wie Daten aus dem Internet archiviert werden und erstellte daher diesen, seinen ersten Blog überhaupt. Andreas bloggt aus dem Unterricht des CAS Business Intelligence and Analytics.

Alle Beiträge ansehen von Andreas Benoit →

Schreibe einen Kommentar