Bevor wir Informationen digital speichern konnten, war Papier ein viel verwendeter Datenspeicher. Der Bestand der legendären Bibliothek von Alexandria, zum Beispiel, wird zur Zeit von Ptolemaios (284-222 v. Chr.) auf 400.000 bis 700.000 Werke geschätzt. Die russische Staatsbibliothek in Moskau verzeichnet heute einen Bestand mit über 43 Millionen Publikationen.
Die Geschichte von Big Data
Der Hang, Informationen zu sammeln, zu strukturieren und auszuwerten, der scheint uns also mitgegeben. Mit Beginn der 2000er Jahre nimmt das Ganze dann aber neue Dimensionen an.
Der Begriff "Big Data" selbst geht wohl auf den Programmierer John Mashey zurück. Er prägte ihn angeblich Mitte der 1990er Jahre beim Mittagessen in der Kantine eines großen Computerherstellers. John Mashey ahnte schon früh, was sich später bewahrheiten würde. Er beschrieb, dass Computer bald an die Grenze ihrer Rechenleistung stoßen würden, weil die Daten, die wir produzieren, immer mehr werden.
Das ist Big Data
Wenn in den Medien von "Big Data" die Rede ist, sind oft verschiedene Dinge gemeint.
Technologie-Ebene: Zum einen kann "Big Data" für die technischen Tools stehen, die entwickelt und genutzt werden, um die Unmengen an Daten zu verarbeiten. Dabei durchforsten zum Beispiel spezielle Algorithmen riesige Datenkomplexe, decken Muster auf und erkennen Zusammenhänge. Diesen Vorgang nennt man auch "Data Mining" (deutsch "Datenförderung").
Datenebene: Meistens sprechen Menschen von "Big Data", wenn sie die immer größer werdenden Datenansammlungen meinen, die wir als Menschheit produzieren. Der Informatiker Doug Laney formulierte Anfang der 2000er seine Definition von Big Data, die heute oft als Grundlage dient. Es handelt sich um das so genannte 3-V-Modell. Demnach hat Big Data vor allen Dingen drei Eigenschaften:
- Volume (Masse)
Viele Menschen auf dieser Welt produzieren und tauschen jeden Tag große Mengen an Daten aus. Datenmengen in diesem Umfang lassen sich erst durch den Einsatz moderner Technologien wie Hadoop bewältigen.
- Velocity (Geschwindigkeit)
Die Geschwindigkeit, mit der die Datenmengen verarbeitet werden, ist so schnell wie nie. Oftmals werden die Daten in Echtzeit verarbeitet und übermittelt.
- Variety (Vielfalt)
Durch unterschiedliche Endgeräte und verschiedene Programme und Apps entstehen sehr viele unterschiedliche Datenformate wie Ton-, Audio, Video- oder Zahlenformate.
Chancen von Big Data
Die Unmengen an Daten, die wir in rasender Schnelle produzieren, bringen Vor- und Nachteile mit. Auf der positiven Seite erlauben sie, dass wir Zusammenhänge erkennen, die wir ohne Datenberg und passenden Algorithmus nie gesehen hätten. So können Algorithmen heute schon einen sich anbahnenden Herzinfarkt erkennen, lange bevor ein Arzt wissen kann, dass er kommt. Das ist möglich, weil der Algorithmus zuvor viele, viele Patientendaten ausgewertet hat und Muster erkennt, die dem menschlichen Auge verborgen bleiben. Mehr zum Einsatz von Algorithmen in der Medizin erfahren Sie im Artikel Dr. Algo – Algorithmen in der Medizin.
Risiken von Big Data
Aber schon heute ist klar: Die Daten, die wir produzieren, werden nicht nur ausgelesen, um Krankheiten zu heilen und die Welt zu retten. Große Unternehmen haben großes Interesse an den Datensätzen. Denn sie enthalten Gold. Datengold, um genau zu sein. Wenn werbetreibende Unternehmen Ihre Bewegungen im Internet über Jahre verfolgen, sehen, was Sie auf verschiedenen Webseiten treiben, alle Daten auswerten, ein umfassendes Kundenprofil anlegen und Ihnen dann passende Werbung anzeigen, dann wird es eng für Ihre Privatsphäre. Und das ist kein Szenario aus der Zukunft, sondern gängige Praxis.