Big Data: Keine Angst vor dem Buzzword

Stellen Sie sich folgendes Gespräch zwischen zwei Teilnehmern am Rande einer Online-Konferenz vor: „Wir machen ja jetzt auch Big Data. Sehr spannendes Thema. Muss man ja jetzt auch angehen, um nicht den Anschluss zu verlieren. Und Sie?“ – „Jaja, wir auch. Mit Hadoop. Wir sind noch ganz am Anfang, aber im Unternehmen stehen alle voll dahinter.“

Jede Wette, dass die beiden von komplett unterschiedlichen Dingen reden.

Big Data = Hadoop?

Ich habe mal ein paar Stichworte gesammelt, was Menschen wirklich meinen, wenn sie von Big Data sprechen:

  • eine Technologie
  • eine Kultur im Unternehmen
  • Werkzeuge zur Arbeit mit Daten
  • bestimmte Analysemethoden
  • die Beschaffenheit von Daten
  • Daten aus unternehmensexternen Quellen
  • Mustererkennung in großen Datenmengen
  • Erstellung von Vorhersagen

Je weiter das Verständnis von einem Thema auseinandergeht, je mehr wir in einen Begriff hineininterpretieren können, desto mehr befördert das einen ungesunden Hype und führt zu Verunsicherung und Ängsten. Am Ende wird dann entweder viel Geld in unnötige Projekte gesteckt, oder aber es werden selbst die notwendigen Maßnahmen unterlassen, weil gar nicht klar ist, was ein Unternehmen wirklich tun muss. 

Deshalb trete ich für eine möglichst einfache, reduzierte Definition von Big Data ein, die z.B. Edd Dumbill sehr schön formuliert hat:

„Big data is data that exceeds the processing capacity of conventional database systems.“

Das ist die Rückbesinnung auf die Kernkomponenten des Begriffs: Es geht um Daten, und zwar solche, die aufgrund der Beschaffenheit nicht mehr oder nur unter großem Aufwand mit traditionellen Datenverarbeitungssystemen genutzt werden können. Die Antwort auf die Frage, wie wir mit diesen Daten umgehen sollten, ist im Kernbegriff nicht enthalten.

Es muss nicht gleich Data Science sein

„Business Intelligence oder Big Data?“ ist deshalb eine fehlgeleitete Einleitung zu diesem Artikel, der an sich ein wichtiges Thema aufgreift. Der Leser wird hier vor eine Entscheidung gestellt, die gar nicht zu treffen ist, nämlich zwischen der Beschaffenheit von Daten einerseits und einem Set an Methoden zur Arbeit mit Daten andererseits. Dem Autor des Artikels geht es eigentlich um etwas anderes, nämlich die Unterscheidung zwischen dem „bekannten Unbekannten“, also der Suche nach einer unbekannten Antwort über einen bekannten Weg, und dem „unbekannten Unbekannten“, also der Suche nach einer unbekannten Antwort über einen unbekannten Weg.

Tatsächlich illustriert dies eine aus meiner Sicht häufige Überinterpretation von Big Data, deshalb möchte ich die Abgrenzung noch einmal mit einer Grafik verdeutlichen.

Big Data Quadrant

Meine Matrix hat zwei Achsen: eine bezieht sich wirklich nur auf die Beschaffenheit der Daten, also den Kern von Big Data, und die zweite auf die Frage, ob bekannte, wohlstrukturierte Probleme mit wohlstrukturierten Daten untersucht werden sollen oder in einer unüberschaubaren Datenmenge nach Mustern und Korrelationen gesucht wird.

Die zweite Frage ist aber doch von der Datenmenge gar nicht abhängig. Früher, in Zeiten von Small Data, nannte man das schlicht „Data Mining“. Heute nennt man es „Data Science“ und stellt dafür „Data Scientists“ ein, und natürlich brauche ich andere Tools und Methoden für große Datenmengen. Aber Big Data kann ich auch nutzen, wenn ich keinen Data Scientist einstelle – weil Big Data auch mit strukturierten, bekannten Fragestellungen funktioniert. Und weil sich „Big Data“ und „BI“ eben nicht ausschließen, bezeichne ich diesen Bereich mit „Big Data Intelligence“, in Abgrenzung zur klassischen Business Intelligence, die ausschließlich mit unternehmenseigenen Datenquellen im kleinen Maßstab arbeitet.

Wenn natürlich alle immer denken, um Big Data zu machen, müssten sie sich auf beiden Achsen gleichzeitig bewegen und richtige „Data Science“ machen, dann ist die Hemmschwelle groß und es ist ein leichtes für Beratungs- und Softwarehäuser, mit der Angst der Leute Geld zu verdienen. Dabei sind in der klassischen, strukturierten Verarbeitung und Analyse von großen Datenmengen bei Weitem noch nicht alle Potenziale gehoben.

Wie „big“ ist Big Data?

Doch wo kommen diese ominösen, großen Datenmengen eigentlich her? Beliebte Beispiele, die durch Blogs wie Vorträge geistern, sind Dinge wie Wetterdaten, demographische Daten zur Steuerung des US-Wahlkampfs oder auch die Abhörprotokolle der Geheimdienste. Aber anzunehmen, erst bei den Dimensionen, die die NSA und vielleicht noch ein Amazon erreichen, handele es sich um Big Data, ist zu einfach.

Natürlich wird Tante Emmas Online-Shop für Strick- und Häkelwaren niemals Größenordnungen erreichen, die Big Data Technologien wirklich notwendig machen. Aber mehr noch als um die konkrete Datenmenge geht es um das Paradigma, das hinter Big Data steht. Small Data entsteht typischerweise durch Transaktionen – ein Kunde kauft etwas, eine Zahlung wird gebucht… -, und die Daten werden primär zur Verarbeitung der Transaktion, also z.B. zum Ausliefern einer Bestellung, gespeichert. Big Data dagegen entsteht implizit, d.h. durch das Beobachten und Belauschen von Aktivität, z.B. wenn ein Kunde sich auf einer Website bewegt. Die Erfassung muss zum Zeitpunkt des Ereignisses erfolgen, anderenfalls ist die Information für immer verloren. Vor allem aber handelt es sich um Daten, die in erster Linie zum Zwecke der späteren Analyse erhoben werden und nicht, weil sie für die Erbringung einer bestimmten Leistung benötigt werden.

Small vs Big Data

Während Small Data also durch die Anzahl der möglichen Transaktionen begrenzt ist, kann ich Big Data im Prinzip unbegrenzt erzeugen, in dem ich immer noch feiner beobachte, mitlausche und messe. Diese Eigenschaft führt dazu, dass auch Unternehmen, deren Datenmengen heute noch nicht in den Big Data Bereich fallen, bereits jetzt entsprechende Technologien einführen müssen, um zukunftsfähig zu bleiben. Tatsächlich begegnen wir fast täglich Big Data Applikationen: Das Webanalyse-Tool z.B. wird fast zwangsläufig auf entsprechende Technologien setzen, um die Daten vieler verschiedener Kunden zu verarbeiten und performant verfügbar zu machen. Die Anbieter liefern die Analyse-Werkzeuge gleich mit, sodass wir sehr wohl Nutzen aus diesen Daten ziehen können.

Der erste Schritt: Daten nutzbar machen

Die Herausforderung bei Big Data liegt vielmehr darin, die großen Datenmengen nicht der Hoheit der Tool-Anbieter zu überlassen, sondern selbst das Eigentum über diese Daten zurückzuerlangen, um sie Tool- und Anbieter-unabhängig auswerten und mit anderen Unternehmensdaten kombinieren zu können. Dies sollte der erste Schritt sein, bevor man sich mit Mustererkennung, Predictive Analytics und Co. beschäftigt.

Separation Small vs Big

Ein großes Unternehmen mit entsprechendem Budget, eigener IT-Abteilung und Rechenzentrum kann dieses Thema selbst angehen und die Infrastruktur aufbauen, die meist aus den Schnittstellen zu den verschiedenen Datenquellen, einer Verarbeitungsschicht (z.B. Hadoop Cluster) und einer Analyseschicht (z.B. eine schnelle, spaltenbasierte Datenbank oder ein OLAP-Cube) besteht. Das Investment in eigene Hardware ist allerdings mit einem nicht unerheblichen Risiko verbunden, da die Datenmengen im Big Data Bereich schnell und unvorhersehbar anwachsen können.

Big Data Platform

Wer verhindern will, dass er ständig neue Blades in seine Server-Racks schieben muss, geht mit seinen Daten in die Cloud. Heutzutage ist zwar fast alles „cloud-enabled“, aber bei kaum einem Thema kommen die spezifischen Stärken so zum Tragen wie bei Big Data. Per Definition sind Rechenpower und Speicherplatz in der Cloud quasi unendlich skalierbar, was Sicherheit für zukünftige Ausbaustufen garantiert. Für alle, die kein eigenes Rechenzentrum haben oder die Anfangsinvestition scheuen, ist dies ohnehin der beste Weg.

Entscheidet man sich z.B. für Amazon Web Services (AWS) als Partner, bekommt man nicht nur die Rechenleistung, sondern auch die benötigten Basiskomponenten wie Hadoop-Cluster, Datenbank und Massenspeicher. Dennoch ist der Entwicklungsaufwand bis zur fertigen Lösung hoch. Hier können stärker spezialisierte Plattformen wie GoodData helfen, die bereits das Instrumentarium gängiger BI-Lösungen inkl. grafischer Oberfläche für Reporting und Visualisierung mitbringen.

Noch einen Schritt weiter gehen Lösungen wie minubo oder RJMetrics, die Big Data Technologien einsetzen, um die Problemstellungen einer spezifischen Branche zu lösen. Während diese Lösungen weniger flexibel sind als eine Eigenentwicklung, reduzieren sie Zeit und Aufwand bis zu konkreten Ergebnissen dramatisch. minubo beispielsweise bringt Schnittstellen zu den branchenüblichen Systemen ebenso mit wie fertige Dashboards und Berichte, die Online-Händler sofort nutzen können. Die Implementierung ist häufig bereits nach einem Tag abgeschlossen.

Auf Erfolgen aufbauen

Egal, welcher Ausgangspunkt für ein Big Data Projekt gewählt wird, wichtig ist, dass das Team nicht mit Erwartungen und Anforderungen überfrachtet wird. Es gibt eine simple Wahrheit: Aus einfachen Lösungen können komplexe Lösungen entstehen. Niemals entstehen komplexe Lösungen direkt aus dem Nichts. Wer versucht, auf einen Schlag alle internen und externen Datenquellen anzubinden und einen Data Scientist einstellt, der die Zukunft vorhersagen soll, wird sehr wahrscheinlich scheitern. Wichtig ist, klare Aufgaben und Fragestellungen zu formulieren, iterativ vorzugehen und schnell Erfolge zu erzeugen. Dafür sind bekannte Fragestellungen sehr viel besser geeignet als das ziellose Suchen in großen Datenmengen. Die Prinzipien von Business Intelligence lassen sich problemlos auf Big Data übertragen. Aus einem erfolgreichen „Big Data Intelligence“ Projekt kann dann sehr viel einfacher ein Data Science Projekt entstehen. Ganz ohne Angst vor einem Buzzword.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s