Gedanken zu Big Data in der Cloud
Gerade ist auf der Webseite der Financial Times Deutschland (seit Dezember 2015 nicht mehr online) ein Text von mir erschienen, in dem es um die Frage geht, inwieweit die Kombination von Big Data- und Cloud-Technologien dazu führt, dass in Zukunft jeder das Thema Massendatenanalyse für sich nutzen kann. Ein paar dieser Gedanken sind vieleicht auch für Leser dieses Blogs interessant, weswegen ich den Text auch hier noch einmal veröffentliche. Also, here we go:
Knapp ein Jahr ist es her, dass der IT-Gigant IBM atemberaubende Zahlen veröffentlichte: Tag für Tag sollten im Oktober 2011 Sensoren, Mobilgeräte, Online-Transaktionen und Nachrichten in Sozialen Netzwerken Networks rund 2,5 Trillionen Bytes an neuen Daten produziert haben. Jeden Monat verschickten damals Twitterer mehr als vier Milliarden Tweets und Facebook-Fans posteten mehr als 30 Milliarden Inhalte im sozialen Netzwerk.
Inzwischen ist die Datenmenge weiter explodiert und viele dieser ohnehin kaum rational zu erfassenden Zahlen haben sich noch einmal vervielfacht. Allein im Jahr 2012 erzeugt die Menschheit einer Schätzung der Experton Group zufolge voraussichtlich so viele Informationen wie in der gesamten Menschheitsgeschichte zuvor. „Immer mehr Prozesse werden digitalisiert, was immer mehr Daten erzeugt. Zudem können immer mehr Informationen durch immer leistungsfähigere Systeme effizient verarbeitet werden“, sagt Frank Niemann, Principal Consultant Software Markets beim Analystenhaus Pierre Audoin Consultants (PAC).
Big Data nennen die Analysten dieses Phänomen. Die Experton Group schätzt Big Data als den aktuell geschäftsrelevantesten Trend für deutsche IT-Anwender ein. Der Grund: Die Analyse gigantischer Datenmengen eröffnet Firmen neue Perspektiven. Eine schier unendliche Flut von Daten aus Warenwirtschafts-, Finanz- und Kundenmanagement-Anwendungen kann gepaart werden mit Informationen aus Kassensystemen oder Meinungsäußerungen und Erfahrungen, die Menschen über Soziale Netzwerke teilen. Zur Auswertung stehen dann beinah unbegrenzte Rechenressourcen bereit.
Im Ergebnis bietet dieser Informationspool die Chance, durch neuartige Analysemethoden Muster zu erkennen, die sich in Wettbewerbsvorteile ummünzen lassen. Durch spezielle Big Data Plattform-Lösungen sollen sich die Datenmassen nicht nur effektiv verwalten lassen: Mit Hilfe von Analytics-Technologien sollen sich auch die die Möglichkeiten erkennen lassen, die sich in ihnen verstecken, um Wettbewerbsvorteile zu erzielen. Genau das ist das Versprechen von Big Data.
„Datensammlungen sind erst dann sinnvoll, wenn sie zeitnah analysiert und komplexe Zusammenhänge aus ihnen herausgelesen werden“, sagt Bodo Koerber, Director of Information Management bei IBM Deutschland. Davon können nicht nur Handelsunternehmen und die Hersteller von Markenartikeln profitieren, die genauer und schneller als bisher erfahren, was die Endverbraucher wirklich wünschen. Pharmaunternehmen können bei der Suche nach Wirkstoffen teure Fehlentwicklungen durch Simulationen vermeiden oder Banken Finanztrends analysieren.
Big Data bedeutet aber nicht, dass nur Unternehmen, die über gewaltige Rechnerressourcen oder große Budgets verfügen, die Vorteile dieser Entwicklung nutzen können. Um datenintensive Aufgaben in Anwendungsbereichen wie Webindizierung, Data-Mining, Protokolldateianalyse, maschinelles Lernen, Finanzanalyse, wissenschaftliche Simulation und bioinformatische Forschung durchzuführen, brauchen Unternehmen keine eigenen Rechnerparks mehr.
Weiterentwicklungen von Googles Datenverarbeitungs- und Analysesystem Map Reduce sind der technische Kern vieler Lösungen in diesem Bereich. Doch nicht nur Google selbst bietet die Analyse von Big Data in der Cloud an. Das standortbezogene soziale Netzwerk Foursquare etwa setzt auf eine Big Data-Lösung aus der Cloud von Amazon. Mit Amazon Elastic MapReduce können Unternehmen sich auf das Zerlegen oder Analysieren ihrer Daten konzentrieren, ohne sich über die zeitraubende Einrichtung und Verwaltung von Rechen-Clustern kümmern zu müssen. Microsoft ist ebenfalls dabei, über seinen Cloud-Dienst Azure Zugriff auf Massendatenverarbeitungssystem Hadoop anzubieten. Datenbankanbieter wie IBM und Oracle entwickeln cloud-basierte Big-Data-Angebote. Selbst die Simulationssoftware von Autodesk ist mittlerweile in einer Cloud-Version zu haben.
Startup-Unternehmen nutzen mit Hilfe der Cloud bereits die Chance, in den Datenfluten Wissens-Nuggets entdecken und sinnvoll aufzubereiten. BlockAvenue aus Boston etwa versucht, Kunden zu gewinnen, indem das Unternehmen in den Vereinigten Staaten Wohngebiete Noten vergibt, Anhand von 50 Millionen Datenpunkten, die aus Kriminalstatisktiken, Fahrplänen des Öffentlichen Personennahverkehrs oder Restaurantbewertungen ermittelt werden, sondern Nutzern die Orientierung ermöglichen, ob sie sich für ein Hotelzimmer, Häuser oder Wohnungen in sehr guten oder weniger empfehlenswerten Gegenden interessieren.
Auch Unternehmen in Deutschland haben PAC zufolge das Potential der Massendatenanalysen erkannt. Rund 60 Prozent der 102 IT-Verantwortlichen, die die Berater befragten, planen Investitionen in Data Warehouse, Datenmanagement und -integration sowie in Technologien wie die In-Memory-Datenanalyse, um schnell großen Mengen an Daten verarbeiten zu können. Die Herausforderung für Unternehmen liegt dabei aber neben der Datenflut auch in der Vielfalt und Geschwindigkeit, in der Daten entstehen. Nicht nur alt Datenberge, sondern auch und gerade alle aktuellen Impulse aus den Netzwerken müssen durchforstet analysiert werden – im Idealfall in Exhtzeit.
Mit dem Kauf von Technologie allein allerdings werden Unternehmen auch dann kaum vom Phänomen Big Data profitieren können, wenn diese Probleme Hard- und Software-seitig gelöst sind, warnen Experten. „Es ist nicht einfach, aus der Flut der Daten die richtigen Korrelationen herauszuarbeiten“, sagt PAC-Analyst Niemann. „Weil der Beratungsbedarf hier hoch ist, reden wir hier nicht nur von einem wachsenden Lösungs-, sondern auch von einem wachsenden Dienstleistungsmarkt.“