2. saracus consulting GmbH
Hafenweg 46
D-48155 Münster
Fon. +49 251 98721 0
Fax. +49 251 98721 26
saracus consulting AG
Täfernstrasse 4
CH-5405 Baden-Dättwil
Fon. +41 56 483 02 20
Fax. +41 56 483 02 21
saracus consulting DOO
Vizantijski Bulevar 78
SRB-18000 Nis
BigDataund BusinessIntelligence
www.saracus.com Seite 2
Big Data ist aktuell auf jeder Agenda im IT-Bereich zu finden und jeder Anbieter gibt seinem
Produktportfolio diese Prägung. Eine genaue Definition existiert noch nicht, bisweilen findet eine
Abgrenzung des Begriffs über Kriterien wie „Volume, Variety und Velocity“ Anwendung, also der
Eigenschaft eines Anwendungssystems große Datenmengen mit beliebiger Datenstrukturkomplexität in
Echtzeit zu verarbeiten. Damit fällt es mitunter leicht, eine Lösung im Bereich Big Data zu positionieren.
Bis heute gibt es aber nur rudimentäre Aussagen über konkrete Einsatzszenarien und Erfahrungswerte für
den Einsatz von Big Data Technologien und Kosten-/Nutzenanalysen sind eher theoretischer Natur. Damit
stellt sich die Frage, ob Big Data eher als Nischenthema oder strategische Investition anzusehen ist.
Von besonderem Interesse ist dabei das Potenzial von Big Data, Unternehmensprozesse zu optimieren,
sowohl rein operative Prozesse wie auch im dispositiven Bereich, in dem sich Business Intelligence (BI)
Konzepte über Jahre etabliert haben. Das Zusammenspiel von Big Data und Business Intelligence ist ein
sehr junges Entwicklungsfeld mit hoher Ausprägungsvielfalt, in dem aktuell die Weichen für zukünftige
Informationsarchitekturen gestellt werden.
Dieser Artikel beschreibt den Status Quo des Themenbereichs Big Data und seine Beziehung zum Business
Intelligence.
Big Data – Bedeutung und Einordnung
Big Data ist eine Thema, welches im Kontext von diversen IT-Trends zum Hype-Thema gewachsen ist und daher nicht
isoliert für sich betrachtet werden kann. Unter dem Einfluss immer stärker vernetzter Anwendungen mit neuen
Endgeräten produzieren wir mittlerweile immense Datenmengen, sowohl im geschäftlichen wie auch im privaten Bereich,
in dem über soziale Netzwerke, Blogs und Web Shops ganz neue Informationsarten im Bereich Social Media das tägliche
Leben prägen. IT-Anbieter haben diese Trends aufgegriffen und bieten sowohl geeignete Architektur- und
Betreibermodelle, zum Beispiel in Form einer Cloud, wie auch neue Verarbeitungstechnologien, wie beispielsweise die
Nutzung von NoSQL-Datenbanken an. Big Data ist dabei eine Komponente dieser IT-Entwicklungen und wird häufig
abstrakt über seine Funktionalität abgegrenzt: „Big Data bietet Methoden und Technologien für das Erfassen, Speichern
und Analysieren poly-strukturierter Daten genau dort, wo klassische Informationssysteme heute an ihre Grenzen stoßen.“
Bricht man diese abstrakten Kriterien auf konkrete Eigenschaften runter, lassen sich die Anwendungsfelder von Big Data
wie folgt charakterisieren:
• Es handelt sich um große Datenmengen (maschinenerzeugt oder immenser Nutzerkreis als Daten-Produzent)
Volumen der Analytik
• Es geht vorwiegend um schnelle Auswertungen und Analytik (Recommendations, Werbung, Missbrauchserkennung)
Hohe Geschwindigkeit / Performance der Analytik
• Das Ergebnis der schnellen Analytik greift in die operativen Prozesse ein (Handy- oder Kreditkarte sperren,
Transaktionen canceln, „on the fly“ individuelle Werbung) Operationalisierung der Analytik
• Die Analytik muss zu einem hohen Anteil Vorhersagemodelle mit einbeziehen (Verhaltensmuster, Missbrauchsmuster)
Starke(r) Ausrichtung/Einbezug der Analytik auf „Vorhersagemodelle“
• Neue Datenquellen und –systeme greifen sehr stark ein (Soziale Netzwerke, Sensorik, Scanner) und bieten
unterschiedlichste Strukturen Variabilität der Datenstrukturen
• Unsicherheit über den „nutzbaren“ Teil des Datenangebotes erfordert eine intelligente Filterung der Daten (Blogs,
Kommentare) Teilweise Filternotwendigkeit in der Analytik
• Unsicherheit über den „wahren“ Inhalt des Datenangebotes erfordert eine intelligente Bewertung der Daten
(Bewertungen in Online-Shops) Teilweise Bewertungsnotwendigkeit in der Analytik
• Daten werden zu jeder Zeit aktualisiert Online-Analytik notwendig (im Sinne von Real time-Auswertungen)
• Datenschutz und –sicherheit spielen eine große Rolle (Gesundheitswesen, Vorratshaltung von Transaktionsdaten)
Datenschutz- und –sicherheitsaspekte in der Analytik
Wie zu erkennen ist, sind die Charakteristika keine grundsätzlich neuen Anforderungen oder Entwicklungen. Viele
Aspekte wurden in der Vergangenheit bereits adressiert, wie etwa im Real time-Kundenprofiling von CRM-Systemen. Das
wirklich neue an der Big Data Entwicklung ist die technologische Möglichkeit, neue Informationsarten in die
Unternehmensprozesse einzubinden, deren geschäftliches Potenzial heute noch gar nicht abgeschätzt werden kann.
3. BigDataund BusinessIntelligence
www.saracus.com Seite 3
Konkrete Anwendungsfelder von Big Data
Die Anwendungsfelder erstrecken sich über alle Branchen und Unternehmensprozesse. Einige Beispiele sind:
• Versorgung, Logistik und Produktion
RFID-Sensoren, Handscanner und GPS im Transport ermöglichen Routen- und Produktionsstrassenoptimierung,
Kostensenkung und operative Effektivität.
• Online Services und Web Analysen
Internet-basierte Firmen nutzen Big Data zur Ableitung von Werbungspositionierungen, Kundenprofiling und
Kapazitätsplanung sowie Clickstream- und Segment-Analysen.
• Finanzdienstleistung
Transaktionsanalysen unterstützen Missbrauchsanalysen und dienen als Grundlage für Handelsoptimierungen.
Weiterhin werden neue regulatorische Anforderungen an die Datenhaltung unterstützt.
• Energie und Versorgung
Datenstreams von elektronischen Sensoren können zu Überwachungszwecken, für Verbrauchsanalysen oder
Frühwarnsysteme in der Stromversorgung oder sonstigen Pipelines genutzt werden.
• Medien und Telekommunikation
Streaming Media, Smartphones, Tablets, Web-Verhalten und Text-Nachrichten werden mittlerweile immer &
überall genutzt/generiert und bergen einen noch unbeschreibbaren Fundus an Wissen über Nutzer, deren
Verhalten und Vorlieben.
• Gesundheitswesen und Lebensumstände
Elektronisch-medizinische Daten dienen zur Analyse von Diagnose- und Therapiemöglichkeiten, klinischen
Studien sowie Verhaltensmuster und bieten Verbesserungspotenzial sowohl für Patienten wie auch das
öffentliche und politische Gesundheitsmanagement.
• Handel und Endverbraucher
Transaktionsdaten liefern Muster zum Kundenverhalten und zur Markenloyalität sowie ein
Stimmungsbarometer im Zusammenhang mit Daten aus sozialen Netzwerken, Blogs etc..
Social Media Analysen /
Stimmungsbarometer
Klassische BI Text-Mining
Video-
Analysen
Verhaltensbasiertes und ereignisgesteuertes
Marketing
Missbrauchserkennung inkl. Social Media in
Finanzdienstleistung und Telekommunikation
Preispolitik und Aktionsmanagement im Handel
Gesundheits-
management
Kapazitäts-/
Routen-
planung
Telemetrieanalytik
& Verhaltens-
modelle im
operat. Betrieb Blog- & eShop
Analysen/
Stimmungs-
barometer
Datenstrukturkomplexität
Strukturiert UnstrukturiertPoly-strukturiert
VerarbeitungsgeschwindigkeitRealtimeBatch
Quelle: In Anlehnung an SAS/IDC „Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO”
4. BigDataund BusinessIntelligence
www.saracus.com Seite 4
Die Treiber von Big Data
An den konkreten Anwendungsfeldern im vorherigen Kapitel lassen sich schon einige Treiber von Big Data
erkennen. Unser Verhalten im Umgang mit dem Internet, d.h. Web Shopping, Blogging und die Nutzung sozialer
Netzwerke hat immer stärkeren Einfluss auf unser Konsumverhalten und muss sich demnach in den operativen und
dispositiven Unternehmensprozessen am Markt wiederspiegeln. Dieser hat eine Transparenz und Geschwindigkeit
erreicht, die Unternehmen nur noch unter Einbezug sämtlicher Informationskanäle und –arten erfolgreich nutzen
können.
Budgetfreundliche Infrastrukturen gewinnen aufgrund des immerwährenden Kostendrucks zunehmend an
Bedeutung. „Infrastructure as a Service“ bietet hier neue Architektur- und Betreibermodelle in einer Cloud und
kann Hard- und Software-Ressourcen „on demand“ bereitstellen. Aber auch für die unternehmensinterne
Infrastruktur forcieren sich Entwicklungen hin zu günstigen Commodity-Servern mit einer verteilten Daten- und
Anwendungsstruktur. Für die Verarbeitung und Speicherung großer Datenmengen auf derartigen Systemen werden
altbekannte Ansätze neu inszeniert und vielfach durch die Open-Source-Gemeinde weiterentwickelt. Hierzu
gehören unter anderem verteilte Dateisysteme wie Hadoop oder NoSQL-Datenbanken. Dass dieses Vorgehen
durchaus vielversprechend ist, zeigen alleine schon die vielfachen „kommerziellen Distributionen“, welche auf
diesen neuen Technologien basieren.
Zusätzliche Dynamik gewinnt Big Data auch durch die Erkenntnis, dass mit diesen neuen Technologien eine weitere
Operationalisierung der klassischen BI machbar scheint. „Business-Entscheidungen in Echtzeit“ auf Basis von
Standardanwendungen und –modellen und nicht mehr aufgrund von langwierigen und schwer nachvollziehbaren
Berichtsgenerierungen oder proprietärer Spezialsoftware lautet die Devise; neue Rollen und Organisationsformen
dazu werden am Markt schon gehandelt. Der „Data Scientist“ beispielsweise sichert einen nahtlosen Übergang
zwischen der operativen und dispositiven Welt durch standardisierte Modellierung und Anwendungsnutzung aus
technischer und fachlicher Sicht.
Die Konzepte hinter Big Data, Methoden und Instrumente
Die Konzepte lassen sich aus dem Einsatzzweck „Verarbeitung poly-strukturierter Datenmassen auf kostengünstigen
Infrastrukturen“ und daraus abgeleiteter Big Data Marktsegmente strukturieren.
Hardware &
Operating
System
Distributionen Daten
Management
Komponenten
Analytik und
Visualisierung
Services
• Speicher
• Server
• Netzwerk
• Hadoop
community
Distributionen
• Hadoop
Enterprise
Distributionen
• Non-Hadoop
Big Data
Frameworks
• NoSQl
Datenbanken
• Dateninte-
gration / ETL
• Datenqualität
und Governance
• Analytische
Entwicklungs-
plattformen
• Erweiterte
analytische
Anwendungen
• Daten-
visualisierungs
werkzeuge
• Business
Intelligence
Anwendungen
• Beratung
• Training
• Installation
• Wartung
• Hosting
(IaaS)
z.B. Dell, HP,
IBM, Cisco
z.B. Cloudera,
IBM, MapR,
Microsoft
z.B. DataStax mit
Cassandra, CouchDB,
MongoDB IBM,
Informatica, Syncsort
z.B. Karmashere,
Datameer, SAS,
Tableau, Revolut-
ion Analytics,
MicroStategy
z.B. Amazon
Web Services,
Cloudera,
saracus
consulting
MPP, spaltenbasierte DWH appliances & In-Memory-Techniken,
z.B. EMC Greenplum, HP Vertica, Teradata Aster Data, IBM
Netezza, SAP, Microsoft, Kognitio
Quelle: In Anlehnung an Jeff Kelly @ Wikibon, http://wikibon.org/blog/navigating-the-big-data-vendor-landscape/
5. BigDataund BusinessIntelligence
www.saracus.com Seite 5
Hardware & Operating System
Dem Ziel der budgetfreundlichen Infrastruktur folgend setzt Big Data auf eine massiv parallele Architektur basierend
auf Commodity Servern. Diese Architektur bietet die Voraussetzung für ein wachsendes System (scale out) mit
annähernd linearer Skalierbarkeit und gleichzeitiger Ausfalltoleranz. Die Systeme sind überwiegend Unix-basiert.
Distributionen
Um die parallele Systemarchitektur ausschöpfen zu können, wird ein verteiltes Dateisystem mit entsprechenden
Verteilungs- und Zugriffsmechanismen benötigt. Hier hat sich der MapReduce-Ansatz stark verbreitet, der Prozesse
in disjunkte Teilprozesse splittet, diese parallel und verteilt ausführt (Map-Phase) und in einem weiteren Schritt die
Zwischenergebnisse zusammenführt (Reduce-Phase). Das MapReduce-Framework übernimmt dabei die
automatische Parallelisierung und Verteilung der Teilprozesse, realisiert Fehlertoleranzen bei Ausfall von Hard- oder
Software, steuert das I/O-Scheduling und stellt Status- und Überwachungsparameter bereit. Der Entwickler muss
„nur“ die Map- und Reduce-Funktion definieren. Inzwischen existieren diverse MapReduce-Frameworks (Google,
Hadoop, Twister, etc.) in verschiedenen Programmiersprachen. Das bekannteste und verbreitetste ist Hadoop,
welches sich mittlerweile zum Quasi-Standard entwickelt hat und in den meisten Distributionen Verwendung findet.
Das Standard Basissystem Hadoop ist „Open Source für Commodity Server“ und verfügt neben dem verteilten
Dateisystem (HDFS) über weitere Komponenten, zum Beispiel zur Datenhaltung oder Prozessausführung. Neben
dieser Community-Edition existieren kommerzielle Distributionen, die neben professionellem Support auch i.d.R.
weitere Systemmanagement-Komponenten bereitstellen. Weiterhin gibt es z.B. mit MapR auch andere
Implementierungen des MapReduce-Ansatzes.
Datenmanagement Komponenten
Für die Datenspeicherung haben sich sogenannte NoSQL Datenbanken („not only SQL“) etabliert. Ihren Ursprung
haben sie bei Internet-basierten Unternehmen (Goolge, Facebook, Amazon, etc), die ihre Anforderungen nicht mit
klassischen relationalen Datenbanken abdecken konnten und somit in Eigenregie anforderungsgerechte
Datenhaltungssysteme entwickelten. Im Gegensatz zum relationalen Ansatz steht hierbei nicht die
Transaktionssicherheit (ACID) im Vordergrund, sondern eine hohe Performance, flexible Datenstrukturen und –
typen sowie hohe Verteilung und Verfügbarkeit.
In Anlehnung an das CAP-Theorem, welches
besagt, dass Datenspeichersysteme nicht
gleichzeitig Verfügbarkeit, Konsistenz und
Partitionstoleranz sicherstellen können, sondern
nur zwei der drei Kriterien genügen, positionieren
sich NoSQL Datenbanken im Bereich
Partitionstoleranz und wahlweise Verfügbarkeit
oder Konsistenz. Klassische relationale Daten-
banken hingegen haben als ausgewiesene
Eigenschaft stets volle Datenkonsistenz für alle
Nutzer des Systems.
Man spricht in diesem Zusammenhang bei NoSQL
Datenbanken auch von „entspannter Konsistenz“.
Die Grundprinzipien von NoSQL Datenbanken sind :
• Key / Value – Speicherform
• Lauffähig verteilt auf mehreren Rechnern (Cluster)
• Partitionen und asynchrone Replikation verteilt über die Rechner
• Entspannte Konsistenz
Das CAP-Theorem von Speichersystemen
(Consistency – Availability – Partition Tolerance)
Availability
Verfügbarkeit, d.h. alle
Nutzer können stets
lesen und schreiben
Partition Tolerance
Partitionstoleranz,
d.h. das System
funktioniert trotz
Netzwerk-
Partitionierung
weiter
Consistency
Konsistenz, d.h. alle
Nutzer haben stets
die gleiche Sicht auf
die Daten
• Azur Storage, MongoDB,
• BuigTable / HBase
• Dynamo/S3
• CouchDB
• Cassandra
• Relationale,
parallele DBMS
Quelle: In Anlehnung an guide.couchdb.org
6. BigDataund BusinessIntelligence
www.saracus.com
Aufbauend auf den Grundprinzipien existieren verschiedene Ausprägungen von NoSQL Datenbanken:
Key / Value Stores
Speichern der Key/Value-Paare im Speicher oder in Datei, wobei die Datenbank weder Form noch Inhalt des Wertes
kennt und über diesen auch nicht direkt abgefragt werden kann. Der Wert wird als binäres Objekt gespeichert.
Vertreter dieser Art sind u.a. Amazon Dynamo oder MemcacheDB.
Document Store
Analog zu den Key / Value Stores, jedoch ist der Wert ein strukturiertes Dokument, das von der DB interpretiert
werden kann und somit Abfragen über den Wert möglich sind. Datenbanken dieser Art haben häufig eine SQL-
ähnliche Abfragesprache. Beispiele sind MongoDB, CouchDB oder Riak.
Big Tables (auch column database oder wide column store genannt)
Big Tables bestehen aus Spaltenfamilien, die wiederum aus Spalten oder Superspalten bestehen. Superspalten
können dabei beliebige weitere Spalten beinhalten. Dieses Datenmodell entspricht somit einem verteilten,
multidimensionalen, geordneten Würfel mit i.d.R. hoher Sparsity. Vertreter sind u.a. Google BigTable, Cassandra,
Hbase, Voldemort oder Azure Tables.
Graphendatenbanken
Hierbei besteht das Datenmodell aus Graphen, Knoten, Kanten und Eigenschaften. Sie werden physisch als Key /
Value-, BigTable oder einer Kombination aus beiden Methoden implementiert. Ihre besondere Stärke liegt in der
Abbildung von Beziehungen. Beispiele sind AllegroGraph, Neo4j oder DEX.
Der Modellierungsansatz relational versus NoSQL
Die Modellierung von NoSQL Datenbanken folgt einer anderen Philosophie als der klassischen (relationalen oder
multidimensionalen) Modellierung. In der klassischen Modellierung leitet sich das Datenmodell in einem ersten
Schritt aus der relationalen und redundanzfreien Abbildung der fachlichen Anforderungen mit seinen Objekten und
Beziehungen untereinander ab. In einem zweiten Schritt werden dann die möglichen und wahrscheinlichen
Zugriffspfade der Nutzer durch weitere Hilfskonstrukte wie Views, Aggregationstabellen, partielle
Replikationsdatenbestände, Indexierung oder Partitionierung möglichst in Richtung Performance optimiert. Dieses
Verfahren sichert die größtmögliche Flexibilität für Ad hoc Analytik.
Für eine NoSQL Datenbank ist der Zugriffspfad, d.h. die Abfrage entscheidend. Vereinfacht ausgedrückt, wird für
jede Abfrage eine eigene „Tabelle“ erstellt. Redundanzen werden hierbei in Kauf genommen, Speicheraspekte
durch Kompressionsprozesse egalisiert. Da NoSQL Datenbanken flexibel von der Datenstruktur sind, können
Strukturänderungen zu jedem Zeitpunkt einfach umgesetzt werden.
SQL – like Key / Value - like
Produkt Datum Anzahl Lieferant
Apfel 29.12.2011 60 Ballante
Banane - - -
Birne 02.02.2012 66 Polente
Möhre - - -
Zucchini 03.11.2011 52 Bollente
Key Value
Apfel Datum 29.12.2011
Apfel Anzahl 60
Apfel Lieferant Ballante
Birne Datum 02.02.2012
: :
Seite 6
7. BigDataund BusinessIntelligence
www.saracus.com Seite 7
Datenintegration / ETL
Im Bereich der Datenintegration müssen die Datenverarbeitungsprozesse entweder selbst implementiert werden,
was einer normalen Programmieraufgabe entspricht oder es werden ETL-Tools eingesetzt. Die führenden ETL-
Werkzeuge verfügen bereits über Konnektoren sowohl für den Zugriff auf Hadoop-Cluster als auch auf NoSQL
Datenbanken. Aus Sicht des ETL-Werkzeug-Anwenders handelt es sich „nur“ um neue Quellen oder Ziele.
Analytik und Visualisierung
Für die Analytik im Bereich Big Data gibt es die unterschiedlichsten Varianten. Allen gemeinsam ist nur die Art der
Datenquelle (HDFS) und das Ziel (BI-Tool oder weitere analytische Anwendung wie etwa Data Mining Werkzeug).
Die grundlegendste Variante ist Nutzung des Hadoop Ökosystems,
bei dem Entwickler jede Form des Datenzugriffs, der
Datenverarbeitung und –visualisierung programmieren.
Dies kann zwar alle Möglichkeiten der NoSQl Datenbank ausnutzen,
ist aber nur für versierte Entwickler machbar.
Die Nutzung herstellerspezifischer Visualisierungswerkzeuge
oder BI-Tools ist zwar grundsätzlich über ODBC oder JDBC
Schnittstellen möglich, jedoch ist hierbei zu beachten, dass (noch)
nicht der gesamte Sprachumfang von SQL unterstützt wird. Die
generierten SQL-Statements können daher unter Umständen
nicht abgesetzt werden und müssen manuell angepasst werden.
Eine weitere Variante besteht in der Nutzung einer Zwischenschicht, entweder als Wrapper (reine Konnektion) oder
als Accelerator (Nutzung speicherbasierter Zugriffswerkzeuge). Folgende Grafiken verdeutlichen diese Methoden
am Beispiel von LucidDB (Wrapper) und MicroStrategy/Kognitio (Accelerator).
Services
WRAPPER
JDBC
BI-Tool
Quelle: In Anlehnung an http://www.nicholasgoodman.com/bt/blog/category/dynamobi/
Quelle: Hadoop architecture, posted in
http://anonymousbi.wordpress.com/category/
nosql/
8. BigDataund BusinessIntelligence
www.saracus.com Seite 8
Strategisches Ziel ist eine nahtlose Integration der unterschiedlichen Techniken und damit größtmögliche
Transparenz in den BI-Tools sowie eine nahtlose Integration der darunter liegenden Datenschichten, wie in
folgender Abbildung dargestellt. Hierbei sollten die Datenbestände Real time miteinander und mit den operativen
Beständen verknüpft sein, um die größtmögliche Synergie aus beiden Welten zu generieren.
DWH
BI-Tool
nativeODBC/
JDBC/
native
ETL-Tool
Quelle: In Anlehnung an http://nosql.mypopescu.com/post/681603154/
presentation-hive-a-petabyte-scale-data-warehouse
Quelle: http://kognitio.blogspot.de/
9. BigDataund BusinessIntelligence
www.saracus.com Seite 9
Big Data und Business Intelligence
Big Data und Business Intelligence werden zusammenwachsen. Der klassische BI-Stack wird in seiner
Grundstruktur erhalten bleiben und um neue Technologien in allen Schichten ergänzt werden, bis zu
den Quellsystemen. Unternehmen, welche bereits Big Data Technologien in ihren operativen Prozessen
nutzen, werden ihre analytischen Fähigkeiten auf diese Technologien konzentrieren (vor allem
Unternehmen, deren Infrastruktur bzw. Geschäftsmodell Web-getrieben ist wie z.B. Facebook, Netflix,
Web-Shops). Unternehmen mit klassischer BI und klassischen ERP-Systemen erschließen mit Big Data
neue Informationsquellen und weiten ihre analytischen Funktionalitäten partiell aus. Die Abgrenzung
bzw. der Übergang zwischen Big Data- und klassischen BI-Strukturen wird fließend sein und sich an der
operativen bzw. dispositiven Ausrichtung der Anwendung orientieren. Folgende Grafik zeigt die
saracus-Referenzarchitektur einer zukünftigen integrierten Big Data Business Intelligence Plattform.
POS
Social
media
Interaktions-
agentInteraktions-
agent
Online - Produktionsworkflow - Batch/Dialog
Operative- / ERP- / CRM- /
POS- / Produktions-DB
(ACID)
Verteiltes Dateisystem z.B. Hadoop
Data
Mining
Externe
Quellen
Interaktions-
agent
NoSQL
DB
Service
Engine
Nutzer /
Kunde
NoSQL
Warehouse
Klassisches
Warehouse
NoSQL /
Appliance
Rel.Data
Mart
Analyse-
Verbund
BI- /
Application-
Server
BI-
Anwender
(Konsument-Power User)
Data Science
Operations
REAL-
TIME
BATCH
Ad hocReportingDiscovery
Quelle: saracus Big Data Business Intelligence Referenzarchitektur
10. Technologie
BigDataund BusinessIntelligence
www.saracus.com Seite 10
• Strategie- & Architektur-
beratung zu Big Data BI
• Programmierung /
Customizing Hadoop-
basierter Systeme
• Integration BI-Tools und
• Customizing von ETL-
Tools in Big Data
Umgebungen
• Anwendung v.Appliances
• Werkzeugevaluation
Warum saracus consulting?
Die folgenden Faktoren sprechen für die Wahl der saracus consulting als Beratungs- und
Integrationspartner:
• Seit 1991 zu 100% fokussiert auf DWH, BI, CPM und aCRM
• Mehrjährige Erfahrungen mit Big-Data-Technologien
• Spezifische Vorgehensmethodik
• Große Erfahrung mit wichtigen Technologien
• Kombination von Business- und IT-Know-how
• Umfangreiche Anzahl an ausgebildeten und erfahrenen Beratern,
um auch große Projekte zeitgerecht fertig zu stellen
• Full Service von der Analyse, Konzeption über Systemintegration bis zum Betrieb
Der fließende Übergang (d.h. die Integration) von Big Data Analytics und klassischer BI kann und wird
auf mehreren Schichten erfolgen. Der einfachste Weg mit der geringsten Integrationstiefe ist die
Integration auf der ETL-Schicht. Dabei werden Daten über den ETL-Server ausgetauscht und auf
separaten Strängen den Anwendungen zur Verfügung gestellt. Diese „Datenintegration“ erinnert sehr
stark an die „EAI-Thematik“ und wird trotz erheblicher Daten- und Prozessredundanzen aufgrund
geringer Komplexität vielfach gewählt werden. Er kann als einfacher Einstieg in Big Data Analytics
angesehen werden. Klassische BI Server werden zunehmend verteilte Systeme als Quellen
konnektieren können und nicht zuletzt werden die klassischen Systeme step by step durch Big Data
Technologien substituiert werden, sei es durch originäre Big Data Technologien oder durch proprietäre
Appliances. In jedem Fall wachsen die Datenbestände zusammen und der Zugriff erfolgt nur noch durch
ein Werkzeug (mit Ausnahme spezieller Funktionalitäten wie Data Mining, für die es auch zukünftig
dedizierte Anwendungen geben wird). Auf der Datenintegrationsschicht haben die ETL-Werkzeuge
diese Verschmelzung bereits umgesetzt, auf Datenhaltungs- und analytischer Schicht ist sie initiiert.
Zukünftig werden sich die BI-Systeme in den Zugriffsmöglichkeiten auf Big Data Datenbestände
beziehungsweise NoSQl-Datenbanken abgrenzen. Klassische relationale Systeme auf analytischer
Ebene (Data Marts) bekommen zunehmend Konkurrenz durch spezialisierte, vielfach in-memory-
orientierte Datenbanken mit paralleler Verarbeitung. Das Grundprinzip der multidimensionalen
Planung und Analyse wird aber bestehen bleiben und durch zusätzliche Analysemodelle (in Richtung
Filterung und Mining), neue Visualisierungsmöglichkeiten (Reduktion für neue Präsentationsgeräte)
und Nutzung zusätzlicher Endgeräte (im Wesentlichen Mobile/Tablet) erweitert werden. Neue
Informationsarten (Links, Follower, unstrukturierte Texte & Dokumente) werden neue analytische
Funktionalitäten generieren, z.B. Pfad-Analysen, Reichweitenanalysen oder intelligentes Text-Retrieval.
Durch den Einsatz neuer Datenspeicherungstechniken werden sich klassische Methoden der
Modellierung ändern.
Aus organisatorischer Sicht wird der BI-Bereich in Unternehmen keine Reformation erleben, aber die
Aufgabeninhalte der Business Analysten werden sich in Richtung analytische Modellierung verlagern,
um die steigende Selektions- und Bewertungsnotwendigkeit sowie Vorhersagemodelle abbilden zu
können. Häufig findet man für diese Rolle die Bezeichnung „Data Scientist“.
Was Big Data bisher erreicht hat
Big Data ist bislang eine bewiesene Lösung einer geeigneten Infrastruktur für die Speicherung und
Verarbeitung poly-strukturierter Massendaten auf einem verteilten und fehlertoleranten System,
konnte bislang aber noch nicht nahtlos die Lücken zum Business Intelligence schließen, weder mit
eigenen Bordmitteln, noch mithilfe der klassischen BI-Tools. Es fehlt noch an der Abfragemöglichkeit
komplexer Queries, der nahtlosen Integration in klassische BI-Tools und Aggregationsfunktionalitäten.