SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
Durchblick durch Einblick
Semantische Analyseverfahren für
neue Erkenntnisse aus unstrukturierten Daten
Ein Whitepaper
der Experton Group AG
Oktober 2015
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 2
Copyright
Die vorliegende Analyse wurde von der Experton Group AG im Auftrag der Sinequa
S.A.S. erstellt. Trotz der gewissenhaften und mit größter Sorgfalt erfolgten
Ermittlung der Informationen und Daten kann für deren Vollständigkeit und
Richtigkeit keine Garantie übernommen werden. Niemand sollte aufgrund dieser
Informationen handeln ohne geeigneten fachlichen Rat und ohne gründliche
Analyse der betreffenden Situation.
Alle Rechte am Inhalt dieses Untersuchungsberichtes liegen bei der Experton
Group. Die Daten und Informationen bleiben Eigentum der Experton Group.
Vervielfältigungen, auch auszugsweise, bedürfen der schriftlichen Genehmigung
der Experton Group AG.
Copyright Experton Group, 2015
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 3
Inhaltsverzeichnis
1 MANAGEMENT SUMMARY 4
2 EINFÜHRUNG 5
3 BIG DATA SUCH- UND ANALYSEVERFAHREN 7
4 DER MARKT FÜR BIG-DATA-SUCHE UND -ANALYSE 9
5 SINEQUA ALS LÖSUNGSANBIETER 12
6 FAZIT 14
7 SINEQUA 15
8 EXPERTON GROUP AG 15
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 4
1 Management Summary
Die Datenberge in den Unternehmen werden immer größer. Daher ist absehbar,
dass Enterprise Search-Applikationen und -Lösungen zu wesentlichen - wenn nicht
sogar Kern-Elementen - der Unternehmens-IT werden.
Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten.
Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die
Algorithmen. Jedoch liegen erst in der Komplexität der Big-Data-Szenarien und der
Daten selbst wirkliche Wettbewerbsvorteile. Es ist nicht sehr realistisch,
anzunehmen, dass statistische Verfahren, spalten-orientierte Datenbanken, In-
Memory-Technologien oder neue, schnelle Indizierungsmechanismen allein die
Lösung für den dort entstehenden Bedarf darstellen.
Die Ära der Geschäftsentscheidungen auf Basis einfacher Reports, die aus
gefilterten und vorsortierten Daten (die wiederum überwiegend Zahlen oder einen
eng beschränkten Wortschatz enthalten) entstehen, geht zu Ende. Bei Big-Data-
Analytics geht es um mehr als die Ermittlung von Unternehmens-Kennzahlen für
eine Business-Scorecard. Es geht darum, die Ergebnisse in einen logischen
Zusammenhang mit allen zugehörigen Informationen zu bringen. Nur durch eine
neuartige Sicht auf große strukturierte, unstrukturierte und teilstrukturierte Daten
lassen sich wirklich neue Erkenntnisse gewinnen. Die semantische (inhaltliche)
Analyse von großen Datenmengen leistet hier einen wichtigen technischen Beitrag
und macht Zusammenhänge sichtbar. Herkömmliche statistische (quantitative)
Verfahren können dies in der Regel nicht leisten.
Mit dem spezifischen Ansatz der semantischen Textanalyse eröffnet sich
Anwendern eine neue Technologie für die Erschließung und Analyse
polystrukturierter Daten, die gleichermaßen aus der Unternehmens-IT (ERP, CRM,
u.a.) stammen können, wie auch aus externen Quellen, darunter Social Media,
Nachrichtenkanälen, E-Mails, Bürodokumenten oder Webseiten. Damit rückt auch
die unternehmensweite Suche (Enterprise Search) in den Fokus von Big-Data-
Technologien.
Die Experton Group empfiehlt Anwendern aufgrund der starken Zunahme immer
neuer Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv über
fortschrittliche und zukunftssichere Analysemethoden nachzudenken und dabei
die semantische Analyse in den Fokus zu rücken. Nur durch die Kombination von
herkömmlichen statistischen und semantischen Analyseverfahren, unter
Einbindung sowohl strukturierter als auch unstrukturierter Daten, lassen sich
wirkliche Wettbewerbsvorteile erzielen. Eine entsprechende Analyse-Plattform
sollte die agile Entwicklung von Suche-basierenden Anwendungen (search based
applications) unterstützen. Diese können die spezifischen Geschäftsprozesse des
Anwenderunternehmens effizienter gestalten.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 5
2 Einführung
Big-Data beschreibt die Gewinnung neuer Informationen aus enorm großen und
heterogenen Datenbeständen, die in kürzester Zeit sehr vielen Nutzern zur
Verfügung stehen müssen, um dadurch schnellere und bessere wettbewerbs-
kritische Entscheidungen treffen zu können. Big Data erweitert damit klassische
Business-Analytics-Anwendungen und ist durch einen enormen Zuwachs an
unterschiedlichsten Datenquellen, an Datennutzern (intern wie extern), an
Verarbeitungsgeschwindigkeit und an Datenvolumina gekennzeichnet.
Der Bitkom e.V. hat in seinen Leitfäden1
zu „Big Data“ eine der wichtigsten Heraus-
forderungen der nächsten Dekaden (!) zusammengefasst: ein schier
unaufhörliches Datenwachstum. Big Data mag seine Wurzeln darin gehabt haben,
dass die Ermittlung von Unternehmenskennzahlen auf eine breitere Datenbasis
gestellt wird. Jetzt ist aber klar: Die digitale Transformation schafft nicht nur immer
neue Daten, sondern sie verlangt vorrangig nach neuen Verfahren für die
Auswertung und Verknüpfung von Informationen.
Der Big-Data-Erkenntniskreislauf der Experton Group illustriert, wie durch eine
neue Sicht auf Daten neue Fragestellungen und Ideen entstehen. Die Beantwortung
dieser Fragen bedarf neuer Algorithmen und Verfahren - einschließlich Verfahren
zur Interpretation von Texten in geschriebener und gesprochener Form. Bei der
Umsetzung der Ideen werden weitere Daten aggregiert und neue Daten erzeugt.
Auch diese bilden wieder eine Ausgangsbasis für neue Fragen, Ideen und
Erkenntnisse sowie für abstrakte Services, also für neue datengetriebene
Geschäftsmodelle, die über den bisherigen Unternehmenszweck hinausgehen.
1
https://www.bitkom.org/Bitkom/Publikationen/Publikation_775.html und weitere
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 6
Daten, intern wie extern, sind zum wichtigsten Asset im globalen Wettbewerb
geworden. Die daraus gewonnenen Informationen sind eine strategische Ressource
in den immer komplexeren und dynamischeren Marktumfeldern. Es zeigt sich, dass
die Umsetzung von Big-Data-Szenarien vor allem an organisatorischen Barrieren
scheitert, während die technischen Barrieren relativ einfach ausgeräumt werden
können.
Bisherige herkömmliche statistische Verfahren, neue Datenbank- und In-Memory-
Technologien oder neue, schnelle Indizierungsmechanismen allein reichen jedoch
nicht als Antwort für den entstehenden Bedarf. Tatsächlich muss in alle Richtungen
geforscht werden: von der schnellen Bewegung sehr großer Datenmengen von
einem Ort zum anderen über leistungsfähige Computer und Netzwerke bis hin zur
Anwendung logischer Verfahren wie beispielsweise dem Natural Language
Processing (NLP).
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 7
3 Big Data Such- und Analyseverfahren
Die Ära der Geschäftsentscheidungen auf Basis einfacher Reports, die aus ge-
filterten und vorsortierten Daten (die wiederum überwiegend Zahlen oder einen
eng beschränkten Wortschatz enthalten) entstehen, geht zu Ende.
Rein statistische Analysen und Korrelationen sind für die zukünftigen Business-
Anforderungen nicht mehr ausreichend genau. Es geht inzwischen darum, die
Ergebnisse in einen logischen Zusammenhang mit allen zugehörigen Informationen
zu bringen. Statistische Korrelationen müssen also durch semantische
Korrelationen geprüft, verfeinert und ergänzt werden. Nur durch eine neuartige
Sicht auf große strukturierte, unstrukturierte und teilstrukturierte Daten lassen sich
wirklich neue Erkenntnisse gewinnen.
Die semantische (inhaltliche) Analyse von großen Datenmengen macht
Zusammenhänge sichtbar. Diese werden mit leistungsfähigen Darstellungs-
funktionen visualisiert. Zu den fortgeschrittenen Verfahren, mit denen heute aus
Daten auch neuartige semantische Korrelationen Erkenntnisse erarbeitet werden,
gehört das Natural Language Processing, die Verarbeitung natürlich sprachlicher
Informationen. Erkenntnisse entstehen beispielsweise, indem Daten miteinander
in Zusammenhänge gebracht werden, die zunächst von keinem statistischen bzw.
mathematischen Verfahren als relevant erachtet werden oder errechnet werden
können. Mit der semantischen Suche können zum Beispiel Ersatzteile in
Ersatzteilkatalogen gefunden werden, auch wenn die konkrete Artikelnummer oder
Artikelbezeichnung nicht bekannt ist. Mathematische bzw. statistische Verfahren
können diese Beziehungen oft nicht entdecken. Ergebnisse auf Basis semantischer
Analysen sind somit, je nach Zielstellung, für den Anwender aussagekräftiger, und
er wird umfassender informiert.
Während sich statistische Verfahren funktional immer weiter aneinander
angleichen und der Markt für statistische Analysen in den nächsten Jahren, nach
Experton-Erwartungen, auch eine Konsolidierung erleben wird, ist die semantische
Analyse von Texten noch recht neu. Entsprechende Verfahren waren bisher eher
auf nicht kommerzielle Anwendungen bei Nachrichtendiensten, Militär oder Polizei
konzentriert.
Statistische Verfahren sind sehr gut darin, die Häufung von Begriffen in einer
Datenmenge zu erkennen. So ermitteln sie sehr treffsicher, wie oft zum Beispiel
eine Kreditkartennummer im Zusammenhang mit einem Gegenstand (Handtasche,
Gürtel, Halstuch) verwendet wird und an welchen Orten die Kreditkarte benutzt
wird. Solche statistischen Verfahren lassen sich beliebig komplex gestalten. So sind
sie sehr gut geeignet, einen möglichen Kreditkartenbetrug anzuzeigen.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 8
Bei dem Natural Language Processing geht es jedoch nicht nur darum, statistische
Auffälligkeiten (Häufungen von Begriffen in Transaktionsdatensätzen) eines
Quelldatensatzes anhand von Synonymwörterbüchern zu ermitteln. Es geht darum,
Synonyme im richtigen Kontext dem richtigen Vorgang zuzuordnen: Kohle, Moos,
Asche, Kies, Schotter können jeweils Begriffe für Geld sein. Jeder dieser Begriffe hat
aber auch seine eigene Bedeutung. Schotter ist selbstverständlich im
Zusammenhang mit Straßenbau nicht als Synonym für Geld zu werten, es sei denn,
es geht in dem Beispiel um die Aufklärung von Schmiergeldzahlungen, wo dann der
„Schotter“ (die Bestechung) für die Lieferung des Schotters (Baumaterial) gemeint
sein könnte. Allein dieses Beispiel veranschaulicht bereits die Komplexität des
Themas.
Relevante Anwendungsbereiche für modernes und fortgeschrittenes Natural
Language Processing lassen sich in nahezu allen Branchensegmenten finden,
angefangen bei Fertigungsunternehmen (Zuordnung von Varianten, Baugruppen
und Bauteilen, in sehr umfangreichen Produkten wie einem Pkw) bis hin zu
hoheitlichen Aufgaben (Strafverfolgung) öffentlicher Organisationen.
Wie wichtig dies sein kann, zeigt beispielsweise die Dokumentation von Flugzeugen
und Hubschraubern. Obwohl diese Verkehrsmittel in Serie gebaut werden, entsteht
das einzelne Produkt mit der Losgröße 1. Das bedeutet, dass auch die
Dokumentation eines jeden Produkts von den anderen Produkten abweicht. Eine
alte Redensart unter Flugzeugbauern sagt, dass ein neues Flugzeug erst dann die
Zulassung erhält, wenn das Gewicht der Dokumentation das Startgewicht der
Maschine erreicht hat. Ebenso komplexe Textdokumente finden sich im
wissenschaftlichen Bereich, wo es immer schwieriger wird, existierende wichtige
Veröffentlichungen zu finden. Auch bestimmten Berufsgruppen wie z.B.
Patentanwälten und Forschern können semantische Verfahren das schnelle Finden
relevanter Dokumente erleichtern, wenn beispielsweise riesige Datenbanken mit
Patentschriften ausgewertet werden müssen. Die Auswertung von Fallstudien,
Testreihen, Patentschriften und wissenschaftlichen Texten ist auch eine der
aufwändigsten Aufgaben in der pharmazeutischen Industrie und in der
medizinischen Forschung. Linguistische Mechanismen stellen bei der intelligenten
Auswertung von Texten die gesuchten Zusammenhänge dar.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 9
4 Der Markt für Big-Data-Suche und -Analyse
Die Datenmengen, die in den Unternehmen anfallen, wachsen explosionsartig und
auch die Anzahl und Art der Datenquellen (strukturiert, semi-strukturiert,
unstrukturiert) wächst stetig, beispielsweise durch mobile Endgeräte, die Erschlie-
ßung von Mail-Archiven, Datenbestände aus Texten (darunter Produktdokumen-
tationen, Projektberichte, Fallstudien, Wartungsanleitungen), Streaming-Media,
Maschinendaten sowie Daten aus Social-Media. Die heute mögliche Vielfalt an
Daten führt zu einer bisher nicht dagewesenen Komplexität der Eingangsdaten.
Doch diese Daten liefern an sich noch keine Wertschöpfung, da erst die Gewinnung
neuer Informationen aus den Daten einen Mehrwert für das
Anwenderunternehmen darstellt.
Die Aggregation von Daten zu entscheidungsrelevanten Informationen, Ergebnisse
aus Datenbankanfragen und die „Entdeckung“ neuer Zusammenhänge wird
darüber hinaus in Echtzeit erwartet. Zudem werden die Informationen an immer
mehr Nutzer im Unternehmen und in der gesamten Wertschöpfungskette, vom
Lieferanten bis zum Kunden, verteilt. Es wächst also nicht nur die Zahl der
unterschiedlichen Datenquellen, sondern auch die Zahl der „Verbraucher“ von neu
gewonnen Informationen.
Die Digitalisierung der Wirtschaft und des Alltags erzeugt in den Industrieländern
immer mehr, auch komplexe, Daten, die immer häufiger auch als Text (also als
geschriebene Sprache) entstehen. Untersuchungen zeigen, dass mittlerweile etwa
70 bis 80 Prozent aller vorliegenden internen und externen Unternehmensdaten in
unstrukturierter Form vorliegen. Herkömmliche statistische Verfahren sind daher
nicht immer das Mittel der Wahl für die Analyse von Big-Data.
Dabei sieht die Experton Group Big Data als eine übergreifende Entwicklung hin zu
komplexen IT-Szenarien wie beispielsweise im Gesundheitswesen (E-Health), im
Straßenverkehr (interaktive, sekundenaktuelle Verkehrs- und Routenplanung über
große Geografien) und selbstverständlich in der betriebswirtschaftlichen IT (die
Verknüpfung von BI mit Daten aus MES, ERP oder CRM).
Hierbei sind immer mehr unstrukturierte Daten zu verarbeiten, die überwiegend
aus Texten bestehen. Unstrukturiert sind diese Daten, weil sie keinen erkennbaren
tabellen- oder listenartigen Aufbau haben. Es spielt auch keine Rolle, woher die
Daten kommen.
Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten.
Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die
Algorithmen. Jedoch liegen erst in der Komplexität der Big-Data-Szenarien und der
Daten selbst wirkliche Wettbewerbsvorteile.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 10
Die Komplexität der Big-Data-Projekte setzt einen Kulturwandel in den
Anwenderunternehmen voraus.
Kulturwandel Schritt 1: Umdenken, denn Big Data lässt sich nicht als ROI über x
Jahre darstellen. Semantische Analysen wie mit der Software von Sinequa fördern
neue und vor allem neuartige Erkenntnisse und somit neue datengetriebene
Geschäftsmodelle, die wiederum zusätzliche Umsatzpotenziale ermöglichen.
Kulturwandel Schritt 2: Datensilos und hoheitliche Zuordnung von Daten im
Unternehmen aufheben, damit ganz verschiedenen (berechtigten) Beteiligten der
Zugriff auf die Rohdaten ermöglicht wird. Keimzellen schaffen, in denen Big-Data-
Ideen zu Big-Data-Szenarien werden. Den Mitarbeitern entsprechend der Data-
Governance und der Big-Data-Ethik geeignete Freiräume schaffen und lassen. Auch
der spielerische Umgang mit semantischen Verfahren sollte dabei geübt werden.
Kulturwandel Schritt 3: Leitungsentscheidung darüber, ob die Fachabteilung oder
die IT-Abteilung für die Exploration von Daten und den Aufbau von Big-Data-
Szenarien zuständig ist bzw. ob hier eine Stabsfunktion für das Unternehmen
hilfreich ist. Oft ist es sinnvoll, eine allen Bereichen übergeordnete Instanz für die
Big-Data-Thematik zu schaffen.
Kulturwandel Schritt 4: Neue Algorithmen finden statt eines Scale-outs
vorhandener Lösungen. Wenn es bei Big-Data-Szenarien nicht nur darum geht, die
Kennzahlenermittlung auf eine breitere Datenbasis zu stellen, sind auch seman-
tische Analysen in Betracht zu ziehen.
Mit dem spezifischen Ansatz der semantischen Textanalyse eröffnet sich
Anwendern eine neue Technologie für die Erschließung und Analyse polystruk-
turierter Daten, die gleichermaßen aus der Unternehmens-IT (ERP, CRM, u.a.)
stammen können wie aus externen Quellen, darunter Social Media, Nachrich-
tenkanäle, E-Mails, Bürodokumente oder Webseiten.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 11
Aus der Fähigkeit, diese Daten nicht nur statistisch auszuwerten, sondern logische
Erkenntnisse zu gewinnen, ergeben sich eine Vielzahl denkbarer Anwendungen:
Zielmarkt Denkbare Applikation Möglicher Beitrag von Sinequa
Regierung/
Behörden
Erkennungsdienstliche Aufgaben
Prävention
„Natural Language Processing“,
Spracherkennung, linguistische und
semantische Analysen in vielen
Sprachen
Automobilindustrie Ersatzteilorganisation „Natural Language Processing“,
korrekte Zuordnung von
Artikelnummern selbst zu
unscharfen Begriffen
Call-Center/Kunden-
unterstützung
360-Grad-Sicht auf den Kunden „Case Based Reasoning“ und
„Natural Language Processing“,
Erkennen der richtigen
Zusammenhänge, auch wenn die
verwendeten Begriffe nicht einer
Normung entsprechen
Versicherungen Risikominimierung „Natural Language Processing“ und
„Case Based Reasoning“ für
semantische Analyse von
Nachrichten zur Erkennung
bestimmter Gefahren-Situationen
und Verhaltensmuster
Pharmazeutische
Industrie
Kürzeres Time-to-Market Forschungsdatenbanken,
Laborberichte und klinische
Testreihen effizienter durchsuchen
und redundante Projekte vermeiden
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 12
5 Sinequa als Lösungsanbieter
Sehr schnelle Analysen, unternehmensweites Durchsuchen von Datenbeständen
und der vereinheitlichte Zugriff auf die Unternehmensinformationen (Unified
Information Access) sind die Domäne der Sinequa. Die Lösungen von Sinequa
basieren auf Technologien für die textuelle und inhaltliche - also für die linguistische
- Analyse. Die ausgereiften Content-Analytics-Funktionen von Sinequa ermöglichen
es Konzernen und öffentlichen Verwaltungen, relevante und wertvolle
Informationen aus sehr großen und komplexen Datenbeständen sowie aus
strukturierten und unstrukturierten Datenquellen zu gewinnen. Basierend auf den
Ergebnissen jahrelanger sprachwissenschaftlicher Forschung kombiniert die
flexible Softwarelösung semantische mit statistischer Analyse, stellt Zusammen-
hänge in heterogenen, großen Datenmengen her und liefert Anwendern relevante
Ergebnisse für ihre Arbeitsprozesse. Sinequas hochgradig skalierbare Lösung
durchsucht hunderte Millionen von Dokumenten und Milliarden von Datenbank-
Records äußerst effizient und versorgt bei Bedarf zehntausende Nutzer mit den
richtigen Suchergebnissen. Die leistungsstarke Architektur sowie die „Out-of-the-
box“-Konnektoren für alle gängigen Unternehmensanwendungen und
Datenquellen gewährleisten eine schnelle und kosteneffiziente Implementierung
und Integration in bestehende IT-Umgebungen. Viele Anwender in großen
Unternehmen und Organisationen nutzen Sinequa bereits, um effizient auf
geschäftskritische Informationen zugreifen zu können. Zum renommierten
Kundenkreis des Unternehmens zählen Airbus, AstraZeneca, Atos, Biogen, Crédit
Agricole, das französische Verteidigungsministerium, die Europäische Kommission
und Siemens.
Eine Herausforderung ist für die Anwender das Zusammenführen von Daten. Viele
Analyse-Lösungen setzen voraus, dass Adapter individuell entwickelt werden. Bei
Sinequa ermöglichen 140 Konnektoren die Erschließung aller gängigen
Datenquellen - von DOCX, PDF, TXT und CSV über verschiedene zeilen- oder
spaltenorientierte Datenbankformate bis hin zu Social Media und den nativen
Formaten von Data Warehouses. Diese übernehmen auch bereits einen Teil der
Verarbeitung. Zusätzlich dazu hat Sinequa weitere Konnektoren seiner Big Data
Such & Analyse-Plattform auch für Third-Party-Cloud-Storage, Product-Lifecycle-
Management-Systeme und Social-Media-Feeds entwickelt.
Cloud-Dienste, ob privat, öffentlich oder hybrid, werden von großen Unternehmen
aller Branchen immer intensiver genutzt. Sinequa-Kunden können jetzt die AWS-
Cloud nutzen, um flexibler die Infrastruktur an ihren Bedarf anpassen zu können.
So können zusätzlich Millionen von Dokumenten und Milliarden von
Datenbankeinträgen analysiert und gleichzeitig die Total Cost of Ownership für die
benötigte Infrastruktur gesenkt werden. Die Anwender profitieren von
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 13
vollständiger Transparenz bei der Suche und können Informationen über Cloud-
und Enterprise-Anwendungen schneller abrufen.
Die Grundlage für den Einsatz semantischer Verfahren ist die Entity Extraction, die
Begriffe in Texten „erkennt“ und sie mit verwandten Begriffen in Beziehung setzen
kann. Unternehmensspezifische Synonymlisten und Ontologien können das Wissen
über Begriffe und deren Beziehungen verstärken. Anwender können daher nach
Begriffen fragen, die nicht in den relevanten Texten vorkommen, und trotzdem eine
relevante Antwort erhalten. So kann die Frage nach dem „gelben Knopf“ an einer
Maschine die entsprechende Beschreibung der „Prüftaste“ aus der Dokumentation
liefern, auch wenn die Frage weder die genaue Artikelbezeichnung noch diesen
Begriff enthält.
Es ist vorstellbar, dass zu Beginn der Arbeit mit einer NLP-Software irrtümliche
Treffer (sogenannten „false positives“) angezeigt werden. Typischerweise werden
diese von den Anwendern individuell markiert, wobei die Software dies
interpretiert. Sinequa unterstützt diesen Lernprozess effektiv durch die Fähigkeit,
nahezu beliebige Ontologien und Thesauren einlesen zu können, um die
Anlernphase der Software zu verkürzen.
Für die Darstellung der Suchergebnisse werden Diagramme und andere
Ergebnispräsentationen genutzt. Getreu dem Motto „Ein Bild sagt mehr als tausend
Worte“ haben sich für die verschiedenen Arten von Erkenntnissen aus den
Datenanalysen auch verschiedene Darstellungsformen durchgesetzt. Besonders
populär sind zur Zeit beispielsweise Graphen. Sinequa beherrscht alle gegenwärtig
typischen Arten von Charts, Diagrammen und Reports.
Die Software von Sinequa wird in Deutschland direkt und über ein Netz von
Partnern vertrieben. Sinequa hat ihre Partnerlandschaft in den letzten Jahren und
Monaten strategisch ausgebaut. Neue Allianzen und Partnerschaften gibt es zum
Beispiel mit der Atos SE, die mit ihren 93.000 Beschäftigten in 72 Ländern Projekte
mit Big-Data-Content-Analyse auch auf Basis der Sinequa-Lösungen durchführt.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 14
6 Fazit
Big-Data-Projekte sind komplex. Das Speichern und Auswerten von einigen hundert
Terabytes ist dabei nur die „Einstiegsdroge“ zu immer komplexeren Szenarien, und
in der Komplexität liegen die eigentlichen Wettbewerbsvorteile für die Anwender,
die so aus ihren Daten mehr und neue Informationen gewinnen können. Je
komplexer die Datenquellen und -arten sind, desto wichtiger ist es, nicht nur
statistische Verfahren zu nutzen, sondern die Inhalte durch linguistische Verfahren
auch zu „verstehen“.
Die Datenberge in den Unternehmen werden immer größer. Daher ist absehbar,
dass Enterprise Search-Applikationen und -Lösungen zu wesentlichen - wenn nicht
sogar Kern-Elementen - der Unternehmens-IT werden.
Oftmals stellen sich Anwender, vor allen jene mit einer leistungsfähigen IT-
Organisation, die Frage nach dem „Make or Buy?“. Der Aufwand für die komplette
Neuentwicklung einer semantischen Enterprise-Search-Anwendung wurde von der
Experton Group in einem konkreten Projekt auf bestenfalls weit über 24 Personen-
jahre berechnet. Dabei waren ausreichend linguistisch erfahrene Softwareentwick-
ler Teil der Berechnungsgrundlage. Ohne diese würde der Aufwand für eine
Neuentwicklung um ein Vielfaches steigen. Auch der Aufwand für eine Neuent-
wicklung mit vorhandenen Tools und Open-Source-Komponenten darf nicht
unterschätzt werden.
Bei der Auswahl von Lösungen mit intelligenten semantischen Analysen nahezu
beliebiger Daten ist es zudem oft besser, neue Wege zu beschreiten. Anwender, die
sich zu sehr an Bekanntem orientieren, büßen jene Wettbewerbsvorteile ein, die
sich aus einem neuen, unvoreingenommenen Blick auf die Daten ergeben.
Die Experton Group empfiehlt Anwendern aufgrund der Zunahme immer neuer
Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv über
zukunftssichere Analysemethoden nachzudenken und dabei die semantische
Analyse in den Fokus zu rücken. Beschleunigungsverfahren wie In-Memory-
Techniken oder Datenbankbeschleuniger schaffen durch die schnellere Lieferung
von Ergebnissen Reserven für weitere Iterationen, jedoch immer im Rahmen der
vorherrschenden Denkwelten. Es gilt nun, diese Verfahren und Techniken mit
intelligenter und zukunftssicherer Technologie, zur Gewinnung wirklich neuer
Erkenntnisse, zu erweitern.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 15
7 Sinequa
Sinequa ist eine der führenden Softwarefirmen im Markt für Big Data Content-
Analyse in Realzeit, Enterprise Search und Unified Information Access. Die
ausgereiften Content Analytics-Funktionen der Sinequa-Lösung ermöglichen es
Konzernen und Öffentlichen Verwaltungen, wertvolle Informationen aus sehr
großen und komplexen Datenbeständen, aus strukturierten Anwendungen und
unstrukturierten Datenquellen zu gewinnen. Basierend auf den Ergebnissen
jahrelanger, sprachwissenschaftlicher Forschung kombiniert die flexible
Softwarelösung semantische mit statistischer Analyse, stellt Zusammenhänge in
heterogenen, großen Datenmengen her und liefert Anwendern relevante
Ergebnisse für ihre Arbeitsprozesse. Sinequas hochskalierbare Lösung durchsucht
Milliarden von Dokumenten und Datensätzen in Datenbanken äußerst effizient und
versorgt zehntausende von Nutzern mit den für sie relevanten Informationen. Die
leistungsstarke Architektur sowie die gebrauchsfertigen Konnektoren für alle
gängigen Unternehmensanwendungen und Datenquellen gewährleisten eine
schnelle und kosteneffiziente Implementierung und Integration in bestehende IT-
Umgebungen. Millionen von Anwendern in großen Unternehmen und
Organisationen nutzen bereits Sinequa, um effizient auf geschäftskritische
Informationen zugreifen zu können. Zum renommierten Kundenkreis des
Unternehmens zählen Airbus, AstraZeneca, Atos, Biogen, Crédit Agricole, das
französische Verteidigungsministerium, die Europäische Kommission und Siemens.
8 Experton Group AG
Experton Group ist ein führendes IT-Research- und Beratungsunternehmen. Mit
europaweit 80 erfahrenen Analysten unterstützen wir mittelständische und große
Anwenderunternehmen bei der strategischen Planung und Umsetzung ihrer IT-
Strategien. Zudem unterstürzt Experton Group IT-Anbieter in Strategie-,
Marketing- und Wettbewerbsfragen.
Experton Group Whitepaper „Durchblick durch Einblick”
© Copyright Experton Group AG 16
Impressum
Herausgeber:
Experton Group AG
Carl-Zeiss-Ring 4
D - 85737 Ismaning
Vorstand: Jürgen Brettel (Vorsitzender), Lutz Peichert, Nils Bachmann
Aufsichtsratsvorsitzender: Wolfgang Stübich
Amtsgericht München HRB 158568
Version 3
Oktober 2015
© 2015, Experton Group AG, Ismaning.

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (16)

Process Book SP16
Process Book SP16Process Book SP16
Process Book SP16
 
CV Tracey Botha
CV Tracey BothaCV Tracey Botha
CV Tracey Botha
 
Bab iv
Bab ivBab iv
Bab iv
 
SIRIPURAM SRINIVAS-CV
SIRIPURAM SRINIVAS-CVSIRIPURAM SRINIVAS-CV
SIRIPURAM SRINIVAS-CV
 
Studi Penerapan Ontologi dalam Bahasa Inggris sebagai Kerangka
Studi Penerapan Ontologi dalam Bahasa Inggris sebagai KerangkaStudi Penerapan Ontologi dalam Bahasa Inggris sebagai Kerangka
Studi Penerapan Ontologi dalam Bahasa Inggris sebagai Kerangka
 
Goderich Hockeyville
Goderich HockeyvilleGoderich Hockeyville
Goderich Hockeyville
 
Presentation2
Presentation2Presentation2
Presentation2
 
Lenguajes De ProgramacióN
Lenguajes De ProgramacióNLenguajes De ProgramacióN
Lenguajes De ProgramacióN
 
Terapia de grupo
Terapia de grupoTerapia de grupo
Terapia de grupo
 
Germany
GermanyGermany
Germany
 
Presentation 1
Presentation 1Presentation 1
Presentation 1
 
Evaluación rahm
Evaluación rahmEvaluación rahm
Evaluación rahm
 
Estudioconsumonavidad2012 deloitte
Estudioconsumonavidad2012 deloitteEstudioconsumonavidad2012 deloitte
Estudioconsumonavidad2012 deloitte
 
Karmalegung
KarmalegungKarmalegung
Karmalegung
 
Portable Apps By @Nosoysanta
Portable Apps By @NosoysantaPortable Apps By @Nosoysanta
Portable Apps By @Nosoysanta
 
dox42day Paul Zieger - Opti-Q
dox42day Paul Zieger - Opti-Qdox42day Paul Zieger - Opti-Q
dox42day Paul Zieger - Opti-Q
 

Experton whitepaper-sinequa-durchblick-durch-einblick

  • 1. Durchblick durch Einblick Semantische Analyseverfahren für neue Erkenntnisse aus unstrukturierten Daten Ein Whitepaper der Experton Group AG Oktober 2015
  • 2. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 2 Copyright Die vorliegende Analyse wurde von der Experton Group AG im Auftrag der Sinequa S.A.S. erstellt. Trotz der gewissenhaften und mit größter Sorgfalt erfolgten Ermittlung der Informationen und Daten kann für deren Vollständigkeit und Richtigkeit keine Garantie übernommen werden. Niemand sollte aufgrund dieser Informationen handeln ohne geeigneten fachlichen Rat und ohne gründliche Analyse der betreffenden Situation. Alle Rechte am Inhalt dieses Untersuchungsberichtes liegen bei der Experton Group. Die Daten und Informationen bleiben Eigentum der Experton Group. Vervielfältigungen, auch auszugsweise, bedürfen der schriftlichen Genehmigung der Experton Group AG. Copyright Experton Group, 2015
  • 3. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 3 Inhaltsverzeichnis 1 MANAGEMENT SUMMARY 4 2 EINFÜHRUNG 5 3 BIG DATA SUCH- UND ANALYSEVERFAHREN 7 4 DER MARKT FÜR BIG-DATA-SUCHE UND -ANALYSE 9 5 SINEQUA ALS LÖSUNGSANBIETER 12 6 FAZIT 14 7 SINEQUA 15 8 EXPERTON GROUP AG 15
  • 4. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 4 1 Management Summary Die Datenberge in den Unternehmen werden immer größer. Daher ist absehbar, dass Enterprise Search-Applikationen und -Lösungen zu wesentlichen - wenn nicht sogar Kern-Elementen - der Unternehmens-IT werden. Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten. Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die Algorithmen. Jedoch liegen erst in der Komplexität der Big-Data-Szenarien und der Daten selbst wirkliche Wettbewerbsvorteile. Es ist nicht sehr realistisch, anzunehmen, dass statistische Verfahren, spalten-orientierte Datenbanken, In- Memory-Technologien oder neue, schnelle Indizierungsmechanismen allein die Lösung für den dort entstehenden Bedarf darstellen. Die Ära der Geschäftsentscheidungen auf Basis einfacher Reports, die aus gefilterten und vorsortierten Daten (die wiederum überwiegend Zahlen oder einen eng beschränkten Wortschatz enthalten) entstehen, geht zu Ende. Bei Big-Data- Analytics geht es um mehr als die Ermittlung von Unternehmens-Kennzahlen für eine Business-Scorecard. Es geht darum, die Ergebnisse in einen logischen Zusammenhang mit allen zugehörigen Informationen zu bringen. Nur durch eine neuartige Sicht auf große strukturierte, unstrukturierte und teilstrukturierte Daten lassen sich wirklich neue Erkenntnisse gewinnen. Die semantische (inhaltliche) Analyse von großen Datenmengen leistet hier einen wichtigen technischen Beitrag und macht Zusammenhänge sichtbar. Herkömmliche statistische (quantitative) Verfahren können dies in der Regel nicht leisten. Mit dem spezifischen Ansatz der semantischen Textanalyse eröffnet sich Anwendern eine neue Technologie für die Erschließung und Analyse polystrukturierter Daten, die gleichermaßen aus der Unternehmens-IT (ERP, CRM, u.a.) stammen können, wie auch aus externen Quellen, darunter Social Media, Nachrichtenkanälen, E-Mails, Bürodokumenten oder Webseiten. Damit rückt auch die unternehmensweite Suche (Enterprise Search) in den Fokus von Big-Data- Technologien. Die Experton Group empfiehlt Anwendern aufgrund der starken Zunahme immer neuer Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv über fortschrittliche und zukunftssichere Analysemethoden nachzudenken und dabei die semantische Analyse in den Fokus zu rücken. Nur durch die Kombination von herkömmlichen statistischen und semantischen Analyseverfahren, unter Einbindung sowohl strukturierter als auch unstrukturierter Daten, lassen sich wirkliche Wettbewerbsvorteile erzielen. Eine entsprechende Analyse-Plattform sollte die agile Entwicklung von Suche-basierenden Anwendungen (search based applications) unterstützen. Diese können die spezifischen Geschäftsprozesse des Anwenderunternehmens effizienter gestalten.
  • 5. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 5 2 Einführung Big-Data beschreibt die Gewinnung neuer Informationen aus enorm großen und heterogenen Datenbeständen, die in kürzester Zeit sehr vielen Nutzern zur Verfügung stehen müssen, um dadurch schnellere und bessere wettbewerbs- kritische Entscheidungen treffen zu können. Big Data erweitert damit klassische Business-Analytics-Anwendungen und ist durch einen enormen Zuwachs an unterschiedlichsten Datenquellen, an Datennutzern (intern wie extern), an Verarbeitungsgeschwindigkeit und an Datenvolumina gekennzeichnet. Der Bitkom e.V. hat in seinen Leitfäden1 zu „Big Data“ eine der wichtigsten Heraus- forderungen der nächsten Dekaden (!) zusammengefasst: ein schier unaufhörliches Datenwachstum. Big Data mag seine Wurzeln darin gehabt haben, dass die Ermittlung von Unternehmenskennzahlen auf eine breitere Datenbasis gestellt wird. Jetzt ist aber klar: Die digitale Transformation schafft nicht nur immer neue Daten, sondern sie verlangt vorrangig nach neuen Verfahren für die Auswertung und Verknüpfung von Informationen. Der Big-Data-Erkenntniskreislauf der Experton Group illustriert, wie durch eine neue Sicht auf Daten neue Fragestellungen und Ideen entstehen. Die Beantwortung dieser Fragen bedarf neuer Algorithmen und Verfahren - einschließlich Verfahren zur Interpretation von Texten in geschriebener und gesprochener Form. Bei der Umsetzung der Ideen werden weitere Daten aggregiert und neue Daten erzeugt. Auch diese bilden wieder eine Ausgangsbasis für neue Fragen, Ideen und Erkenntnisse sowie für abstrakte Services, also für neue datengetriebene Geschäftsmodelle, die über den bisherigen Unternehmenszweck hinausgehen. 1 https://www.bitkom.org/Bitkom/Publikationen/Publikation_775.html und weitere
  • 6. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 6 Daten, intern wie extern, sind zum wichtigsten Asset im globalen Wettbewerb geworden. Die daraus gewonnenen Informationen sind eine strategische Ressource in den immer komplexeren und dynamischeren Marktumfeldern. Es zeigt sich, dass die Umsetzung von Big-Data-Szenarien vor allem an organisatorischen Barrieren scheitert, während die technischen Barrieren relativ einfach ausgeräumt werden können. Bisherige herkömmliche statistische Verfahren, neue Datenbank- und In-Memory- Technologien oder neue, schnelle Indizierungsmechanismen allein reichen jedoch nicht als Antwort für den entstehenden Bedarf. Tatsächlich muss in alle Richtungen geforscht werden: von der schnellen Bewegung sehr großer Datenmengen von einem Ort zum anderen über leistungsfähige Computer und Netzwerke bis hin zur Anwendung logischer Verfahren wie beispielsweise dem Natural Language Processing (NLP).
  • 7. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 7 3 Big Data Such- und Analyseverfahren Die Ära der Geschäftsentscheidungen auf Basis einfacher Reports, die aus ge- filterten und vorsortierten Daten (die wiederum überwiegend Zahlen oder einen eng beschränkten Wortschatz enthalten) entstehen, geht zu Ende. Rein statistische Analysen und Korrelationen sind für die zukünftigen Business- Anforderungen nicht mehr ausreichend genau. Es geht inzwischen darum, die Ergebnisse in einen logischen Zusammenhang mit allen zugehörigen Informationen zu bringen. Statistische Korrelationen müssen also durch semantische Korrelationen geprüft, verfeinert und ergänzt werden. Nur durch eine neuartige Sicht auf große strukturierte, unstrukturierte und teilstrukturierte Daten lassen sich wirklich neue Erkenntnisse gewinnen. Die semantische (inhaltliche) Analyse von großen Datenmengen macht Zusammenhänge sichtbar. Diese werden mit leistungsfähigen Darstellungs- funktionen visualisiert. Zu den fortgeschrittenen Verfahren, mit denen heute aus Daten auch neuartige semantische Korrelationen Erkenntnisse erarbeitet werden, gehört das Natural Language Processing, die Verarbeitung natürlich sprachlicher Informationen. Erkenntnisse entstehen beispielsweise, indem Daten miteinander in Zusammenhänge gebracht werden, die zunächst von keinem statistischen bzw. mathematischen Verfahren als relevant erachtet werden oder errechnet werden können. Mit der semantischen Suche können zum Beispiel Ersatzteile in Ersatzteilkatalogen gefunden werden, auch wenn die konkrete Artikelnummer oder Artikelbezeichnung nicht bekannt ist. Mathematische bzw. statistische Verfahren können diese Beziehungen oft nicht entdecken. Ergebnisse auf Basis semantischer Analysen sind somit, je nach Zielstellung, für den Anwender aussagekräftiger, und er wird umfassender informiert. Während sich statistische Verfahren funktional immer weiter aneinander angleichen und der Markt für statistische Analysen in den nächsten Jahren, nach Experton-Erwartungen, auch eine Konsolidierung erleben wird, ist die semantische Analyse von Texten noch recht neu. Entsprechende Verfahren waren bisher eher auf nicht kommerzielle Anwendungen bei Nachrichtendiensten, Militär oder Polizei konzentriert. Statistische Verfahren sind sehr gut darin, die Häufung von Begriffen in einer Datenmenge zu erkennen. So ermitteln sie sehr treffsicher, wie oft zum Beispiel eine Kreditkartennummer im Zusammenhang mit einem Gegenstand (Handtasche, Gürtel, Halstuch) verwendet wird und an welchen Orten die Kreditkarte benutzt wird. Solche statistischen Verfahren lassen sich beliebig komplex gestalten. So sind sie sehr gut geeignet, einen möglichen Kreditkartenbetrug anzuzeigen.
  • 8. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 8 Bei dem Natural Language Processing geht es jedoch nicht nur darum, statistische Auffälligkeiten (Häufungen von Begriffen in Transaktionsdatensätzen) eines Quelldatensatzes anhand von Synonymwörterbüchern zu ermitteln. Es geht darum, Synonyme im richtigen Kontext dem richtigen Vorgang zuzuordnen: Kohle, Moos, Asche, Kies, Schotter können jeweils Begriffe für Geld sein. Jeder dieser Begriffe hat aber auch seine eigene Bedeutung. Schotter ist selbstverständlich im Zusammenhang mit Straßenbau nicht als Synonym für Geld zu werten, es sei denn, es geht in dem Beispiel um die Aufklärung von Schmiergeldzahlungen, wo dann der „Schotter“ (die Bestechung) für die Lieferung des Schotters (Baumaterial) gemeint sein könnte. Allein dieses Beispiel veranschaulicht bereits die Komplexität des Themas. Relevante Anwendungsbereiche für modernes und fortgeschrittenes Natural Language Processing lassen sich in nahezu allen Branchensegmenten finden, angefangen bei Fertigungsunternehmen (Zuordnung von Varianten, Baugruppen und Bauteilen, in sehr umfangreichen Produkten wie einem Pkw) bis hin zu hoheitlichen Aufgaben (Strafverfolgung) öffentlicher Organisationen. Wie wichtig dies sein kann, zeigt beispielsweise die Dokumentation von Flugzeugen und Hubschraubern. Obwohl diese Verkehrsmittel in Serie gebaut werden, entsteht das einzelne Produkt mit der Losgröße 1. Das bedeutet, dass auch die Dokumentation eines jeden Produkts von den anderen Produkten abweicht. Eine alte Redensart unter Flugzeugbauern sagt, dass ein neues Flugzeug erst dann die Zulassung erhält, wenn das Gewicht der Dokumentation das Startgewicht der Maschine erreicht hat. Ebenso komplexe Textdokumente finden sich im wissenschaftlichen Bereich, wo es immer schwieriger wird, existierende wichtige Veröffentlichungen zu finden. Auch bestimmten Berufsgruppen wie z.B. Patentanwälten und Forschern können semantische Verfahren das schnelle Finden relevanter Dokumente erleichtern, wenn beispielsweise riesige Datenbanken mit Patentschriften ausgewertet werden müssen. Die Auswertung von Fallstudien, Testreihen, Patentschriften und wissenschaftlichen Texten ist auch eine der aufwändigsten Aufgaben in der pharmazeutischen Industrie und in der medizinischen Forschung. Linguistische Mechanismen stellen bei der intelligenten Auswertung von Texten die gesuchten Zusammenhänge dar.
  • 9. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 9 4 Der Markt für Big-Data-Suche und -Analyse Die Datenmengen, die in den Unternehmen anfallen, wachsen explosionsartig und auch die Anzahl und Art der Datenquellen (strukturiert, semi-strukturiert, unstrukturiert) wächst stetig, beispielsweise durch mobile Endgeräte, die Erschlie- ßung von Mail-Archiven, Datenbestände aus Texten (darunter Produktdokumen- tationen, Projektberichte, Fallstudien, Wartungsanleitungen), Streaming-Media, Maschinendaten sowie Daten aus Social-Media. Die heute mögliche Vielfalt an Daten führt zu einer bisher nicht dagewesenen Komplexität der Eingangsdaten. Doch diese Daten liefern an sich noch keine Wertschöpfung, da erst die Gewinnung neuer Informationen aus den Daten einen Mehrwert für das Anwenderunternehmen darstellt. Die Aggregation von Daten zu entscheidungsrelevanten Informationen, Ergebnisse aus Datenbankanfragen und die „Entdeckung“ neuer Zusammenhänge wird darüber hinaus in Echtzeit erwartet. Zudem werden die Informationen an immer mehr Nutzer im Unternehmen und in der gesamten Wertschöpfungskette, vom Lieferanten bis zum Kunden, verteilt. Es wächst also nicht nur die Zahl der unterschiedlichen Datenquellen, sondern auch die Zahl der „Verbraucher“ von neu gewonnen Informationen. Die Digitalisierung der Wirtschaft und des Alltags erzeugt in den Industrieländern immer mehr, auch komplexe, Daten, die immer häufiger auch als Text (also als geschriebene Sprache) entstehen. Untersuchungen zeigen, dass mittlerweile etwa 70 bis 80 Prozent aller vorliegenden internen und externen Unternehmensdaten in unstrukturierter Form vorliegen. Herkömmliche statistische Verfahren sind daher nicht immer das Mittel der Wahl für die Analyse von Big-Data. Dabei sieht die Experton Group Big Data als eine übergreifende Entwicklung hin zu komplexen IT-Szenarien wie beispielsweise im Gesundheitswesen (E-Health), im Straßenverkehr (interaktive, sekundenaktuelle Verkehrs- und Routenplanung über große Geografien) und selbstverständlich in der betriebswirtschaftlichen IT (die Verknüpfung von BI mit Daten aus MES, ERP oder CRM). Hierbei sind immer mehr unstrukturierte Daten zu verarbeiten, die überwiegend aus Texten bestehen. Unstrukturiert sind diese Daten, weil sie keinen erkennbaren tabellen- oder listenartigen Aufbau haben. Es spielt auch keine Rolle, woher die Daten kommen. Strukturierte Daten lassen sich leicht mit mathematischen Verfahren verarbeiten. Je unstrukturierter die Daten sind, desto komplexer sind die Anforderungen an die Algorithmen. Jedoch liegen erst in der Komplexität der Big-Data-Szenarien und der Daten selbst wirkliche Wettbewerbsvorteile.
  • 10. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 10 Die Komplexität der Big-Data-Projekte setzt einen Kulturwandel in den Anwenderunternehmen voraus. Kulturwandel Schritt 1: Umdenken, denn Big Data lässt sich nicht als ROI über x Jahre darstellen. Semantische Analysen wie mit der Software von Sinequa fördern neue und vor allem neuartige Erkenntnisse und somit neue datengetriebene Geschäftsmodelle, die wiederum zusätzliche Umsatzpotenziale ermöglichen. Kulturwandel Schritt 2: Datensilos und hoheitliche Zuordnung von Daten im Unternehmen aufheben, damit ganz verschiedenen (berechtigten) Beteiligten der Zugriff auf die Rohdaten ermöglicht wird. Keimzellen schaffen, in denen Big-Data- Ideen zu Big-Data-Szenarien werden. Den Mitarbeitern entsprechend der Data- Governance und der Big-Data-Ethik geeignete Freiräume schaffen und lassen. Auch der spielerische Umgang mit semantischen Verfahren sollte dabei geübt werden. Kulturwandel Schritt 3: Leitungsentscheidung darüber, ob die Fachabteilung oder die IT-Abteilung für die Exploration von Daten und den Aufbau von Big-Data- Szenarien zuständig ist bzw. ob hier eine Stabsfunktion für das Unternehmen hilfreich ist. Oft ist es sinnvoll, eine allen Bereichen übergeordnete Instanz für die Big-Data-Thematik zu schaffen. Kulturwandel Schritt 4: Neue Algorithmen finden statt eines Scale-outs vorhandener Lösungen. Wenn es bei Big-Data-Szenarien nicht nur darum geht, die Kennzahlenermittlung auf eine breitere Datenbasis zu stellen, sind auch seman- tische Analysen in Betracht zu ziehen. Mit dem spezifischen Ansatz der semantischen Textanalyse eröffnet sich Anwendern eine neue Technologie für die Erschließung und Analyse polystruk- turierter Daten, die gleichermaßen aus der Unternehmens-IT (ERP, CRM, u.a.) stammen können wie aus externen Quellen, darunter Social Media, Nachrich- tenkanäle, E-Mails, Bürodokumente oder Webseiten.
  • 11. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 11 Aus der Fähigkeit, diese Daten nicht nur statistisch auszuwerten, sondern logische Erkenntnisse zu gewinnen, ergeben sich eine Vielzahl denkbarer Anwendungen: Zielmarkt Denkbare Applikation Möglicher Beitrag von Sinequa Regierung/ Behörden Erkennungsdienstliche Aufgaben Prävention „Natural Language Processing“, Spracherkennung, linguistische und semantische Analysen in vielen Sprachen Automobilindustrie Ersatzteilorganisation „Natural Language Processing“, korrekte Zuordnung von Artikelnummern selbst zu unscharfen Begriffen Call-Center/Kunden- unterstützung 360-Grad-Sicht auf den Kunden „Case Based Reasoning“ und „Natural Language Processing“, Erkennen der richtigen Zusammenhänge, auch wenn die verwendeten Begriffe nicht einer Normung entsprechen Versicherungen Risikominimierung „Natural Language Processing“ und „Case Based Reasoning“ für semantische Analyse von Nachrichten zur Erkennung bestimmter Gefahren-Situationen und Verhaltensmuster Pharmazeutische Industrie Kürzeres Time-to-Market Forschungsdatenbanken, Laborberichte und klinische Testreihen effizienter durchsuchen und redundante Projekte vermeiden
  • 12. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 12 5 Sinequa als Lösungsanbieter Sehr schnelle Analysen, unternehmensweites Durchsuchen von Datenbeständen und der vereinheitlichte Zugriff auf die Unternehmensinformationen (Unified Information Access) sind die Domäne der Sinequa. Die Lösungen von Sinequa basieren auf Technologien für die textuelle und inhaltliche - also für die linguistische - Analyse. Die ausgereiften Content-Analytics-Funktionen von Sinequa ermöglichen es Konzernen und öffentlichen Verwaltungen, relevante und wertvolle Informationen aus sehr großen und komplexen Datenbeständen sowie aus strukturierten und unstrukturierten Datenquellen zu gewinnen. Basierend auf den Ergebnissen jahrelanger sprachwissenschaftlicher Forschung kombiniert die flexible Softwarelösung semantische mit statistischer Analyse, stellt Zusammen- hänge in heterogenen, großen Datenmengen her und liefert Anwendern relevante Ergebnisse für ihre Arbeitsprozesse. Sinequas hochgradig skalierbare Lösung durchsucht hunderte Millionen von Dokumenten und Milliarden von Datenbank- Records äußerst effizient und versorgt bei Bedarf zehntausende Nutzer mit den richtigen Suchergebnissen. Die leistungsstarke Architektur sowie die „Out-of-the- box“-Konnektoren für alle gängigen Unternehmensanwendungen und Datenquellen gewährleisten eine schnelle und kosteneffiziente Implementierung und Integration in bestehende IT-Umgebungen. Viele Anwender in großen Unternehmen und Organisationen nutzen Sinequa bereits, um effizient auf geschäftskritische Informationen zugreifen zu können. Zum renommierten Kundenkreis des Unternehmens zählen Airbus, AstraZeneca, Atos, Biogen, Crédit Agricole, das französische Verteidigungsministerium, die Europäische Kommission und Siemens. Eine Herausforderung ist für die Anwender das Zusammenführen von Daten. Viele Analyse-Lösungen setzen voraus, dass Adapter individuell entwickelt werden. Bei Sinequa ermöglichen 140 Konnektoren die Erschließung aller gängigen Datenquellen - von DOCX, PDF, TXT und CSV über verschiedene zeilen- oder spaltenorientierte Datenbankformate bis hin zu Social Media und den nativen Formaten von Data Warehouses. Diese übernehmen auch bereits einen Teil der Verarbeitung. Zusätzlich dazu hat Sinequa weitere Konnektoren seiner Big Data Such & Analyse-Plattform auch für Third-Party-Cloud-Storage, Product-Lifecycle- Management-Systeme und Social-Media-Feeds entwickelt. Cloud-Dienste, ob privat, öffentlich oder hybrid, werden von großen Unternehmen aller Branchen immer intensiver genutzt. Sinequa-Kunden können jetzt die AWS- Cloud nutzen, um flexibler die Infrastruktur an ihren Bedarf anpassen zu können. So können zusätzlich Millionen von Dokumenten und Milliarden von Datenbankeinträgen analysiert und gleichzeitig die Total Cost of Ownership für die benötigte Infrastruktur gesenkt werden. Die Anwender profitieren von
  • 13. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 13 vollständiger Transparenz bei der Suche und können Informationen über Cloud- und Enterprise-Anwendungen schneller abrufen. Die Grundlage für den Einsatz semantischer Verfahren ist die Entity Extraction, die Begriffe in Texten „erkennt“ und sie mit verwandten Begriffen in Beziehung setzen kann. Unternehmensspezifische Synonymlisten und Ontologien können das Wissen über Begriffe und deren Beziehungen verstärken. Anwender können daher nach Begriffen fragen, die nicht in den relevanten Texten vorkommen, und trotzdem eine relevante Antwort erhalten. So kann die Frage nach dem „gelben Knopf“ an einer Maschine die entsprechende Beschreibung der „Prüftaste“ aus der Dokumentation liefern, auch wenn die Frage weder die genaue Artikelbezeichnung noch diesen Begriff enthält. Es ist vorstellbar, dass zu Beginn der Arbeit mit einer NLP-Software irrtümliche Treffer (sogenannten „false positives“) angezeigt werden. Typischerweise werden diese von den Anwendern individuell markiert, wobei die Software dies interpretiert. Sinequa unterstützt diesen Lernprozess effektiv durch die Fähigkeit, nahezu beliebige Ontologien und Thesauren einlesen zu können, um die Anlernphase der Software zu verkürzen. Für die Darstellung der Suchergebnisse werden Diagramme und andere Ergebnispräsentationen genutzt. Getreu dem Motto „Ein Bild sagt mehr als tausend Worte“ haben sich für die verschiedenen Arten von Erkenntnissen aus den Datenanalysen auch verschiedene Darstellungsformen durchgesetzt. Besonders populär sind zur Zeit beispielsweise Graphen. Sinequa beherrscht alle gegenwärtig typischen Arten von Charts, Diagrammen und Reports. Die Software von Sinequa wird in Deutschland direkt und über ein Netz von Partnern vertrieben. Sinequa hat ihre Partnerlandschaft in den letzten Jahren und Monaten strategisch ausgebaut. Neue Allianzen und Partnerschaften gibt es zum Beispiel mit der Atos SE, die mit ihren 93.000 Beschäftigten in 72 Ländern Projekte mit Big-Data-Content-Analyse auch auf Basis der Sinequa-Lösungen durchführt.
  • 14. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 14 6 Fazit Big-Data-Projekte sind komplex. Das Speichern und Auswerten von einigen hundert Terabytes ist dabei nur die „Einstiegsdroge“ zu immer komplexeren Szenarien, und in der Komplexität liegen die eigentlichen Wettbewerbsvorteile für die Anwender, die so aus ihren Daten mehr und neue Informationen gewinnen können. Je komplexer die Datenquellen und -arten sind, desto wichtiger ist es, nicht nur statistische Verfahren zu nutzen, sondern die Inhalte durch linguistische Verfahren auch zu „verstehen“. Die Datenberge in den Unternehmen werden immer größer. Daher ist absehbar, dass Enterprise Search-Applikationen und -Lösungen zu wesentlichen - wenn nicht sogar Kern-Elementen - der Unternehmens-IT werden. Oftmals stellen sich Anwender, vor allen jene mit einer leistungsfähigen IT- Organisation, die Frage nach dem „Make or Buy?“. Der Aufwand für die komplette Neuentwicklung einer semantischen Enterprise-Search-Anwendung wurde von der Experton Group in einem konkreten Projekt auf bestenfalls weit über 24 Personen- jahre berechnet. Dabei waren ausreichend linguistisch erfahrene Softwareentwick- ler Teil der Berechnungsgrundlage. Ohne diese würde der Aufwand für eine Neuentwicklung um ein Vielfaches steigen. Auch der Aufwand für eine Neuent- wicklung mit vorhandenen Tools und Open-Source-Komponenten darf nicht unterschätzt werden. Bei der Auswahl von Lösungen mit intelligenten semantischen Analysen nahezu beliebiger Daten ist es zudem oft besser, neue Wege zu beschreiten. Anwender, die sich zu sehr an Bekanntem orientieren, büßen jene Wettbewerbsvorteile ein, die sich aus einem neuen, unvoreingenommenen Blick auf die Daten ergeben. Die Experton Group empfiehlt Anwendern aufgrund der Zunahme immer neuer Datenformate, seien sie strukturiert oder unstrukturiert, sehr intensiv über zukunftssichere Analysemethoden nachzudenken und dabei die semantische Analyse in den Fokus zu rücken. Beschleunigungsverfahren wie In-Memory- Techniken oder Datenbankbeschleuniger schaffen durch die schnellere Lieferung von Ergebnissen Reserven für weitere Iterationen, jedoch immer im Rahmen der vorherrschenden Denkwelten. Es gilt nun, diese Verfahren und Techniken mit intelligenter und zukunftssicherer Technologie, zur Gewinnung wirklich neuer Erkenntnisse, zu erweitern.
  • 15. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 15 7 Sinequa Sinequa ist eine der führenden Softwarefirmen im Markt für Big Data Content- Analyse in Realzeit, Enterprise Search und Unified Information Access. Die ausgereiften Content Analytics-Funktionen der Sinequa-Lösung ermöglichen es Konzernen und Öffentlichen Verwaltungen, wertvolle Informationen aus sehr großen und komplexen Datenbeständen, aus strukturierten Anwendungen und unstrukturierten Datenquellen zu gewinnen. Basierend auf den Ergebnissen jahrelanger, sprachwissenschaftlicher Forschung kombiniert die flexible Softwarelösung semantische mit statistischer Analyse, stellt Zusammenhänge in heterogenen, großen Datenmengen her und liefert Anwendern relevante Ergebnisse für ihre Arbeitsprozesse. Sinequas hochskalierbare Lösung durchsucht Milliarden von Dokumenten und Datensätzen in Datenbanken äußerst effizient und versorgt zehntausende von Nutzern mit den für sie relevanten Informationen. Die leistungsstarke Architektur sowie die gebrauchsfertigen Konnektoren für alle gängigen Unternehmensanwendungen und Datenquellen gewährleisten eine schnelle und kosteneffiziente Implementierung und Integration in bestehende IT- Umgebungen. Millionen von Anwendern in großen Unternehmen und Organisationen nutzen bereits Sinequa, um effizient auf geschäftskritische Informationen zugreifen zu können. Zum renommierten Kundenkreis des Unternehmens zählen Airbus, AstraZeneca, Atos, Biogen, Crédit Agricole, das französische Verteidigungsministerium, die Europäische Kommission und Siemens. 8 Experton Group AG Experton Group ist ein führendes IT-Research- und Beratungsunternehmen. Mit europaweit 80 erfahrenen Analysten unterstützen wir mittelständische und große Anwenderunternehmen bei der strategischen Planung und Umsetzung ihrer IT- Strategien. Zudem unterstürzt Experton Group IT-Anbieter in Strategie-, Marketing- und Wettbewerbsfragen.
  • 16. Experton Group Whitepaper „Durchblick durch Einblick” © Copyright Experton Group AG 16 Impressum Herausgeber: Experton Group AG Carl-Zeiss-Ring 4 D - 85737 Ismaning Vorstand: Jürgen Brettel (Vorsitzender), Lutz Peichert, Nils Bachmann Aufsichtsratsvorsitzender: Wolfgang Stübich Amtsgericht München HRB 158568 Version 3 Oktober 2015 © 2015, Experton Group AG, Ismaning.