Oplægget blev holdt ved InfinIT-arrangementet Big Data og data-intensive systemer i Danmark, der blev af holdt en 15. januar 2014. Læs mere om arrangementet her: http://infinit.dk/dk/arrangementer/tidligere_arrangementer/big_data_i_danmark.htm
1. Sådan bruges Big Data til
Business Intelligence
- fra store data til store forretningsfordele
Torben Bach Pedersen
Center for Data-intensive Systemer (Daisy)
Aalborg Universitet
2. kan
bruges
Sådan bruges Big Data til
Business Intelligence
- fra store data til store forretningsfordele
Torben Bach Pedersen
Center for Data-intensive Systemer (Daisy)
Aalborg Universitet
3. Hvad er Business Intelligence?
• Business intelligence is “the ability to apprehend the interrelationships of
presented facts in such a way as to guide action towards a desired goal”
H. P. Luhn, A Business Intelligence System, IBM Journal of
Research and Development. Vol. 2(4), 1958
• “Business intelligence (BI) is a business management term, which refers
to a set of tools and techniques that enable a company to transform its
business data into timely and accurate information for the decisional
process, to be made available to the right persons in the most suitable
form.”
S. Rizzi, Springer Encyclopedia of Database Systems, 2009.
• Business intelligence is “an umbrella term that includes the applications,
infrastructure and tools, and best practices that enable access to and
analysis of information to improve and optimize decisions and
performance”
Gartner Reports, IT Glossary, 2013
• Så det er noget med at optimere sin forretning via data…
Big Data og data-intensive systemer i Danmark, 15. januar 2014
3
4. Hvad er Big Data?
• ”Big data er et begreb indenfor datalogi, der bredt dækker
over indsamling, opbevaring, analyse, processering og
fortolkning af enorme mængder af data. Som mange
andre IT-ord har Big data ingen dansk oversættelse.”
http://da.wikipedia.org/wiki/Big_data
• ”Big data is the term for a collection of data sets so large
and complex that it becomes difficult to process using onhand database management tools or traditional data
processing applications.”
http://en.wikipedia.org/wiki/Big_data
• Så det skal være så ”stort” at det bliver ”svært” at gøre
som man plejer…
Big Data og data-intensive systemer i Danmark, 15. januar 2014
4
5. Big Data karakteristika
• Man taler ofte om ”de 3 V-er” (eller 4)
• Volume
Meget store datamængder
• Velocity
Data ankommer meget hurtigt (datastrømme)
• Variety
Data har meget forskellige/komplekse formater/typer/mening
• Det kan godt være ”Big Data”, selv med kun 1-2 V’er…
• Veracity
Hvor meget kan vi ”stole på” data ?
Big Data og data-intensive systemer i Danmark, 15. januar 2014
5
6. BI versus Big Data
• Ligheder
Man indsamler, integrerer, og analyserer data for at få ny viden
Man har store mængder data
Data ankommer (ofte) hurtigt
• Forskelle
BI
Big Data
Datatyper
Strukturerede (mest)
Ustrukturerede (også)
Datakilder
Mest interne
Mest eksterne
Bruger
Økonomiperson
Data scientist
Præcision
Eksakte resultater
Tilnærmede resultater
Privacy
Ikke kritisk
Meget kritisk
Kontrol med data
Stor kontrol
Lille eller ingen kontrol
Big Data og data-intensive systemer i Danmark, 15. januar 2014
6
7. Business Intelligence at a Glance
Malú Castellanos, HP Labs
Big Data og data-intensive systemer i
Danmark, 15. januar 2014
7
8. (Typiske) Typer af Big Data
• Søgedata
Data om websider, søgninger, rankings, osv.
Google’s data, den første slags Big Data
• Sociale netværks data
Opdateringer fra Twitter, Facebook, LinkedIn, brugerfora,….
Tekst, billeder, brugerinfo, Likes, lokation, venne/netværks-graf,…
• Linked/Open Data
Data delt/publiceret på web f.eks. via Semantic Web teknologier
• Men det er ikke kun fra web…
• Big Sensor Data
Big Science Data (har vi hørt om)
Big GPS/Location Data – i 2 andre sessioner
Big RFID Data
Big Energy Data
Big Data og data-intensive systemer i Danmark, 15. januar 2014
8
9. Bruges Big Data til BI i Danmark ?
• Godt spørgsmål…helt uvidenskabelig undersøgelse
• LinkedIn opdatering Nov. 2013 til mine 481 forbindelser
”Er der nogen der har et godt eksempel på brug af Big Data til BI i
Danmark?”
• 1(!) svar, fra en konsulent
Ikke nogle gode eksempler på brug af ”rigtig store” data
Nogle få er på forsøgsstadiet
Big Data er ”bagud” i Danmark
• Måske er vi for konservative?
• Men lad os da se på nogle eksempler jeg kender
Ikke dækkende…
Big Data og data-intensive systemer i Danmark, 15. januar 2014
9
10. BI på Twitter og søgedata
• Twitter – meget simpelt, mange muligheder
160 karakters tekst – med hashtags, forkortelser, referencer…
Megen ”behandling” nødvendig for at få fuldt udbytte
• Sentiment analysis - standard analyse på (korte) tekster
Er teksten/udsagnet positivt/negativt/neutralt ?
Interessant f.eks. i.f.t. produktomtaler
• Hvordan får man fat på Twitter data ?
Sample via Twitter Streaming API (gratis)
Firehose: ALT der matcher, betaling til Gnip/Datasift (også FB,…)
• Eksempler fra TARGIT, grundslides lånt af
Morten Middelfart (søgedata)
Steen Kjøng Paulsen (Twitter)
• Full disclosure: jeg har samarbejdet med TARGIT siden
2001 og får ikke procenter…men de ligger jo i Hjørring!
Big Data og data-intensive systemer i Danmark, 15. januar 2014
10
11. Structure and concept
ETL
The key concept
of #SocialAnalytics
is to measure and
visualize impact
on social networks
over time
Server
Other data
sources
(internal or
external)
Building
relations
between users
and networks
while adding
extra info such
as geo-location
and CRM data
Since we cannot
capture the
entire internet,
we stick to
sampling
11
16. Twitter data hos TARGIT
• Bruges internt til at holde øje med artikler/produktomtaler..
Lige nu: observer re-tweet aktivitet på studielicenser
• Muliggør et godt historisk overblik over aktiviteten
Hvilke dage folk er mest aktive omkring forskellige typer tweets?
Hvor længe har en re-tweet bølge varet?
Big Data og data-intensive systemer i Danmark, 15. januar 2014
16
17. Search data hos TARGIT
• Ønske om at holde øje med ”targit.com” placering i Google
søge ranking for forskellige kombinationer af søgeord
Mere detaljeret end man kan med Google Trends
• Ikke muligt at få Google’s data
• Sampling-baseret tilgang
Fyr (mange) søgninger afsted fra en query node
Opsaml resultaterne (HTML sider)
Parse og find TARGIT’s placering for hver kombination
Transformer og overfør data
Big Data og data-intensive systemer i Danmark, 15. januar 2014
17
18. Inverted Data Warehouse (IDW)
o
o
o
Inspiration from CERN’s LHC
“Shotgun Approach”; equal to formulating
hypotheses; data scientist
No single point of failure
(parallel Query Nodes have also been tested)
19.
20.
21.
22. Big Energy Data i Smart Grids
• Måledata
integrates
Komplekse tidsserier skal
forecast’es
• Opsamle og håndtere
eksplicitte fleksibiliteter
• Balancer forbrug og
produktion i realtid
• Forudsig produktion,
forbrug og fleksibilitet
ned på apparatniveau
• Komplekst system med
megen BI
1
Balance Responsible Party
(acquirer of flexibility)
Flex-Offer
specifies flexibility in
Power
Time
Intermittent Supply and Demand
volatility
past
future
2
3
uncertainty
Prosumer
(provider of flexibility)
Acceptance
Assignment
controls
specifies how flexibility is
to be exercised (schedule)
Renewable Energy Sources
Renewable Energy Sources
Inflexible Demand
Inflexible Demand
...
...
Flexible Demand and Supply
Heat pumps
Heat pumps
Combined Heat
Combined Heat
Smart White Goods
Smart White Goods
...
...
Aggregation
Scheduling
Disaggregation
Aggregation
Big Data og data-intensive systemer i Danmark, 15. januar 2014
Disaggregation
22
23. Big RFID Data
• BagTrack – styr på bagagen
HTF: Daisy, Lyngsoe, SAS, IATA, AAL, …
Bagagestrimler med RFID chips i – læs på afstand
Nummerplade (ID), rute, datp
Vision: verdensomspændede bagageinformation i
realtid – reducer bagageproblemer med 50% i
2020 og spar 1.2 mia. US$/år
• Daisy BI forskning
Rensning af data – mening af RFID læsninger
Realtids data og forespørgsler
OLAP/DW – analyser processer og målinger
Data mining: problemer og årsager i event sekv.
Store og komplekse data, 1000+ lokationer
Departure
Transfer
Arrival
Big Data og data-intensive systemer i Danmark, 15. januar 2014
23
24. Open/Linked Data – hvad findes?
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Big Data og data-intensive systemer i Danmark, 15. januar 2014
24
25. BI på Big Linked/Open Data
• Brug for eksterne data
Format/betydning?
Tilgang/forespørgsler?
• Løsning: Semantic Web
Formelle ontologier
angiver mening
Kan linke til andre
ontologier/begreber
(Linked Data)
SPARQL forespørgsler
• Self-service BI
Ex: Fusion cubes
A. Abello et al. Fusion Cubes: Towards Self-Service Business
Intelligence. IJDWM 9(2), 2013.
Big Data og data-intensive systemer i Danmark, 15. januar 2014
25
26. Hvad mangler vi ?
• Erfaringer, viden, lovgivning,…
• Skalerbare, effektive og brugervenlige BI+Big Data
værktøjer og teknologier
Relevant forskning hos Daisy?
• ”Programmerbar ETL” til MapReduce/Hadoop
Kraftfuld: opdater slowly changing snowflaked dim med 1 linje kode
Skalerbar: Automatisk scale-out parallelisering
• All-RiTE
INSERT/UPDATE-like data tilgængelig med bulk load hastighed
• Komprimerede bitmap indeks – PLWAH
Effektive søgninger for komplekse kriterier på Big Data (Algorhyme)
• Fusion Cubes
Brugerdrevet self-service BI på interne og Linked/Open Big Data
Big Data og data-intensive systemer i Danmark, 15. januar 2014
26