1. OSLO STOCKHOLM LONDON BOSTON
Fileserver Search
Assessment - FSA
Projektbeskrivning
2013-04-17 Bo Engren
bo.engren@comperiosearch.com
2. Sammanfattning SFA
• Indexerar och analyserar gemensamma filservar
(H: G: etc. tjänster) med FAST/SharePoint
• Levererar en rapport på innehåll, datavolymer
och tänkbara lagringsbesparingar
• Kan utökas med innehåll på CMS plattformar
(Episerver mfl)
• Genomförande på cirka 2 veckors arbetstid och
4-5 v kalendertid
3. SFA – exempel på tidsplan
• Förberedelser vecka 1
– Checklista,
• Miljöer
• Källor (filservar etc.) volymer mm
• Prestanda på nätverk, servar mm
• Organisation, in house / remote access?
• Installation vecka 1
• Initial indexering vecka 1
• Ytterligare indexeringar vecka 2-4
• Analys inklusive rapportering vecka 4
• Summa arbetstid 2 veckor
• Kalendertid cirka 4-5 veckor (efter att HW finns
tillgänglig)
4. FSA rapporten
• Kvantitativ analys av innehåll på filservar
– Exempel på analysområden
• Filtyper (dokument, programfiler, bilder, etc)
• Åldersanalyser – gammal info, tillväxt(?)
• Metadata
• Författare, ägare till informationen
• Enkelt Business Case – 1+3 års perspektiv
• Strategi för hantering av växande datavolymer
– Migrering till SharePoint
5. Exempel på grafer från rapporten –
åldersfördelningar skapade/modifierade filer
0
100 000
200 000
300 000
400 000
500 000
600 000
700 000
800 000
900 000
1 000 000
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Antal
Skapat år
Antal filer efter skapat datum
6. Analys av filstorlekar
– antal filer och volym de tar på disk
719
238 181
916 727
271 785
608 240
233 915
70 034
8 681 509 40
0
100 000
200 000
300 000
400 000
500 000
600 000
700 000
800 000
900 000
1 000 000
1-10 B 10-100 B 100 B-1 KB 1-10 KB 10-100 KB 100 KB-1
MB
1-10 MB 10-100 MB 100 MB-1
GB
1-10 GB
Antal
Storleksgrupp
Antal filer efter storlek
7. Analys av filtyper
3 879
4 196
6 888
8 790
9 685
10 942
13 715
21 390
22 258
32 286
37 392
39 235
69 758
91 979
294 752
525 765
581 369
602 455
862 508
898 875
0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 800 000 900 000 1 000 000
Microsoft Access
CGM Graphic Metafile
DBase
Java Class File
Adobe Photoshop
EXE / DLL File
ZIP Archive
Enhanced Windows Metafile
Email Message
Microsoft Cabinet File
TIFF Image
Rich Text
XML Document
Microsoft PowerPoint
Adobe PDF
Web Page
Microsoft Excel
Text
Okända Filformat
Microsoft Word
Antal
Filtyp
De 20 vanligaste filtyperna
8. Analys av filtyper forts.
0
50 000
100 000
150 000
200 000
250 000
300 000
350 000
400 000
450 000
500 000
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Antal
Skapandedatum
De 10 vanligaste filtyperna
Adobe PDF Microsoft Excel Microsoft PowerPoint Microsoft Word
Rich Text Text TIFF Image Okända Filformat
Web Page XML Document
9. Exempel på fördjupade analyser:
• Olika typer av mediafiler – privata/företagets
• Analys av författare
• Analys av nyckelord/metadata
14
2
17
24
151
1
0
20
40
60
80
100
120
140
160
ISO Base
Media File
MPEG1 video MPEG2 video MPEG4 file QuickTime
Video
WAV Audio
10-100 MB
Antal
Filtyp
Antal mediafiler i storleksgruppen 10-100MB efter filtyp
10. Analys av duplikat – exakta filer
0
2 000
4 000
6 000
8 000
10 000
12 000
14 000
16 000
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Antal
År
Antal duplikat efter senast modifierat datum
11. Effekter av SFA på datalagring –
kostnadsbesparingar säkerhet och kvalitet
• Dubletthantering
• Säkerhetsaspekter (backuper, virus etc)
• Privat repektive företagets information
• Kontroll på lagringsbehov, tillväxt
• Retentionpolicy
• Underlätta migrering till SP (vet vad som finns)
• Legala aspekter – arkiverings och dokumentationskrav
• Etablering av företagets/organisationens taxonomi
• Metadata & termstore