Mais conteúdo relacionado
Semelhante a 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學 (20)
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
- 1. Deloitte Data Analytics 12016 資料科學愛好者年會
沒有大數據怎麼辦?
會計師事務所的小數據科學
勤業眾信聯合會計師事務所
企業風險管理 Enterprise Risk Service
曾 韵 副總經理
christitseng@deloitte.com.tw
July 2016
- 5. Deloitte Data Analytics 5
你知道嗎,擁有大數據的公司其實沒有想像得多
WWW
首頁
案例A公司:
成立30年,總資料量:5.5G
案例B公司:
成立35年,總資料量:10+G
案例C公司:
成立20年,總資料量:除了ERP
其他都紙本
辦公室OA系統
(訂會議室、訂便當)
基本資料 交易紀錄
支援紀錄 客服紀錄
CRM
- 6. Deloitte Data Analytics 6
HADOOP是什麼?大象的綽號嗎?
HADOOP不完全等於大數據,沒有HADOOP也可以體驗數據科學
最基本的分析工具:excel、SQL
免錢的進階分析工具:Weka、KNIME
再進階一些的分析工具:R、Python、也可以自己寫!
Source:socialmedialab.upenn.edu Source:ml.cmu.edu
- 7. Deloitte Data Analytics 7
會計師事務所裡的資料分析(1) – 審計支援業務
iData 工具的主要資料來源包含如下:
1. 財務數據資料 – 各項財務比率,來源為 台灣經濟新報(TEJ) 資料庫,IFRS合併資料
2. 營收/重大訊息 – 來源為公開資訊觀測站之公告資訊
iData:接案前過濾風險
- 9. Deloitte Data Analytics 9
會計師事務所裡的資料分析(2) – 舞弊調查
使用工具: (依需要轉換)
• ACL / Excel / Access
• MSSQL
• Tableau
• R
• VBScript
• IBM I2 (network)
• Intelly (email)
• EnCase (Forensics)
- 12. Deloitte Data Analytics 12
第一步,提出問題
促銷活動不夠造
成貢獻低?
客戶貢獻太
低怎麼提升
創新轉型
法令規範
導入工具可以提
高生產量嗎
客戶量不夠造
成貢獻低?
利潤
1. 我的業務面
臨哪些議題
2. 需求是什麼
3. 問題在哪裡
問題和需求是什麼只有自己最清楚
但,數據科學可以幫你找出在哪裡
- 15. Deloitte Data Analytics 15
開放資料的生態系(ecosystem)
•成功的開放資料生態系統通常由3個基本角色組成:政府、企業
及市民。各角色提供開放資料予其本身成員及其它角色,亦使用
其所獲得資料提供服務。
– 政府開放資料:進行資料產出、蒐集或購買,受到相
關法規、資訊安全、敏感性、隱私保護等因素限制。
– 企業(私部門)開放資料:進行資料產出或蒐集,並由企
業自行決定是否免費開放使用。
– 市民開放資料:將市民個人相關或非個人相關資料提
供至開放領域。
企業資料
企
業
資
料
市民資料
企業
市民政府
企
業
資
料
政
府
資
料
市
民
資
料
政府資料
市
民
資
料
政
府
資
料
提供資料
使用資料提供服
務
資料來源: Deloitte LLP
- 17. Deloitte Data Analytics 17
案例分享(2):去識別化還能分析嗎?
只有一件
新北市 八里區 H14B23E1 02:23 04:41 02:23 04:55 遺留火種 0 0
去識別化後的資料驗證(1)
- 18. Deloitte Data Analytics 18
案例分享(2):去識別化還能分析嗎?
臺南市 新市區 G14K08P1 103/11/08 15:35:03 103/11/08 15:49:03 遺留火種 1 0
6件裡面之有1件死亡火災
去識別化後的資料驗證(2)
- 19. Deloitte Data Analytics 19
案例分享(3):變數少有少的做法
報名起始日
報名截止日
活動日期
地點
時間
姓名
生日
有個資法限制,客戶資料無法盡情蒐集
活動內容
(text)
市話/手機
郵遞區號
學歷
報名人數
性別
(
六
個
屬
性
,
一
份
紙
本
檔
案
)
活
動
資
訊
(
六
個
屬
性
)
參
加
者
資
訊
- 20. Deloitte Data Analytics 20
案例分享(3):變數少有少的做法
報名起始日
報名截止日
活動日期
地點
時間
姓名
生日
假日/平日
步行時間
景氣指標
活動當日天候
活動當日氣溫
區域平均人口
區域平均收入
活動內容
(text)
市話/手機
郵遞區號
學歷
報名人數
是否連連假
性別
所屬區域
交通車站數
參加人數
是否寒暑假
居住區域
國籍
省籍
年齡
星座
早上/中午/下午
活動階段
活動類型
報名總期間
是否跨長假
科系類別
(
六
個
屬
性
,
一
份
紙
本
檔
案
)
活
動
資
訊
(
六
個
屬
性
)
參
加
者
資
訊
Google Map
(
超
過
個
屬
性
)
最
終
所
使
用
屬
性
50
……
觀察屬性
特色
相關係數
特徵選取
從一場活動開始的特徵挖掘:Feature Engineering
- 22. Deloitte Data Analytics 22
假帳殺手-班佛定律(Benford's Law)
天文學家Simon Newcomb觀察到常用的
對數表書籍中,1開頭那一頁比其他頁來
得破舊,因此發表此觀點,公式 第一位數
為N之出現機率 = log(N + 1) − log(N)
奇異電器物理學家Frank
Benford發現各種自然現
象皆符合特定規則,擴展
研究並廣泛測試於2萬多
種數據中。
美國數學家Ted Hill提出混和分
配仍會收斂於班佛定律的解釋,
並提出嚴謹的證明
西班牙數學家發現,一般被認為是隨機分布
的質數,其實每個質數的首位數字有明顯的
分布規律,它可以被描述了質數的班佛定律。
這項新發現除了提供對質數屬性的新洞見之
外,進一步推動班佛定律應用於假帳和股票
市場異常偵測。
1881年
1938年 1995年 2009年
- 23. Deloitte Data Analytics 23
班佛定律的機率分配
除了首位數字的分配外,越後面的數字分佈會越
來越均等
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9
Actual v.s Expected
Actual Expected
※ 班佛定律的期望值:
在 b進位制中,以n起頭的數出現的機率=
log (n + 1) − log (n)b b
- 26. Deloitte Data Analytics 27
競選經費班佛定律分析-支出
0
500
1000
1500
2000
2500
3000
3500
4000
1 2 3 4 5 6 7 8 9
支出 - 1位
Actual Expected
- 27. Deloitte Data Analytics 28
適用狀況
Data須有代表
性,能反映觀
察事件的特質
• 如公司股票價值能反
映公司的市場價值、
營收和銷售量。
數字不能
有
Max/Min
• 如股票經紀人之佣金;
然其每筆交易之佣金
有最小值。
數字不能
是用來識
別的數字
• 如身分證號
碼。
- 28. Deloitte Data Analytics 29
資料筆數限制
觀察數字必須至少
4位數以上
除了找到異常值,也可以觀
察資料的偏誤情形。
資料筆數必須至少1000筆
以上,分析經驗顯示3000
筆左右時多能符合
Benford’s Law。
- 35. Deloitte Data Analytics 38
先觀察看看資料(一)
最小值 中位數 90百分位數 99百分位數 最大值
存取個數 1 18 291 1339.36 18791
存取比例 0.00% 0.01% 0.12% 0.56% 7.88%
0
100
200
300
400
1 101 205 322 471 739 1567
人
數
存取檔案數量
90% 10%
常常整理資料夾?
- 36. Deloitte Data Analytics 39
先觀察看看資料(二)
資料期間假日共130天
資料期間 最小值 中位數 90百分位數 99百分位數 最大值
存取檔案天數 1 2 10 29.69 118
註:假日為星期六、日
0
100
200
300
400
500
600
700
1 11 21 32 65
人
數
累積下班存取天數
90% 10%
真有那麼常加班?大部分的人都沒什麼在加班
- 39. Deloitte Data Analytics 42
縮小調查範圍(三)
非上班時間存取比例
使
用
VPN
次
數
上班時間卻用VPN登入?
經常在非上班時間使用VPN?
“總是”在非上班時間存取?
(而且沒用VPN登入,表示人在公司,是在…?)
- 40. Deloitte Data Analytics 43
沒有大數據、沒有HADOOP都
沒關係!! 簡單的分析工具也可以
帶來不同的業務 insight !
我們提供數據化決策依據
帶動客戶決策模式改變
數據會說話!
挖掘小數據的價值,全面提升企業資料驅動的決策力
我們致力於推動數據科學帶來
的會計產業轉型
會計師事務所的小數據科學