SlideShare uma empresa Scribd logo
1 de 59
Baixar para ler offline
How to Run an AI Project @ PIXNET
Research Team Lead Kent
Who am I ?
● Kent (施晨揚)
● 熱愛 Machine Learning & Big Data
● 兩個孩子的爸
● AIA 第 一屆
● Research Team Lead
https://www.facebook.com/texib
Research
Team
商務
廣告
UX
演算法設計
新技術研究
資料處理
社群
行銷
資料分析
心得分享
流程實際案例
台灣最大的社群媒體
8 億篇文章
2,800 萬全站每日PV
770 萬每日不重複訪客
50% 流量來自 Mobile Device
全台最大的社群數據實驗室
800,000,000篇文章
7,700,000位訪客
6,000,000名會員
組成專長
演算法設計開發
ML 系統建置
Insight 分析師
跨領域
ML DeepLearning
scikit-learn NLP TensorFlow
Spark
Spark Flask GPU server
Elasticsearch
BigQuery
Dataprep
Jupyter
Statistics
DataStudio
Metabase
心理學
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
Real Case 1 @ PIXNET
Demographic Prediction
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
每天有 770 UV !
但未登者是誰?
輪廓分析
精準服務投遞 !
人口普查
❏ 性別
❏ 年齡
❏ 居住地
轉換問題
男生 或 女生
閱覽
行為 15-25
25-35
45-55
>55
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
原始的資料
長這樣
盤點資料&收
集情報
PIXInsight Data Warehousing System
➔ 登入會員資料
◆ 性別
◆ 年齡
➔ 使用者行為
◆ 文章
◆ 作者
◆ 上站時間
◆ 使用裝置
◆ 41個分類
欄位列表
Feature Name Description Example
gender the gender of login user 1 or 2
cat The article’s category 旅遊
url is a blog url http://kittyfish.pixnet.net/blog/post/345
566174
ariticle_author the blog’s author kittyfish
article_id the blog’s unique id 345566174
hours the time of click event 6
refers http://www.google.com/
country the country that predicted by ip address tw
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
哪一套演算
法解決這問
題?
大原則 - 從輸入/輸出來看
模型
?
圖片
聲音
文字
點擊行
為
分類
量值
群聚
離散
連續
大原則 - 以 Demographic Prediction 為例
模型
?
圖片
聲音
文字
點擊行
為
分類
量值
群聚
離散
連續
Naive Bayes
Formula
大至說穿了就是看看哪一個出現
比較多次!!
Training, Validation, Testing(Offline Evaluation)Data
Train / Test
Split
TrainTest
VTTrain
Validation
Split
TrainV
TrainTV
TrainV
4 Fold Validation
Model Performance (Offline Evaluation)
Precision Recall F1 Score Support
男生 0.89 0.81 0.85 5114
女生 0.90 0.95 0.92 9149
為什麼選擇 Naive Bayes
大量離散型資料
計算效率高
好理解
文章、創作者、閱覽者分佈廣闊
Training Time 小於 5 秒,可以作 10 Fold Cross Validation
計算出來的 Feature 可以直接解讀
好理解真的很重要
好理解
feature_name male_prob female_prob male_count female_count total prob_distance
cat_財經企管 0.137798 0.045564 20587 10454 31041 0.184468
cat_美容彩妝 0.062211 0.137009 9294 31436 40730 0.149596
cat_時尚流行 0.079325 0.151936 11851 34861 46712 0.145221
cat_親子育兒 0.079640 0.133178 11898 30557 42455 0.107076
cat_心情日記 0.180942 0.231797 27033 53185 80218 0.101709
cat_國外旅遊 0.152288 0.194490 22752 44625 67377 0.084403
author_XXXXX 0.049975 0.009037 7466 2073 9539 0.081877
cat_食譜分享 0.054607 0.093596 8158 21475 29633 0.077978
cat_圖文創作 0.085483 0.122831 12771 28183 40954 0.074696
容易轉換
為好理解-白話版
早上 8 點財金 男生
~80%
為好理解-白話版
半夜 12點母嬰 女生
~80%
其實我們就是在反映自己的人生阿!!
Deployment
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
Deployment
Data Scientist Data Engineer
Deployment
Data Process Tool
Data Pipeline Tool
Machine Learning Model
Hadoop Like System - Spark
Scheduling & Pipeline System - AirFlow
Scikit Learning
Online Service Integration & Evaluation
Depends on Your System
Online Service Integration & Evaluation
Model Result API
Online Evaluation
Stable and High QPS API Service or Batch Result
Cloud Sourcing、CTR、Others
Validation by Google Analytics
● Is God ?
● How to Use ?
UGD say
Male
UGD say
Female
GA Set 1
GA Set 2
GA Say
Male
GA Say
Female
GA Say
Male
GA Say
Female
An non-registration user
Classification Model
Prediction
Real War Record
Live Experiment on PIXNET
Falcon(Advertisement) System
Demographic Prediction,讓投遞更聰明
上站時間
偏好作者
閱讀文章
偏好分類
進站方式
chi-squre
Naive Bayes
服務端
Real Case 2 @ PIXNET
Content Ranking
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
Why Content Ranking ?
8 億篇文章 x 30 秒 = 761 年 => 1天
過濾不良文章,讓使用者有好的閱讀體驗
流量是落後指標,內容本質才是主要指標挖掘長尾
Sorting Hat
葛來分多
史萊哲林
(好人學校)
(壞蛋學校)
部落格文章
優質文章
劣質文章
(100分)
(0分)
轉換問題
優質 或 劣質
文章
內容
優質程度
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
Data Understanding & Data Collection
盤點完後發現只有標記過劣質文章
使用 Heuristic 方式先找出一批優質文章
特徵設計很重要 e.q 網址的轉換
https://s.yimg.com/zp/MerchandiseImages/4F0
3EBEDF9-Product-20724161.jpg
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
Modeling
先求有再求好 -> Baseline Model
特徵的設計還是很重要
Deep Learning 在特領域會有跳躍性的進步
Baseline Model Naive Bayes - Accuracy 78%
P(Y=優) P(W1|優) P(W2|優) P(W3|優)
P(Y=劣) P(W1|劣) P(W2|劣) P(W3|劣)
優質
可能性
劣質
可能性
假設這全部有的詞庫為 W1,W2,W3 ,當其中一篇文章包
含兩個字 W1, W3
Deep Learning 潮流是要跟的
Deep Learning
Deep Learning
Deep Learning at Image Classification
Deep Learning CNN at Text Classification
Deep Learning CNN for Text Classification
Image 2D Convolution 的過程
Deep Learning CNN for Text Classification
Text 1D Convolution 的過程
Convolutional Neural Networks for Sentence Classification
http://arxiv.org/abs/1408.5882
Deep Learning CNN Model - Accuracy 85%
Deployment
Start Business
Understanding
Data
Understanding
&
Data
Collection
Modeling
Deployment
Data Process Tool
Data Pipeline Tool
Machine Learning Model
Hadoop Like System - Spark
Scheduling & Pipeline System - AirFlow
Tensorflow
Online Service Integration & Evaluation
Depends on Your System
斷詞系統 - Jieba
How to run an AI Project @pixnet

Mais conteúdo relacionado

Mais procurados

Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化confluent
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索confluent
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
Data pipeline essential
Data pipeline essentialData pipeline essential
Data pipeline essentialBryan Yang
 
Cncf k8s Ingress Example-01
Cncf k8s Ingress Example-01Cncf k8s Ingress Example-01
Cncf k8s Ingress Example-01Erhwen Kuo
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用Yang Guanjun
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Jazz Yao-Tsung Wang
 
Confluent流处理平台之Kafka新技术分享
Confluent流处理平台之Kafka新技术分享Confluent流处理平台之Kafka新技术分享
Confluent流处理平台之Kafka新技术分享confluent
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI LabAVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI LabAlluxio, Inc.
 
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構Rick Hwang
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
Partner Session - Alibaba
Partner Session - Alibaba Partner Session - Alibaba
Partner Session - Alibaba Elasticsearch
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 

Mais procurados (20)

Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
Zhong An Insurance
Zhong An Insurance Zhong An Insurance
Zhong An Insurance
 
Data pipeline essential
Data pipeline essentialData pipeline essential
Data pipeline essential
 
Cncf k8s Ingress Example-01
Cncf k8s Ingress Example-01Cncf k8s Ingress Example-01
Cncf k8s Ingress Example-01
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)
 
Confluent流处理平台之Kafka新技术分享
Confluent流处理平台之Kafka新技术分享Confluent流处理平台之Kafka新技术分享
Confluent流处理平台之Kafka新技术分享
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI LabAVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
 
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Partner Session - Alibaba
Partner Session - Alibaba Partner Session - Alibaba
Partner Session - Alibaba
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 

Semelhante a How to run an AI Project @pixnet

Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseJack Gao
 
PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)Liang-Bin Hsueh
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011Luke Han
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdfmarkmind
 
2020 MLaaS 產業介紹.pdf
2020 MLaaS 產業介紹.pdf2020 MLaaS 產業介紹.pdf
2020 MLaaS 產業介紹.pdf家弘 周
 
雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用Michael Chi
 
iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台Evan Lin
 
数据采集中间件技术交流
数据采集中间件技术交流数据采集中间件技术交流
数据采集中间件技术交流jerry tom
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學ckliu
 
Our experience to start a startup
Our experience to start a startupOur experience to start a startup
Our experience to start a startupYenwen Feng
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01
Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01
Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01Jackie Liu
 
民间秘方
民间秘方民间秘方
民间秘方dynasty
 
可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美Yi Feng Yang
 
可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美Yi Feng Yang
 
Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目
Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目
Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目Poy Chang
 

Semelhante a How to run an AI Project @pixnet (20)

Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 
2020 MLaaS 產業介紹.pdf
2020 MLaaS 產業介紹.pdf2020 MLaaS 產業介紹.pdf
2020 MLaaS 產業介紹.pdf
 
雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用
 
iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台
 
数据采集中间件技术交流
数据采集中间件技术交流数据采集中间件技术交流
数据采集中间件技术交流
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
 
Our experience to start a startup
Our experience to start a startupOur experience to start a startup
Our experience to start a startup
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01
Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01
Sbir 海量運算的雲端學習歷程與評量分析app開發0124簡報v2.01
 
20171024 文化大學 2 big data ai
20171024 文化大學 2 big data ai20171024 文化大學 2 big data ai
20171024 文化大學 2 big data ai
 
民间秘方
民间秘方民间秘方
民间秘方
 
可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美
 
可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美可视化技术成就淘宝数据之美
可视化技术成就淘宝数据之美
 
Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目
Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目
Global Azure Bootcamp @ 廣州 - 智能聊天機器人四代目
 
Power BI x R
Power BI x RPower BI x R
Power BI x R
 

How to run an AI Project @pixnet