SlideShare uma empresa Scribd logo
1 de 56
数据分析架构实例与安全
        云挖掘




      中山大学海量数据与云计
      算研究中心
      北京师范大学珠海研究院
          SACC2011
               吕威
提纲
Part 1 数据分析架构实例
 数据挖掘例子
 数据分析架构实例——网站用户流失预警
 开源数据分析软件Weka介绍
Part 2 大规模数据挖掘(云挖掘Hadoop)
 Map-Reduce方法
 Classification (k-NN) 的MapReduce化
Part 3 安全云挖掘
 微分流形在安全云挖掘中的应用(Matlab)


                                      SACC2011
Part 1 数据分析架构实例




数据挖      网站用
                   Weka
掘例子      户行为
         分析        介绍



定义、概念   数据分析架构实例   开源软件




                   SACC2011
Why Mine Data? Commercial Viewpoint
Lots of data is being collected
 and warehoused
   Web data, e-commerce
   purchases at department/
    grocery stores
   Bank/Credit Card
    transactions

Computers have become cheaper and more
 powerful
Competitive Pressure is Strong
   Provide better, customized services for an edge (e.g. in
                                                  SACC2011
    Customer Relationship Management)
Why Mine Data? Scientific Viewpoint
Data collected and stored at
 enormous speeds (GB/hour)
   remote sensors on a satellite
   telescopes scanning the skies
   microarrays generating gene
    expression data
Traditional techniques infeasible for
raw data
Data mining may help scientists
   in classifying and segmenting data
   in Hypothesis Formation
                                         SACC2011
Mining Large Data Sets - Motivation
There is often information “hidden” in the data
 that is not readily evident
Human analysts may take weeks to discover
 useful information
Much of the data is never analyzed at all
            4,000,000
            3,500,000
            3,000,000                               The Data Gap
            2,500,000
            2,000,000 Total new disk (TB) since 1995
            1,500,000
            1,000,000                                                               Number of
              500,000                                                               analysts
                        0                                                                  SACC2011
From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
                                 1995            1996              1997            1998           1999
What is Data Mining?
Many Definitions
  Non-trivial extraction of implicit, previously
   unknown and potentially useful information from
   data
  Exploration & analysis, by automatic or
   semi-automatic means, of
   large quantities of data
   in order to discover
   meaningful patterns




                                          SACC2011
What is (not) Data Mining?

lWhat is not Data       l   What is Data Mining?
Mining?

    – Look up phone          – Certain names are more
    number in phone          prevalent in certain US
    directory                locations (O’Brien, O’Rurke,
                             O’Reilly… in Boston area)
    – Query a Web            – Group together similar
    search engine for        documents returned by
    information about        search engine according to
    “Amazon”                 their context (e.g. Amazon
                             rainforest, Amazon.com,)
                                             SACC2011
Origins of Data Mining
Draws ideas from machine learning/AI,
 pattern recognition, statistics, and
 database systems
Traditional Techniques       Statistics/
                                          Machine Learning/
                                                Pattern
 may be unsuitable due to         AI
                                              Recognition
    Enormity of data
                                          Data Mining
    High dimensionality
     of data
                                          Database
    Heterogeneous,                       systems
     distributed nature
     of data                                 SACC2011
Data Mining Tasks

                         Data
                         Mining
                         Tasks


Prediction                        Description
Methods                           Methods
 Use some                         Find human-
variables to                      interpretable
predict unknown                   patterns that
or future values of               describe the data.
other variables.


                                              SACC2011
Data Mining Tasks...

    Classification [Predictive]            Clustering [Descriptive]




Regression                        Data               Association Rule
                                                     Discovery [Descriptive]
[Predictive]
                                  Mining


    Deviation Detection
    [Predictive]                           Sequential Pattern Discovery
                                           [Descriptive]


                                                        SACC2011
数据挖掘例子


  1         2        3

超市分析交易    信用卡公司分   保险公司分析
数据,安排货    析信用卡历史   以前的客户记
架上货物摆布,   数据,判断哪   录,决定哪些
以提高销售     些人有风险,   客户的潜在花
额         哪些人没有    费是昂贵的




                     SACC2011
数据挖掘例子


  4        5         6

汽车公司分析   广告公司分析    税务局分析不
不同地方人的   人们购买模式,   同团体的交所
购买模型,有   估计他们的收    得税的记录,
针对性地发送   入和孩子数目,   发现异常模型
给客户喜欢的   作为潜在的市    和趋势
汽车手册     场信息



                     SACC2011
Part 1 数据分析架构实例




数据挖      网站用
                   Weka
掘例子      户行为
         分析        介绍



定义、概念   数据分析架构实例   开源软件




                   SACC2011
网站用户行为分析架构实例

某网站是游戏门户网站,在多个服务器上运
 营着多款游戏,每天有大量数据如日志记录
 等。需根据记录数据进行分析,得出一些有
 用结果。
现在已有各种统计报表,如每日各款游戏点
 击排名、游戏大厅位置点击排名、各种统计
 量的饼图、柱图等。
希望进一步得到细化分析——数据分析、挖
 掘
                SACC2011
网站用户行为分析



预测模块                 聚类模块
           网站用
奇异点分析      户行为       关联规则模块
            分析        。。。
分类模块




        怎么搭建整个模型呢?


                      SACC2011
预测模块


 用户
 流失         游戏
 预警
            访问          用户
            预测          充值
                        预测
Decision
Tree决策       Case     K nearest
树算法、        Based     neighbor
Bayes贝     Reasoni    最近邻算
叶斯算法       ng案例推      法、最小
            理算法        二乘法


                           SACC2011
奇异点分析


 游戏奇
 异点分           用户流
  析            失奇异        用户充
               点分析        值奇异
                          点分析

Graphical
     &         Nearest-    Density
Statistical-   neighbor   based 密
based 图        based 最     度方法
形统计方           近邻方法
    法


                              SACC2011
分类模块
游戏分类——Instance-based k, Ibk算法
玩家分类——Bayes贝叶斯算法

聚类模块
玩家聚类——Kmeans 均值算法
 游戏聚类——Kmeans 均值算法

访问规律——Apriori算法
                          SACC2011
任务确定


        关联规则

               分类

概念描述

               预测

奇异点分析
        聚类分析




                    SACC2011
架构目标确定


用户流失预警      其它 模块




               SACC2011
客户流失预警


客户流失分析过程指客户流失逻辑模型的
 建立过程,包括数据采样、数据分析、模型
 评估和应用,在一系列分析之后得出客户
 流失的名单列表、流失的原因、特征和进
 行流失预警。
注意:目前侧重的是预测客户流失,与客
 户分类应该有一定的区别


                SACC2011
架构过程

市场部、运营部         反馈


市场部、运营部        结果分析


学习模型
            朴素贝叶斯算法的改进
的实现

数据转换      数据表合并、新属性生成、不等长数据的滑动


数据清洗         样本训练集的确定

                        SACC2011
架构过程

         数据清洗              数据转换            学习模型实现

      小规模数据上先进           多个表合并成一个         简单、可用、快速、
方法
        行尝试               大的物理表           好解释

样本数   某款游戏一个月数           心跳表中的多条数
                                            属性挑选
 据    据大约150,000条        据将合成一条数据

去除完                     生成一些贝叶斯分     
      大约剩50,000条                          连续属性离散化
全无用                      类算法有用属性

活跃用                      不等长数据处理:
      剩下15,000条左右                          贝叶斯分类
 户                         滑动窗口
                         训练数据集完成:
流失用   大约1/3——5,000
                         15,000条整齐数        Kmeans聚类
 户         条
                              据



                                            SACC2011
需要分类的用户数据     训练集




 用户流失集        分类算法




聚类出已知流失用户特征   训练集




  流失用户的类型
                     SACC2011
算法结果


样本表     客户数目   改进贝叶斯
               算法准确度
test1   1000   714
test2   1000   736
test3   1000   747
test4   1000   716
test5   1000   762

                  SACC2011
决策支持

              流失客
              户提出
               预警



       结果分析
流失原因
 分析

              有目的进行
              营销、挽回
              部分客户

                    SACC2011
开源数据分析软件Weka介绍
开源
全面
规范
WEKA的全名是怀卡托智能分析环境(
 Waikato Environment for Knowledge
 Analysis),它的源代码可通过
 http://www.cs.waikato.ac.nz/ml/weka得到



                               SACC2011
开源数据分析软件Weka介绍
WEKA作为一个公开的数据挖掘工作平台
 ,集合了大量能承担数据挖掘任务的机器
 学习算法,包括对数据进行预处理,分类
 ,回归、聚类、关联规则以及在新的交互
 式界面上的可视化。如果想自己实现数据
 挖掘算法的话,可以看一看weka的接口文
 档。在weka中集成自己的算法甚至借鉴它
 的方法自己实现可视化工具并不是件很困
 难的事情。

                 SACC2011
学生做数据分析项目过程


 2011.9-
                            深入学习

 2011.6-2011.8
                        实际项目


 2011.3-2011.5
                   开源软件代码

2010.9-2011.2

                 理论学习


                                   SACC2011
提纲
Part 1 数据分析架构实例
 数据挖掘例子
 数据分析架构实例——网站用户流失预警
 开源数据分析软件Weka介绍
Part 2 大规模数据挖掘(云挖掘Hadoop)
 Map-Reduce方法
 Classification (k-NN) 的MapReduce化
Part 3 安全云挖掘
 微分流形在安全云挖掘中的应用(Matlab)


                                      SACC2011
大规模数据挖掘


多款游戏、多台服务器

                                云化
每天独立登陆IP有 600,000~700,000个   MapReduce
                                方法
一些数据挖掘算法跑不起来



                               SACC2011
云计算——网络发展的必然结果




             SACC2011
云计算简化实现机制




            SACC2011
Part 2 大规模数据挖掘(云挖掘
         Hadoop)
Map-Reduce方法

Classification (k-NN)算法的MapReduce化




                            SACC2011
What’s Mapreduce

Parallel/Distributed Computing
 Programming Model




     Input split     shuffle      output

                                       SACC2011
Shuffle Implementation




                    SACC2011
Partition and Sort Group




Partition function: hash(key)%reducer number
Group function: sort by key

                                               SACC2011
Hadoop MapReduce Architecture

                                           Master node


     MapReduce job
      submitted by                         JobTracker
     client computer




                   Master/Worker Model
             Load-balancing by polling mechanism


       Slave node          Slave node                    Slave node


       TaskTracker         TaskTracker                   TaskTracker




      Task instance        Task instance                 Task instance


                                                                         SACC2011
Nearest Neighbor Classifiers
 Basic idea:
      If it walks like a duck, quacks like a duck, then
       it’s probably a duck

                                  Compute
                                  Distance            Test
                                                     Record




Training                         Choose k of the
Records                          “nearest” records

                                                SACC2011
Nearest-Neighbor Classifiers
 Unknown record   l   Requires three things
                       – The set of stored records
                       – Distance Metric to compute
                         distance between records
                       – The value of k, the number of
                         nearest neighbors to retrieve


                  l   To classify an unknown record:
                       – Compute distance to other
                         training records
                       – Identify k nearest neighbors
                       – Use class labels of nearest
                         neighbors to determine the
                         class label of unknown record
                         (e.g., by taking majority vote)

                                     SACC2011
Definition of Nearest Neighbor




           X                       X                        X




(a) 1-nearest neighbor   (b) 2-nearest neighbor   (c) 3-nearest neighbor


     K-nearest neighbors of a record x are data points
     that have the k smallest distance to x
                                                            SACC2011
MapReduce:kNN

Input   Map   Reduce   Output




                       SACC2011
MapReduce化算法提高效率

单个节点并非跑不出   利用多个节点进行
 结果:大数据集上需    MapReduce云化,可
 要一天、一周才能出    以利用空置设备同步
 结果。有时候有较高    运行,提高速度,对
 实时要求的任务一小    有较高实时性要求的
 时出结果都太慢      算法有好处




                     SACC2011
提纲
Part 1 数据分析架构实例
 数据挖掘的概念与特点
 数据分析架构实例——网站用户流失预警
 开源数据分析软件Weka介绍
Part 2 大规模数据挖掘(云挖掘Hadoop)
 Map-Reduce方法
 Classification (k-NN) 的MapReduce化
Part 3 安全云挖掘
 微分流形在安全云挖掘中的应用(Matlab)


                                      SACC2011
数据分析带来的隐私保护问题


          隐私保护



数据挖掘可以挖          也可挖掘分析出
掘潜在规律、辅          感兴趣的私人信
助决策、检测异          息。云挖掘中更
常模式、恐怖活          加涉及到客户端
动和欺诈行为           把隐私数据交付
                 给云端进行挖掘
                 ,客户对此会产
                 生疑虑。
                     SACC2011
安全云挖掘

          安全云挖掘




既不泄露隐私,           在客户端向云端
又能保证挖掘结           传送隐私数据时,
果的大致准确—           可先进行随机化
—隐私保护数据           变换、加密
挖掘




                      SACC2011
Privacy-preserving Data Mining

                        Hide sensitive individual data
                        values from the outside world


A Random Rotation
•                                                            Privacy-
                                                             •
   Perturbation                                          Preserving Data
Approach to Privacy                 Data                     mining
Data Classification              conversion
                                                         A Framework for
                                                         •
    •Deriving Private            cryptology
    Information from                                      High Accuracy
    Randomized Data                   …                      Privacy-
                                                           Preserving
                                                             Mining

                         A valid and effcient decision
                         model based on the distorted
                          data can be constructed
                                                                 SACC2011
微分流形:保持拓扑特性
设 M 是一个Hausdorff 拓扑空间, 若对每一点 p  M ,都有
P 的一个开领域 U 和 R n 的一个开子集同胚, 则称 M 为 n
维拓扑流形, 简称为 n 维流形.




                              SACC2011
几种流形学习算法


         1                         2                          3
                         等距映射(Isomap)
局部线性嵌入(LLE)                                        拉普拉斯特征映射
                         J.B. Tenenbaum, V. de      (Laplacian Eigenmap)
S. T. Roweis and L.
                         Silva, and J. C.           M. Belkin, P. Niyogi,
K. Saul. Nonlinear
                         Langford. A global         Laplacian Eigenmaps
dimensionality                                      for Dimensionality
                         geometric framework
reduction by locally                                Reduction and Data
                         for nonlinear
linear embedding.                                   Representation. Neural
                         dimensionality
Science, vol. 290, pp.                              Computation, Vol. 15,
                         reduction. Science, vol.   Issue 6, pp. 1373 –1396,
2323--2326, 2000.
                         290, pp. 2319--2323,       2003 .
                         2000.




                                                               SACC2011
LLE算法示意图




           SACC2011
MDS 示意图




      SACC2011
Dimensionality Reduction:
                            ISOMAP

By: Tenenbaum, de Silva,
        Langford (2000)




Construct a neighbourhood graph
For each pair of points in the graph,
 compute the shortest geodesic distances
                                     SACC2011
安全云挖掘

          安全云挖掘




使用微分流形完           怎样并行化进行
成了几个隐私保           微分流形变换,
护数据挖掘算法           同时不影响挖掘
                  结果




                      SACC2011
分析的完整架构

      流失用
      户预警

数据
分析


大规模               逐步深入细化
数据分
 析          安全云
            挖掘



                    SACC2011
SACC2011

Mais conteúdo relacionado

Mais procurados

2010数据库技术大会思考分享
2010数据库技术大会思考分享2010数据库技术大会思考分享
2010数据库技术大会思考分享guest42b682b4
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
 
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)Jazz Yao-Tsung Wang
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
使用LVS集群架设高可扩展的网络服务
使用LVS集群架设高可扩展的网络服务使用LVS集群架设高可扩展的网络服务
使用LVS集群架设高可扩展的网络服务Wensong Zhang
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享vanadies10
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
Zh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud ComputingZh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud Computingkevin liao
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)vanadies10
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Fred Chiang
 
大型系统的Java中间件实践q con北京
大型系统的Java中间件实践q con北京大型系统的Java中间件实践q con北京
大型系统的Java中间件实践q con北京vanadies10
 
Zh Tw Introduction To H Base
Zh Tw Introduction To H BaseZh Tw Introduction To H Base
Zh Tw Introduction To H Basekevin liao
 
淘宝Java中间件之路 it168
淘宝Java中间件之路 it168淘宝Java中间件之路 it168
淘宝Java中间件之路 it168vanadies10
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_saccwangzhonnew
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索liu sheng
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingRen-Hao (PAN) Pan
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 

Mais procurados (19)

2010数据库技术大会思考分享
2010数据库技术大会思考分享2010数据库技术大会思考分享
2010数据库技术大会思考分享
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
使用LVS集群架设高可扩展的网络服务
使用LVS集群架设高可扩展的网络服务使用LVS集群架设高可扩展的网络服务
使用LVS集群架设高可扩展的网络服务
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
Zh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud ComputingZh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud Computing
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
 
大型系统的Java中间件实践q con北京
大型系统的Java中间件实践q con北京大型系统的Java中间件实践q con北京
大型系统的Java中间件实践q con北京
 
Zh Tw Introduction To H Base
Zh Tw Introduction To H BaseZh Tw Introduction To H Base
Zh Tw Introduction To H Base
 
淘宝Java中间件之路 it168
淘宝Java中间件之路 it168淘宝Java中间件之路 it168
淘宝Java中间件之路 it168
 
Java@taobao
Java@taobaoJava@taobao
Java@taobao
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_sacc
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 

Semelhante a 数据分析架构实例与安全的云挖掘

基于用户行为的数据分析
基于用户行为的数据分析基于用户行为的数据分析
基于用户行为的数据分析mysqlops
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]KennyZ
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践medcl
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望mysqlops
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011Yiwei Ma
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseJack Gao
 
海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOX海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOXaleafs
 
香港六合彩
香港六合彩香港六合彩
香港六合彩zhanghe
 
数据库系统设计漫谈
数据库系统设计漫谈数据库系统设计漫谈
数据库系统设计漫谈james tong
 
民间秘方
民间秘方民间秘方
民间秘方dynasty
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里d0nn9n
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里PMCamp
 

Semelhante a 数据分析架构实例与安全的云挖掘 (20)

基于用户行为的数据分析
基于用户行为的数据分析基于用户行为的数据分析
基于用户行为的数据分析
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
Data Mining
Data MiningData Mining
Data Mining
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOX海量统计数据的分布式MySQL集群——MyFOX
海量统计数据的分布式MySQL集群——MyFOX
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
数据库系统设计漫谈
数据库系统设计漫谈数据库系统设计漫谈
数据库系统设计漫谈
 
民间秘方
民间秘方民间秘方
民间秘方
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
 

Mais de mysqlops

The simplethebeautiful
The simplethebeautifulThe simplethebeautiful
The simplethebeautifulmysqlops
 
Oracle数据库分析函数详解
Oracle数据库分析函数详解Oracle数据库分析函数详解
Oracle数据库分析函数详解mysqlops
 
Percona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-managementPercona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-managementmysqlops
 
Percona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replicationPercona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replicationmysqlops
 
Percona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB ClusterPercona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB Clustermysqlops
 
Percona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimizationPercona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimizationmysqlops
 
Pldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internalsPldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internalsmysqlops
 
DBA新人的述职报告
DBA新人的述职报告DBA新人的述职报告
DBA新人的述职报告mysqlops
 
分布式爬虫
分布式爬虫分布式爬虫
分布式爬虫mysqlops
 
MySQL应用优化实践
MySQL应用优化实践MySQL应用优化实践
MySQL应用优化实践mysqlops
 
eBay EDW元数据管理及应用
eBay EDW元数据管理及应用eBay EDW元数据管理及应用
eBay EDW元数据管理及应用mysqlops
 
基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现mysqlops
 
eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析mysqlops
 
对MySQL DBA的一些思考
对MySQL DBA的一些思考对MySQL DBA的一些思考
对MySQL DBA的一些思考mysqlops
 
QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示mysqlops
 
腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事mysqlops
 
分布式存储与TDDL
分布式存储与TDDL分布式存储与TDDL
分布式存储与TDDLmysqlops
 
MySQL数据库生产环境维护
MySQL数据库生产环境维护MySQL数据库生产环境维护
MySQL数据库生产环境维护mysqlops
 

Mais de mysqlops (20)

The simplethebeautiful
The simplethebeautifulThe simplethebeautiful
The simplethebeautiful
 
Oracle数据库分析函数详解
Oracle数据库分析函数详解Oracle数据库分析函数详解
Oracle数据库分析函数详解
 
Percona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-managementPercona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-management
 
Percona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replicationPercona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replication
 
Percona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB ClusterPercona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB Cluster
 
Percona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimizationPercona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimization
 
Pldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internalsPldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internals
 
DBA新人的述职报告
DBA新人的述职报告DBA新人的述职报告
DBA新人的述职报告
 
分布式爬虫
分布式爬虫分布式爬虫
分布式爬虫
 
MySQL应用优化实践
MySQL应用优化实践MySQL应用优化实践
MySQL应用优化实践
 
eBay EDW元数据管理及应用
eBay EDW元数据管理及应用eBay EDW元数据管理及应用
eBay EDW元数据管理及应用
 
基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现
 
eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析
 
对MySQL DBA的一些思考
对MySQL DBA的一些思考对MySQL DBA的一些思考
对MySQL DBA的一些思考
 
QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示
 
腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事
 
分布式存储与TDDL
分布式存储与TDDL分布式存储与TDDL
分布式存储与TDDL
 
MySQL数据库生产环境维护
MySQL数据库生产环境维护MySQL数据库生产环境维护
MySQL数据库生产环境维护
 
Memcached
MemcachedMemcached
Memcached
 
DevOPS
DevOPSDevOPS
DevOPS
 

数据分析架构实例与安全的云挖掘

  • 1. 数据分析架构实例与安全 云挖掘 中山大学海量数据与云计 算研究中心 北京师范大学珠海研究院 SACC2011 吕威
  • 2. 提纲 Part 1 数据分析架构实例  数据挖掘例子  数据分析架构实例——网站用户流失预警  开源数据分析软件Weka介绍 Part 2 大规模数据挖掘(云挖掘Hadoop)  Map-Reduce方法  Classification (k-NN) 的MapReduce化 Part 3 安全云挖掘  微分流形在安全云挖掘中的应用(Matlab) SACC2011
  • 3. Part 1 数据分析架构实例 数据挖 网站用 Weka 掘例子 户行为 分析 介绍 定义、概念 数据分析架构实例 开源软件 SACC2011
  • 4. Why Mine Data? Commercial Viewpoint Lots of data is being collected and warehoused  Web data, e-commerce  purchases at department/ grocery stores  Bank/Credit Card transactions Computers have become cheaper and more powerful Competitive Pressure is Strong  Provide better, customized services for an edge (e.g. in SACC2011 Customer Relationship Management)
  • 5. Why Mine Data? Scientific Viewpoint Data collected and stored at enormous speeds (GB/hour)  remote sensors on a satellite  telescopes scanning the skies  microarrays generating gene expression data Traditional techniques infeasible for raw data Data mining may help scientists  in classifying and segmenting data  in Hypothesis Formation SACC2011
  • 6. Mining Large Data Sets - Motivation There is often information “hidden” in the data that is not readily evident Human analysts may take weeks to discover useful information Much of the data is never analyzed at all 4,000,000 3,500,000 3,000,000 The Data Gap 2,500,000 2,000,000 Total new disk (TB) since 1995 1,500,000 1,000,000 Number of 500,000 analysts 0 SACC2011 From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” 1995 1996 1997 1998 1999
  • 7. What is Data Mining? Many Definitions  Non-trivial extraction of implicit, previously unknown and potentially useful information from data  Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns SACC2011
  • 8. What is (not) Data Mining? lWhat is not Data l What is Data Mining? Mining? – Look up phone – Certain names are more number in phone prevalent in certain US directory locations (O’Brien, O’Rurke, O’Reilly… in Boston area) – Query a Web – Group together similar search engine for documents returned by information about search engine according to “Amazon” their context (e.g. Amazon rainforest, Amazon.com,) SACC2011
  • 9. Origins of Data Mining Draws ideas from machine learning/AI, pattern recognition, statistics, and database systems Traditional Techniques Statistics/ Machine Learning/ Pattern may be unsuitable due to AI Recognition  Enormity of data Data Mining  High dimensionality of data Database  Heterogeneous, systems distributed nature of data SACC2011
  • 10. Data Mining Tasks Data Mining Tasks Prediction Description Methods Methods Use some Find human- variables to interpretable predict unknown patterns that or future values of describe the data. other variables. SACC2011
  • 11. Data Mining Tasks... Classification [Predictive] Clustering [Descriptive] Regression Data Association Rule Discovery [Descriptive] [Predictive] Mining Deviation Detection [Predictive] Sequential Pattern Discovery [Descriptive] SACC2011
  • 12. 数据挖掘例子 1 2 3 超市分析交易 信用卡公司分 保险公司分析 数据,安排货 析信用卡历史 以前的客户记 架上货物摆布, 数据,判断哪 录,决定哪些 以提高销售 些人有风险, 客户的潜在花 额 哪些人没有 费是昂贵的 SACC2011
  • 13. 数据挖掘例子 4 5 6 汽车公司分析 广告公司分析 税务局分析不 不同地方人的 人们购买模式, 同团体的交所 购买模型,有 估计他们的收 得税的记录, 针对性地发送 入和孩子数目, 发现异常模型 给客户喜欢的 作为潜在的市 和趋势 汽车手册 场信息 SACC2011
  • 14. Part 1 数据分析架构实例 数据挖 网站用 Weka 掘例子 户行为 分析 介绍 定义、概念 数据分析架构实例 开源软件 SACC2011
  • 15. 网站用户行为分析架构实例 某网站是游戏门户网站,在多个服务器上运 营着多款游戏,每天有大量数据如日志记录 等。需根据记录数据进行分析,得出一些有 用结果。 现在已有各种统计报表,如每日各款游戏点 击排名、游戏大厅位置点击排名、各种统计 量的饼图、柱图等。 希望进一步得到细化分析——数据分析、挖 掘 SACC2011
  • 16. 网站用户行为分析 预测模块 聚类模块 网站用 奇异点分析 户行为 关联规则模块 分析 。。。 分类模块 怎么搭建整个模型呢? SACC2011
  • 17. 预测模块 用户 流失 游戏 预警 访问 用户 预测 充值 预测 Decision Tree决策 Case K nearest 树算法、 Based neighbor Bayes贝 Reasoni 最近邻算 叶斯算法 ng案例推 法、最小 理算法 二乘法 SACC2011
  • 18. 奇异点分析 游戏奇 异点分 用户流 析 失奇异 用户充 点分析 值奇异 点分析 Graphical & Nearest- Density Statistical- neighbor based 密 based 图 based 最 度方法 形统计方 近邻方法 法 SACC2011
  • 19. 分类模块 游戏分类——Instance-based k, Ibk算法 玩家分类——Bayes贝叶斯算法 聚类模块 玩家聚类——Kmeans 均值算法  游戏聚类——Kmeans 均值算法 访问规律——Apriori算法 SACC2011
  • 20. 任务确定 关联规则 分类 概念描述 预测 奇异点分析 聚类分析 SACC2011
  • 21. 架构目标确定 用户流失预警 其它 模块 SACC2011
  • 22. 客户流失预警 客户流失分析过程指客户流失逻辑模型的 建立过程,包括数据采样、数据分析、模型 评估和应用,在一系列分析之后得出客户 流失的名单列表、流失的原因、特征和进 行流失预警。 注意:目前侧重的是预测客户流失,与客 户分类应该有一定的区别 SACC2011
  • 23. 架构过程 市场部、运营部 反馈 市场部、运营部 结果分析 学习模型 朴素贝叶斯算法的改进 的实现 数据转换 数据表合并、新属性生成、不等长数据的滑动 数据清洗 样本训练集的确定 SACC2011
  • 24. 架构过程 数据清洗 数据转换 学习模型实现 小规模数据上先进 多个表合并成一个 简单、可用、快速、 方法 行尝试 大的物理表 好解释 样本数 某款游戏一个月数 心跳表中的多条数 属性挑选 据 据大约150,000条 据将合成一条数据 去除完  生成一些贝叶斯分  大约剩50,000条 连续属性离散化 全无用 类算法有用属性 活跃用 不等长数据处理: 剩下15,000条左右 贝叶斯分类 户 滑动窗口 训练数据集完成: 流失用 大约1/3——5,000 15,000条整齐数 Kmeans聚类 户 条 据 SACC2011
  • 25. 需要分类的用户数据 训练集 用户流失集 分类算法 聚类出已知流失用户特征 训练集 流失用户的类型 SACC2011
  • 26. 算法结果 样本表 客户数目 改进贝叶斯 算法准确度 test1 1000 714 test2 1000 736 test3 1000 747 test4 1000 716 test5 1000 762 SACC2011
  • 27. 决策支持 流失客 户提出 预警 结果分析 流失原因 分析 有目的进行 营销、挽回 部分客户 SACC2011
  • 28. 开源数据分析软件Weka介绍 开源 全面 规范 WEKA的全名是怀卡托智能分析环境( Waikato Environment for Knowledge Analysis),它的源代码可通过 http://www.cs.waikato.ac.nz/ml/weka得到 SACC2011
  • 29. 开源数据分析软件Weka介绍 WEKA作为一个公开的数据挖掘工作平台 ,集合了大量能承担数据挖掘任务的机器 学习算法,包括对数据进行预处理,分类 ,回归、聚类、关联规则以及在新的交互 式界面上的可视化。如果想自己实现数据 挖掘算法的话,可以看一看weka的接口文 档。在weka中集成自己的算法甚至借鉴它 的方法自己实现可视化工具并不是件很困 难的事情。 SACC2011
  • 30. 学生做数据分析项目过程 2011.9- 深入学习 2011.6-2011.8 实际项目 2011.3-2011.5 开源软件代码 2010.9-2011.2 理论学习 SACC2011
  • 31. 提纲 Part 1 数据分析架构实例  数据挖掘例子  数据分析架构实例——网站用户流失预警  开源数据分析软件Weka介绍 Part 2 大规模数据挖掘(云挖掘Hadoop)  Map-Reduce方法  Classification (k-NN) 的MapReduce化 Part 3 安全云挖掘  微分流形在安全云挖掘中的应用(Matlab) SACC2011
  • 32. 大规模数据挖掘 多款游戏、多台服务器 云化 每天独立登陆IP有 600,000~700,000个 MapReduce 方法 一些数据挖掘算法跑不起来 SACC2011
  • 35. Part 2 大规模数据挖掘(云挖掘 Hadoop) Map-Reduce方法 Classification (k-NN)算法的MapReduce化 SACC2011
  • 36. What’s Mapreduce Parallel/Distributed Computing Programming Model Input split shuffle output SACC2011
  • 38. Partition and Sort Group Partition function: hash(key)%reducer number Group function: sort by key SACC2011
  • 39. Hadoop MapReduce Architecture Master node MapReduce job submitted by JobTracker client computer Master/Worker Model Load-balancing by polling mechanism Slave node Slave node Slave node TaskTracker TaskTracker TaskTracker Task instance Task instance Task instance SACC2011
  • 40. Nearest Neighbor Classifiers Basic idea:  If it walks like a duck, quacks like a duck, then it’s probably a duck Compute Distance Test Record Training Choose k of the Records “nearest” records SACC2011
  • 41. Nearest-Neighbor Classifiers Unknown record l Requires three things – The set of stored records – Distance Metric to compute distance between records – The value of k, the number of nearest neighbors to retrieve l To classify an unknown record: – Compute distance to other training records – Identify k nearest neighbors – Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote) SACC2011
  • 42. Definition of Nearest Neighbor X X X (a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor K-nearest neighbors of a record x are data points that have the k smallest distance to x SACC2011
  • 43. MapReduce:kNN Input Map Reduce Output SACC2011
  • 44. MapReduce化算法提高效率 单个节点并非跑不出 利用多个节点进行 结果:大数据集上需 MapReduce云化,可 要一天、一周才能出 以利用空置设备同步 结果。有时候有较高 运行,提高速度,对 实时要求的任务一小 有较高实时性要求的 时出结果都太慢 算法有好处 SACC2011
  • 45. 提纲 Part 1 数据分析架构实例  数据挖掘的概念与特点  数据分析架构实例——网站用户流失预警  开源数据分析软件Weka介绍 Part 2 大规模数据挖掘(云挖掘Hadoop)  Map-Reduce方法  Classification (k-NN) 的MapReduce化 Part 3 安全云挖掘  微分流形在安全云挖掘中的应用(Matlab) SACC2011
  • 46. 数据分析带来的隐私保护问题 隐私保护 数据挖掘可以挖 也可挖掘分析出 掘潜在规律、辅 感兴趣的私人信 助决策、检测异 息。云挖掘中更 常模式、恐怖活 加涉及到客户端 动和欺诈行为 把隐私数据交付 给云端进行挖掘 ,客户对此会产 生疑虑。 SACC2011
  • 47. 安全云挖掘 安全云挖掘 既不泄露隐私, 在客户端向云端 又能保证挖掘结 传送隐私数据时, 果的大致准确— 可先进行随机化 —隐私保护数据 变换、加密 挖掘 SACC2011
  • 48. Privacy-preserving Data Mining Hide sensitive individual data values from the outside world A Random Rotation • Privacy- • Perturbation Preserving Data Approach to Privacy Data mining Data Classification conversion A Framework for • •Deriving Private cryptology Information from High Accuracy Randomized Data … Privacy- Preserving Mining A valid and effcient decision model based on the distorted data can be constructed SACC2011
  • 49. 微分流形:保持拓扑特性 设 M 是一个Hausdorff 拓扑空间, 若对每一点 p  M ,都有 P 的一个开领域 U 和 R n 的一个开子集同胚, 则称 M 为 n 维拓扑流形, 简称为 n 维流形. SACC2011
  • 50. 几种流形学习算法 1 2 3 等距映射(Isomap) 局部线性嵌入(LLE) 拉普拉斯特征映射 J.B. Tenenbaum, V. de (Laplacian Eigenmap) S. T. Roweis and L. Silva, and J. C. M. Belkin, P. Niyogi, K. Saul. Nonlinear Langford. A global Laplacian Eigenmaps dimensionality for Dimensionality geometric framework reduction by locally Reduction and Data for nonlinear linear embedding. Representation. Neural dimensionality Science, vol. 290, pp. Computation, Vol. 15, reduction. Science, vol. Issue 6, pp. 1373 –1396, 2323--2326, 2000. 290, pp. 2319--2323, 2003 . 2000. SACC2011
  • 51. LLE算法示意图 SACC2011
  • 52. MDS 示意图 SACC2011
  • 53. Dimensionality Reduction: ISOMAP By: Tenenbaum, de Silva, Langford (2000) Construct a neighbourhood graph For each pair of points in the graph, compute the shortest geodesic distances SACC2011
  • 54. 安全云挖掘 安全云挖掘 使用微分流形完 怎样并行化进行 成了几个隐私保 微分流形变换, 护数据挖掘算法 同时不影响挖掘 结果 SACC2011
  • 55. 分析的完整架构 流失用 户预警 数据 分析 大规模 逐步深入细化 数据分 析 安全云 挖掘 SACC2011