O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

吕潇 星环科技大数据技术探索与应用实践

332 visualizações

Publicada em

萨师煊大数据研究中心2015年暑期研究夏令营

Publicada em: Dados e análise
  • Login to see the comments

  • Seja a primeira pessoa a gostar disto

吕潇 星环科技大数据技术探索与应用实践

  1. 1. 2015/7/22 1www.transwarp.io confidential 星环科技大数据技术探索与应用实践 吕 潇 xiao.lv@transwarp.io 星环科技 www.transwarp.io
  2. 2. 2015/7/22 2www.transwarp.io confidential • 中国最久的Hadoop核心开发团队 • 成功完成近亿元级别的A轮融资 • 国内技术最领先的大数据基础软件 • 超越硅谷的企业级架构及功能模块 • 国内最多的落地应用案例 • 2014年进入中央政府采购网 2 参考CSDN的技术报道:【云先锋】星环TDH:性能大幅领先于开源Hadoop2的技术架构赏析 http://www.csdn.net/article/2014-09-03/2821532-Hadoop-TranswarpDataHub-Spark
  3. 3. 2015/7/22 3www.transwarp.io confidential 孙元浩 创始人兼CTO 星环科技的技术开发团队来自Intel, Google, Microsoft, IBM, NVidia、 Oracle、EMC、百度等知名科技公司,以及南京大学、复旦大学、 上海交通大学、中国科学技术大学、美国普渡大学等多个知名学府, 也包括放弃海外知名企业 优厚待遇回国创业的成员。星环科技的核 心团队参与部署了国内最早的企业级Hadoop集群。 佘晖 总经理 核心团队 方之熙 CRO 曾任英特尔中国OEM/渠道业务总经理,负责英特尔 ®IA架构产品(包括英特尔®处理器、服务器,网络产 品等)在中国大陆地区的销售和市场推广。 Hadoop技术专家,曾是英特尔软件部亚太区CTO, 是英特尔Hadoop发行版的创始人。孙元浩及其团队在 中国成功建立数十个Hadoop成功案例。 曾任英特尔副总裁,英特尔中国研究院院长,领导嵌 入式系统的深入研究并带领英特尔中国研究院开发突 破性技术。是编译器和CPU体系架构领域科学家。 股东大会 董事会 总经理 监事会 营 销 基 础 研 发 综 合 市 场 应 用 咨 询 技 术 服 务 北京 广州 南京 人力 财务 行政北京 上海
  4. 4. 2015/7/22 4www.transwarp.io confidential • 公司新近完成A轮和A+轮融资 – 2014年6月,A轮融资由方广资本领投,联合恒生电子、信雅达等上市公司共同完成,获得 业界广泛关注,除几乎全部的IT主流媒体外,腾讯、网易、和讯、金融界、中金在线、中国 证券网等主流财经媒体及门户均进行相关报道 – 时隔半年,2015年1月,A+ 轮融资由著名风投启明创投(QimingVenturePartners)领投, 上轮投资者包括知名VC方广资本(F&GVenture)、恒生电子及信雅达等上市公司这轮全部 继续跟投,反映了投资人对于星环的一致看好 • 与浪潮信息签署战略合作协议,携手打造中国自主的大数据核心技术平台。该携手填 补国内空白,完整实现大数据基础技术由内到外的高水平全国产化 近期公司大事记
  5. 5. 2015/7/22 5www.transwarp.io confidential • 2014年10月,公司在纽约召开的Strata+Hadoop World大会上发 布了Transwarp Data Hub 3.4新版本Hadoop发行版软件 – 这次Strata是近年来规模最大的大数据盛会,有5500多人参加这次 大会,130多家厂商参展,门票在开会前就售罄。这么大规模的盛 会标志着hadoop已经真正成为大数据处理技术的主流地位。这也 是星环首次在美国-大数据的大本营-发布大数据最新产品 – 在这次大会上公司发布了最新的性能数据,相对于Cloudera Impala,性能更好,SQL支持更完整 • 2014年12月,公司在北京召开的年度大数据大会BDTC上,发布了 TDH4.0最新版本,全面升级了各组件的功能,同时全方位提升了平台 性能 • 2015年4月16日,公司在中国数据库大会上发布TDH4.1版本,更好 地支持数据仓库应用。同时宣布在6月底发布TOS1.0版本,进入 Hadoop on Docker时代。 近期公司大事记 CCTV采访DTCC专访Databricks CEO Ion Stoica HBase PMC Chairman Michael Stack 2014/12 2015/04 Cloudera Founder Mike Olson Strata Conference New York 2014/10 Tony Baer, Big Data Analyst at NY Cloudera Founder Mike Olson Tony Baer, BigData Analyst @NewYork
  6. 6. 2015/7/22 6www.transwarp.io confidential 星环科技典型案例 (落地案例最多) 金融证劵  银行+证券 电信运营商  移动、联通、电信 交通公安  山东、辽宁、浙江等 能源  国网+南网 互联网  电商+CDN 政府  工商+税务 物流快递  EMS 广播电视  华数+卫视
  7. 7. 2015/7/22 7www.transwarp.io confidential 我们的部分客户
  8. 8. 2015/7/22 8www.transwarp.io confidential Spark成为最受欢迎的计算引擎 source: http://databricks.com/certified-on-spark-distribution 全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本
  9. 9. 2015/7/22 9www.transwarp.io confidential Transwarp Data Hub (TDH) 架构图 9 Transwarp Proprietary 流处理 引擎 Stream NoSQL数据库 搜索、图计算 Hyperbase Transwarp Manager 交互式分析引擎 数据挖掘 Inceptor including Apache Spark 资源管理 YARN 2.5 (内置Transwarp Extension) 优化存储 HDFS 2.5 (内置Transwarp Erasure Code) 批处理 Pig 0.13 批处理框架 Map/Reduce2 协作服务 Zookeeper 3.4.5 机器学习 Mahout 0.9 工作流 Oozie 4.0.1 日志采集 Flume 1.4 全文搜索 Elastic Search 1.3.1 数据集成 Sqoop 1.4.5 一站式数据存储平台 TDH通过内存计算技术、高效索引、执行计划优化和高度 容错的技术,使得一个平台能够处理从GB到PB的数据, 并且在每个数量级上,都能比现有技术提供更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群, TDH可以伴随企业客户的数据增长,动态不停机扩容,避 免MPP或传统架构数据迁移的棘手问题。 一站式资源管理平台 TDH在统一存储上建立资源管理层,提供企业用户统一的 计算资源管理、动态资源分配、多部门之间资源配置和动 态共享,灵活支持多部门多应用在统一平台上平滑运行。 一站式数据分析平台 TDH支持批处理统计分析、交互式SQL分析、在线数据检 索、R语言数据挖掘、机器学习、实时流处理、全文搜索 和图计算,为企业客户提供广泛的计算支持能力,客户无 需切换平台或架构即可完成复杂的任务。 一站式管理平台: TDH作为企业级解决方案,开发了用户友好的管理界面、 提供了系统安装、集群配置,安全访问控制、监控及预警 等多方面支持,在可管理性方面优势显著。 > > > > Apache Projects
  10. 10. 2015/7/22 10www.transwarp.io confidential 交互式分析引擎Inceptor架构图 Apache Spark 基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处 理大数据像“光速”一样快,比Hadoop Map/Reduce快10x倍。 Holodesk 跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供 Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的 交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全 内存存储的分析性能。 SQL引擎 高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速 处理缓存在Holodesk上的列式数据。兼容ANSI SQL 2003, HiveQL和 PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型 语法,方便应用迁移。 统计库 并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省/异常值、 归一化、统计分布等,是机器学习或数据挖掘的基础工具包。 机器学习库 并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器 学习算法。可用于构建高精度的推荐引擎或者预测引擎。 R 语言/R Studio 强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。 通过调用Inceptor内置并行算法库,支持对大数据集进行数据挖掘和统 计。 丰富的工具支持 支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO, Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。 Transwarp HDFS2 分布式持久化数据存储 cache Transwarp Hyperbase 分布式实时数据库 cache Transwarp Holodesk 分布式内存列式存储 R – statistical computing Distributed Execution Engine 分布式执行引擎 including Apache Spark 编译器 SQL 2003 + PL/SQL COMPILER 优化器 COST BASED OPTIMIZER 代码生成 CODE GENERATOR Interactive SQL Engine Transwarp Statistics Library 并行统计算法库 Transwarp Machine Learning Library 机器学习算法库 JDBC 4.0 SHELLODBC 3.5
  11. 11. 2015/7/22 11www.transwarp.io confidential 实时NoSQL数据库Hyperbase Transwarp HBase – Hadoop Database 分布式 Big Table Transwarp Hyperdrive – SQL backend engine between Inceptor & Hyperbase Real-time OLTP + OLAP + BATCH + Search + Graph Traversal Application Mixed Workload 混合负载业务 Graph language Scalable Graph Database 图形 数据库 Transaction SQL & API Transaction Execution Engine 分布式事务 处理引擎 Index SQL & API Global/Local Index 全局/局部 索引 日志 文本 关系 数据库 二进制 文件 图像 OLTP 支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。 结合Inceptor SQL引擎,可以支持通过SQL进行高并发 的CRUD。 支持分布式事务处理。 支持常见数据类型,可更高效的存取数据。 OLAP 支持多种索引(global/local/high-dimensional index)。 结合Inceptor,可进行行列存储转换,进行秒级高效分 析。 支持复杂查询条件,自动利用索引加速数据检索,无需 指定索引。 批处理 可以对数据进行全量高速统计,会比M/R运行在HBase 上快5-10倍。 可通过Inceptor SQL进行全量统计。 支持通过SQL进行BulkLoad批量装载数据 内嵌搜索引擎 实时同步创建索引 实现秒级关键字搜索 图数据库 支持高并发图遍历和检索 多类型支持 结构化记录 半结构化文档(JSON/BSON) 非结构化数据(图片、音频、二进制文档等) 支持混合结构数据的存储、搜索、统计、分析 支持SQL访问关系表和层次化文档 sqoopflume Elastic Search 分布式全文索引 Document SQL & API Document Store json/bson 文档存储 Object SQL & API Object Store image/files, etc 对象存储 Search SQL & API Distributed Full-text Search 全文搜索 Transwarp Inceptor
  12. 12. 2015/7/22 12www.transwarp.io confidential Stream流处理产品 Transwarp Hyperbase 分布式NoSQL数据库 高速查询或搜索 /20130101/… /20130102/… 在线自动分类时间窗口统计实时告警 分 布 式 消 息 队 列 安 全 的 Kafka Distributed Execution Engine 分布式执行引擎 Streaming Data Driver 流数据 接收驱动器 Streaming Machine Learning 流式机器学习 算法库(支持R语言) Streaming Engine 流式计算引擎 Streaming SQL (via Inceptor) 流式SQL 执行引擎 Transwarp Stream Web Console 流式任务Web控制器 Outlier异常检测实时事件 流 式 任 务 管 理 服 务 StreamingJobServer Transwarp Holodesk 分布式内存/SSD缓存 高速SQL/R探索分析
  13. 13. 2015/7/22 13www.transwarp.io confidential Transwarp Inceptor是第一个 也是目前唯一一个支持PL/SQL的SQL on Hadoop引擎 名称 计算引擎 ANSI SQL支持程度 存储过程 第一个版本发布时间 Cloudera Impala 类Dremel,类MPP引擎 SQL92子集 + SQL2003扩展(<40%) 不支持 2011/10 Hortonworks Tez/Stinger Map/Reduce改进 SQL92子集 + SQL2003扩展(<50%) 不支持 2012/5 Transwarp Inceptor Spark SQL2003 (>90%) Oracle Compatible PL/SQL 2013/11 Databricks SparkSQL Spark HiveQL (SQL92子集, <40%) 不支持 2014/6 MapR Drill 改进自OpenDremel SQL92子集 (<40%) 不支持 2012/6立项,2014/11发布 IBM BigSQL v3 DB2/DPF like MPP Engine over HDFS SQL 2003 不支持 2014/6 Pivotal HAWQ Greenplum like MPP Engine over HDFS SQL 2003(<90%) 不支持 2013/2 Splice Machine Apache Derby + HBase SQL 1999 不支持 2015 GA Actian Vortex MPP Engine over HDFS SQL 2003 不支持 2014
  14. 14. 2015/7/22 14www.transwarp.io confidential PL/SQL支持程度  基本语句 • 赋值语句 • SQL语句 • 匿名块执行 • 存储过程调用 • UDF/UDAF调用  数据类型 • 标量类型 • 集合类型及其方法(COUNT()/LIMIT()/etc.) • RECORD类型 • 隐/显式类型转换  流程控制语句 • IF/ELSE IF/ELSE语句 • GOTO语句 • LOOP循环 • FOR循环 • FORALL循环 • WHILE循环 • CONTINUE(WHEN)语句 • EXIT(WHEN)语句  游标支持 • 显式CURSOR及其基本操作:OPEN/FETCH(BULK COLLECT)/NOTFOUND/etc. • 隐式游标(FOR 循环) • SELECT (BULK COLLECT) INTO语句 • PACKAGE • 包内全局变量 • 包内类型 • 包内函数 • 参数和变量属性 • NOT NULL • IN/OUT • DEFAULT VALUE • 变量声明时赋值 • 异常 • 声明时赋值PARGMA EXCEPTION_INIT • 内置函数RAISE_APPLICATION_ERROR/SOLCODE/SQLERRM/FORALL ... SAVE EXCEPTIONS • 其他系统预定义异常的抛出点  异常 • 支持用户自定义异常和系统预定义异常 • 支持RAISE语句 • 支持WHEN (OR) THEN (OTHERS)异常处理 • 支持存储过程内部和存储过程之间的异常传播 • 部分系统预定义异常抛出点 • 部分编译时刻错误检测  部分系统函数 • PUT_LINE() 待支持的功能
  15. 15. 2015/7/22 15www.transwarp.io confidential 我们的核心优势:SQL功能和性能远超国外友商 四种不同的SQL引擎在独立发展 名称 计算引擎 SQL支持程度 第一个版本发布时间 Cloudera Impala 类Dremel,类MPP引擎 SQL92子集+SQL2003扩展(窗口函数) 2011/10 Hortonworks Tez/Stinger Map/Reduce改进 SQL92+SQL2003扩展(窗口函数) 2012/5 Transwarp Inceptor Spark SQL2003+PL/SQL(存储过程、游标) 2013/11 Databricks SparkSQL Spark HiveQL (SQL92子集) 2014/6 MapR Drill 改进自OpenDremel SQL92子集 2012/6立项,2014/11发布 图中纵坐标小于1表示Impala性能超过Inceptor,而大于1则表示Inceptor性能更好。对于Impala不能支持的SQL,我们就标记这个性能比为100。 从图中可见,在Impala支持的19个SQL中,只有8个SQL的表现超过Inceptor,另外11个SQL 在Inceptor的表现比Impala更好。
  16. 16. 2015/7/22 16www.transwarp.io confidential – Slice – Dice – Rollup – Drill Up – Drill Down – Pivot 交互式OLAP分析:Distributed Cube Holodesk – A Columnar Store on SSD cache layer Executor Inceptor Server Executor Executor Executor Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD 3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD 3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) Columnar Store API Cube(D 1 ,D 2 , D 3 ) INDEX ColumnD 1 INDEX ColumnD 2 INDEX ColumnD 3 INDEX ColumnM 1 Cube(D 1 ,D 2 ), (D 2 ,D 3 ),(D 1 , D 3 ) 如何定义一个Cube? Cube Size 256KB固定大小 ZK Cluster • Cube on Transwarp Holodesk • Cube是OLAP分析的常用技术 create table store_sales tblproperties( ‘cache’=‘ram’, ‘holodesk.dimensions’=‘product, cities, time’ ) as select * from store_sales; 计算下沉到存储层 Compute and filters pushed down to storage layer
  17. 17. 2015/7/22 17www.transwarp.io confidential 0.9 9.8 12.4 12.1 14.0 1.3 8.8 12.7 20.2 43.3 58.9 86.6 136.1 1.4 55.2 56.5 0 20 40 60 80 100 120 140 160 1 2 3 4 5 6 7 8 执行时间(秒) w/ cube w/o cube Holodesk Cube带来的性能加速 Operation SQL query q1 count select count(*) from store_sales q2 measure select sum(ss_sales_price) from store_sales q3 aggregation select sum(ss_sales_price) from store_sales group by ss_customer_sk q4 drill down select sum(ss_sales_price) from store_sales group by ss_sold_date_sk q5 drill down select sum(ss_sales_price) from store_sales group by ss_customer_sk, ss_sold_date_sk q6 slice select sum(ss_sales_price) from store_sales_r where ss_customer_sk=5000 group by ss_customer_sk,ss_sold_date_sk q7 dice select sum(ss_sales_price) from store_sales where ss_sold_date_sk between 2450629 and 2451816 group by ss_customer_sk q8 pivot select sum(ss_sales_price) from store_sales where ss_customer_sk > 5000 and ss_sold_date_sk between 2450629 and 2451816 group by ss_customer_sk,ss_sold_date_sk 40亿条记录 共500GB驻留内存 4台两路普通服务器 每台服务器 内存:256GB CPU:E5-2620v2 网络:万兆网络
  18. 18. 2015/7/22 18www.transwarp.io confidential 为SSD设计专有格式 - Holodesk 1 W A 2 X B 3 Y C 4 Z D 5 O E 6 P F 7 Q G 8 R H Holodesk – A Columnar Store on SSD cache layer Spark 1 W A GLOBAL INDEX 2 X B Dictionary BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER 3 Y C 4 Z D BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER Dictionary 5 O E 6 P F BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER Dictionary 7 Q G 8 R H BITMAP INDEX FILTER BITMAP INDEX FILTER BITMAP INDEX FILTER Dictionary HDFS Storage Layer HDFS Text or ORC or Parquet Files Memory Tier SSD Tier • HDFS Storage Tier – 让应用程序来选择存储层 – Memory as storage tier – SSD Storage Tier • 但是,现有的Text以及行列混合(ORC or Parquet)等文件格式都 不足以利用SSD的高性能。 Executor Spark Context Executor Executor Executor Columnar Store APIColumnar Store APIColumnar Store APIColumnar Store API File System API CREATE TABLE t1 TBLPROPERTIES( "cache"=“SSD”, “filters”=“hashbucket(360):c1” ) AS SELECT * FROM src DISTRIBUTE BY c1; • Off-Heap • Columnar store • Secondary index • Table format/access • SSD as cache ZK Cluster
  19. 19. 2015/7/22 19www.transwarp.io confidential 不同格式在SSD上的性能对比 测试项 格式 硬件介质 存储引擎 性能提升 text(disk) SequenceFile Hard Disk HDFS 基准 text(ssd) SequenceFile PCI-e SSD HDFS 1.5倍 orc(ssd) ORC File PCI-e SSD HDFS 4倍 holodesk(ssd) Columnar Store PCI-e SSD Holodesk 8倍 结论 • 采用文本格式,PCI-e SSD较磁盘仅带来的性能提升仅1.5倍 • 采用针对硬盘设计的行列混合ORC存储格式,在SSD上可比文本格式提升2.7倍 • 采用转为内存和SSD设计的Holodesk列式存储 • 比SSD上的ORC文件格式提升2倍; • 比SSD上的文本格式提升6倍 ; • 比硬盘上的文本格式提升8倍以上。 0 5 10 15 20 25 30 35 40 45 50 q5 q12 q17 q19 q22 q25 q42 q49 q51 q52 q55 q56 q58 q60 q66 q96 q98 q100 q101 q102 q103 q104 text(disk) text(ssd) orc(ssd) holodesk(ssd) 提升倍数 TPC-DS中I/O密集的测试集
  20. 20. 2015/7/22 20www.transwarp.io confidential Cost Based Optimizer 20 Table A 100M Records kurt mary john smith 622523454095243 622550042034568 622544334568763 622534878982324 v_name Card_id 1 2 … … 9999999 10000000 No. Table B 100M records JOIN ON A.card_id=B.card_id Cost based optimizer Table size Immediate result size Data skew Value distribution selectivity Map Join Lookup Join Hash Join Query Plan Common Join Co-Group Join
  21. 21. 2015/7/22 21www.transwarp.io confidential 与数据可视化工具良好对接  在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具,如 Tableau,SAP Business Objects, Oracle Business Intelligence等,使得基于大数据分析的商业决策更 易被理解和接受,从而将大数据的潜在价值最大化。  业务人员通过简单的拖拽既可定制个性化报表,跳过了数据准备的工作环节。
  22. 22. 2015/7/22 22www.transwarp.io confidential 对R语言的完整支持 R package from Transwarp R – SQL Interface from Transwarp Tables Distributed Columnar Store on SSD Statistics Library Machine Learning Library Files Hadoop Distributed File System R – Spark Interface from Transwarp Spark RDD Resilient Distributed Dataset in Memory Call parallelized algorithms Call SQL call sequential algorithm for distributed dataset 算法名称 TDH MLlib Min/Max YES YES Mean/Variance YES YES Normalization YES YES Standard scaling YES YES Correlation YES YES Histogram YES NO Bining YES NO Percentile YES NO Median YES NO Boxplot YES NO Screen YES NO Cardnality YES NO Logistic Regression YES YES Naive Bayes YES YES SVM YES YES KMeans YES YES Collaborative Filtering YES YES Linear Regression YES YES Ridge Regression YES YES Lasso Regression YES YES GLM YES NO DecisionTree YES YES Apriori YES NO Asocciation rules YES NO Gradient Boosted Trees YES NO Random Forest YES NO Deep Learning YES NO R Studio
  23. 23. 2015/7/22 23www.transwarp.io confidential TRANSWARP © 2014 应用与实践 星环信息科技(上海)有限公司
  24. 24. 2015/7/22 24www.transwarp.io confidential 智慧城市中的大数据 智能楼宇 智能电网 污染监控 移动医疗影像 设备 急救车上 传感器 手机附加 传感器 智慧城市 智能医院 智能工厂 智能交通 车载传感器 智能电表 工业自动化 感应传感器 电子警察 气象监控 三大特点:7x24小时不断产生的数据;数据量大、并发度高、处理延时要求高;模式分析和挖掘成为必需
  25. 25. 2015/7/22 25www.transwarp.io confidential 物联网传感器数据分析 Kafka SQL aggregation Outlier detection batch @ t+1batch @ t 报警 data mining on streams 100k records/s/node 1KB/record transwarp stream 0 2 4 6 8 1 3 5 7 9 … … table_per_day Ad-hoc Analysis using ANSI SQL Data mining using R transwarp inceptor Columnar Store on SSD Predicting using CFD Algorithms … …
  26. 26. 2015/7/22 26www.transwarp.io confidential 统计类应用:利用基站数据进行人流分析 通过基站数据定位用户的活动区域 通过基站上网数据分析用户的关注点、出行目的、出行时间 通过人群密集度算法,算出时间、经纬度、人群密度 等关键指标,分析出人群迁移和密度变化趋势
  27. 27. 2015/7/22 27www.transwarp.io confidential 统计类应用:商圈人群密度分析 ID 名称 ID 名称 ID 名称 1 五角场 6 徐家汇 11 大柏树 2 浦东建材市场 7 静安寺-南京路-人民广场 12 娄山关路 3 金沙江路中环路口 8 虹莘路 13 新世界 4 漕河泾 9 金沙江路祁连山路 14 长寿路 5 中山公园 10 陆家嘴 • 实时刷卡信息(来自银联) • 定义商圈 • 商圈聚类模型分析与选择 • 模型拟合 • 动态商圈区域即时呈现,收缩变化一目了然 • 二级商圈的挖掘 • 人群密度趋势研判
  28. 28. 2015/7/22 28www.transwarp.io confidential 基于流的垃圾短信分类 特征提取 朴素贝叶斯模型预测 SVM模型预测 在线并发数据挖掘 基于Transwarp Data Hub的实时垃圾 短信分析报警系统 N Y 报警Kafka 训练离线模型 分词 报警 过 滤 器 短消息 短消息 短消息 短消息
  29. 29. 2015/7/22 29www.transwarp.io confidential 金融实时交易风险评估系统 • Logistic regression • Decision tree • Random forest • Cost sensitive LR • SVM 交易数据交易数据 交易数据 聚类/ 分类 检测 直接交易 正常 可疑 正常交易 可疑交易 交易时间、 地点、金额、 商家等信息 神经网络模型 每 笔 交 易
  30. 30. 2015/7/22 30www.transwarp.io confidential 持卡人行为分析应用  训练数据采样某银行 2012年的04~09半年 的交易流水  总共约2亿条记录, 506万个独立持卡人, 数据大小约80GB  并行360度用户画像 在2分钟内完成对506 万独立持卡人的画像 消费频繁度 消费水平 美食爱好 旅游 爱好 体育爱好 电子爱好 IT爱好年轻活力 男性 女性 商人 开车一族 电话达人 差旅人士
  31. 31. 2015/7/22 31www.transwarp.io confidential 内部服务接 口 平 台 数 据 O 域 BOSS 系 统 Gn信令 业务订购 使用行为 数据 Mc信令 通信详单 营帐资料 渠道数据 政企数据 网络 覆盖数据 GIS 地图服务 LTE信令 Inceptor SQL 编译解析器 流量运营平台 SPARK集群 自助分析平台 SPARK集群 经营分析系统 M/R集群 渠道运营平台 M/R集群 … 客户标签库 在线数据 查询服务 Hyperbase 基于位置的 实时事件营销 Stream集群 八大数据源 新增 4TB/天 Flume FTP OverHDFS 分 布 式 消 息 队 列 RabbitMQ OrSocket CLI 命令行接口 外部服务接口 PL/SQL JDBC/ODBC REST 编程接口 文件接口 JAVA 编程接口 权限访问控制 SSD 数据流程 运营商的大数据运营中心 Data source • 8 data sources including network signaling, billing records, CRM, and subscription behaviors, etc. • 4TB added every day. Applications 13 analytic applications including: • Targeted data plan • Network optimization • Location-based ads • Customer analysis … Deployed Cluster • 20 server nodes • 5x faster than 4 mini- computer + DB2 cluster 统一资源调度和管理YARN 统一的大数据存储平台HDFS 流 量 经 营 平 台
  32. 32. 2015/7/22 32www.transwarp.io confidential Typical Case: Streaming in Intelligent Transportation System Inceptor Hyperbase Real time database • Real time picture serving for road segments • Legacy applications • Real time road condition • Average speed estimation • Regulation Check … … • Traffic info online serving • Traffic pattern mining Streaming Cluster Inceptor Kafka Distributed Message Queue Result tables stored in hyperbase Deployed for ITS of Shandong Province in China End to end latency is < 2 seconds, streaming cluster with >30 nodes Message cluster with >10 nodes >30 nodes 30 million events/day, 10000 events/second in rush hours
  33. 33. 2015/7/22 33www.transwarp.io confidential Transwarp Data Hub 核心优势 无限水平扩展 系统可线性扩充存储容量或提高处理性能,只需要简单的向集群中 增加机器,无需停机。有效解决企业由于数据增长导致的处理性能 缓慢或频繁迁移数据的问题。 统一数据处理平台 改进的YARN资源管理框架,可在同一份数据集上运行多种计算框架, 动态创建SQL统计、数据挖掘、机器学习、流处理等计算集群,满 足企业多部门资源统一管理的需求。 高速SQL分析 Inceptor交互式内存分析引擎,同时支持SQL’99和R语言,满足数 据交互式分析和挖掘需求,加快企业决策速度。内置改进后的 Apache Spark,SQL执行性能比Apache Hadoop 快10倍左右。 灵活数据处理 Hyperbase实时数据库支持结构化、半结构化、非结构化等多种类 型数据的OLTP在线存储、OLAP检索、全文搜索、图分析和批处理 统计业务等全方位需求。 实时流计算 Stream分布式实时流处理引擎提供强大的流计算表达能力,可支持 复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和 挖掘等应用需求。 超高性价比 采用普通商用服务器构建集群,最大程度降低成本;内置Erasure Code先进编码技术,提供两倍存储效率和两倍容错能力;高效支持 内存/闪存/硬盘混合存储,可提供最佳性价比存储配置。 Transwarp Proprietary 流处理 引擎 Stream NoSQL数据库 搜索、图计算 Hyperbase Transwarp Manager 交互式内存分析 数据挖掘 Inceptor including Apache Spark 资源管理 YARN (内置Transwarp Extension) 优化存储 HDFS2 (内置Transwarp Erasure Code) 批处理 Pig 批处理框架 Map/Reduce2 协作服务 Zookeeper 机器学习 Mahout 工作流 Oozie 日志采集 Flume 全文搜索 Elastic Search 数据集成 Sqoop Apache Projects
  34. 34. 2015/7/22 34www.transwarp.io confidential Welcome to Join Us!
  35. 35. 2015/7/22 35www.transwarp.io confidential TRANSWARP © 2014

×