O slideshow foi denunciado.

ODB in the Cloud (Cn)

0

Compartilhar

Próximos SlideShares
Databases on AWS
Databases on AWS
Carregando em…3
×
1 de 20
1 de 20

ODB in the Cloud (Cn)

0

Compartilhar

Baixar para ler offline

  1. 1. 1© Cloudera, Inc. All rights reserved. 公有云中的Cloudera作业数据 库 徐磊 (lei@cloudera.com) HDFS team@Cloudera, Hadoop PMC
  2. 2. 2© Cloudera, Inc. All rights reserved. 公有云中运行Cloudera作业数据库 应用场景
  3. 3. 3© Cloudera, Inc. All rights reserved. 云计算123 Cloudera Manager (CM) Cloudera的Hadoop/CDH集群管理平台. Cloudera Director (Director) Cloudera CDH公有云部署平台. Amazon AWS 亚马逊云计算服务. AWS EC2 亚马逊弹性计算服务. AWS S3 亚马逊云计算对象存储. AWS Elastic Block Storage 亚马逊弹性块设备存储服务. AWS Instance Storage 亚马逊实例存储.
  4. 4. 4© Cloudera, Inc. All rights reserved. 作业数据库 低延迟, 持久性的存储. 应用: Web 应用, 消息存储, 关键业务 的运营活动. 通用的数据仓库 从多个数据流中识别有意义的 事件, 并采取相关行动. 复杂的事务处理 结合数据和当前/历史事件预 测未来的事件 建模和预测
  5. 5. 5© Cloudera, Inc. All rights reserved. 公有云的优势 成本 • 极低成本的备份和灾 难恢复 • 快速部署和销毁开发 以及测试环境 方便 • 低成本的运行紧凑配 置和静态集群(steady state) • 弹性增长过载的集群 • 快速便捷的部署 (Provisioning) 新计算 集群, 增加计算能力, 有助于项目快速运转。
  6. 6. 6© Cloudera, Inc. All rights reserved. 公有云上运行作业数据库的架构 应用 持续运行的生产 集群 作业数据库 Cloudera Director 部署 Cloudera CM 管理/部署集群 Elastic Block Storage 作业数据库 临时开发测试集群 S3 突发批处理 当有突发批处理请求或者部署 开发集群, 通过EBS拷贝和转移 数据. 1 易于部署 (Provisioning) 2 部署开发/测 试环境 3 大数据量的突发的 批处理操作 4 低成本备份 数据源 Spark Streaming
  7. 7. 7© Cloudera, Inc. All rights reserved. 轻松部署新集群 轻松部署 商业挑战 • 企业内部部署的集群通常需要长时间的部署. 尤其是从PoC到生 产系统更是需要长期的采购流程. • 一些客户需要3-6个月来完成整套流程. 拖慢了开发进度, 遗留更 多的后续技术问题. 基于共有云的解决方案 • Cloudera Director 提供业界领先的解决方案,帮助用户迁移到公有云 之上 • 支持跨云,或者公有云和私有云之间的工作负载迁移 • 从而防止被任何一家公有云厂商套牢 实现细节 • Cloudera Director支持在共有云中快速部署生产集群. • 运用Cloudera快速按需部署产品集群, 避免长期运行. • Cloudera 培训企业员工有能力测试并判断新用例的可行性,降低项 目风险, 创造更多价值.
  8. 8. 8© Cloudera, Inc. All rights reserved. 轻松部署新集群 应用 作业数据库 EC2 Instances Director 部署 Cloud Storage 应用 EC2 Instances Direct Attached Storage Elastic Block Storage 作业数据库 实例存储 Director 部署
  9. 9. 9© Cloudera, Inc. All rights reserved. 共有云中运行Spark Streaming和作业数据库 实时处理和服务架构 可用区 应用 Ingest Streaming Data Spark Streaming运 行在独立集群 Spark Streaming 作业数据库 作业数据库运行在另 一个独立集群 两个集群运行在同 一个可用区
  10. 10. 10© Cloudera, Inc. All rights reserved. AWS 按需计费(on-demand) vs. 预留计费(reserved) Instance Type Rate Per Hour Reserved Yearly Rate On-Demand Yearly Rate Utilization Cross-over Point c4.large $0.11 $576 $920 63% c3.8xlarge $1.68 $8,691 $14,717 59% d2.xlarge $0.69 $2,952 $6,044 49% m4.2xlarge $0.48 $2,414 $4,196 58%
  11. 11. 11© Cloudera, Inc. All rights reserved. 创建开发和测试环境 开发和测试 环境 商业挑战 • 独立的开发和测试环境难以维护和配置. • 难以安全地使用实际生产数据. • 不同项目之前争夺有限的物理资源. • 拖延开发周期 基于共有云的解决方案 • Cloudera 在公有云中快速安全的部署临时开发测试环境. 实现细节 • Cloudera使用公有云快速的将生产环境数据通过EBS或者S3复制 到测试环境. • 测试环境可以完全复制生产环境的安全配置, 减低安全风险. • 临时EC2实例可以有效的管理计算资源,减少资源冲突,更有效 的管理计算资源的生命周期.
  12. 12. 12© Cloudera, Inc. All rights reserved. 创建开发和测试环境 生产环境 数据 应用 生产实例为生产 应用和用户提供 数据 S3 EBS 用户 生产环境 开发/测试环境 安全开发/测试 环境
  13. 13. 13© Cloudera, Inc. All rights reserved. 为突发性的ETL负载快速部署集群 利用公有云 实现ETL 商业挑战 • ETL 通常需要在短时间内处理大量数据. • 短时间内需要大量计算资源, 难以预算集群的规模. 基于共有云的解决方案 • Cloudera利用公有云中的弹性资源来满足突发性的ETL作业需求, 无论预期的还是突发的. • 隔离的ETL集群不影响生产集群的运行. 实现细节 • 当发突发性的ETL负载以及大容量的Data Ingestion操作超过企业 集群的计算能力时, 传统数据中心服务集群上运行的正常计算将 会被影响. 传统的ETL可能因此无法从突发计算中恢复,导致数据 丢失. • Cloudera在公有云中专门为单一ETL流水线部署一次性的隔离的 集群, 保证计算资源隔离,有效的避免不同负载之间相互影响.
  14. 14. 14© Cloudera, Inc. All rights reserved. 为突发性的ETL负载快速部署集群 作业数据库 Data Surge 1 数据源 S3/EBS 数据推 送到S3 2 将数据推送 到计算实例, 进行批处理 操作 3 AWS EBS Instances 4 将处理后的 数据转存回 S3 5 数据转存回HBase 应用 6
  15. 15. 15© Cloudera, Inc. All rights reserved. 备份和灾难恢复 备份作业数据库至公有云,以降低风险 私有云实例 S3 共有云实例 数据快照 1 S3 数据恢复 2 数据快照 1 数据恢复 2
  16. 16. 16© Cloudera, Inc. All rights reserved. 共有云推荐配置 以亚马逊AWS为例
  17. 17. 17© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 轻松部署长期运行的生产集群 Model vCPU Mem(GiB) Storage(GB) d2.xlarge 4 30.5 3 x 2000 HDD d2.2xlarge 8 61 6 x 2000 HDD d2.4xlarge 16 122 12 x 2000 HDD d2.8xlarge 36 244 24 x 2000 HDD Data Nodes: Master Nodes: Model vCPU Mem(GiB) Storage(GB) c3.8xlarge 32 60 2 x 320 SSD Snapshot Backups: S3 推荐较小的实例类型. 有效减 轻HDFS block report和JVM垃 圾回收的影响. Master Node 的内存大小应该 根据整个计算集群的大小来 选择, 比如c3.xlarge 实例可以 支持非常大的集群(>100 nodes). 小型集群可以适当降 低对于Master Node的要求.
  18. 18. 18© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 通过Cloudera Director部署挂载持久存储的临时计算集群. Model vCPU Mem(GiB) Storage C4.large 4 30.5 EBS (4000 Mbps dedicated) Data Nodes: Master Nodes: Model vCPU Mem(GiB) Storage (GB) c3.8xlarge 32 60 2 x 320 SSD 存储配置(带宽密集型负载,比如ETL) Volume Type Volume Size IOPS Throughput st1 500 GiB – 16 TiB 500 800 MiB/s Volume Type Volume Size IOPS Throughput io1 4 GiB – 16 TiB 20,000 800 MiB/s 存储配置 (实时负载, 比如HBase):
  19. 19. 19© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 长时间运行的Spark Streaming集群 • Spark 集群一般使用同构节点 , 没有特殊的master. Model vCPU Mem(GiB) Storage m4.2xlarge 8 32 EBS (1000 Mbps dedicated) 默认配置: Model vCPU Mem(GiB) Storage m3.2xlarge 8 61 160GB SSD 内存密集型: 计算能力和内存之间最佳平 衡配置. 比如需要缓存 RDDs/Dataframes 或者需要通过 updateStateByKey(…)函数来维护 in-memory state. Model vCPU Mem(GiB) Storage c4.2xlarge 8 15 EBS (1000 Mbps dedicated) 计算密集型: 计算密集型,机器学习算法等等.
  20. 20. 20© Cloudera, Inc. All rights reserved. Thank You
  1. 1. 1© Cloudera, Inc. All rights reserved. 公有云中的Cloudera作业数据 库 徐磊 (lei@cloudera.com) HDFS team@Cloudera, Hadoop PMC
  2. 2. 2© Cloudera, Inc. All rights reserved. 公有云中运行Cloudera作业数据库 应用场景
  3. 3. 3© Cloudera, Inc. All rights reserved. 云计算123 Cloudera Manager (CM) Cloudera的Hadoop/CDH集群管理平台. Cloudera Director (Director) Cloudera CDH公有云部署平台. Amazon AWS 亚马逊云计算服务. AWS EC2 亚马逊弹性计算服务. AWS S3 亚马逊云计算对象存储. AWS Elastic Block Storage 亚马逊弹性块设备存储服务. AWS Instance Storage 亚马逊实例存储.
  4. 4. 4© Cloudera, Inc. All rights reserved. 作业数据库 低延迟, 持久性的存储. 应用: Web 应用, 消息存储, 关键业务 的运营活动. 通用的数据仓库 从多个数据流中识别有意义的 事件, 并采取相关行动. 复杂的事务处理 结合数据和当前/历史事件预 测未来的事件 建模和预测
  5. 5. 5© Cloudera, Inc. All rights reserved. 公有云的优势 成本 • 极低成本的备份和灾 难恢复 • 快速部署和销毁开发 以及测试环境 方便 • 低成本的运行紧凑配 置和静态集群(steady state) • 弹性增长过载的集群 • 快速便捷的部署 (Provisioning) 新计算 集群, 增加计算能力, 有助于项目快速运转。
  6. 6. 6© Cloudera, Inc. All rights reserved. 公有云上运行作业数据库的架构 应用 持续运行的生产 集群 作业数据库 Cloudera Director 部署 Cloudera CM 管理/部署集群 Elastic Block Storage 作业数据库 临时开发测试集群 S3 突发批处理 当有突发批处理请求或者部署 开发集群, 通过EBS拷贝和转移 数据. 1 易于部署 (Provisioning) 2 部署开发/测 试环境 3 大数据量的突发的 批处理操作 4 低成本备份 数据源 Spark Streaming
  7. 7. 7© Cloudera, Inc. All rights reserved. 轻松部署新集群 轻松部署 商业挑战 • 企业内部部署的集群通常需要长时间的部署. 尤其是从PoC到生 产系统更是需要长期的采购流程. • 一些客户需要3-6个月来完成整套流程. 拖慢了开发进度, 遗留更 多的后续技术问题. 基于共有云的解决方案 • Cloudera Director 提供业界领先的解决方案,帮助用户迁移到公有云 之上 • 支持跨云,或者公有云和私有云之间的工作负载迁移 • 从而防止被任何一家公有云厂商套牢 实现细节 • Cloudera Director支持在共有云中快速部署生产集群. • 运用Cloudera快速按需部署产品集群, 避免长期运行. • Cloudera 培训企业员工有能力测试并判断新用例的可行性,降低项 目风险, 创造更多价值.
  8. 8. 8© Cloudera, Inc. All rights reserved. 轻松部署新集群 应用 作业数据库 EC2 Instances Director 部署 Cloud Storage 应用 EC2 Instances Direct Attached Storage Elastic Block Storage 作业数据库 实例存储 Director 部署
  9. 9. 9© Cloudera, Inc. All rights reserved. 共有云中运行Spark Streaming和作业数据库 实时处理和服务架构 可用区 应用 Ingest Streaming Data Spark Streaming运 行在独立集群 Spark Streaming 作业数据库 作业数据库运行在另 一个独立集群 两个集群运行在同 一个可用区
  10. 10. 10© Cloudera, Inc. All rights reserved. AWS 按需计费(on-demand) vs. 预留计费(reserved) Instance Type Rate Per Hour Reserved Yearly Rate On-Demand Yearly Rate Utilization Cross-over Point c4.large $0.11 $576 $920 63% c3.8xlarge $1.68 $8,691 $14,717 59% d2.xlarge $0.69 $2,952 $6,044 49% m4.2xlarge $0.48 $2,414 $4,196 58%
  11. 11. 11© Cloudera, Inc. All rights reserved. 创建开发和测试环境 开发和测试 环境 商业挑战 • 独立的开发和测试环境难以维护和配置. • 难以安全地使用实际生产数据. • 不同项目之前争夺有限的物理资源. • 拖延开发周期 基于共有云的解决方案 • Cloudera 在公有云中快速安全的部署临时开发测试环境. 实现细节 • Cloudera使用公有云快速的将生产环境数据通过EBS或者S3复制 到测试环境. • 测试环境可以完全复制生产环境的安全配置, 减低安全风险. • 临时EC2实例可以有效的管理计算资源,减少资源冲突,更有效 的管理计算资源的生命周期.
  12. 12. 12© Cloudera, Inc. All rights reserved. 创建开发和测试环境 生产环境 数据 应用 生产实例为生产 应用和用户提供 数据 S3 EBS 用户 生产环境 开发/测试环境 安全开发/测试 环境
  13. 13. 13© Cloudera, Inc. All rights reserved. 为突发性的ETL负载快速部署集群 利用公有云 实现ETL 商业挑战 • ETL 通常需要在短时间内处理大量数据. • 短时间内需要大量计算资源, 难以预算集群的规模. 基于共有云的解决方案 • Cloudera利用公有云中的弹性资源来满足突发性的ETL作业需求, 无论预期的还是突发的. • 隔离的ETL集群不影响生产集群的运行. 实现细节 • 当发突发性的ETL负载以及大容量的Data Ingestion操作超过企业 集群的计算能力时, 传统数据中心服务集群上运行的正常计算将 会被影响. 传统的ETL可能因此无法从突发计算中恢复,导致数据 丢失. • Cloudera在公有云中专门为单一ETL流水线部署一次性的隔离的 集群, 保证计算资源隔离,有效的避免不同负载之间相互影响.
  14. 14. 14© Cloudera, Inc. All rights reserved. 为突发性的ETL负载快速部署集群 作业数据库 Data Surge 1 数据源 S3/EBS 数据推 送到S3 2 将数据推送 到计算实例, 进行批处理 操作 3 AWS EBS Instances 4 将处理后的 数据转存回 S3 5 数据转存回HBase 应用 6
  15. 15. 15© Cloudera, Inc. All rights reserved. 备份和灾难恢复 备份作业数据库至公有云,以降低风险 私有云实例 S3 共有云实例 数据快照 1 S3 数据恢复 2 数据快照 1 数据恢复 2
  16. 16. 16© Cloudera, Inc. All rights reserved. 共有云推荐配置 以亚马逊AWS为例
  17. 17. 17© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 轻松部署长期运行的生产集群 Model vCPU Mem(GiB) Storage(GB) d2.xlarge 4 30.5 3 x 2000 HDD d2.2xlarge 8 61 6 x 2000 HDD d2.4xlarge 16 122 12 x 2000 HDD d2.8xlarge 36 244 24 x 2000 HDD Data Nodes: Master Nodes: Model vCPU Mem(GiB) Storage(GB) c3.8xlarge 32 60 2 x 320 SSD Snapshot Backups: S3 推荐较小的实例类型. 有效减 轻HDFS block report和JVM垃 圾回收的影响. Master Node 的内存大小应该 根据整个计算集群的大小来 选择, 比如c3.xlarge 实例可以 支持非常大的集群(>100 nodes). 小型集群可以适当降 低对于Master Node的要求.
  18. 18. 18© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 通过Cloudera Director部署挂载持久存储的临时计算集群. Model vCPU Mem(GiB) Storage C4.large 4 30.5 EBS (4000 Mbps dedicated) Data Nodes: Master Nodes: Model vCPU Mem(GiB) Storage (GB) c3.8xlarge 32 60 2 x 320 SSD 存储配置(带宽密集型负载,比如ETL) Volume Type Volume Size IOPS Throughput st1 500 GiB – 16 TiB 500 800 MiB/s Volume Type Volume Size IOPS Throughput io1 4 GiB – 16 TiB 20,000 800 MiB/s 存储配置 (实时负载, 比如HBase):
  19. 19. 19© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 长时间运行的Spark Streaming集群 • Spark 集群一般使用同构节点 , 没有特殊的master. Model vCPU Mem(GiB) Storage m4.2xlarge 8 32 EBS (1000 Mbps dedicated) 默认配置: Model vCPU Mem(GiB) Storage m3.2xlarge 8 61 160GB SSD 内存密集型: 计算能力和内存之间最佳平 衡配置. 比如需要缓存 RDDs/Dataframes 或者需要通过 updateStateByKey(…)函数来维护 in-memory state. Model vCPU Mem(GiB) Storage c4.2xlarge 8 15 EBS (1000 Mbps dedicated) 计算密集型: 计算密集型,机器学习算法等等.
  20. 20. 20© Cloudera, Inc. All rights reserved. Thank You

Mais Conteúdo rRelacionado

×