O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Practice Manager::AWS 마이그레이션 A to Z 웨비나

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio

Confira estes a seguir

1 de 38 Anúncio

대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Practice Manager::AWS 마이그레이션 A to Z 웨비나

Baixar para ler offline

빅데이터 분석을 위해 온프레미스 환경에서 대규모 하둡 클러스터를 운영하고 있는 고객은 매우 많습니다. 하지만 고객은 최근 관리 및 운영, 비용 등 다양한 어려움을 겪고 있으며, 이를 극복하기 위한 클라우드 전환을 적극적으로 검토하고 있습니다. 온프레미스 하둡을 클라우드 기반으로 마이그레이션 하기 위해 세워야 할 전략과 고려사항, 최적화를 위한 다양한 기법과 비용/성능 최적의 클러스터 구성 방안, 더 나아가서 TCO를 최적화하기 위한 구체적인 방안을 본 세션을 통해 소개드립니다.

빅데이터 분석을 위해 온프레미스 환경에서 대규모 하둡 클러스터를 운영하고 있는 고객은 매우 많습니다. 하지만 고객은 최근 관리 및 운영, 비용 등 다양한 어려움을 겪고 있으며, 이를 극복하기 위한 클라우드 전환을 적극적으로 검토하고 있습니다. 온프레미스 하둡을 클라우드 기반으로 마이그레이션 하기 위해 세워야 할 전략과 고려사항, 최적화를 위한 다양한 기법과 비용/성능 최적의 클러스터 구성 방안, 더 나아가서 TCO를 최적화하기 위한 구체적인 방안을 본 세션을 통해 소개드립니다.

Anúncio
Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Semelhante a 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Practice Manager::AWS 마이그레이션 A to Z 웨비나 (20)

Anúncio

Mais de Amazon Web Services Korea (14)

Mais recentes (20)

Anúncio

대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Practice Manager::AWS 마이그레이션 A to Z 웨비나

  1. 1. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 유철민 Data Architect AWS 박성열 Practice Manager AWS
  2. 2. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 목차 • 마이그레이션의 필요성 • 마이그레이션 전략 • 하둡 마이그레이션을 위한 Assessment • 마이그레이션 Assessment 적용 사례 2
  3. 3. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 © 2022, Amazon Web Services, Inc. or its affiliates. 마이그레이션의 필요성 3
  4. 4. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 빅데이터 시장 현황 4 1917 2030 2233 2454 2680 2835 0 500 1,000 1,500 2,000 2,500 3,000 2020 2021 2022 2023 2024 2025 국내 빅데이터 및 분석 시장 전망 * Source: IDC Semiannual Big Data and Analytics Tracker, September 2021 빅데이터 플랫폼 • 데이터 수집, 저장, 처리, 분석을 통해 새로운 인사이트 발견 • 비즈니스 가치를 만들어가는 데이터 처리 환경 시장 동향 및 전망 • 사물인터넷, 스마트 디바이스, SNS 등 활성화로 데이터가 빠르게 증가 • 경제적 가치 창출의 핵심으로 부상, 지속적 수요 증대
  5. 5. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 당면 과제 5
  6. 6. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 마이그레이션을 검토하는 배경 6
  7. 7. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 클라우드로의 마이그레이션 7 * 출처: n = 1036 AWS Customers. AWS Cloud Economics Benchmarking, 2019 비용 영향 가치 영향 27.4% 사용자 당 IT 인프라 지출 감소* 57.9% 관리자 당 관리되는 VM 수 증가* 56.7% 연간 다운타임 감소* 37.1% 새로운 서비스 출시 시간 단축* 비용 절감 (TCO) 직원 생산성 운영 탄력성 비즈니스 민첩성 What is it? 온프레미스 환경에서 클라우드로의 이동을 통한 인프라 비용 절감 What is it? 각 작업에 따른 기능별 효율성 개선 What is it? SLA 개선 및 계획되지 않은 서비스 중단을 줄이는 이점 What is it? 새로운 기능, 애플리케이션을 더 빠르게 배포, 오류 감소
  8. 8. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 AWS 기반 데이터 분석 장점 8 Amazon OpenSearch Service Amazon Aurora Amazon EMR Amazon SageMaker Amazon DynamoDB Amazon Redshift on AWS Amazon S3 확장 가능한 데이터 레이크 목적에 맞는 데이터 서비스 유연한 데이터 이동과 공유 통합 거버넌스 성능 및 비용 효율성
  9. 9. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 EMR 마이그레이션 기대효과 9 02. 성능 향상 01. TCO 절감 03. 분석 서비스 통합 마이그레이션을 통해 Spark 워크로드의 경우 1.7배 더 빠른 성능 제공 고객 워크로드를 프로파일링, 워크로드에 가장 적합하고 비용 최적화 된 인스턴스 선택 클라우드 내 다양한 분석서비스와 통합하여 분석 및 관리 가능 * IDC 백서에 따르면 EMR은 5년 간 온프레미스 Hadoop에 비해 57% 비용 절감 및 342% ROI 제공
  10. 10. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 © 2022, Amazon Web Services, Inc. or its affiliates. 마이그레이션 전략 10
  11. 11. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 마이그레이션 계획 및 절차 11 비용 예측 및 최적화 • TCO Assessment를 통한 비용 예측 • 컴퓨트, 스토리지, Application 최적화 • 비용 최적화 01 02 03 클러스터 관리 및 보안 • 클러스터 정의 • 보안 Best Practice 적용 • 인증, 인가, 암호화 • 네트워크 보안 및 감사 데이터 마이그레이션 • S3 구성 및 최적화 • On-Prem. 데이터 마이그레이션 • 데이터 카탈로그 구성 • Metastore 마이그레이션 ETL 전환 및 검증 • 잡 오케스트레이션 전환 • 워크로드 전환 • 데이터 품질 점검 • 데이터 파이프라인 점검 04
  12. 12. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 소프트웨어 전환 12 S3 HDFS 온프레미스 클라우드 Hadoop Map-reduce Jobs Tez / YARN Jobs Hive HBase Spark Jobs Hue Impala Oozie Hive Metastore Custom ETL Scripts for Data Load Presto Ambari / Monitoring Hadoop Map-reduce Jobs Tez / YARN Jobs Hive on S3 HBase Spark Jobs / Glue Athena GUI / Hive GUI Athena Airflow / Oozie Glue Catalog / Hive Metastore Glue DMS / Same Athena CloudWatch + EMR Console
  13. 13. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 소프트웨어 전환 13 Storage Amazon S3 Data management Ingestion Sqoop, Firehose, Kinesis, Database Migration Service Security Lake Formation, Ranger Workloads Low latency SQL Presto, Athena Data warehouse Spark, Hive, Glue Visualization Notebooks EMR Studio, Jupyter, Zeppelin, , MapReduce Query Console Hue, EMR Studio, Athena Other Tools ML Spark, Presto Stream Spark, Presto Governance Lake Formation Data Catalog (Hive Metastore, Glue Data Catalog) Monitoring & Management Ganglia, CloudWatch, Grafana, AWS Console Operational HBase ETL Spark, Hive, Glue Search OpenSearch
  14. 14. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 비용 최적화 14 런타임 개선 데이터 레이크 트랜잭션 Managed 스케일링 Cluster Auto-termination
  15. 15. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 아키텍처 전환 15 Master Node Master Node 컴퓨트와 스토리지 분리 • 처리 영역과 저장 영역 분리 • 컴퓨트 노드의 리소스 사용 패턴에 따른 비용 절감 (쓰지 않을 때는 노드 삭제) • HDFS의 복제 정책에 따른 디스크 용량 오버헤드 방지 • S3로 통합 시 오버헤드 비용 절감 • S3의 경우 99.999999999% 내구성 보장 스토리지 용량 최적화 • 스토리지 분리를 통한 컴퓨트 자원 탄력적 운용 • Auto-Scaling을 통한 리소스 사용량 최적화 • 사용패턴 별 Persistent / Transient 클러스터 분리 구성 자원 활용 극대화
  16. 16. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 리소스 사용 관점 고려사항 16 0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 재처리 주간 배치 미사용 리소스 활용 측면 불균형 일일 배치 사용율 패턴 불균형
  17. 17. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 컴퓨팅 및 클러스터 최적화 17 0 1 2 3 4 5 6 7 8 9 1011121314151617181920212223 일반적인 리소스 사용 현황 Usage Cost Billing Cost 리소스 사용 패턴 • 워크로드 및 Job의 특성은 복합적 • 리소스 사용 패턴 또한 복잡 예상 비용 예상 비용 • 사용 시간 및 리소스 사용량에 따라 비용 발생
  18. 18. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 컴퓨팅 및 클러스터 최적화 18 0 1 2 3 4 5 6 7 8 9 1011121314151617181920212223 Auto-Scaling 적용 Usage Cost Billing Cost 예상 비용 Auto-Scaling 적용 • Auto-Scaling을 통해 리소스 요구에 빠르게 대응 비용 절감 효과 • 처리량 증가로 더 빠른 수행 가능 • 처리량에 따라 탄력적인 리소스 활용으로 비용 절감 가능
  19. 19. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 컴퓨팅 및 클러스터 최적화 19 0 1 2 3 4 5 6 7 8 9 1011121314151617181920212223 Spot 인스턴스 사용 Usage Cost Billing Cost Spot 인스턴스 사용 • On-Demand 인스턴스 대비 Spot 인스턴스는 최대 90% 비용 절감 가능 비용 최적화 • On-Demand 인스턴스와 Spot 인스턴스를 혼용하여 사용 • 안정적 처리, 비용 절감 효과 기대 예상 비용
  20. 20. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 컴퓨팅 및 클러스터 최적화 20 0 1 2 3 4 5 6 7 8 9 1011121314151617181920212223 Transient 클러스터 활용 Usage Cost Billing Cost Transient 클러스터 활용 • 사용하지 않는 클러스터를 중지하여 해당 시간대 비용 절감 서버리스 활용 • 사용이 미비한 시간대에는 서버리스 서비스(Athena 등)를 활용하여 비용 절감 가능 예상 비용
  21. 21. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 성능 최적화 21 성능을 위한 최적의 파일 포맷 선정, S3 Prefix 및 파일 단편화 방지를 통한 처리성능 개선 오픈소스 Spark, Presto보다 빠른 성능 보장 Hive를 Spark으로 전환, 최신 버전의 컴퓨팅 엔진 적용, 파라미터 튜닝을 통한 성능 개선
  22. 22. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 EMR의 최적화 된 성능 22 Apache Spark 3.1.2보다 최대 3.1배 빠른 성능 오픈소스 Presto 0.238보다 최대 2.6배 빠른 성능 Graviton2 로 평균 11.5% 성능 향상 Graviton2 로 평균 25.7% 비용 절감
  23. 23. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 Spark 런타임 성능 23 표준 Apache Spark 대비 3배 이상 빠른 성능 (TPC-DS 3TB 벤치마크 기준) 오픈소스 API 표준을 100% 준수, EMR로 애플리케이션을 쉽게 전환 가능 Graviton2 인스턴스를 활용한 최고의 성능 제공 Dynamic Sized Executors Adaptive Join Selection Dynamic Pruning of Data Columns Early Worker Allocation Broadcast Join w/o Statistics Parallel/Async Initialization Stats Inference Data Pre-Fetch 기본적으로 성능 향상을 위한 설정 값 활성화 Intelligent Filtering Redundant Scan Elimination Operator Optimization Optimized Metadata Fetch
  24. 24. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 최적의 파일 포맷 선정 24 Feature Text Avro ORC Parquet Service Support - Amazon EMR ✓ ✓ ✓ ✓ - Amazon Redshift ✓ ✓ ✓ (through Spectrum) ✓ (through Spectrum) Block Compression X ✓ ✓ ✓ Schema Evolution X ✓ ✓ ✓ Data Storage Row Row Column Column Write Performance Fast Medium Slow Slow Read Performance Slow Medium Fast Fast
  25. 25. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 S3 Prefix 설계 25 S3 처리 특성 • PUT/POST/DELETE 실행은 초 당 3,500회 • GET 실행은 초 당 5,500회 작은 파일이 많은 경우 • 작은 파일이 다량 존재 시 “503 Slowdown” 발생 가능 • 처리 성능 저하의 원인 • S3 Prefix 활용 데이터 구조 설계 • 버킷 최대 처리량 2배 증가
  26. 26. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 파일 단편화 해결 26 단편화 된 Small 파일로 인해 I/O 처리 요청 횟수 제한 파일 Compaction을 통한 처리 성능 최적화 Run time – 26.7 seconds Run time – 2.5 seconds
  27. 27. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 애플리케이션 최적화 27 Hive 워크로드를 Spark으로 변환 • 동일 클러스터 기준 처리 시간이 60% 이상 개선 • 클러스터 규모를 60% 이상 축소 운영 가능 • 클러스터 운영 비용 60% 이상 절감 가능 최신 버전의 컴퓨팅 엔진 활용 • 최신 버전의 Spark의 경우 기존 버전 대비 처리성능 향상 • 클러스터 운영 비용 절감 기대
  28. 28. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 © 2022, Amazon Web Services, Inc. or its affiliates. 하둡 마이그레이션을 위한 Assessment 28
  29. 29. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 마이그레이션 실행을 위한 Assessment 절차 (8~12 주) 29 마이그레이션 목표 설정 • IT 및 현업 부서 모두 참여 • 마이그레이션 지원 조직 결정 • AWS 서비스 (EMR) Deep Dive 01 02 03 워크로드 수집/분석 • 하둡 워크로드 데이터 수집 • 현업/IT 부서 인터뷰 (현황 파악) • 워크로드 시각화 분석 아키텍처 설계,비용분석 • 워크로드 분석결과 반영 설계 • 마이그레이션 Effort 분석 • 마이그레이션 이후 TCO 분석 • 기술검증 PoC 대상 선정 예상 이슈 사전 검증 • 이슈 해결 방안 도출 • 실제 워크로드 대상 기술 검증 PoC 수행 04
  30. 30. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 마이그레이션 계획수립을 위한 Pre-Assessment (2 ~ 3주) 30 01. 로그 수집 02. 로그 분석 및 클러스터 설계 03. 비용 시뮬레이션
  31. 31. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 31 하둡 Application 로그 수집 수집 로그 항목 id YARN applicaton ID user Application을 실행한 user queue Application이 수행 된 YARN queue applicationType TEZ, SPARK, MAPREDUCE등 Application 유형 startedTime Application 수행 시작 시각 finishedTime Application 수행 종료 시각 elapsedTime Application 수행 시간 memorySeconds Application 메모리 사용량 vcoreSeconds Application CPU 사용량
  32. 32. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 32 애플리케이션이 현재 용량에 적절하게 사용되고 있는가? 특정 시간에 부하가 걸리고 있는 애플리케이션이 있는가? 애플리케이션 유형(MR, TEZ, Spark) 별로 리소스 사용량은? 실시간, 배치, Ad-hoc Job이 혼재되어서 수행되고 있는지? 규칙적인 배치로 수행되는 Job 이 있다면, 주기는 어떻게 되는가? 시간 주기가 긴 Job 중 리소스를 많이 사용하는 Job은 무엇인지? 오랜 시간 클러스터 리소스를 점유하고 있는 특정 Job이 있는가? 특정 조직 혹은 개인이 클러스터를 독점하고 있지는 않은가? 개발과 운영 목적 Job이 한 클러스터 내 혼재되어 운영되고 있나? Log 분석 및 클러스터 설계
  33. 33. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 33 비용 시뮬레이션 - AWS 서비스(EMR, S3) EC2 유형, Auto-Scaling, High Availability, 컴퓨팅 엔진 변경에 따른 효과, 클러스터, 계약조건(On-Demand, RI, Spot)에 따른 시뮬레이션
  34. 34. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 © 2022, Amazon Web Services, Inc. or its affiliates. 마이그레이션 Assessment 적용 사례 34
  35. 35. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 사례 1. Coupang Pay DW(Hadoop) Migration to EMR 35 60% EMR Auto-Scaling 20% Transient Cluster Hive → Spark 80% 리소스 절감 다양한 DBMS에서 수집되고 있는 데이터 변경 분 처리 방법 개선 • 중복 수집 데이터 최소화 • 일괄처리 방식 → 수시 증분처리 방식 (Hudi 적용: Insert / Update / Delete) • 유연한 워크플로우 엔진 도입 (Airflow) 기존 워크로드 분석에 기반한 최적화된 EMR 아키텍처 설계 (TCO 절감)
  36. 36. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 사례 2. 금융사 Application의 분석용 하둡 클러스터 36 최대 91% 성능 향상 87% 비용 절감 0 200 400 600 cloudz(hive) EMR hive EMR Spark workload1 workload2 단위: sec 85% cloudz(hadoop) EMR EMR S3 cloudz(hadoop) On-Premises Hadoop 월 비용 87% 절감 91% On-Premises Hadoop On-Premises Hive
  37. 37. © 2022, Amazon Web Services, Inc. or its affiliates. 여러분의 소중한 피드백을 기다립니다. 행사 종료 후 설문조사에 참여해 주십시오. © 2022, Amazon Web Services, Inc. or its affiliates. 37
  38. 38. © 2022, Amazon Web Services, Inc. or its affiliates. 대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개 Thank you! © 2022, Amazon Web Services, Inc. or its affiliates. 38

×