O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Big Data Week São Paulo 2017

268 visualizações

Publicada em

BIG DATA, O PODER DA INFORMAÇÃO, SEUS CASOS DE USO E PRINCIPAIS ARQUITETURAS.

Palestra sobre o poder da Informação e como os dados estão revolucionando o mundo. Quais os principais casos de uso dos gigantes de Telecom e E-Comerce, e arquiteturas que eles utilizam.

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Big Data Week São Paulo 2017

  1. 1. Thiago Santiago Big Data e Hadoop O poder da informação BIG DATA WEEK SÃO PAULO 2017 BigData, Casos de Uso dos gigantes e arquiteturas...
  2. 2. Thiago Santiago tsantiago@hortonworks.com@ https://www.linkedin.com/in/thiagosantiago/ https://twitter.com/thiagos25 https://github.com/Thiagos25 Solutions Engineer @ Hortonworks
  3. 3. The Buzzword… 3
  4. 4. BigData Implícito 4
  5. 5. 5
  6. 6. O Big Data procura responder a perguntas como: Por quê? E se? O que acontecerá? Como otimizar? E fornecer novos insights O intuito final é apenas um: dominar a informação! Veracidade e Valor Os pilares 6
  7. 7. Informação é poder 7
  8. 8. 8
  9. 9. 9
  10. 10. Informação é poder 10
  11. 11. ? Quantas vezes Homens e mulheres no Tinder movem seus dedos para a esquerda e direita nas telas de seus dispositivos por minuto? … A cada minuto no mundo... 11
  12. 12. Papa Bento Papa Francisco A mudança de era… 12
  13. 13. Algo interessante está acontecendo… 13
  14. 14. 8ZB DATAINTERNET OF ANYTHING 44ZB DATA 2020 Byte Kilobyte (KB) Megabyte (MB) Gigabyte (GB) Terabyte (TB) Petabyte (PB) Exabyte (EB) Zettabyte (ZB) Quanto de informação o mundo possui? 14
  15. 15. Como analisar essa quantidade de dados? 15
  16. 16. https://pt.wikipedia.org/wiki/Hadoop Plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. Foi inspirada no MapReduce e no GoogleFS (GFS). Trata-se de um projeto da Apache de alto nível, que vai sendo construído por uma comunidade de contribuidores Java. O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa plataforma intensivamente em seus negócios. Hadoop 16
  17. 17. O que é MR? 17
  18. 18. Evolução do Hadoop 18
  19. 19. Players 19
  20. 20. 20 The Forrester Wave™: Big Data Warehouse, Q2 2017 Hortonworks delivers a viable open source BDW platform. Hortonworks delivers actionable intelligence from all kinds of data-in-motion and data-at-rest. Through its open source strategy, Hortonworks continually evolves its offering by working closely with partners across the EDW ecosystem of tools and vendors. The vendor provides a cost-effective, nimble, and scalable architecture to implement big data warehouses, whether on-premises or in the cloud. All of the technology built into the Hortonworks Data Platform is an Apache open source project. Enterprises like Hortonworks' storage and compute processing, broad data ingestion, data governance, and open source support when deploying BDW, but they claim it lags in data transformation and data modeling capabilities.
  21. 21. HDP HDF Data Science IT Systems & Ops O DataLake 21
  22. 22. Hadoop Resources Existing Resources Architect Training Data Architect Hadoop Architect Hive TrainingBI Analyst Hadoop Analyst Developer Training Developer (Java/Scripting, Python, Ruby, etc…) Hadoop Developer Admin Training Linux/Windows Administrator Cluster Ops & Admin O Caminho do Conhecimento
  23. 23. Hortonworks Data Flow 3.0 23
  24. 24. Hortonworks Data Platform 2.6 24
  25. 25. O Ecossistema Hadoop 25
  26. 26. 26 Kappa Arquitetura Lambda
  27. 27. Watch Towers Limited Entry Points Moat Kerberos High Hard Walls Check Identity Inner Walls Firewall HDFS Encryption LDAP/AD HDP 2.6Apache Knox Apache Ranger Como proteger seu elefante? 27
  28. 28. Apenas um dos vários clusters Hadoop operados pela empresa abrange mais de 4.000 máquinas. Facebook Messager no Apache Hadoop HBase platform para suportar bilhões de mensagens por dia. Usam Hive para os reports e análise de grandes conjuntos de dados. O que fazem os grandes com Hadoop? 28
  29. 29. Foi o primeiro a oferecer a opção “outros que compraram isso, compraram também…”, obtendo instantaneamente vantagem competitiva com relação a seus concorrentes; + 20% de vendas! O que fazem os grandes com Hadoop? 29
  30. 30. Utiliza Hadoop para sugerir automaticamente conteúdo a seus usuários baseado no que foi assistido anteriormente. Talvez o melhor exemplo de sucesso de Big Data, o Netflix passou a não somente oferecer sugestões de conteúdo similar, mas sim produzir conteúdo direcionado para as preferências das massas, de acordo com o que vem “aprendendo” ao longo dos anos. O que fazem os grandes com Hadoop? 30
  31. 31. “Aprende” sobre a rotina diária das pessoas, e sugere automaticamente meios de transporte, restaurantes, opções de entretenimento, entre outras coisas, baseando-se no comportamento individual de cada um. O que fazem os grandes com Hadoop? 31
  32. 32. Analisa em tempo real a situação do trânsito das cidades, e sugere o caminho mais rápido, baseado no feedback dos usuários e de análises de velocidade de deslocamento informados automaticamente pelos dispositivos conectados; O que fazem os grandes com Hadoop? 32
  33. 33. O site de namoro online recentemente atualizou seu ambiente na nuvem, usando Hadoop e os processadores Intel Xeon E5 para analisar um volume massivo e variado de dados. A tecnologia ajuda a eHarmony a disponibilizar novas combinações a milhões de pessoas diariamente. O novo ambiente cloud acomoda análises mais complexas, criando resultados mais personalizados e aumentando a chance de sucesso nos relacionamentos. O que fazem os grandes com Hadoop? 33
  34. 34. Análise de logs em tempo real O que fazem os grandes com Hadoop? menções honrosas Análise Patológica 34
  35. 35. Call Detail Records Product Catalogs Cyber Threat Metadata Sensor Data Server Logs Voice-to-Text SINGLE VIEW OF THE CUSTOMER CHURN REDUCTION CDR ANALYSIS NETWORK OPTIMIZATION DYNAMIC BANDWIDTH ALLOCATION Clickstream ERP System Data Social Media Billing Data Subscriber Profiles CRM Records Casos de Uso: Telecom 35
  36. 36. Defect Testing Data Product Designs MES Systems RFID Streams SCADA Systems Shop Floor Sensors PREVENTATIVE MAINTENANCE SUPPLY CHAIN OPTIMIZATION YIELD MAXIMIZATION QUALITY CONTROL RECALL AVOIDANCE ERP Systems Supplier Receipts Machine Data Assembly Line Sensors Data Historians Work Orders Casos de Uso: Chão de Fábricas 36
  37. 37. ERP Data Warranty Data Geo Tracking Infotainment Metadata SCADA Systems Social Media Streams PREVENTATIVE MAINTENANCE SUPPLY CHAIN OPTIMIZATION MANUFACTURING YIELDS MAXIMIZATION QUALITY CONTROL NEW PRODUCT PLANNING ERP Systems Defect Testing Data Machine Data Data Historian s Product Design Docs Service Record s Casos de Uso: Setor Automotivo 37
  38. 38. OFAC Lists Credit Records ATM Streams Transactions & Wires Stock Tickers Trade Settlements DIGITAL CUSTOMER 360 RISK DATA AGGREGATIO N ANTI-MONEY LAUNDERING FRAUD DETECTION TRADE SURVEILLANCE Mobile App Data Trade Data Web Logs Banker Notes Demographic Data Customer Transactio n Data Casos de Uso: Setor Financeiro 38
  39. 39. Product Catalogs Sales Forecasts Beacons & RFID Server Logs In-Store WiFi Logs Store Communicatio ns SINGLE VIEW OF THE CUSTOMER PRODUCT RECOMMENDATION S INVENTORY & SUPPLY CHAIN PRICING OPTIMIZATIO N TARGETED PROMOTIONS Clickstream ERP Data Social Media Staffing Plans Store Reporting CRM Records Casos de Uso: Comercio Eletronico 39
  40. 40. Historical Archives Cyber Threat Metadata Vehicle Telemetry Data Disease Outbreaks Natural Disasters PUBLIC TRANSPORTATION INFRASTUCTURE MAINTENANCE PUBLIC HEALTH NATIONAL DEFENSE HOMELAND SECURITY Social MediaWork Orders Meeting Notes Voter Rolls Public Benefits Claims Financial Audits Extreme Weather Alerts Casos de Uso: Setor Publico 40
  41. 41. Asset Data Customer Surveys Weather & Environmental Service Fleet GPS Data Smart Meter Streams Commodity Prices REVENUE PROTECTION SINGLE VIEW OF CUSTOMER PREDICTIVE EQUIPMENT MAINTENANCE CONSERVATION VOLTAGE REDUCTION COMMODITY TRADING Social Media GIS Data SCADA Outage Histories CIS Records EDW Casos de Uso: Setor Energético 41
  42. 42. Research Cohort Data Molecula r Data RFID Data Social Media Biometrics Sensor Data DRUG TRIAL COHORT SELECTION YIELD OPTIMIZATION RAW MATERIAL WASTE REDUCTION SEARCHABLE RESEARCH REPOS NEXT-GEN SEQUENCING (NGS) Supply Chain Geo-location Data Scientific Studies Manufacturing Machine Data Clinical Records Sales Report s Genomic Data Casos de Uso: Setor Farmacêutico 42
  43. 43. Patient Records Lab Data Pharmacy Data Patient Locations Wearable s Intra-Network Data Sensor Data Claims Data Social Media Physician Notes Patient Satisfaction Data Clinical (EMR) Data SINGLE VIEW OF PATIENT REAL-TIME VITAL SIGN MONITORING BILLING & REIMBURSEMENTS EMR OPTIMIZATION SUPPLY CHAIN OPTIMIZATION Casos de Uso: Saúde 43
  44. 44. Catastrophic Event Data Customer Onboarding Data Seismic Data Biometrics Data Usage-Based Driver Data Cyber Threat Metadata RISK & UNDERWRITING ANALYSIS USAGE- BASED INSURANCE CLAIMS ANALYTICS NEW PRODUCT DEVELOPMEN T CYBER RISK ANALYTICS Drones & Aerial Imagery Claims Docs, Notes & Diaries Weather & Environment Underwritin g Analysis Policy Histories Photos Casos de Uso: Setor Seguros 44
  45. 45. Market Research Studies CRM Records Online Transaction s Social Media Streams Impressions Video Consumption Logs CUSTOMER SEGMENTATION ONLINE AD PLACEMENT PRODUCT RECOMMENDATIONS TARGETED PROMOTION S VIDEO SYNDICATION Sensor Data Product Catalogs Server Logs Clickstream s Customer Surveys Sales Report s Casos de Uso: Propaganda e Marketing 45
  46. 46. Cyber Security Metadata Sales Forecasts Mobile Device Geo- Location Server Logs User Activity Events Network Logs NEW PRODUCT DEVELOPMENT QUALITY ASSURANCE CUSTOMIZATION & PERSONALIZATION CYBER SECURITY REAL-TIME USAGE MONITORING Clickstream s CRM Records Social Media Streams Sprints & Backlogs User Testing Historical Audit Trails Casos de Uso: Setor Software Factory 46
  47. 47. 47
  48. 48. Flink Spark BigData ou Pokemon? 48
  49. 49. Jirachi BigData ou Pokemon? 49
  50. 50. Pangol MapReduce BigData ou Pokemon? 50
  51. 51. Akiban Data Base BigData ou Pokemon? 51
  52. 52. Spoink BigData ou Pokemon? 52
  53. 53. Seahorse Spark BigData ou Pokemon? 53
  54. 54. Summingbird Storm BigData ou Pokemon? 54
  55. 55. https://www.linkedin.com/in/thiagosantiago/

×