O documento discute arquiteturas de streaming e clusters de big data. Ele explica porque o streaming de dados é importante, apresenta o Apache Kafka como uma plataforma de streaming e discute as arquiteturas Lambda e Kappa. Também descreve os Clusters de Big Data do SQL Server 2019 como uma plataforma unificada para dados estruturados e não estruturados que integra fontes de dados e fornece ferramentas como Spark e HDFS.
5. Poque precisamos
de Streaming de
Dados?
https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html
Alguns insights são mais valiosos logo após a ocorrência do valor diminuir muito rapidamente com o
tempo
Novas arquiteturas permitem criar sistemas flexíveis que não são apenas mais eficientes e fáceis de
construir, mas também modelam melhor a maneira como os processos de negócios ocorrem
12. BDC é:
• Plataforma de dados unificada para abranger dados estruturados e não estruturados, integrando várias
fontes de dados em uma arquitetura robusta e escalável.
• A flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando e
armazenando.
Fornece:
• Spark, HDFS e Notebooks
É aplicável para:
• Criação de Pipelines (olhar do Ciêntista de dados).
• Ambiente de dados para IA, ML
• Processamento escalável (contêineres) com T-SQL ou Spark (PySpark)
https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview?view=sql-server-ver15
• Data Lake (aplicável para todas as camadas) Leia mais aqui