SlideShare uma empresa Scribd logo
1 de 46
Dados e seu
Universo de
Informações
“O futuro pertence aos
que transformam dados
em insights poderosos.”
Introdução
"Vivemos em uma era movida por dados. Cada vez mais,
informações são geradas, coletadas e armazenadas em uma
escala exponencial. Os dados são o novo combustível que
impulsiona a inovação, a tomada de decisões estratégicas e o
sucesso dos negócios. Nesta apresentação, exploraremos a
importância dos dados, seu valor como ativo estratégico e
como as empresas podem aproveitar o poder dos dados para
impulsionar seu crescimento, otimizar processos e obter
vantagem competitiva. Prepare-se para descobrir como os
dados estão moldando o futuro e como você pode aproveitar
essa revolução dos dados para transformar seu negócio."
Quem sou
EU!
Stanley Ligero
Gerente de
Big Data, Engenheiro de Dados, Cientista de
Dados, Business Inteligence(B.I), Advanced
Analitics, Data Visualization, Planejamento
Estratégico, M.I.S…
Fontes de Dados
01 02
03
04
Índice
Dados.
 Dado?
 Explorando o Lado Cômico dos Dados.
 O que é dado?
 Dispositions de Armazenamento.
Estrutura de Dados
 A importância dos dados e tecnologias na era
digital?
 Acesso generalizado à internet e uso de
dispositivos conectados.
 Avanço tecnológico e digitalização de
processos.
 O Crescimento Exponencial dos Dados!
 Valor dos Dados.
 Desafios dos Dados na Era Digital.
Data Driving
 Data Structure.
 Pirâmide de Dados.
 Tipos de Estruturas de Dados.
 Data Driven Decision Management.
 Curva de Maturidade no uso de Dados nas Organizações.
 Jornada Data Driven.
 Visão data Driven.
 Estrutura de Implantação.
 Squad de Dados.
 Lakehouse.
 Big data Land Scape.
05
06
Profissões
 Comparativo das Profissões.
Ecosystem
 TimeLine Big Data.
 Apache Hadoop.
 Big Data Land Scape.
 Arquitetura.
07
Fornecedores Cloud
 Líderes do Mercado.
 AWS.
 Azure.
 Google.
01
Dado?
Introdução aos dados e sua
importância no mundo atual.
"Além dos 6
Lados: Explorando
o Lado Cômico
dos Dados"
"Enquanto o dado de 6 lados pode trazer sorte
ou azar em um jogo, lidar com os dados nos
dias atuais é como jogar um jogo muito mais
complexo. Com enormes volumes de
informações sendo gerados a cada segundo, é
preciso ter habilidades analíticas afiadas para
rolar esses dados digitais e descobrir os
padrões e insights escondidos nas suas faces
de bits e bytes."
O que é Dado?
Em sua forma mais simples, um dado
pode ser um número, uma palavra, um
caractere ou um conjunto de
caracteres.
Por exemplo, o número "10", a palavra
"casa", o caractere "A" e a sequência
de caracteres "Olá, mundo!" são todos
exemplos de dados.
Dado, em termos gerais, pode ser definido como uma representação simbólica ou quantitativa de uma informação.
É uma unidade básica de informação que pode ser registrada, armazenada e
processada por computadores ou outros sistemas de informação:
Dispositivos de
Armazenamento.
80kb 1,44MB
360kb
Fontes
de Dados
02
Principais fontes de dados na era
digital.
A importância
dos dados e
tecnologias na
era digital?
A era digital é caracterizada pelo avanço
tecnológico e pela crescente digitalização de processos
em todos os aspectos da sociedade.
Ela representa uma transformação significativa na
forma como interagimos, comunicamos,
seguimos, adoramos e realizamos negócios.
Acesso generalizado à internet e
uso de dispositivos conectados
Com o avanço das tecnologias, como internet, dispositivos móveis, computação em
nuvem, inteligência artificial e Internet das Coisas (IoT), a digitalização se tornou uma
realidade em vários setores. Isso resultou em uma maior conectividade entre pessoas,
empresas e objetos, criando uma rede global de informações e permitindo o acesso
instantâneo a uma enorme quantidade de dados.
A digitalização dos processos nas organizações trouxe benefícios como a automatização
de tarefas, aumento da eficiência operacional, melhoria na comunicação interna e externa,
expansão de mercados por meio do comércio eletrônico, entre outros. Empresas que se
adaptaram e aproveitaram as oportunidades da era digital ganharam uma vantagem
competitiva significativa.
No contexto das organizações, a era digital apresenta adaptação e transformação digital.
As empresas precisam se reinventar e incorporar tecnologias e estratégias digitais para se
manterem competitivas. A coleta, análise e interpretação de dados são essenciais para
compreender o mercado, antecipar tendências, tomar decisões embasadas e oferecer
produtos e serviços personalizados.
Em resumo, a era digital representa uma mudança profunda na sociedade e nas
organizações, impulsionada pelo avanço tecnológico, digitalização de processos, acesso à
internet e uso de dispositivos conectados. É fundamental compreender e aproveitar as
oportunidades oferecidas pela era digital para se adaptar, inovar e prosperar nesse novo
contexto.
Avanço tecnológico e
digitalização de processos
Industria 4.0
Agro 4.0
O avanço da tecnologia tem trazido mudanças significativas para a
sociedade, seja em casa ou no trabalho.
Falar de mudanças da última década é falar da Indústria 4.0, ou a
quarta revolução industrial, tomada pela digitalização, conectividade,
internet das coisas e máquinas ensinadas a pensar.
Saúde 4.0
A inovação na saúde tem sido cada vez mais possível por conta dos
novos recursos digitais e da maior facilidade ao acesso a informações,
que podem ajudar na oferta de serviços mais humanizados e
qualificados.
O conceito da Agricultura 4.0 está diretamente ligado ao da
Agricultura de Precisão , mas enquanto esta última tem o foco em
otimizar a produção para trazer precisão aos processos de preparo,
aplicação, plantio e colheita, a Agricultura 4.0 é um segmento mais
generalizado para abranger as diversas etapas de trabalho, incluindo
a gestão, a pré e a pós-produção, como aplicativos para compra e
controle de instrumentos e insumos necessários para o trabalho.
O Crescimento Exponencial dos
Dados!
Fonte: “AllAccess.com” e “ Lori Lewis”
2020
2021
As mensagens pelo
Facebook Messenger e
WhatsApp por minuto
passaram de 59
milhões para 69 milhões.
As mensagens
de texto do
iPhone por
minuto
aumentaram
de 19 milhões a
cada minuto
para 21,1
milhões.
E o maior salto foi do
Tiktok –
de 1.400 downloa
ds por minuto
para 5.000 (mais
de 3,5 vezes
mais).
Os snaps criados no
Snapchat por
minuto
aumentaram
de 2,5
milhões para 3,4
milhões.
As compras on-line
por minuto
aumentaram
de US$ 1,1
milhão para US$
1,6 milhão.
As visualizações no
Twitch por
minuto
aumentaram
de 1,2
milhão para 2
milhões
.
Valor dos Dados
Os dados são um recurso valioso para as empresas na era digital. Eles permitem a captura de informações
relevantes sobre o negócio e o mercado. Com uma análise adequada, os dados fornecem insights que
impulsionam a tomada de decisões estratégicas, a inovação e a vantagem competitiva.
Ao analisar os dados, as empresas obtêm informações sobre os clientes, suas emoções e necessidades. Isso
possibilita a personalização de produtos, campanhas de marketing direcionadas e melhorias na experiência do
cliente.
Os dados também evidenciam padrões e tendências no mercado, permitindo que as empresas se adaptem e
inovem. Identificar as necessidades não atendidas dos clientes e desenvolver soluções inovadoras são
benefícios fornecidos pela análise de dados.
Além disso, a coleta e análise de dados ajudam as empresas a tomar decisões embasadas, otimizar processos
internos, reduzir custos e melhorar a eficiência operacional.
A análise de dados também fornece insights valiosos que diferenciam as empresas dos concorrentes.
Compreender os clientes, seus hábitos e possibilitar a criação de ofertas únicas e relevantes, destacando-se no
mercado.
Em resumo, os dados são um recurso valioso. Eles impulsionam a tomada de decisões, identificam padrões e
tendências, proporcionam vantagem competitiva e promovem a inovação nas empresas. A habilidade de
coletar, analisar e utilizar efetivamente os dados é fundamental para o sucesso na era digital.
Desafios dos Dados na Era Digital
Qualidade dos
dados
Diversidade dos
dados
Garantir a qualidade
dos dados é um
desafio crucial. Os
dados podem conter
erros, duplicatas,
valores ausentes ou
inconsistentes, o que
pode impactar a
análise e as decisões
tomadas nesses
dados. A limpeza, a
padronização e a
validação dos dados
são tarefas
complexas, mas
essenciais para obter
acompanhamento.
As organizações enfrentam o
desafio de proteger as
informações contra acessos não
autorizados, em meio à
crescente preocupação com a
privacidade e segurança dos
dados. Além disso, a
conformidade com
regulamentações de proteção
de dados, como o GDPR, impõe
desafios adicionais na gestão e
uso adequado das informações.
No entanto, a era digital
também oferece oportunidades
para inovação e identificação de
novos negócios.
Privacidade e
segurança dos dados
Os dados estão disponíveis em
diversos formatos, estruturas e
fontes. Podem ser protegidos
(como bancos de dados
tradicionais), semiestruturados
(como arquivos XML) ou não
protegidos (como e-mails,
vídeos e mídias sociais). Além
disso, esses dados podem
originar-se tanto de fontes
internas da organização, como
sistemas internos, quanto de
fontes externas, como redes
sociais e sensores. Lidar com
essa diversidade requer o uso
de técnicas e ferramentas
adequadas para integrar,
transformar e analisar
diferentes tipos de dados.
Com o avanço
tecnológico, as
organizações estão
enfrentando um
aumento significativo
no volume de dados.
Isso requer
infraestrutura e
capacidade de
processamento
padronizado para lidar
com essa quantidade
massiva de
informações
disponíveis.
Velocidade de
geração dos dados
Com a era digital, a
geração de dados em
tempo real se tornou
uma realidade.
Sensores, dispositivos,
transações online e
redes sociais móveis
estão gerando
informações constantes
em uma velocidade
incrível. As
organizações enfrentam
o desafio de processar e
analisar esses dados
em tempo real para
obter insights
relevantes e tomar
decisões ágeis.
Volume massivo de
dados
Estruturas
dos Dados
03
Captação de informações relevantes
para tomada de decisões.
Data Structure
"A pirâmide de dados é uma
representação visual da hierarquia dos
dados, desde os dados brutos na base
até as informações valiosas no topo. É
uma ferramenta útil para entender a
importância da organização,
integração e análise dos dados para
obter insights impressionantes."
Conhecimento
Pirâmide de Dados
Sabedoria
Os dados não estruturados
não seguem um formato
predefinido e
Processamento das
informações com uma
intenção e utilidade.
Informação
Dados Dados processados com
significado que pode
modificar o conhecimento
Registros observados
ou medidos que podem
gerar informação.
Tipos de Estruturas de Dados
Estruturados
Cada campo de dados tem
um formato definido, onde o
formato é aceito pelo campo.
Dados de um mesmo registro
possuem relação entre eles.
Registros possuem valores
diferentes, mas mesmo
atributo.
Atributos ou campos são
definidos por um esquema.
Ex: Banco de Dados.
Semi-Estrturuados
Cada campo de dados tem
uma estrutura, não existe
uma imposição de formato.
O esquema é criado com a
definição de elementos
internos dos arquivos(nós),
legíveis para seres humanos.
Ex: XML, JSON, RDF,OWL.
Não Estruturados
Mais de 80% dos dados
gerados no mundo´vem
desse modelo.
Ex:
Textos,arquivos,documentos,
imagens,video,áudio, redes,
sociais.
Data Driving
04
Programação Orientada a Dados
DDDM – Data Driven Decision
Management – cultura, gestão, execução
Data driven é um adjetivo que qualifica processos
orientados por dados, ou seja, embasados na coleta e
análise de informações. No mundo dos negócios,
significa colocar os dados no centro da tomada de
decisão e do planejamento estratégico, buscando
fontes confiáveis ao invés de gerir a empresa por
intuição.
O termo data driven pode ser traduzido para
“orientado a dados” e tem origem no conceito de
ciência de dados.
Basicamente, essa ciência multidisciplinar usa métodos
científicos, processos e algoritmos para extrair
conhecimento de dados estruturados e não
estruturados.
A ideia é usar a análise computacional (analytics) de
grandes volumes de dados (Big Data) para solucionar
problemas e obter insights, valendo-se de tecnologias
em inteligência artificial e machine learning.
Curva de Maturidade no uso de
Dados nas Organizações
As empresas podem ser identificadas a partir de cinco níveis
evolutivos de maturidade no uso de dados:
a)Data-Resistant (ou Data-Negation): O mantra deste tipo de
empresa é “nós sempre fizemos dessa maneira”. Neste tipo de
empresa não há coleta sistemática de dados e decisões são empíricas
e individualizadas;
b)Data-Aware (ou Data-Curious): Aqui dados são coletados sem uma
estratégica clara de propósito. Não há uma arquitetura de informação
orientada a dados definida. Empresas neste estágio possuem
sistemas de ERP, CRMs e Relatórios operacionais. A maioria das
empresas brasileiras se encontra neste nível;
c)Data-Guided: Início de análises descritivas e exploratórias. Dados
coletados com indicadores de desempenho definidos que apresentam
resultados passados. Uso de sistemas de business intelligence com
decisões colegiadas;
d)Data-Savvy: Dados são coletados e enriquecidos sistematicamente,
com alta qualidade das fontes de informação e processamento em
alta velocidade. Geração automática de recortes para análises
preditivas e prescritivas. Decisões humanas, baseadas em métricas
estatísticas robustas;
e)Data-Driven: Estado da arte na gestão orientada a dados. Dados
coletados e enriquecidos sistematicamente com decisões executadas
de modo automático ou semi-automático, por mecanismos de
inteligência artificial com grande nível de transparência.
“Se uma empresa coleta dados sem ter um objetivo ou uma estratégia
de utilização, estas informações serão, na maioria dos casos, inúteis”.
Jornada Data Driven
Data Driven
Estrutura Implantação
Construção
Data Lake
Provisionamento de Infraestrutura
Squad de Dados
Engenharia
de Dados
Data lakehouse: o avanço do
gerenciamento de dados
Seu processamento analítico é
executado em dados que foram
preparados para análise: reunidos,
contextualizados e transformados
com o objetivo de gerar informações
baseadas em análise.
Os data lakes são repositórios para
dados brutos em uma variedade de
formatos, como dados de aplicativos
de linha de negócios, aplicativos
móveis, mídias sociais, dispositivos
IoT, etv.
O lakehouse é um novo paradigma de
gerenciamento de dados que simplifica
radicalmente a infraestrutura de dados
corporativos e acelera a inovação em um
período histórico em que o aprendizado de
máquina está em alta em diversos setores.
Ecosystem
05
O ecossistema de Big Data !!!
Big Data
"Big Data é o termo utilizado para descrever
a grande quantidade de dados que são
gerados e coletados diariamente, em
diversas fontes e formatos. Com o aumento
exponencial dos dados, tornou-se
necessário desenvolver tecnologias capazes
de lidar com esse volume massivo de
informações. Nesse contexto, o Hadoop se
destacou como uma das principais
ferramentas para processar, armazenar e
analisar Big Data."
Timeline Big Data
O que é Big Data?
Big data é um termo que designa uma grande quantidade de dados gerados a cada
segundo. Porém, não é exatamente a quantidade de dados que importa e sim o potencial
desses dados de serem analisados e cruzados pelas empresas. Assim, nada mais é que
o ato de uma empresa, de qualquer segmento, extrair informações importantes de dados
externos e usá-los para montar uma estratégia ou facilitar a tomada de decisão.
Os dados do big data podem ser classificado em 3 categorias:
 Estruturados - São dados que podem ser armazenados, acessados ​​e
processados ​​em formato fixo.
 Não estruturados - Encaixam-se nestas categorias todos os dados com forma ou
estrutura desconhecida – que é, como vimos, a maioria deles.
 Semi-estruturados - Digamos que você tirou uma foto do seu gato com o celular. Ele
registra automaticamente a hora em que a foto foi tirada, os dados do GPS no
momento da captura e o ID do seu dispositivo, entre outros.
6Vs
do
Big
Data
Apache Hadoop
Ao contrário de sistemas de gerenciamento de banco de
dados relacionais tradicionais, você não tem que esquemas
estruturados criados antes de armazenar dados. Você pode
armazenar dados em qualquer formato, incluindo formatos
semiestruturados ou não estruturados, e em seguida, analisar
e aplicar esquema para os dados quando ler.
Hadoop é fundamentalmente resistente quando
um nó falha de processamento é redirecionado
para os nós restantes no Cluster e os dados são
automaticamente re-replicado em preparação
para falhas de nó futuras.
Tratamento de dados local para cada
nó em um Cluster Hadoop permite
armazenar, gerenciar, processar e
analisar dados em escala petabyte.
Ao contrário de software proprietário, o Hadoop é open
source e é executado em hardware commodity de
baixo custo.
Código aberto é o código-fonte que é
disponibilizado gratuitamente para consulta,
examinação, modificação e redistribuição.
Escalabilidade Open-Source
Confiabilidade Baixo Custo
Flexibilidade
Big Data Land Scape
Primeira Versão
2012
A primeira versão dessa visualização apareceu no ano
de 2012. E embora o conceito de colocar um monte de
logotipos em um slide permaneça o mesmo; a explosão
de categorias, empresas e tecnologias é um lembrete
claro de quão longe chegamos.
No domínio da infraestrutura de dados : a pilha de
dados moderna se tornando popular, o paradigma ETL
se tornando ELT, engenharia de dados automatizada,
ascensão do analista de dados, fusão de Data Lakes
e Data Warehouse e a complexidade das
arquiteturas analíticas.
No domínio da análise e ML/AI : a ascensão das
plataformas ML, a IA sendo incorporada a mais
produtos, o campo da ciência da decisão e os avanços
no NLP.
Em termos de visualização propriamente dita, foi
adicionada uma nova categoria, Data Governance,
preenchida por empresas como Soda Data, Monte
Carlo e Talend.
Big Data Land Scape Última Versão 2023
Arquitetura Código Aberto
 Pontos de extremidade HTTP / MQTT para
ingestão de dados e também para veiculação
dos resultados. Existem várias estruturas e
tecnologias para isso.
 Fila de publicação / sub-mensagem para a
ingestão de dados de streaming de alto volume.
Kafka é atualmente a escolha mais comum no
ambiente On Premise.
 Armazenamento de dados de alto volume e
baixo custo para data lake (e data warehouse),
Hadoop HDFS ou armazenamento de blob em
nuvem como o AWS S3 ou Azure Blob.
 Infraestrutura de consulta e catálogo de dados
para converter um data lake em um data
warehouse, o Apache Hive é uma opção
popular de linguagem de consulta.
 Mecanismo de computação em lote de redução
de mapa para processamento de alto
rendimento, por exemplo Hadoop MapReduce e
Apache Spark.
 Streaming de dados, por exemplo Apache
Storm, Apache Flink. O Apache Beam também
surgiu como a opção para fluxo de dados.
 Estruturas de aprendizado de máquina para
ciência de dados e ML. O Scikit-Learn, o
TensorFlow e o PyTorch são uma opção popular
para implementar e treinar modelos.
 As opções de orquestração de implantação são
Hadoop YARN, Kubernetes / Kubeflow.
Os principais componentes da arquitetura e tecnologia de big data
são os seguintes:
Arquitetura Cloud - AWS
Com o computador por serviço, é possível criar ambientes mais rapidamente e otimizar os custos, substituindo componentes
de arquitetura por serviços equivalentes em provedores de serviços em nuvem. As arquiteturas típicas de pipelines de big
data na Amazon Web Services, Microsoft Azure e Google Cloud Platform (GCP) são semelhantes à arquitetura geral de big
data suportadas anteriormente. Esses pipelines fornecem referências para selecionar tecnologias e opções adequadas às
necessidades específicas do usuário. Ao adotar essas arquiteturas em nuvem, as empresas podem considerar suas soluções
de big data com maior eficiência e escalabilidade.
Arquitetura Cloud - Azure
Os principais componentes da arquitetura e tecnologia de big data são os seguintes:
Arquitetura Cloud - Google
Os principais componentes da arquitetura e tecnologia de big data são os seguintes:
06
Profissões
relacionadas
Perspectivas profissionais!
Comparativo das Profissões
Comparativo das Profissões
07 Cloud
Conhecimentos Fundamentais:
Principais Fornecedores
Ao decidir pela melhor plataforma em nuvem para uma empresa, é essencial
analisar e considerar diversos aspectos. Cada provedor, seja AWS, Azure ou
Google Cloud (GCP), possui características e recursos específicos que podem
atender às necessidades particulares de cada cliente. Aqui estão alguns aspectos
essenciais a serem considerados:
1. Requisitos específicos da empresa: Avalie as necessidades e objetivos da
empresa. Considere o tipo de aplicativos, dados e cargas de trabalho que
precisam ser executados na nuvem.
2. Desempenho e escalabilidade: verifique a capacidade de cada provedor para
lidar com picos de demanda e garanta alta disponibilidade e desempenho
escalável.
3. Preço e custos: Compare os modelos de preços dos provedores e analise
como eles se alinham ao orçamento da empresa.
4. Segurança e conformidade: Avalie as medidas de segurança e conformidade
oferecidas por cada provedor para garantir que seus dados e informações
sejam protegidos.
5. Ecossistema e integração: Verifique se os serviços oferecidos pelo provedor
podem ser facilmente integrados às tecnologias e sistemas existentes da
empresa.
6. Casos de uso e estudos de caso: Analise casos de uso semelhantes de outras
empresas que optam por um provedor específico e avalie se as soluções
oferecidas atendem aos seus objetivos.
7. Suporte técnico e documentos: Considere a qualidade e disponibilidade do
suporte técnico oferecido pelo provedor, bem como a disponibilidade de
documentos e recursos de aprendizado.
8. Localização dos data centers: Verifique a localização dos data centers do
provedor, especialmente se a localização geográfica dos servidores é um
fator importante para a empresa.
Muitas empresas estão adotando uma abordagem híbrida, combinando recursos de
diferentes provedores e ambientes, para obter uma solução de alta disponibilidade e
capacidade operacional. Essa abordagem pode ser satisfatória, permitindo que a
empresa tire vantagem das melhores características de cada provedor.
Em resumo, a decisão pela melhor plataforma em nuvem para a empresa deve ser
baseada em uma análise detalhada das necessidades e objetivos específicos,
considerando os aspectos de desempenho, escalabilidade, segurança, custos e
integração. Cada provedor tem seus pontos fortes e fracos, e a escolha final
dependerá das exigências únicas de cada empresa. É essencial fazer uma avaliação
para garantir que a decisão seja a mais adequada para o sucesso a longo prazo da
empresa.
Amazon Web Services -AWS
A AWS é uma excelente escolha para uma ampla gama de cargas de trabalho,
desde analíticas e web até migrações de data center em grande escala. Ela
oferece uma variedade impressionante de serviços que atendem às diferentes
necessidades dos clientes.
No aspecto de computação, a AWS disponibiliza a maior variedade de tipos de
máquinas virtuais (VM) no mercado, com 136 tipos e mais de 26 famílias de
VM. Isso permite que os clientes executem desde pequenas cargas de trabalho
na web as maiores e mais exigentes até.
A AWS também é uma opção forte para aprendizado de máquina e cargas de
trabalho de inteligência artificial, oferecendo configurações avançadas dos
tipos de VM habilitados para GPU.
Em relação ao armazenamento em bloco, a AWS fornece várias opções,
incluindo redimensionamento dinâmico e diferentes tipos de disco, como
magnético e SSD. Ao contrário de outros provedores de nuvem, a AWS não
restringe IOPS (operações de entrada/saída por segundo) por tamanho de
volume, permitindo que os clientes provisionem IOPS conforme necessário.
Quanto a bancos de dados relacionais gerenciados, a AWS oferece suporte
para várias opções, incluindo MySQL, PostgreSQL, MariaDB, Oracle e MS SQL.
Além disso, possui seu próprio banco de dados compatível com MySQL e
PostgreSQL, que oferece alto desempenho a um custo menor.
Para bancos de dados NoSQL, a AWS oferece produtos como o DynamoDB, disponível há mais de meia década, e outros como Neptune e Elasticache.
A AWS também fornece uma variedade de serviços de segurança de rede, incluindo proteção contra DDoS (AWS Shield) e Web Application Firewall (WAF), além de ferramentas como
AWS Inspector, AWS Config e CloudTrail para gerenciamento e auditoria de inventário e políticas. O serviço GuardDuty é voltado para a detecção de ameaças.
A AWS é conhecida por atender cargas de trabalho de autoridades governamentais dos EUA, possuindo regiões específicas, como o GovCloud nos EUA, para atender a requisitos de
segurança e conformidade específicos desses clientes.
Em resumo, a AWS oferece uma ampla gama de serviços, alta flexibilidade e desempenho, além de soluções para diversas necessidades e requisitos, o que a torna uma escolha popular e
confiável para muitas empresas e organizações.
Microsoft Azure
O Microsoft Azure é uma plataforma de nuvem importante no
mercado, com uma variedade de recursos, sendo uma escolha
preferida para clientes que já utilizam produtos da Microsoft.
Ele oferece suporte a serviços baseados em código aberto,
mas o diferencial é o seu amplo portfólio de soluções Microsoft
na nuvem.
O Azure possui uma grande variedade de tipos de VMs (mais
de 151) e famílias (26), adaptados para cargas de trabalho de
todos os tamanhos e complexos, incluindo ML/AI.
A plataforma é capaz de lidar com cargas de trabalho de
última geração, com alta capacidade de vCPU e memória (até
128 vCPU e 3,5 TB de memória).
A opção "Bring Your Own License" (BYOL) permite trazer
licenças existentes da Microsoft para a nuvem, facilitando a
migração de data centers com cargas de trabalho
predominantemente da Microsoft.
O Azure foi pioneiro na tendência da nuvem híbrida e oferece
suporte a dispositivos de armazenamento híbridos, como o
StorSimple.
Em relação a bancos de dados, o Azure oferece uma ampla gama de serviços gerenciados para SQL e NoSQL, incluindo MS SQL Server, SQL Datawarehouse, MySQL,
PostgreSQL, MariaDB e suporte a APIs compatíveis com MongoDB, Cassandra, Gremlin e armazenamento de Tabela do Azure. O Azure Cosmos DB é líder no relatório
Forrester WaveTM para NoSQL Big Data.
Os modelos de cobrança flexíveis, como pagamento por uso e pré-assinaturas, bem como a facilidade de mobilidade de licenças para produtos Microsoft, tornam o
Azure atraente para clientes corporativos.
Em suma, o Microsoft Azure é uma plataforma completa, com suporte para uma ampla variedade de cargas de trabalho, serviços gerenciados de bancos de dados e
opções de cobrança flexíveis, sendo uma escolha sólida para empresas que desejam migrar para a nuvem com ferramentas e serviços familiares da Microsoft.
Google Cloud Plataform
Do ponto de vista de computação, o Google Cloud Platform (GCP) tem um número menor de
tamanhos de máquinas virtuais (VMs) em comparação com outros provedores (28 tipos em 4
categorias). No entanto, o GCP oferece a vantagem de permitir que os usuários criem
tamanhos personalizados de CPU e memória para se adequar às suas cargas de trabalho,
combinando com o ambiente local e dispensando a capacidade não utilizada.
Outro destaque do GCP é a flexibilidade em relação ao uso de GPUs, permitindo que quase
todos os tipos de instâncias sejam hospeds com GPUs, tornando-os prontos para aplicações
de aprendizado de máquina.
O GCP também se destaca ao cobrar por segundo, ao substituir o modelo de faturamento por
hora, o que resulta em uma economia de até 40% para os clientes, dispensa o desperdício de
recursos.
O Google também se destacou ao adquirir ferramentas de migração para a nuvem de
terceiros, facilitando a avaliação, planejamento e migração de VMs para o GCP.
Outro diferencial do GCP é sua rede global de baixa latência, permitindo que uma rede VPC
(Virtual Private Cloud) abra todas as regiões, facilitando a criação de aplicativos globais sem a
necessidade de mudança complexa de infraestrutura entre regiões e replicação de dados.
Para bancos de dados NoSQL, o GCP oferece o BigTable, um banco de dados NoSQL
gerenciado em escala de petabytes, usado pelo próprio Google em seus produtos.
Além disso, o GCP oferece descontos automáticos, como descontos de uso sustentado,
tornando-o uma opção atraente para quem busca o provedor de nuvem mais econômico.
Em resumo, o Google Cloud Platform se destaca pela flexibilidade, foco em redução de
desperdício, recursos avançados para aprendizado de máquina, uma rede global de baixa
latência e opções de redução de cobrança. Isso faz dele uma ótima opção para muitos clientes
que buscam uma solução de nuvem personalizada e econômica.
CREDITS: This presentation template was
created by Slidesgo, and includes icons by
Flaticon, and infographics & images by Freepik
Obrigado!
Alguma dúvida?
stanleyligero@gmail.com
11 98401-5090

Mais conteúdo relacionado

Semelhante a Dados e Insights

Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações FaBIana Ravanêda Vercezes
 
Seminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
Seminário Big Data, 19/05/2014 - Apresentação Afonso CoelhoSeminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
Seminário Big Data, 19/05/2014 - Apresentação Afonso CoelhoFecomercioSP
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big datacictec
 
iCustomer Comitê de Ouvidoria
iCustomer Comitê de OuvidoriaiCustomer Comitê de Ouvidoria
iCustomer Comitê de OuvidoriaBruno Alves
 
Tendências e Inovação - Comitê de Ouvidorias ABRAREC
Tendências e Inovação - Comitê de Ouvidorias ABRARECTendências e Inovação - Comitê de Ouvidorias ABRAREC
Tendências e Inovação - Comitê de Ouvidorias ABRARECiCustomer
 
Comitê de Ouvidoria - Abrarec
Comitê de Ouvidoria - AbrarecComitê de Ouvidoria - Abrarec
Comitê de Ouvidoria - AbrarecBruno Alves
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de InformaçãoDaniela Brauner
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Juan Felipe dos Reis Barbosa
 
LIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - PortuguêsLIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - PortuguêsMarcelo Villas Bôas
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus ImpactosAlex Silva
 
1a Web Aula - Gestão de Tecnologia da Informação.pdf
1a Web Aula - Gestão de Tecnologia da Informação.pdf1a Web Aula - Gestão de Tecnologia da Informação.pdf
1a Web Aula - Gestão de Tecnologia da Informação.pdfDimas Francisco
 
Wida - Pós Graduação em Big Data Estratégico
Wida - Pós Graduação em Big Data EstratégicoWida - Pós Graduação em Big Data Estratégico
Wida - Pós Graduação em Big Data EstratégicoMarcos CAVALCANTI
 

Semelhante a Dados e Insights (20)

Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
 
Seminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
Seminário Big Data, 19/05/2014 - Apresentação Afonso CoelhoSeminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
Seminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big data
 
iCustomer Comitê de Ouvidoria
iCustomer Comitê de OuvidoriaiCustomer Comitê de Ouvidoria
iCustomer Comitê de Ouvidoria
 
Tendências e Inovação - Comitê de Ouvidorias ABRAREC
Tendências e Inovação - Comitê de Ouvidorias ABRARECTendências e Inovação - Comitê de Ouvidorias ABRAREC
Tendências e Inovação - Comitê de Ouvidorias ABRAREC
 
Comitê de Ouvidoria - Abrarec
Comitê de Ouvidoria - AbrarecComitê de Ouvidoria - Abrarec
Comitê de Ouvidoria - Abrarec
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de Informação
 
Aula 1 -_sig_evolução_históric
Aula 1 -_sig_evolução_históricAula 1 -_sig_evolução_históric
Aula 1 -_sig_evolução_históric
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
 
LIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - PortuguêsLIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - Português
 
Mundo big data
Mundo big dataMundo big data
Mundo big data
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus Impactos
 
1a Web Aula - Gestão de Tecnologia da Informação.pdf
1a Web Aula - Gestão de Tecnologia da Informação.pdf1a Web Aula - Gestão de Tecnologia da Informação.pdf
1a Web Aula - Gestão de Tecnologia da Informação.pdf
 
Biz miz o1 m5_u5.1_r1_pt
Biz miz o1 m5_u5.1_r1_ptBiz miz o1 m5_u5.1_r1_pt
Biz miz o1 m5_u5.1_r1_pt
 
Wida - Pós Graduação em Big Data Estratégico
Wida - Pós Graduação em Big Data EstratégicoWida - Pós Graduação em Big Data Estratégico
Wida - Pós Graduação em Big Data Estratégico
 

Dados e Insights

  • 1. Dados e seu Universo de Informações “O futuro pertence aos que transformam dados em insights poderosos.”
  • 2. Introdução "Vivemos em uma era movida por dados. Cada vez mais, informações são geradas, coletadas e armazenadas em uma escala exponencial. Os dados são o novo combustível que impulsiona a inovação, a tomada de decisões estratégicas e o sucesso dos negócios. Nesta apresentação, exploraremos a importância dos dados, seu valor como ativo estratégico e como as empresas podem aproveitar o poder dos dados para impulsionar seu crescimento, otimizar processos e obter vantagem competitiva. Prepare-se para descobrir como os dados estão moldando o futuro e como você pode aproveitar essa revolução dos dados para transformar seu negócio."
  • 3. Quem sou EU! Stanley Ligero Gerente de Big Data, Engenheiro de Dados, Cientista de Dados, Business Inteligence(B.I), Advanced Analitics, Data Visualization, Planejamento Estratégico, M.I.S…
  • 4. Fontes de Dados 01 02 03 04 Índice Dados.  Dado?  Explorando o Lado Cômico dos Dados.  O que é dado?  Dispositions de Armazenamento. Estrutura de Dados  A importância dos dados e tecnologias na era digital?  Acesso generalizado à internet e uso de dispositivos conectados.  Avanço tecnológico e digitalização de processos.  O Crescimento Exponencial dos Dados!  Valor dos Dados.  Desafios dos Dados na Era Digital. Data Driving  Data Structure.  Pirâmide de Dados.  Tipos de Estruturas de Dados.  Data Driven Decision Management.  Curva de Maturidade no uso de Dados nas Organizações.  Jornada Data Driven.  Visão data Driven.  Estrutura de Implantação.  Squad de Dados.  Lakehouse.  Big data Land Scape. 05 06 Profissões  Comparativo das Profissões. Ecosystem  TimeLine Big Data.  Apache Hadoop.  Big Data Land Scape.  Arquitetura. 07 Fornecedores Cloud  Líderes do Mercado.  AWS.  Azure.  Google.
  • 5. 01 Dado? Introdução aos dados e sua importância no mundo atual.
  • 6. "Além dos 6 Lados: Explorando o Lado Cômico dos Dados" "Enquanto o dado de 6 lados pode trazer sorte ou azar em um jogo, lidar com os dados nos dias atuais é como jogar um jogo muito mais complexo. Com enormes volumes de informações sendo gerados a cada segundo, é preciso ter habilidades analíticas afiadas para rolar esses dados digitais e descobrir os padrões e insights escondidos nas suas faces de bits e bytes."
  • 7. O que é Dado? Em sua forma mais simples, um dado pode ser um número, uma palavra, um caractere ou um conjunto de caracteres. Por exemplo, o número "10", a palavra "casa", o caractere "A" e a sequência de caracteres "Olá, mundo!" são todos exemplos de dados. Dado, em termos gerais, pode ser definido como uma representação simbólica ou quantitativa de uma informação. É uma unidade básica de informação que pode ser registrada, armazenada e processada por computadores ou outros sistemas de informação:
  • 9. Fontes de Dados 02 Principais fontes de dados na era digital.
  • 10. A importância dos dados e tecnologias na era digital? A era digital é caracterizada pelo avanço tecnológico e pela crescente digitalização de processos em todos os aspectos da sociedade. Ela representa uma transformação significativa na forma como interagimos, comunicamos, seguimos, adoramos e realizamos negócios.
  • 11. Acesso generalizado à internet e uso de dispositivos conectados Com o avanço das tecnologias, como internet, dispositivos móveis, computação em nuvem, inteligência artificial e Internet das Coisas (IoT), a digitalização se tornou uma realidade em vários setores. Isso resultou em uma maior conectividade entre pessoas, empresas e objetos, criando uma rede global de informações e permitindo o acesso instantâneo a uma enorme quantidade de dados. A digitalização dos processos nas organizações trouxe benefícios como a automatização de tarefas, aumento da eficiência operacional, melhoria na comunicação interna e externa, expansão de mercados por meio do comércio eletrônico, entre outros. Empresas que se adaptaram e aproveitaram as oportunidades da era digital ganharam uma vantagem competitiva significativa. No contexto das organizações, a era digital apresenta adaptação e transformação digital. As empresas precisam se reinventar e incorporar tecnologias e estratégias digitais para se manterem competitivas. A coleta, análise e interpretação de dados são essenciais para compreender o mercado, antecipar tendências, tomar decisões embasadas e oferecer produtos e serviços personalizados. Em resumo, a era digital representa uma mudança profunda na sociedade e nas organizações, impulsionada pelo avanço tecnológico, digitalização de processos, acesso à internet e uso de dispositivos conectados. É fundamental compreender e aproveitar as oportunidades oferecidas pela era digital para se adaptar, inovar e prosperar nesse novo contexto.
  • 12. Avanço tecnológico e digitalização de processos Industria 4.0 Agro 4.0 O avanço da tecnologia tem trazido mudanças significativas para a sociedade, seja em casa ou no trabalho. Falar de mudanças da última década é falar da Indústria 4.0, ou a quarta revolução industrial, tomada pela digitalização, conectividade, internet das coisas e máquinas ensinadas a pensar. Saúde 4.0 A inovação na saúde tem sido cada vez mais possível por conta dos novos recursos digitais e da maior facilidade ao acesso a informações, que podem ajudar na oferta de serviços mais humanizados e qualificados. O conceito da Agricultura 4.0 está diretamente ligado ao da Agricultura de Precisão , mas enquanto esta última tem o foco em otimizar a produção para trazer precisão aos processos de preparo, aplicação, plantio e colheita, a Agricultura 4.0 é um segmento mais generalizado para abranger as diversas etapas de trabalho, incluindo a gestão, a pré e a pós-produção, como aplicativos para compra e controle de instrumentos e insumos necessários para o trabalho.
  • 13. O Crescimento Exponencial dos Dados! Fonte: “AllAccess.com” e “ Lori Lewis” 2020 2021 As mensagens pelo Facebook Messenger e WhatsApp por minuto passaram de 59 milhões para 69 milhões. As mensagens de texto do iPhone por minuto aumentaram de 19 milhões a cada minuto para 21,1 milhões. E o maior salto foi do Tiktok – de 1.400 downloa ds por minuto para 5.000 (mais de 3,5 vezes mais). Os snaps criados no Snapchat por minuto aumentaram de 2,5 milhões para 3,4 milhões. As compras on-line por minuto aumentaram de US$ 1,1 milhão para US$ 1,6 milhão. As visualizações no Twitch por minuto aumentaram de 1,2 milhão para 2 milhões .
  • 14. Valor dos Dados Os dados são um recurso valioso para as empresas na era digital. Eles permitem a captura de informações relevantes sobre o negócio e o mercado. Com uma análise adequada, os dados fornecem insights que impulsionam a tomada de decisões estratégicas, a inovação e a vantagem competitiva. Ao analisar os dados, as empresas obtêm informações sobre os clientes, suas emoções e necessidades. Isso possibilita a personalização de produtos, campanhas de marketing direcionadas e melhorias na experiência do cliente. Os dados também evidenciam padrões e tendências no mercado, permitindo que as empresas se adaptem e inovem. Identificar as necessidades não atendidas dos clientes e desenvolver soluções inovadoras são benefícios fornecidos pela análise de dados. Além disso, a coleta e análise de dados ajudam as empresas a tomar decisões embasadas, otimizar processos internos, reduzir custos e melhorar a eficiência operacional. A análise de dados também fornece insights valiosos que diferenciam as empresas dos concorrentes. Compreender os clientes, seus hábitos e possibilitar a criação de ofertas únicas e relevantes, destacando-se no mercado. Em resumo, os dados são um recurso valioso. Eles impulsionam a tomada de decisões, identificam padrões e tendências, proporcionam vantagem competitiva e promovem a inovação nas empresas. A habilidade de coletar, analisar e utilizar efetivamente os dados é fundamental para o sucesso na era digital.
  • 15. Desafios dos Dados na Era Digital Qualidade dos dados Diversidade dos dados Garantir a qualidade dos dados é um desafio crucial. Os dados podem conter erros, duplicatas, valores ausentes ou inconsistentes, o que pode impactar a análise e as decisões tomadas nesses dados. A limpeza, a padronização e a validação dos dados são tarefas complexas, mas essenciais para obter acompanhamento. As organizações enfrentam o desafio de proteger as informações contra acessos não autorizados, em meio à crescente preocupação com a privacidade e segurança dos dados. Além disso, a conformidade com regulamentações de proteção de dados, como o GDPR, impõe desafios adicionais na gestão e uso adequado das informações. No entanto, a era digital também oferece oportunidades para inovação e identificação de novos negócios. Privacidade e segurança dos dados Os dados estão disponíveis em diversos formatos, estruturas e fontes. Podem ser protegidos (como bancos de dados tradicionais), semiestruturados (como arquivos XML) ou não protegidos (como e-mails, vídeos e mídias sociais). Além disso, esses dados podem originar-se tanto de fontes internas da organização, como sistemas internos, quanto de fontes externas, como redes sociais e sensores. Lidar com essa diversidade requer o uso de técnicas e ferramentas adequadas para integrar, transformar e analisar diferentes tipos de dados. Com o avanço tecnológico, as organizações estão enfrentando um aumento significativo no volume de dados. Isso requer infraestrutura e capacidade de processamento padronizado para lidar com essa quantidade massiva de informações disponíveis. Velocidade de geração dos dados Com a era digital, a geração de dados em tempo real se tornou uma realidade. Sensores, dispositivos, transações online e redes sociais móveis estão gerando informações constantes em uma velocidade incrível. As organizações enfrentam o desafio de processar e analisar esses dados em tempo real para obter insights relevantes e tomar decisões ágeis. Volume massivo de dados
  • 16. Estruturas dos Dados 03 Captação de informações relevantes para tomada de decisões.
  • 17. Data Structure "A pirâmide de dados é uma representação visual da hierarquia dos dados, desde os dados brutos na base até as informações valiosas no topo. É uma ferramenta útil para entender a importância da organização, integração e análise dos dados para obter insights impressionantes."
  • 18. Conhecimento Pirâmide de Dados Sabedoria Os dados não estruturados não seguem um formato predefinido e Processamento das informações com uma intenção e utilidade. Informação Dados Dados processados com significado que pode modificar o conhecimento Registros observados ou medidos que podem gerar informação.
  • 19. Tipos de Estruturas de Dados Estruturados Cada campo de dados tem um formato definido, onde o formato é aceito pelo campo. Dados de um mesmo registro possuem relação entre eles. Registros possuem valores diferentes, mas mesmo atributo. Atributos ou campos são definidos por um esquema. Ex: Banco de Dados. Semi-Estrturuados Cada campo de dados tem uma estrutura, não existe uma imposição de formato. O esquema é criado com a definição de elementos internos dos arquivos(nós), legíveis para seres humanos. Ex: XML, JSON, RDF,OWL. Não Estruturados Mais de 80% dos dados gerados no mundo´vem desse modelo. Ex: Textos,arquivos,documentos, imagens,video,áudio, redes, sociais.
  • 21. DDDM – Data Driven Decision Management – cultura, gestão, execução Data driven é um adjetivo que qualifica processos orientados por dados, ou seja, embasados na coleta e análise de informações. No mundo dos negócios, significa colocar os dados no centro da tomada de decisão e do planejamento estratégico, buscando fontes confiáveis ao invés de gerir a empresa por intuição. O termo data driven pode ser traduzido para “orientado a dados” e tem origem no conceito de ciência de dados. Basicamente, essa ciência multidisciplinar usa métodos científicos, processos e algoritmos para extrair conhecimento de dados estruturados e não estruturados. A ideia é usar a análise computacional (analytics) de grandes volumes de dados (Big Data) para solucionar problemas e obter insights, valendo-se de tecnologias em inteligência artificial e machine learning.
  • 22. Curva de Maturidade no uso de Dados nas Organizações As empresas podem ser identificadas a partir de cinco níveis evolutivos de maturidade no uso de dados: a)Data-Resistant (ou Data-Negation): O mantra deste tipo de empresa é “nós sempre fizemos dessa maneira”. Neste tipo de empresa não há coleta sistemática de dados e decisões são empíricas e individualizadas; b)Data-Aware (ou Data-Curious): Aqui dados são coletados sem uma estratégica clara de propósito. Não há uma arquitetura de informação orientada a dados definida. Empresas neste estágio possuem sistemas de ERP, CRMs e Relatórios operacionais. A maioria das empresas brasileiras se encontra neste nível; c)Data-Guided: Início de análises descritivas e exploratórias. Dados coletados com indicadores de desempenho definidos que apresentam resultados passados. Uso de sistemas de business intelligence com decisões colegiadas; d)Data-Savvy: Dados são coletados e enriquecidos sistematicamente, com alta qualidade das fontes de informação e processamento em alta velocidade. Geração automática de recortes para análises preditivas e prescritivas. Decisões humanas, baseadas em métricas estatísticas robustas; e)Data-Driven: Estado da arte na gestão orientada a dados. Dados coletados e enriquecidos sistematicamente com decisões executadas de modo automático ou semi-automático, por mecanismos de inteligência artificial com grande nível de transparência. “Se uma empresa coleta dados sem ter um objetivo ou uma estratégia de utilização, estas informações serão, na maioria dos casos, inúteis”.
  • 27. Data lakehouse: o avanço do gerenciamento de dados Seu processamento analítico é executado em dados que foram preparados para análise: reunidos, contextualizados e transformados com o objetivo de gerar informações baseadas em análise. Os data lakes são repositórios para dados brutos em uma variedade de formatos, como dados de aplicativos de linha de negócios, aplicativos móveis, mídias sociais, dispositivos IoT, etv. O lakehouse é um novo paradigma de gerenciamento de dados que simplifica radicalmente a infraestrutura de dados corporativos e acelera a inovação em um período histórico em que o aprendizado de máquina está em alta em diversos setores.
  • 29. Big Data "Big Data é o termo utilizado para descrever a grande quantidade de dados que são gerados e coletados diariamente, em diversas fontes e formatos. Com o aumento exponencial dos dados, tornou-se necessário desenvolver tecnologias capazes de lidar com esse volume massivo de informações. Nesse contexto, o Hadoop se destacou como uma das principais ferramentas para processar, armazenar e analisar Big Data."
  • 30. Timeline Big Data O que é Big Data? Big data é um termo que designa uma grande quantidade de dados gerados a cada segundo. Porém, não é exatamente a quantidade de dados que importa e sim o potencial desses dados de serem analisados e cruzados pelas empresas. Assim, nada mais é que o ato de uma empresa, de qualquer segmento, extrair informações importantes de dados externos e usá-los para montar uma estratégia ou facilitar a tomada de decisão. Os dados do big data podem ser classificado em 3 categorias:  Estruturados - São dados que podem ser armazenados, acessados ​​e processados ​​em formato fixo.  Não estruturados - Encaixam-se nestas categorias todos os dados com forma ou estrutura desconhecida – que é, como vimos, a maioria deles.  Semi-estruturados - Digamos que você tirou uma foto do seu gato com o celular. Ele registra automaticamente a hora em que a foto foi tirada, os dados do GPS no momento da captura e o ID do seu dispositivo, entre outros. 6Vs do Big Data
  • 31. Apache Hadoop Ao contrário de sistemas de gerenciamento de banco de dados relacionais tradicionais, você não tem que esquemas estruturados criados antes de armazenar dados. Você pode armazenar dados em qualquer formato, incluindo formatos semiestruturados ou não estruturados, e em seguida, analisar e aplicar esquema para os dados quando ler. Hadoop é fundamentalmente resistente quando um nó falha de processamento é redirecionado para os nós restantes no Cluster e os dados são automaticamente re-replicado em preparação para falhas de nó futuras. Tratamento de dados local para cada nó em um Cluster Hadoop permite armazenar, gerenciar, processar e analisar dados em escala petabyte. Ao contrário de software proprietário, o Hadoop é open source e é executado em hardware commodity de baixo custo. Código aberto é o código-fonte que é disponibilizado gratuitamente para consulta, examinação, modificação e redistribuição. Escalabilidade Open-Source Confiabilidade Baixo Custo Flexibilidade
  • 32. Big Data Land Scape Primeira Versão 2012 A primeira versão dessa visualização apareceu no ano de 2012. E embora o conceito de colocar um monte de logotipos em um slide permaneça o mesmo; a explosão de categorias, empresas e tecnologias é um lembrete claro de quão longe chegamos. No domínio da infraestrutura de dados : a pilha de dados moderna se tornando popular, o paradigma ETL se tornando ELT, engenharia de dados automatizada, ascensão do analista de dados, fusão de Data Lakes e Data Warehouse e a complexidade das arquiteturas analíticas. No domínio da análise e ML/AI : a ascensão das plataformas ML, a IA sendo incorporada a mais produtos, o campo da ciência da decisão e os avanços no NLP. Em termos de visualização propriamente dita, foi adicionada uma nova categoria, Data Governance, preenchida por empresas como Soda Data, Monte Carlo e Talend.
  • 33. Big Data Land Scape Última Versão 2023
  • 34. Arquitetura Código Aberto  Pontos de extremidade HTTP / MQTT para ingestão de dados e também para veiculação dos resultados. Existem várias estruturas e tecnologias para isso.  Fila de publicação / sub-mensagem para a ingestão de dados de streaming de alto volume. Kafka é atualmente a escolha mais comum no ambiente On Premise.  Armazenamento de dados de alto volume e baixo custo para data lake (e data warehouse), Hadoop HDFS ou armazenamento de blob em nuvem como o AWS S3 ou Azure Blob.  Infraestrutura de consulta e catálogo de dados para converter um data lake em um data warehouse, o Apache Hive é uma opção popular de linguagem de consulta.  Mecanismo de computação em lote de redução de mapa para processamento de alto rendimento, por exemplo Hadoop MapReduce e Apache Spark.  Streaming de dados, por exemplo Apache Storm, Apache Flink. O Apache Beam também surgiu como a opção para fluxo de dados.  Estruturas de aprendizado de máquina para ciência de dados e ML. O Scikit-Learn, o TensorFlow e o PyTorch são uma opção popular para implementar e treinar modelos.  As opções de orquestração de implantação são Hadoop YARN, Kubernetes / Kubeflow. Os principais componentes da arquitetura e tecnologia de big data são os seguintes:
  • 35. Arquitetura Cloud - AWS Com o computador por serviço, é possível criar ambientes mais rapidamente e otimizar os custos, substituindo componentes de arquitetura por serviços equivalentes em provedores de serviços em nuvem. As arquiteturas típicas de pipelines de big data na Amazon Web Services, Microsoft Azure e Google Cloud Platform (GCP) são semelhantes à arquitetura geral de big data suportadas anteriormente. Esses pipelines fornecem referências para selecionar tecnologias e opções adequadas às necessidades específicas do usuário. Ao adotar essas arquiteturas em nuvem, as empresas podem considerar suas soluções de big data com maior eficiência e escalabilidade.
  • 36. Arquitetura Cloud - Azure Os principais componentes da arquitetura e tecnologia de big data são os seguintes:
  • 37. Arquitetura Cloud - Google Os principais componentes da arquitetura e tecnologia de big data são os seguintes:
  • 42. Principais Fornecedores Ao decidir pela melhor plataforma em nuvem para uma empresa, é essencial analisar e considerar diversos aspectos. Cada provedor, seja AWS, Azure ou Google Cloud (GCP), possui características e recursos específicos que podem atender às necessidades particulares de cada cliente. Aqui estão alguns aspectos essenciais a serem considerados: 1. Requisitos específicos da empresa: Avalie as necessidades e objetivos da empresa. Considere o tipo de aplicativos, dados e cargas de trabalho que precisam ser executados na nuvem. 2. Desempenho e escalabilidade: verifique a capacidade de cada provedor para lidar com picos de demanda e garanta alta disponibilidade e desempenho escalável. 3. Preço e custos: Compare os modelos de preços dos provedores e analise como eles se alinham ao orçamento da empresa. 4. Segurança e conformidade: Avalie as medidas de segurança e conformidade oferecidas por cada provedor para garantir que seus dados e informações sejam protegidos. 5. Ecossistema e integração: Verifique se os serviços oferecidos pelo provedor podem ser facilmente integrados às tecnologias e sistemas existentes da empresa. 6. Casos de uso e estudos de caso: Analise casos de uso semelhantes de outras empresas que optam por um provedor específico e avalie se as soluções oferecidas atendem aos seus objetivos. 7. Suporte técnico e documentos: Considere a qualidade e disponibilidade do suporte técnico oferecido pelo provedor, bem como a disponibilidade de documentos e recursos de aprendizado. 8. Localização dos data centers: Verifique a localização dos data centers do provedor, especialmente se a localização geográfica dos servidores é um fator importante para a empresa. Muitas empresas estão adotando uma abordagem híbrida, combinando recursos de diferentes provedores e ambientes, para obter uma solução de alta disponibilidade e capacidade operacional. Essa abordagem pode ser satisfatória, permitindo que a empresa tire vantagem das melhores características de cada provedor. Em resumo, a decisão pela melhor plataforma em nuvem para a empresa deve ser baseada em uma análise detalhada das necessidades e objetivos específicos, considerando os aspectos de desempenho, escalabilidade, segurança, custos e integração. Cada provedor tem seus pontos fortes e fracos, e a escolha final dependerá das exigências únicas de cada empresa. É essencial fazer uma avaliação para garantir que a decisão seja a mais adequada para o sucesso a longo prazo da empresa.
  • 43. Amazon Web Services -AWS A AWS é uma excelente escolha para uma ampla gama de cargas de trabalho, desde analíticas e web até migrações de data center em grande escala. Ela oferece uma variedade impressionante de serviços que atendem às diferentes necessidades dos clientes. No aspecto de computação, a AWS disponibiliza a maior variedade de tipos de máquinas virtuais (VM) no mercado, com 136 tipos e mais de 26 famílias de VM. Isso permite que os clientes executem desde pequenas cargas de trabalho na web as maiores e mais exigentes até. A AWS também é uma opção forte para aprendizado de máquina e cargas de trabalho de inteligência artificial, oferecendo configurações avançadas dos tipos de VM habilitados para GPU. Em relação ao armazenamento em bloco, a AWS fornece várias opções, incluindo redimensionamento dinâmico e diferentes tipos de disco, como magnético e SSD. Ao contrário de outros provedores de nuvem, a AWS não restringe IOPS (operações de entrada/saída por segundo) por tamanho de volume, permitindo que os clientes provisionem IOPS conforme necessário. Quanto a bancos de dados relacionais gerenciados, a AWS oferece suporte para várias opções, incluindo MySQL, PostgreSQL, MariaDB, Oracle e MS SQL. Além disso, possui seu próprio banco de dados compatível com MySQL e PostgreSQL, que oferece alto desempenho a um custo menor. Para bancos de dados NoSQL, a AWS oferece produtos como o DynamoDB, disponível há mais de meia década, e outros como Neptune e Elasticache. A AWS também fornece uma variedade de serviços de segurança de rede, incluindo proteção contra DDoS (AWS Shield) e Web Application Firewall (WAF), além de ferramentas como AWS Inspector, AWS Config e CloudTrail para gerenciamento e auditoria de inventário e políticas. O serviço GuardDuty é voltado para a detecção de ameaças. A AWS é conhecida por atender cargas de trabalho de autoridades governamentais dos EUA, possuindo regiões específicas, como o GovCloud nos EUA, para atender a requisitos de segurança e conformidade específicos desses clientes. Em resumo, a AWS oferece uma ampla gama de serviços, alta flexibilidade e desempenho, além de soluções para diversas necessidades e requisitos, o que a torna uma escolha popular e confiável para muitas empresas e organizações.
  • 44. Microsoft Azure O Microsoft Azure é uma plataforma de nuvem importante no mercado, com uma variedade de recursos, sendo uma escolha preferida para clientes que já utilizam produtos da Microsoft. Ele oferece suporte a serviços baseados em código aberto, mas o diferencial é o seu amplo portfólio de soluções Microsoft na nuvem. O Azure possui uma grande variedade de tipos de VMs (mais de 151) e famílias (26), adaptados para cargas de trabalho de todos os tamanhos e complexos, incluindo ML/AI. A plataforma é capaz de lidar com cargas de trabalho de última geração, com alta capacidade de vCPU e memória (até 128 vCPU e 3,5 TB de memória). A opção "Bring Your Own License" (BYOL) permite trazer licenças existentes da Microsoft para a nuvem, facilitando a migração de data centers com cargas de trabalho predominantemente da Microsoft. O Azure foi pioneiro na tendência da nuvem híbrida e oferece suporte a dispositivos de armazenamento híbridos, como o StorSimple. Em relação a bancos de dados, o Azure oferece uma ampla gama de serviços gerenciados para SQL e NoSQL, incluindo MS SQL Server, SQL Datawarehouse, MySQL, PostgreSQL, MariaDB e suporte a APIs compatíveis com MongoDB, Cassandra, Gremlin e armazenamento de Tabela do Azure. O Azure Cosmos DB é líder no relatório Forrester WaveTM para NoSQL Big Data. Os modelos de cobrança flexíveis, como pagamento por uso e pré-assinaturas, bem como a facilidade de mobilidade de licenças para produtos Microsoft, tornam o Azure atraente para clientes corporativos. Em suma, o Microsoft Azure é uma plataforma completa, com suporte para uma ampla variedade de cargas de trabalho, serviços gerenciados de bancos de dados e opções de cobrança flexíveis, sendo uma escolha sólida para empresas que desejam migrar para a nuvem com ferramentas e serviços familiares da Microsoft.
  • 45. Google Cloud Plataform Do ponto de vista de computação, o Google Cloud Platform (GCP) tem um número menor de tamanhos de máquinas virtuais (VMs) em comparação com outros provedores (28 tipos em 4 categorias). No entanto, o GCP oferece a vantagem de permitir que os usuários criem tamanhos personalizados de CPU e memória para se adequar às suas cargas de trabalho, combinando com o ambiente local e dispensando a capacidade não utilizada. Outro destaque do GCP é a flexibilidade em relação ao uso de GPUs, permitindo que quase todos os tipos de instâncias sejam hospeds com GPUs, tornando-os prontos para aplicações de aprendizado de máquina. O GCP também se destaca ao cobrar por segundo, ao substituir o modelo de faturamento por hora, o que resulta em uma economia de até 40% para os clientes, dispensa o desperdício de recursos. O Google também se destacou ao adquirir ferramentas de migração para a nuvem de terceiros, facilitando a avaliação, planejamento e migração de VMs para o GCP. Outro diferencial do GCP é sua rede global de baixa latência, permitindo que uma rede VPC (Virtual Private Cloud) abra todas as regiões, facilitando a criação de aplicativos globais sem a necessidade de mudança complexa de infraestrutura entre regiões e replicação de dados. Para bancos de dados NoSQL, o GCP oferece o BigTable, um banco de dados NoSQL gerenciado em escala de petabytes, usado pelo próprio Google em seus produtos. Além disso, o GCP oferece descontos automáticos, como descontos de uso sustentado, tornando-o uma opção atraente para quem busca o provedor de nuvem mais econômico. Em resumo, o Google Cloud Platform se destaca pela flexibilidade, foco em redução de desperdício, recursos avançados para aprendizado de máquina, uma rede global de baixa latência e opções de redução de cobrança. Isso faz dele uma ótima opção para muitos clientes que buscam uma solução de nuvem personalizada e econômica.
  • 46. CREDITS: This presentation template was created by Slidesgo, and includes icons by Flaticon, and infographics & images by Freepik Obrigado! Alguma dúvida? stanleyligero@gmail.com 11 98401-5090