SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
G U I A S O B R E A N Á L I S E D E
D A D O S E A P R E N D I Z A D O
D E M Á Q U I N A PA R A C I O
Introdução | 2
Introdução
Conclusão
Referências
03
05
09
16
21
26
27
C O N T E Ú D O
Conteúdo | 2
O novo cenário para os dados
Armazenamento em nuvem e data warehousing
Integração de dados em tempo real
Aprendizado de máquina e inteligência artificial
Introdução | 3
O uso de dados para tomar decisões comerciais não é novidade. Antes, “tomar
decisões baseadas em dados” significava compreender a correlação entre uma
campanha de anúncio impressa e os picos episódicos de vendas acima do normal.
As empresas usavam quaisquer dados que tivessem em mãos, no momento em
que estivessem disponíveis.
Hoje, os dados estão por toda parte. Eles são transmitidos a velocidades vertiginosas,
em diversos formatos, a partir de dispositivos de bilhões de usuários conectados.
Geralmente, usar o Big Data é considerado uma oportunidade, mas apenas para
empresas que tenham estrutura para lidar com o volume e a diversidade dele. Para
as outras empresas, a avalanche de dados pode trazer o risco de que insights em
potencial permaneçam inexplorados, necessidades de clientes não sejam atendidas
e empresas continuem tomando decisões sem em+basamento.
Dois fatores diferenciam o cenário atual dos avanços alcançados no passado.
O primeiro é o aumento exponencial no volume e na diversidade de dados
gerados por bilhões de usuários e dispositivos. O segundo é a demanda pelo
acesso imediato a dados e insights de alta qualidade. Cada um trouxe uma
nova necessidade imediata de determinar como as empresas gerenciam os dados.
Além disso, o custo e o desempenho de muitos recursos de nuvem atingiram um
ponto crítico, ajudando a tornar o aprendizado de máquina (ML, na sigla em inglês)
e a inteligência artificial (IA) acessíveis a todas as empresas.
Apesar de o valor dos dados ser amplamente reconhecido, poucas empresas
implementaram estratégias de dados modernas.1 Com base em pesquisas inéditas
e nas contribuições do próprio Google para a nuvem, este guia foi desenvolvido para
ajudar líderes empresariais e de TI a implementarem estratégias modernas com base
em nuvem para o gerenciamento de dados. Em cada seção, destacamos tecnologias
que auxiliam as empresas a transformar um cenário amplo e complexo de dados em
insights comerciais úteis.
I N T R O D U Ç Ã O
2 1 8
6 0 1
5 . 0 0 0
3 . 0 0 0
2 0 1 5 2 0 2 0 2 0 2 5
1 . 0 0 0
4 . 8 0 0
Introdução | 4
N O S S A S R A Í Z E S
O Guia sobre análise de dados e aprendizado de máquina do Google Cloud baseia-se nos 20 anos em que
o Google enfrentou alguns dos problemas mais complexos do setor relacionados a dados. Ao longo do
percurso, contribuímos com pesquisas inéditas que ajudaram a moldar o cenário do Big Data: dos dois
artigos acadêmicos do final de 2003 e 2004, que juntos geraram o movimento do Hadoop, ao artigo
sobre o Dremel, que constitui a base dos recursos de data warehouse na nuvem presentes neste guia.
Nós concebemos, desenvolvemos e implantamos o Spanner, o primeiro sistema que distribui dados em
escala global, oferece suporte a transações distribuídas externamente de maneira uniforme e que, em
2017, tornou-se totalmente disponível para os nossos clientes.3
Recentemente, o Google Brain ajudou a
fomentar o interesse renovado do setor em IA, o que colaborou para o lançamento do nosso Projeto do
TensorFlow em código aberto.4
Com este guia, esperamos compartilhar nossa experiência com líderes
que buscam formas de decifrar as possibilidades do aprendizado de máquina e da inteligência artificial
para as organizações deles.
Até 2025, uma pessoa comum conectada usará dispositivos conectados aproximadamente 4.800 vezes por dia, o equivalente a uma
interação a cada 18 segundos.2
Númerodeinterações/pessoa/dia
I N T E R A Ç Õ E S P O R P E S S O A C O N E C TA D A P O R D I A
C A P Í T U L O 1
O N O V O C E N Á R I O PA R A O S D A D O S
0 1
01 O novo cenário para os dados | 6
O N O V O C E N Á R I O PA R A O S D A D O S
Seria mais fácil gerenciar os dados se o crescimento fosse limitado a poucas fontes ou se
os dados fossem uniformes. O desafio consiste na diversidade de fontes e formatos. Isso
inclui o volume crescente de dados não estruturados: e-mails, registros de sistema, páginas
da Web, transcrições de clientes, documentos, apresentações, bate-papos informais e um
extraordinário volume de rich media, como imagens e vídeos em alta definição. Volumes enormes
de informação tornam-se disponíveis instantaneamente em qualquer dispositivo conectado à
Internet, o que gera novas expectativas em torno da disponibilidade e da prontidão dos dados.
Aplicativos de consumidores, como apps de pesquisa, mensagens de texto, comércio eletrônico,
redes sociais e vídeos on-line, foram os primeiros a se deparar com esse problema. Novos
sistemas tiveram que ser desenvolvidos para lidar com o tráfego na escala da Web e, ao mesmo
tempo, retornar insights instantaneamente. Hoje, essas inovações estão disponíveis e tornam-se
cada vez mais importantes para todas as empresas, abrangendo desde o auxílio a fabricantes
no gerenciamento mais eficiente da cadeia de fornecimento até o aumento da precisão de
diagnósticos clínicos.
As equipes de TI estão empacadas no meio do caminho. Elas precisam encontrar formas de
apresentar uma perspectiva do negócio em tempo real ao mesmo tempo em que gerenciam
um cenário maior e mais complexo de dados. Como acontece com muitas soluções
de software, a redução da complexidade é um fator determinante para o sucesso.
Este guia analisa como os serviços gerenciados em nuvem ajudam empresas novas e já
estabelecidas a enfrentar os desafios do processamento de dados. Ele detalha um caminho que
começa com a captura de dados brutos da empresa no armazenamento em nuvem. Conforme
as questões empresariais forem surgindo, as ferramentas com base na nuvem podem preparar
e estruturar os dados brutos quando necessário. Em seguida, os dados preparados são incorporados
0 1
C A P Í T U L O 1 R E S U M O
01 O novo cenário para os dados | 7
em um data warehouse na nuvem, onde ficam imediatamente disponíveis para análise. Esse conjunto
de dados funciona como a “base operacional” a partir da qual as organizações podem capturar, preparar
e analisar dados de qualquer tipo, a partir de qualquer fonte. A natureza totalmente gerenciada dos
serviços em nuvem ajuda a simplificar todo o processo, incluindo o suporte a análise em tempo real, sem
a necessidade de a equipe de TI conhecer a infraestrutura subjacente. Com base nesses fundamentos,
o guia conclui mostrando como as organizações podem usar a captura e preparação desse ciclo de
dados para possibilitar o aprendizado de máquina e a inteligência artificial.
As arquiteturas modernas sem servidor são o ápice de uma série de esforços para reduzir a extensão da
área que os desenvolvedores e as equipes de TI precisam gerenciar. A meta da computação sem servidor
é, essencialmente, eliminar a “mercantilização” do trabalho (do gerenciamento de clusters de servidores,
fragmentação de bancos de dados, balanceamento de carga, planejamento de recursos, garantia de
disponibilidade) para que as equipes de TI possam se concentrar naquilo que é mais importante para
o negócio. A função “sem servidor” estabelece uma nítida distinção entre a TI “mercantilizada”(o serviço
cotidiano de manutenção que parece praticamente o mesmo em cada empresa) e o serviço diferenciado
que eleva a TI para a posição de fornecedor direto de valor comercial.
S E M S E R V I D O R : O C A M I N H O PA R A A P R O D U T I V I D A D E E M T I
As empresas enfrentam três novos desafios:
•	 o volume de dados sendo criados;
•	 a diversidade de formatos e fontes de dados;
•	 a velocidade em que os consumidores e as partes interessadas internas esperam ter insights.
A computação em nuvem ajuda as empresas a enfrentar esses desafios ao permitir o gerenciamento
de dados em escala e velocidade sem ter que se preocupar com a infraestrutura.
Em especial, as empresas podem começar a modernizar as estratégias de dados delas ao se concentrar
no armazenamento em nuvem e em data warehousing como primeira etapa da criação de uma base para
o aprendizado de máquina e a inteligência artificial.
1
2
3
E M P R E S A
FIS
S E T O R
Serviços financeiros
S O B R E
A FIS é líder mundial em
tecnologia de serviços
financeiros com enfoque em
varejo e transações bancárias,
pagamentos, gestão de
recursos e patrimônio, risco
e compliance, consultoria
e soluções terceirizadas.
F I S
C A S O D O C L I E N T E
01 Caso do cliente: FIS | 8
A FIS faz análises de eventos e inovações do mercado com
serviços de nuvem totalmente gerenciados
A FIS desenvolveu uma ferramenta de reconstrução do
mercado que ajuda a determinar a causa potencial de eventos
que desestabilizam o mercado financeiro, como o “flash crash”
de 2010. O sistema da FIS não só é capaz de armazenar
bilhões de transações, como também permite que os gerentes
de risco e compliance realizem supervisão e consultas quando
necessário, incluindo reconstrução do mercado.
De acordo com a FIS, o sistema pode processar e vincular até
15 terabytes de dados diariamente em quatro horas e armazená-
los por seis anos, tal como a legislação exige. “Isso representa
em torno de 30 petabytes de dados”, disse Neil Palmer, diretor 
da área de Tecnologia Avançada da FIS. “Não há muitas coisas
disponíveis por aí nessa escala, e certamente não há nada
voltado para serviços financeiros. É uma tarefa colossal.”
A equipe de Palmer precisava de uma plataforma com alto
poder computacional, mas também queria evitar o custo
e a manutenção associados ao desenvolvimento e à operação
de um sistema instalado localmente. “A escalabilidade é uma
vantagem enorme do Google Cloud Platform”, afirmou Palmer.
“Uma solução tradicional de TI para hardware fixo neste cenário
poderia resultar em milhões de dólares em equipamentos
ociosos durante vários dias de negociação.”
LEIA MAIS
C A P Í T U L O 2
A R M A Z E N A M E N T O E M N U V E M
E   D A T A W A R E H O U S I N G
0 2
02 Armazenamento em nuvem e data warehousing | 10
A R M A Z E N A M E N T O E M N U V E M E D A T A W A R E H O U S I N G
A centralização de dados brutos dos principais processos empresariais no armazenamento
em nuvem é um dos primeiros passos a serem dados pelas organizações em direção à
modernização. Ao fazer isso, elas se preparam para explorar os recursos de análise em nuvem.
Os silos de dados distribuídos por toda a empresa continuam a aborrecer tanto a equipe de
TI quanto a comercial, com novos silos (por razões técnicas, corporativas ou ambas) criados
diariamente.5 A revista Harvard Business Review fez uma publicação sobre a necessidade
da fonte única da verdade para dados, assim como as diversas lentes pelas quais diferentes
ramos de negócios podem analisar os dados.6
O armazenamento em nuvem e o data warehousing permitem às empresas fazer as duas
coisas (manter um único repositório central e possibilitar que diferentes funções empresariais
analisem dados de maneiras que atendam às necessidades específicas deles) com mais
rapidez e flexibilidade do que era possível anteriormente. Juntos, esses recursos ajudam
a criar uma visualização em 360 graus do negócio envolvendo os silos.
Capturar dados brutos para análises futuras
A IDC estima que menos de 1% de todos os arquivos sejam analisados.7 Os outros 99%,
dependendo das necessidades do negócio no momento, contêm informações sobre
insights voltados à tomada de decisão. Como as organizações não conseguem prever
as questões empresariais que poderão surgir, elas precisam de maneiras simples, baratas
e flexíveis de armazenar um grande volume de dados. Isso vale principalmente para dados
não estruturados, que constituem a maioria dos dados gerados.8
Com a nuvem, as empresas podem armazenar um volume enorme de arquivos a
baixo custo, a menos de um centavo por gigabyte no momento da gravação.9
Os
dados usados frequentemente podem ser armazenados como “mornos” (disponíveis
em escala global para serem utilizados em aplicativos ou para executarem análises),
enquanto os dados com valor ainda inexplorado permanecem no armazenamento frio,
que é mais barato. O armazenamento on-line mais atraente permite até que os dados
arquivados a frio sejam rapidamente recuperados com latência extremamente baixa.
0 2
02 Armazenamento em nuvem e data warehousing | 11
A I D C E S T I M A Q U E M E N O S D E 1 % D E
T O D O S O S D A D O S S Ã O A N A L I S A D O S . 7
Além de gerar economia de custos, o armazenamento em nuvem funciona como a base de análises robustas.
As empresas podem capturar arquivos estruturados e não estruturados nos formatos originais com facilidade.
Como o armazenamento é separado intencionalmente do processamento e da análise, as equipes podem
postergar a estruturação dos dados brutos para análise somente quando questões empresariais surgirem. O mais
importante de tudo é que dados brutos que tenham a mesma origem podem ser facilmente reestruturados para
responder a novas questões de imediato. O que diferencia o armazenamento em nuvem é a eficiência dessas
etapas de captura e reutilização dos dados. Para preparar uma organização para que ela se beneficie das análises,
as equipes precisam garantir que os dados brutos dos processos empresariais sejam capturados e centralizados.
Essa flexibilidade está acelerando a adoção da nuvem como repositório para dados não estruturados das
organizações. Cerca de metade das organizações nos EUA, Europa e Ásia-Pacífico antecipam saltos de pelo
menos 5% no armazenamento de dados não estruturados na nuvem no ano seguinte, sendo que muitas delas
informam um aumento superior a 10%.10
< 1 %
02 Armazenamento em nuvem e data warehousing | 12
Gerenciamento de dados nos silos
Ao capturar dados de qualquer tipo de maneira econômica, as organizações podem voltar a atenção
para possibilitar uma perspectiva organizada dos processos empresariais mais importantes. Embora
o armazenamento em nuvem centralize dados no formato bruto nativo, um data warehouse na
nuvem permite que empresas reúnam dados de silos diferentes para análise, assim como um data
warehouse tradicional faria. Com a nuvem, as empresas podem gerenciar um grande volume de dados
com investimento mínimo de capital, escala praticamente ilimitada e pagamento por utilização. Os
serviços gerenciados em nuvem vão mais além, aliviando as preocupações de TI sobre a infraestrutura
subjacente. As empresas precisam definir quais questões empresariais devem ser respondidas e quais
são os dados necessários para respondê-las.
Por exemplo:
•	 Quais são as principais metas empresariais dos meus dados? Entender como os usuários
interagem com os meus sistemas, identificar tendências, aumentar as vendas, construir
a fidelidade do consumidor ou algo diferente?
•	 Qual será a origem dos meus dados mais importantes (transações, registros de servidores,
serviços em nuvem, dispositivos/Internet das coisas, mídia social)? Eles já foram importados
para o armazenamento em nuvem?
•	 Com que velocidade o meu sistema precisa incorporar novos dados em relatórios e visualizações?
•	 Existe uma cultura que incentive a tomada de decisão baseada em dados em toda a
organização (não apenas entre os analistas de TI e os cientistas de dados)? Quem deveria
ter acesso à plataforma de análise?
De acordo com uma pesquisa com mais de 500 líderes mundiais em TI conduzida pela MIT Sloan Management Review
em nome do Google Cloud, a adesão à nuvem permanece em crescimento, e a expectativa é de que a maioria (65%) dos
aplicativos, dados e/ou infraestrutura seja baseada em nuvem até 2019.
A Internet das coisas é um importante fator de crescimento dessa migração para a nuvem, sendo que 91% dos
entrevistados com iniciativas de IoT estão atualmente implantando (59%) ou planejam implantar (32%) dados
de dispositivos conectados à IoT na nuvem. Os entrevistados mencionaram a capacidade de incorporar novas
ferramentas e plataformas (33%), maior velocidade da implantação e iteração de app (31%), maior flexibilidade nos
processos empresariais e nas escolhas de fornecedores (29%) e maior segurança (28%) como os principais motivos
para implantar dados da IoT na nuvem.
Para usar os dados da IoT de maneira eficiente, as empresas precisam compreendê-los dentro do contexto.
Um data warehouse na nuvem que permite entradas de lote e dados de streaming, em conjunto com uma
plataforma de análise robusta, ajuda a assegurar que seus dados de IoT gerem insights em tempo real.
A I N T E R N E T D A S C O I S A S
02 Armazenamento em nuvem e data warehousing | 13
Assim que as metas empresariais forem definidas, as empresas precisam identificar as origens dos
dados de entrada entre os silos a serem importados para um data warehouse na nuvem para análise.
Veja abaixo uma lista das origens de entrada mais usadas:
Armazenamento em nuvem
Os dados do armazenamento em nuvem podem ser importados para um data warehouse na
nuvem para análise.12
Nessa etapa, é possível formalizar um esquema com base nas questões
empresariais que precisam de resposta, propiciando a estruturação dos dados brutos para análise.
Bancos de dados transacionais e de análise
Os dados armazenados em bancos de dados transacionais e de análise podem ser carregados
em lote ou transmitidos linha por linha para um data warehouse na nuvem.
Dados armazenados nos serviços em nuvem
Os dados armazenados em outros provedores de SaaS podem ser importados para um
data warehouse na nuvem. Em muitos casos, isso é feito de maneira automática.
Dados de streaming
Dados de aplicativos da Web, de dispositivos móveis e da Internet das coisas (IoT, na sigla
em inglês) podem ignorar o armazenamento em nuvem e serem transmitidos diretamente
para um data warehouse na nuvem (veja no capítulo 3: Integração de dados em tempo real).
Administração de dados
O crescimento exponencial do volume global de dados não é o único obstáculo enfrentado
pelas empresas. De acordo com Forrester, os requisitos de análise e geração de relatórios em
constante mudança, além da falta de alinhamento entre o negócio e a TI, estão entre os principais
desafios que prejudicam os esforços de inteligência de negócio das empresas.13 Além disso, a falta
comprovada de talentos em ciência de dados (veja “A ascenção dos cientistas de dados amadores”)
leva as empresas a pensar em novas formas de desenvolver conhecimentos analíticos.
Com o acesso baseado em funções, qualquer pessoa ou desenvolvedor de aplicativos pode consultar
dados armazenados em um data warehouse na nuvem, gerar relatórios ou acessar visualizações.
O data warehousing na nuvem aceita o gerenciamento de acesso individualizado voltado para
o que a pessoa precisa saber. A auditabilidade total e o controle do acesso personalizado ajudam
a democratizar a ciência de dados, ao mesmo tempo em que mantêm salvaguardas de segurança.
De fato, mais da metade das empresas nos EUA, Europa e Ásia-Pacífico relatam que estão
implementando, já implementaram ou estão expandindo o uso de ferramentas de inteligência
empresarial operadas pela própria empresa e utilizadas nela.14
C A P Í T U L O 2 R E S U M O
02 Armazenamento em nuvem e data warehousing | 14
Antes, a responsabilidade por conclusões estatisticamente precisas com base em dados era exclusiva aos
cientistas de dados profissionais. Porém, em 2018, de acordo com a McKinsey, “Os EUA poderão enfrentar
uma escassez de 140.000 a 190.000 pessoas com conhecimento aprofundado em análise de dados, assim
como 1,5 milhão de gerentes e analistas com o conhecimento para usar as análises de Big Data para tomar
decisões efetivas.”15
Com a intensificação da competição, a maioria das empresas precisará de uma estratégia diferente
voltada para os talentos. Os cientistas de dados amadores que, conforme definição do InformationWeek,
são pessoas que fazem análises de dados, mas cujas principais atribuições não estão relacionadas
à estatística ou análise, podem ser um complemento significativo para cientistas de dados internos,
principalmente para empresas que investem no desenvolvimento da cultura da ciência de dados.16
Para ter sucesso, quem pretende se tornar cientista de dados amador precisa:
• ter acesso a dados;
• ser curioso;
• ter facilidade com SQL;
• ter conhecimento de domínios;
• praticar a colaboração.
A A S C E N S Ã O D O S C I E N T I S TA S D E D A D O S A M A D O R E S
O armazenamento em nuvem permite que as organizações capturem dados estruturados e não
estruturados de qualquer tipo no formato nativo. A centralização dos dados no armazenamento
em nuvem cria uma base de dados, cuja análise pode ser adiada até que as organizações tenham
questões empresariais concretas.
Um data warehouse na nuvem permite que as organizações reúnam dados de silos distintos para
análise, abrangendo desde armazenamento em nuvem, bancos de dados transacionais e analíticos
no local ou na nuvem ou dados armazenados com outros serviços em nuvem. As organizações podem
executar consultas, gerar relatórios e criar visualizações sem gerenciar a infraestrutura subjacente.
O acesso baseado em papéis democratiza a análise em toda a organização. Um data warehouse na
nuvem pode ser voltado para a empresa toda ou organizado de acordo com a estrutura da organização.
1
2
3
E M P R E S A
Centro Colorado de
Medicina Personalizada
S E T O R
Assistência médica
S O B R E
O Centro Colorado de Medicina
Personalizada (CCPM, na sigla
em inglês) é uma parceria entre
a University of Colorado Denver,
a UCHealth, o Children’s Hospital
Colorado e o CU Medicine e
situa-se em Denver, na região
do Colorado.
O Centro Colorado de Medicina Personalizada (CCPM) está conduzindo
uma pesquisa de ponta por meio da análise do DNA de pacientes para prever
o risco de doenças e desenvolver tratamentos direcionados com base na
genética do indivíduo. O CCPM depende do Health Data Compass, o data
warehouse de empresas na área da saúde do CCPM. O Health Data Compass
integra os dados genômicos dos pacientes do CCPM e registros eletrônicos
de saúde da UCHealth, do Children’s Hospital Colorado e do CU Medicine,
incluindo registros externos como reivindicações de seguros, registros
de saúde pública e dados ambientais.
Antes, o Health Data Compass usava um sistema tradicional no local para
armazenar e analisar dados. Mas essa abordagem revelou-se onerosa de
ser mantida, não atendia às necessidades de análise existentes do centro
e não atingia o crescimento previsto. Após um projeto piloto abrangente
de seis meses, o Health Data Compass migrou para o GCP e o Tableau,
que juntos são capazes de processar imensos conjuntos de dados e fazer
análises robustas de dados visuais, além de serem mais baratos e facilitarem
a escalonabilidade de acordo com o crescimento do CCPM. A capacidade
de o GCP, incluindo BigQuery (o data warehouse do Google Cloud) de aceitar
a compliance com a HIPAA de acordo com os requisitos do CCPM foi um
fator importante para essa decisão.
“Nós levamos a sério nossa responsabilidade de proteger os dados dos
pacientes. O Google Cloud Platform fornece vantagens significativas na
segurança de dados de sistemas locais e nos ajuda a manter a compliance
com a HIPAA”, afirmou Michael Ames, diretor associado do Health Data
Compass e diretor de arquitetura empresarial do CCPM.17
C E N T R O C O L O R A D O D E
M E D I C I N A   P E R S O N A L I Z A D A
C A S O D O C L I E N T E
02 Caso do cliente: Centro Colorado de Medicina Personalizada | 15
LEIA MAIS
C A P Í T U L O 3
I N T E G R A Ç Ã O D E D A D O S
E M   T E M P O R E A L
0 3
M A I S D E
9 0 %
03 Integração de dados em tempo real | 17
I N T E G R A Ç Ã O D E D A D O S E M T E M P O R E A L
Os cientistas de dados relatam que passam de 50 a 80% do tempo
atolados nas etapas de “tratamento, limpeza e manipulação de dados”
necessárias para preparar os dados para análise.18
A necessidade de
provisionar recursos e aumentar ou reduzir clusters de servidores de
acordo com cargas de trabalho imprevisíveis continua a atormentar
equipes que fazem a preparação de dados no local.19
Menos trabalho de “limpeza” com serviços gerenciados
Os serviços totalmente gerenciados em nuvem ajudam a distanciar
a TI dos trabalhos de infraestrutura voltados para a preparação
e integração de dados em larga escala. Imagine um termostato
inteligente que procura aprender e se ajustar às preferências
de diferentes equipes em um edifício comercial. Enquanto o
termostato está em uso, a nuvem consome dados de uso brutos,
como as configurações de temperatura e os níveis de consumo de
energia ao longo do dia. Conforme os dados chegam, um canal de
processamento pode ser ativado, quando necessário, na preparação
dos dados brutos. Assim, é possível garantir que as entradas estejam
em um intervalo válido, converter a temperatura e a energia usadas
nas unidades pretendidas e formatar os dados temporais. O canal de
dados os estrutura formalmente e, em seguida, carrega os resultados
transformados em um data warehouse na nuvem. Consultas,
visualizações e relatórios ficam instantaneamente disponíveis.
0 3
das empresas
T Ê M I N T E R E S S E E M
I M P L A N TA R A   P R E PA R A Ç Ã O D E
D A D O S   D E A U T O AT E N D I M E N T O
PA R A   A P O I A R I N I C I AT I VA S
R E L A C I O N A D A S A O   B I G   D ATA . 2 0
03 Integração de dados em tempo real | 18
Com os serviços totalmente gerenciados em nuvem, os recursos de infraestrutura necessários para aceitar esse
fluxo de trabalho são automaticamente alocados e, em seguida, desativados novamente. As empresas pagam
apenas pelos recursos que utilizam, o que ajuda a eliminar o desperdício e a adivinhação durante a previsão.
Em direção à análise de dados em tempo real
Enquanto os sistemas tradicionais concentram-se na análise de dados off-line “em lotes”, a demanda por insights
em tempo real pede uma nova abordagem. Os sistemas de análise de streaming com base em nuvem são
desenvolvidos para processar o fluxo de dados de aplicativos da Web, smartphones ou milhões de sensores da
IoT em tempo real. Centenas de milhares de sensores podem ser instalados em equipamentos de campo para
informar continuamente o status bruto à nuvem para processamento e monitoramento. Feeds de recursos visuais
podem ser analisados em tempo real para aplicativos como de detecção de anomalias e reconhecimento facial/de
objetos. Os serviços em nuvem amplamente testados e implantados podem ser aproveitados para casos de uso
como esses. Assim, a análise de dados de streaming pode ser implementada em questão de dias.
Com a análise de dados de streaming em tempo real, os dados vão diretamente para canais
de processamento. Os dados transformados podem ser integrados em um data warehouse
na nuvem, possibilitando consultas, visualizações e geração de relatórios em segundos.
Desta forma, o canal de processamento funciona como um tipo de middleware que pode ser
ativado quando necessário, capaz de reunir o streaming de dados em tempo real com dados
em lote retirados do armazenamento. Os dados podem ser estruturados com flexibilidade
para responder às questões empresariais de uma organização conforme elas surjam.
Desta forma, as organizações têm dois caminhos complementares, de lote e de streaming, por
meio dos quais podem capturar, preparar e integrar dados de qualquer origem para qualquer destino.
Os serviços gerenciados em nuvem possibilitam que ambos sejam usados com facilidade.
Muitas empresas inovadoras já usam o Big Data, geralmente com base em ferramentas de código aberto como a
Apache Hadoop (em inglês) e a Apache Spark (em inglês). Para esses negócios, é possível proteger os investimentos
existentes em talentos e ferramentas e, ao mesmo tempo, aproveitar as vantagens da produtividade da nuvem.
As ferramentas de código aberto para Big Data estão amplamente disseminadas e continuam crescendo.
Mundialmente, muitas empresas estão armazenando um volume cada vez maior de dados não estruturados em
sistemas de arquivo de nuvem pública, inclusive no Hadoop. Mais de um terço dos entrevistados nos EUA e na
Europa e mais do que a metade na região Ásia-Pacífico relatam que estão implementando, já implementaram
ou estão expandindo a implementação do Hadoop, incluindo HBASE, Accumulo, MapR, Cloudera e Hortonworks.
Do mesmo modo, cerca de um terço dos entrevistados nos EUA e na Europa e impressionantes 60% na região
Ásia-Pacífico estão implementando, já implementaram ou estão expandindo a implementação de plataformas
de dados em memória, incluindo Apache Spark, SAP Hana, Kognitio, Terracotta e Gigaspaces.
C O M O A P R O V E I TA R A O M Á X I M O S E U S I N V E S T I M E N T O S N O B I G D ATA
C A P Í T U L O 3 R E S U M O
03 Integração de dados em tempo real | 19
Para organizações como essa, a nuvem oferece duas opções principais:
•	 Continuar a gerenciar projetos do Big Data usando ferramentas de código aberto conhecidas, mas migrar
para as máquinas virtuais na nuvem. As vantagens normais da nuvem incluem: inutilização do oneroso
CapEx, migração para um modelo de faturamento OpEx, no qual as organizações pagam de acordo
com os dados armazenados e processados, e facilidade na escalabilidade. Observe que, nesse modelo,
os desenvolvedores e as equipes de TI ainda precisam gerenciar os próprios canais de processamento
de dados e armazenamento. No entanto, esse é o caminho mais simples para aproveitar os ativos já
estabelecidos nas empresas, como talentos, ferramentas e relacionamentos com fornecedores.
•	 A nuvem oferece versões totalmente gerenciadas de muitas das ferramentas de código aberto mais
conhecidas no Big Data. Por exemplo, executar Apache Hadoop, Apache Spark, Apache Pig e Apache
Hive na nuvem descarrega tarefas básicas de gerenciamento de dados como implantação, registro
e monitoramento.21
Esta opção é excelente para equipes que querem aproveitar os cenários físicos
no local e nativos na nuvem.
Qualquer uma das opções permite que as organizações protejam os investimentos na implantação do
Big Data, mas usam a economia da nuvem de maneira inteligente para controlar custos e ter flexibilidade.
Os canais de processamento de dados baseados na nuvem permitem às organizações extrair, transformar/
preparar e integrar dados de qualquer origem para qualquer destino (no local ou na nuvem).
Na preparação dos dados, as abordagens sem servidor gerenciam completamente a infraestrutura
subjacente, e os recursos são alocados automaticamente com base nas necessidades de cada canal
de processamento de dados.
A análise de streaming na nuvem permite que dados da Web, de dispositivos móveis e de aplicativos da
IoT façam streaming para canais de processamento de dados em tempo real. A partir daqui, os dados
podem ser preparados e integrados em um data warehouse na nuvem para gerar insights sobre o negócio
em tempo real.
1
2
3
E M P R E S A
Citibank UK
S E T O R
Serviços financeiros
S O B R E
Em um experimento que
funciona como prova de
conceito, o Google Cloud fez
uma parceria com a Thomson
Reuters para demonstrar para
o departamento comercial
e financeiro internacional
do Citibank as vantagens
de combinar as principais
tecnologias de dados do Google
com o conteúdo do mercado
financeiro da Thomson Reuters.
Nesta prova de conceito, a tarefa da equipe era mostrar como seria
fácil para o Citibank usar o Google BigQuery e o Google Cloud Pub/Sub
para analisar e consumir o equivalente a 1.000 instrumentos
financeiros de dados históricos e sobre oscilações quase em tempo
real da Thomson Reuters. O trabalho foi feito em colaboração com
Sean Micklethwaite, desenvolvedor-chefe do Citibank, e Sebastian
Fuchs, especialista em soluções da Thomson Reuters.
“Buscávamos uma API que pudesse ser usada para fazer consultas
nos dados históricos quando precisássemos, sem a necessidade
de manter nosso próprio data warehouse e sem todo o custo e
sobrecarga operacional envolvidos”, explicou Micklethwaite. “Além
disso, precisávamos de atualizações em tempo real sobre os
dados do mercado com latência no nível humano. Com o Google
Cloud, temos acesso a todos os dados necessários em uma única
plataforma. O BigQuery é responsável pelas nossas necessidades
relativas aos dados históricos de oscilações e pode processar as
oscilações brutas em alta frequência e por longos períodos. O Cloud
Pub/Sub gerencia nossos requisitos de dados em tempo real,
e recebemos todos os dados em um formato consistente.”
Fuchs adicionou: “começamos a usar o BigQuery sem a necessidade
de fazer muitos planejamentos antecipados de capacidade.
Ele simplesmente cresce conforme a necessidade, seja em
provisionamento de conteúdo ou número de consultas por usuário.”
C I T I B A N K U K
E S T U D O D E C A S O
03 Estudo de caso: Citibank | 20
LEIA MAIS
C A P Í T U L O 4
A P R E N D I Z A D O D E M Á Q U I N A
E   I N T E L I G Ê N C I A A R T I F I C I A L
0 4
6 0 %
04 Aprendizado de máquina e inteligência artificial | 22
Inovações recentes sobre o aprendizado de máquina (ML, na sigla em inglês)
e inteligência artificial (IA) frequentemente ganham destaque no noticiário.
Computadores derrotaram campeões mundiais humanos (em inglês) no
Go, um jogo de tabuleiro com mais movimentos do que a quantidade de
átomos no universo.22
Eles superaram videogames famosos (em inglês) e,
sobretudo, aprenderam a reconhecer gatos (em inglês).23
Mais recentemente,
uma iniciativa de IA foi capaz de gerar uma economia gigantesca dos custos
com energia (em inglês), destacando o aprendizado de máquina como “uma
estrutura com o propósito geral de compreender dinâmicas complexas”.24
Essa estrutura está começando a encontrar várias aplicações e a gerar
resultados em diversos setores.
O conceito de IA é simples: é a capacidade de um software se aprimorar
sem precisar ser explicitamente programado para isso. Em vez de precisar
que desenvolvedores escrevam um novo código manualmente, a IA depende
de algoritmos capazes de se tornarem “mais inteligentes” ao processar mais
dados do mundo real. A centralização do armazenamento e da preparação
de dados na nuvem (as metas dos capítulos 2 e 3, respectivamente) cria
a base ideal para o treinamento e aperfeiçoamento dos modelos de IA.
O objetivo da IA vai além da simples automatização de tarefas que antes
eram manuais. No varejo on-line, por exemplo, os algoritmos de aprendizado
de máquina são capazes de processar e analisar volumes imensos de dados
de consumidores conforme os compradores em potencial navegam na loja
on-line ou no aplicativo para dispositivos móveis de um varejista. Quanto
mais dados o modelo processar, mais ele se aproxima de compreender
quando e por que um comprador específico decidirá fazer uma determinada
compra. Em algum momento, esse aprendizado se torna preditivo, permitindo
que o varejista selecione o produto certo para uma determinada pessoa no
momento certo. Este nível de personalização, antes atingido por pequenos
comerciantes de cidadezinhas que sabiam os nomes e idades dos filhos
da cliente, agora se tornou algo possível em grande escala.
0 4
A C R E D I T A M Q U E
O   S U C E S S O F U T U R O
D A O R G A N I Z A Ç Ã O
D E L E S D E P E N D E D A
I M P L E M E N T A Ç Ã O
B E M - S U C E D I D A
D O   A P R E N D I Z A D O
D E   M Á Q U I N A . 2 5
dos entrevistados
A P R E N D I Z A D O D E M Á Q U I N A E I N T E L I G Ê N C I A A R T I F I C I A L
M O D E L O S P R É - T R E I N A D O S : O P R I M E I R O PA S S O E M D I R E Ç Ã O À I A
04 Aprendizado de máquina e inteligência artificial | 23
Muitas empresas pequenas que investem em tecnologia já estão vendo os resultados do ML. Porém,
as empresas mais bem estabelecidas têm a oportunidade única de explorar um imenso volume de dados
históricos.26 Com o ML, os resultados dependem da enorme quantidade de dados disponíveis para alimentar
os modelos de treinamento (veja “Modelos pré-treinados: o primeiro passo em direção à IA”). Empresas
bem estabelecidas podem explorar os dados próprios (tudo desde registros de sistema de TI até transações
financeiras e transcrições de chamadas de atendimento ao cliente) para treinar e otimizar esses modelos,
que retornam insights exclusivos para a empresa.
A forma mais simples de começar a usar a IA é aplicando modelos de aprendizado de máquina pré-treinados, disponíveis
instantaneamente por meio da nuvem. Não é necessário conhecimento prévio sobre ML. Esses recursos podem ser conhecidos
por quem usa aplicativos de consumidores famosos, nos quais alguns dos modelos atingiram níveis de precisão preditiva
que excedem a capacidade humana:
Esses serviços são gerais (não vinculados a aplicativos de consumidores) e podem ser facilmente incorporados a qualquer aplicativo
por meio de simples chamadas de API. Os desenvolvedores não precisam conhecer os detalhes estruturais. Sem ter que desenvolver
nenhum desses serviços internamente, as empresas podem explorar os recursos mais recentes instantaneamente, como um serviço.
A N Á L I S E D E I M A G E N S
Compreender o conteúdo presente nas
imagens ao fornecer imagens e retornar
categorias de texto (p.ex.: “automóvel”, “Torre
Eiffel”). Detecta objetos e rostos isolados de
maneira inteligente ou até extrai palavras
impressas contidas nas imagens.
A N Á L I S E D E V Í D E O S
Identificar objetos e entidades
relevantes em vídeos e entender o
que está acontecendo no nível de
uma cena ou quadro específicos.
R E C O N H E C I M E N T O D E FA L A
Converter áudio em texto com precisão extraordinária.
Fornecer áudio à API e receber de volta o texto completo
instantaneamente com compatibilidade em vários idiomas.
Oferece suporte a casos de uso em tempo real, como
transcrição ou aplicativos orientados pela fala.
T R A D U Ç Ã O
Traduzir qualquer string fornecida
para um dos muitos idiomas aceitos.
Os serviços de tradução se aperfeiçoam
continuamente e se expandem para
incluir novos idiomas.
A N Á L I S E D E T E X T O
Entender a estrutura e o
significado semântico do texto.
Extrair informações sobre pessoas,
lugares e eventos de qualquer
texto. Compreender informações
de análise e sentimentos de novos
artigos, blogs, registros de bate-papo/
conversas do suporte ao cliente
ou qualquer texto fornecido.
R E D U Ç Ã O D A
C O N F I A N Ç A N A
I N T E R V E N Ç Ã O
M A N U A LA U M E N T O D A
A U T O M A T I Z A Ç Ã O
M E L H O R I A D A
A N Á L I S E P R E D I T I VA
P R I N C I PA I S N E C E S S I D A D E S
E M P R E S A R I A I S R E L ATA D A S
em:28
04 Aprendizado de máquina e inteligência artificial | 24
As empresas bem estabelecidas e organizações líderes dos setores comerciais
normalmente têm décadas de dados próprios acumulados: transações
financeiras; registros do sistema; dados brutos gerados pelos dados da
indústria, varejo e comércio eletrônico capturados ao longo dos anos; e
resultados de desempenho das campanhas de marketing. Devidamente
aperfeiçoados e usados para treinar modelos personalizados de aprendizado
de máquina, esses dados se tornam uma fonte de capacidade preditiva. Em
vez de ajustar os serviços pré-configurados, as empresas bem estabelecidas
podem usar dados próprios para otimizar os processos empresariais para
os clientes delas, o que constitui uma poderosa fonte de diferenciação.
Os casos de uso abrangem muitos setores e revelam algumas das
aplicações mais promissoras de IA. A detecção de fraudes nos serviços
financeiros e a manutenção preventiva na indústria destacam a capacidade
de identificar anomalias em um turbilhão de transações e registros confusos,
uma necessidade comum a muitos setores. As sugestões de diagnóstico
e tratamento em assistência médica e as avaliações da fiabilidade creditícia
destacam a capacidade do aprendizado de máquina em auxiliar com
a categorização, algo útil de forma geral.
Ciclo virtuoso: capturar, preparar, treinar, prever
Os recursos apresentados nos capítulos 2 e 3 funcionam como uma base para treinar os modelos de
aprendizado de máquina usando dados próprios. Com os dados brutos já centralizados no armazenamento
em nuvem e em um data warehouse na nuvem, os canais de dados sem servidor podem extrair esses dados
continuamente e prepará-los para treinar modelos de ML personalizados. Já que os modelos de ML podem ser
hospedados na nuvem, eles se tornam imediatamente disponíveis para fazer predições para aplicativos. Esse
circuito forma um ciclo virtuoso, no qual os modelos de ML hospedados na nuvem continuam se aperfeiçoando
a partir dos novos dados de treinamento, que, por sua vez, mantêm os modelos atualizados e relevantes.
Q U A N T I F I C A Ç Ã O D O S
B E N E F Í C I O S
Em parceria com a empresa de
pesquisa M-Brain, o Google Cloud
entrevistou 20 líderes empresariais
e de TI que implementaram pro-
jetos de aprendizado de máquina
sobre as principais vantagens
provenientes dos projetos. Os
principais benefícios citados foram
os seguintes:
•	 economia de tempo
•	 redução dos custos
•	 melhor gerenciamento de risco
•	 melhor qualidade das análises
•	 aumento de receita
Outros citaram a automatização,
a melhoria do serviço e a melhoria
do planejamento de inventário. 27
• A S S I S T Ê N C I A M É D I C A
• S E R V I Ç O S F I N A N C E I R O S
• I N D Ú S T R I A
• VA R E J O
• M Í D I A / J O G O S
P R I N C I PA I S C A S O S D E U S O D E
A P R E N D I Z A D O D E M Á Q U I N A
no varejo
• avaliação do risco de crédito
• previsão da demanda de produtos para melhorar a cadeia de fornecimento
• reposição de materiais
C A P Í T U L O 4 R E S U M O
Faça o download do relatório completo aqui.
04 Aprendizado de máquina e inteligência artificial | 25
A era do aprendizado de máquina finalmente chegou e já está a todo vapor nas empresas pequenas que investem
em tecnologia, de acordo com uma nova pesquisa com líderes empresariais e de tecnologia do MIT Technology
Review Custom. Algumas das principais descobertas:29
dos entrevistados já implementaram
estratégias de aprendizado de máquina.
dos responsáveis pela implementação
de ML em fase inicial já notaram um ROI.
tiveram análises de dados
e insights mais abrangentes.
relatam uma maior
vantagem competitiva.
M L : A N O VA B A S E D E T E S T E S PA R A T E R VA N TA G E N S C O M P E T I T I VA S
6 0 %
> 5 0 %
4 5 %
2 6 %
A inteligência artificial e o derivado dela, o aprendizado de máquina, formam um conceito simples:
a capacidade que os softwares têm de se aprimorar sem a necessidade de serem explicitamente
programados para isso.
A IA baseia-se em um grande volume de dados de treinamento, que oferece à empresas bem estabelecidas
a vantagem exclusiva de fazer extrações do imenso volume de dados da empresa gerados durante o longo
histórico de operações.
Armazenamento em nuvem, data warehousing, integração de dados e análise fornecem uma base natural
para a IA e o ML ao tornar os dados disponíveis para treinamento e otimização em tempo real, o que
alimenta um ciclo virtuoso de melhoria contínua.
1
2
3
Conclusão | 26
Em uma era de vasta quantidade de dados e respostas imediatas, a capacidade
de extrair valor dos dados (independentemente da origem, tamanho e requisitos
que envolvem conveniência) estará no cerne da vantagem competitiva de
uma organização.
O primeiro passo é repensar a estratégia de dados a partir do zero. As
ferramentas de nuvem atuais permitem que as empresas gerenciem volumes
imensos de diversos tipos de dados com mais eficiência e a um custo menor
do que era possível anteriormente. As empresas que adotam uma abordagem
de capturar, armazenar, preparar e analisar os dados terão a base para aproveitar
o aprendizado de máquina e a inteligência artificial. Por fim, esses novos recursos
serão traduzidos em relacionamentos mais próximos entre as empresas e os
clientes delas, tornando os negócios mais preditivos em cada interação.
C O N C L U S Ã O
S A I B A M A I S S O B R E O Q U E O G O O G L E C L O U D P O D E F A Z E R P E L O S E U N E G Ó C I O .
Armazenamento e bancos
de dados
Soluções para Big Data Aprendizado de máquina
e inteligência artificial
S A I B A M A I S S A I B A M A I S S A I B A M A I S
Referências | 27
1.	 81% dos executivos seniores entrevistados pela Ernst & Young concordaram que os dados devem estar no centro da
tomada de decisão, somente 31% precisaram reestruturar as operações de maneira significativa para incorporar o Big
Data e apenas 23% haviam implementado estratégias de dados em toda a organização. Ernst & Young, Becoming an
Analytics-Driven Organization (2015) (link).
2.	 David Reinsel et al., Data Age 2025: The Evolution of Data to Life-Critical (IDC, 2017) (link).
3.	 Cade Metz, “Exclusive: Inside Google Spanner, the Largest Single Database on Earth,” Wired
(26 de novembro de 2012) (link).
Cade Metz, “Spanner, the Google Database that Measured Time, Is Now Open to Everyone,” Wired
(14 de fevereiro de 2017) (link).
4.	 Robert McMillan, “Inside the Artificial Brain that’s Remaking the Google Empire,” Wired (16 de julho de 2014) (link).
TensorFlow (link).
5.	 Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
6.	 Leandro DalleMule and Thomas H. Davenport, “What’s Your Data Strategy?” Harvard Business Review
(maio de 2017) (link).
7.	 John Gantz and David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far
East (IDC, 2012) (link).
8.	 Tracie Kambies et al., Tech Trends 2017: Dark Analytics: Illuminating Opportunities Hidden within Unstructured Data
(Deloitte University Press, 2017) (link).
9.	 Google Cloud Storage Pricing, Google Cloud Platform (link).
10.	 Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
11.	 “Three Ways Marketing Organizations Can Make Data More Actionable,” Harvard Business Review
(9 de agosto de 2016) (link).
12.	 Modernos data warehouses na nuvem auxiliam a importação (e até consultas específicas) de muitos formatos
semiestruturados automaticamente. Para saber mais sobre dados não estruturados que precisam ser transformados
primeiro (ex: ETL), veja o capítulo 3: preparação de dados.
13.	 Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
14.	 Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
15.	 James Manyika et al., Big Data: The Next Frontier for Innovation, Competition, and Productivity (McKinsey Global Institute,
2011) (link).
16.	 Lisa Morgan, “Citizen Data Scientists: 7 Ways to Harness Talent,” InformationWeek (24 de julho de 2015) (link).
17.	 Centro Colorado de Medicina Personalizada: Improving Healthcare by Integrating Patient Records and Genetic Data Using
Google Cloud Platform and Tableau (Google Cloud Platform, 2017) (link).
18.	 Steve Lohr, “For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights,” New York Times (17 de agosto de 2014) (link).
19.	 Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
20.	 Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
21.	 Apache Hadoop, The Apache Software Foundation (link).
Apache Spark, The Apache Software Foundation (link).
Apache Pig, The Apache Software Foundation (link).
Apache Hive, The Apache Software Foundation (link).
R E F E R Ê N C I A S
Conclusão | 28
22.	 Paul Mozur, “Google’s A.I. Program Rattles Chinese Go-Master As It Wins Match,” New York Times
(25 de maio de 2017) (link).
23.	 Nicola Twilley, “Artificial Intelligence Goes to the Arcade,” The New Yorker (25 de fevereiro de 2015) (link).
John Markoff, “How Many Computers to Identify A Cat? 16,000,” The New Yorker (25 de junho de 2012) (link).
24.	 James Vincent, “Google Uses DeepMind AI to Cut Data Center Energy Bills,” The Verge (21 de julho de 2016) (link).
25.	 Harvard Business Review Analytic Services Global Data and Analytics Survey, sponsored by Google (2017).
26.	 Uma pesquisa do MIT Technology Review mostrou pequenas empresas na fase inicial da adoção do aprendizado
de máquina e descobriu que: 60% de um grupo de 375 entrevistados, no qual cerca de dois terços eram empresas
com menos de 1.000 funcionários, foram amplamente influenciados pelos setores de tecnologia, negócios e serviços
financeiros. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for
Competitive Advantage (2017) (link).
27.	 Anna Rader, Machine Learning Initiatives Across Industries: Practical Lessons from IT Executives (M-Brain, sponsored
by Google, 2017) (link).
28.	 Anna Rader and Irida Jano, Machine Learning Market Research: How Leading Industries Are Adopting AI
(M-Brain 2017) (link).
29.	 MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for Competitive
Advantage (2017) (link).
© 2017 Google Inc.
1600 Amphitheatre Parkway, Mountain View, CA 94043

Mais conteúdo relacionado

Mais procurados

Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus ImpactosAlex Silva
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosDan S. Reznik, PhD
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Npa810 Inteligencia De Negocios
Npa810 Inteligencia De NegociosNpa810 Inteligencia De Negocios
Npa810 Inteligencia De Negociosrafadsn
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Juan Felipe dos Reis Barbosa
 
Revista Cisco Live 13 ed
Revista Cisco Live 13 edRevista Cisco Live 13 ed
Revista Cisco Live 13 edCisco do Brasil
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big datacictec
 
Impact of-9-cloud it-consumption-models-top-10_pt-br
Impact of-9-cloud it-consumption-models-top-10_pt-brImpact of-9-cloud it-consumption-models-top-10_pt-br
Impact of-9-cloud it-consumption-models-top-10_pt-brCisco do Brasil
 
Expandindo o controle da informação além do ECM
Expandindo o controle da informação além do ECMExpandindo o controle da informação além do ECM
Expandindo o controle da informação além do ECMWaldir Rodrigues Júnior
 
Trabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TITrabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TIDANILLO RIBEIRO CUNHA
 

Mais procurados (19)

Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus Impactos
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
 
Clustering
ClusteringClustering
Clustering
 
Big data
Big dataBig data
Big data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Npa810 Inteligencia De Negocios
Npa810 Inteligencia De NegociosNpa810 Inteligencia De Negocios
Npa810 Inteligencia De Negocios
 
Big Data
Big DataBig Data
Big Data
 
Cloud Computing Com Lte
Cloud Computing Com LteCloud Computing Com Lte
Cloud Computing Com Lte
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
 
Revista Cisco Live 13 ed
Revista Cisco Live 13 edRevista Cisco Live 13 ed
Revista Cisco Live 13 ed
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big data
 
Impact of-9-cloud it-consumption-models-top-10_pt-br
Impact of-9-cloud it-consumption-models-top-10_pt-brImpact of-9-cloud it-consumption-models-top-10_pt-br
Impact of-9-cloud it-consumption-models-top-10_pt-br
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Expandindo o controle da informação além do ECM
Expandindo o controle da informação além do ECMExpandindo o controle da informação além do ECM
Expandindo o controle da informação além do ECM
 
Trabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TITrabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TI
 

Semelhante a Guia sobre análise de dados e aprendizado de máquina

White Paper Frost & Sullivan Portugues
White Paper Frost & Sullivan PortuguesWhite Paper Frost & Sullivan Portugues
White Paper Frost & Sullivan PortuguesFelipe Lamus
 
Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...
Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...
Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...Cisco do Brasil
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014Tableau Software
 
A20 paper - perfil business intelligence - big data e fast data
A20   paper - perfil business intelligence - big data e fast dataA20   paper - perfil business intelligence - big data e fast data
A20 paper - perfil business intelligence - big data e fast dataMarcelo Krug
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricDenodo
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfssuserbd3b69
 
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaWiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaLeonardo Couto
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxdataRain
 
Teoria de Sistemas de Informação - Atividade: Tecnologia e SI
Teoria de Sistemas de Informação - Atividade: Tecnologia e SITeoria de Sistemas de Informação - Atividade: Tecnologia e SI
Teoria de Sistemas de Informação - Atividade: Tecnologia e SIAlessandro Almeida
 
Solução de erp na nuvem controle e eficiência sempre em mãos
Solução de erp na nuvem controle e eficiência sempre em mãosSolução de erp na nuvem controle e eficiência sempre em mãos
Solução de erp na nuvem controle e eficiência sempre em mãosRafael Sales
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
PLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03aPLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03aCADWARE-TECHNOLOGY
 
As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015Tableau Software
 
Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4Fristtram Helder Fernandes
 

Semelhante a Guia sobre análise de dados e aprendizado de máquina (20)

Data mesh-pt
Data mesh-ptData mesh-pt
Data mesh-pt
 
White Paper Frost & Sullivan Portugues
White Paper Frost & Sullivan PortuguesWhite Paper Frost & Sullivan Portugues
White Paper Frost & Sullivan Portugues
 
Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...
Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...
Por que tudo que você achava que sabia sobre implementar novas tecnologias mu...
 
MJV Trends - Tendências em TI 2020
MJV Trends - Tendências em TI 2020MJV Trends - Tendências em TI 2020
MJV Trends - Tendências em TI 2020
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
A20 paper - perfil business intelligence - big data e fast data
A20   paper - perfil business intelligence - big data e fast dataA20   paper - perfil business intelligence - big data e fast data
A20 paper - perfil business intelligence - big data e fast data
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Dayana222
Dayana222Dayana222
Dayana222
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data Fabric
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdf
 
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaWiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
 
Teoria de Sistemas de Informação - Atividade: Tecnologia e SI
Teoria de Sistemas de Informação - Atividade: Tecnologia e SITeoria de Sistemas de Informação - Atividade: Tecnologia e SI
Teoria de Sistemas de Informação - Atividade: Tecnologia e SI
 
Solução de erp na nuvem controle e eficiência sempre em mãos
Solução de erp na nuvem controle e eficiência sempre em mãosSolução de erp na nuvem controle e eficiência sempre em mãos
Solução de erp na nuvem controle e eficiência sempre em mãos
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
PLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03aPLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03a
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015
 
Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4
 

Mais de Lucas Modesto

Adjust - Atribuição Mobile
Adjust - Atribuição MobileAdjust - Atribuição Mobile
Adjust - Atribuição MobileLucas Modesto
 
Os 10 mandamentos da otimização no Facebook
Os 10 mandamentos da otimização no FacebookOs 10 mandamentos da otimização no Facebook
Os 10 mandamentos da otimização no FacebookLucas Modesto
 
Personalize sua estratégia de mídia do YouTube
Personalize sua estratégia de mídia do YouTubePersonalize sua estratégia de mídia do YouTube
Personalize sua estratégia de mídia do YouTubeLucas Modesto
 
Índice de Maturidade Digital dos Brasileiros
Índice de Maturidade Digital dos BrasileirosÍndice de Maturidade Digital dos Brasileiros
Índice de Maturidade Digital dos BrasileirosLucas Modesto
 
Dicas de produtividade dos especialistas em reuniões do Google
Dicas de produtividade dos especialistas em reuniões do GoogleDicas de produtividade dos especialistas em reuniões do Google
Dicas de produtividade dos especialistas em reuniões do GoogleLucas Modesto
 
Ebook SXSW: Bora de resumão?
Ebook SXSW: Bora de resumão?Ebook SXSW: Bora de resumão?
Ebook SXSW: Bora de resumão?Lucas Modesto
 
APPrende São Paulo
APPrende São Paulo APPrende São Paulo
APPrende São Paulo Lucas Modesto
 
Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...
Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...
Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...Lucas Modesto
 
Calendário Twitter 2019 @TwitterMktgBR
Calendário Twitter 2019 @TwitterMktgBR Calendário Twitter 2019 @TwitterMktgBR
Calendário Twitter 2019 @TwitterMktgBR Lucas Modesto
 
PLAN AND GO 2019 - Building smart strategies together
PLAN AND GO 2019 - Building smart strategies togetherPLAN AND GO 2019 - Building smart strategies together
PLAN AND GO 2019 - Building smart strategies togetherLucas Modesto
 
4 things that brands are doing to win in the new video landscape
4 things that brands are doing to win in the new video landscape4 things that brands are doing to win in the new video landscape
4 things that brands are doing to win in the new video landscapeLucas Modesto
 
Mobility Index 2018 - Metodologia Pontomobi
Mobility Index 2018 - Metodologia PontomobiMobility Index 2018 - Metodologia Pontomobi
Mobility Index 2018 - Metodologia PontomobiLucas Modesto
 
Modelos de Atribuição em Publicidade Digital
Modelos de Atribuição em Publicidade DigitalModelos de Atribuição em Publicidade Digital
Modelos de Atribuição em Publicidade DigitalLucas Modesto
 
Google Audience Catalog
Google Audience CatalogGoogle Audience Catalog
Google Audience CatalogLucas Modesto
 
David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...
David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...
David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...Lucas Modesto
 
AppsFlyer Performance Index VII
AppsFlyer Performance Index VIIAppsFlyer Performance Index VII
AppsFlyer Performance Index VIILucas Modesto
 
Desafios do negócio - O Facebook como aliado
Desafios do negócio - O Facebook como aliadoDesafios do negócio - O Facebook como aliado
Desafios do negócio - O Facebook como aliadoLucas Modesto
 
GfK Black Friday 2018
GfK Black Friday 2018 GfK Black Friday 2018
GfK Black Friday 2018 Lucas Modesto
 
Who are Emerging Disruptors?
Who are Emerging Disruptors?Who are Emerging Disruptors?
Who are Emerging Disruptors?Lucas Modesto
 

Mais de Lucas Modesto (20)

Adjust - Atribuição Mobile
Adjust - Atribuição MobileAdjust - Atribuição Mobile
Adjust - Atribuição Mobile
 
Os 10 mandamentos da otimização no Facebook
Os 10 mandamentos da otimização no FacebookOs 10 mandamentos da otimização no Facebook
Os 10 mandamentos da otimização no Facebook
 
Personalize sua estratégia de mídia do YouTube
Personalize sua estratégia de mídia do YouTubePersonalize sua estratégia de mídia do YouTube
Personalize sua estratégia de mídia do YouTube
 
Índice de Maturidade Digital dos Brasileiros
Índice de Maturidade Digital dos BrasileirosÍndice de Maturidade Digital dos Brasileiros
Índice de Maturidade Digital dos Brasileiros
 
Dicas de produtividade dos especialistas em reuniões do Google
Dicas de produtividade dos especialistas em reuniões do GoogleDicas de produtividade dos especialistas em reuniões do Google
Dicas de produtividade dos especialistas em reuniões do Google
 
Ebook SXSW: Bora de resumão?
Ebook SXSW: Bora de resumão?Ebook SXSW: Bora de resumão?
Ebook SXSW: Bora de resumão?
 
APPrende São Paulo
APPrende São Paulo APPrende São Paulo
APPrende São Paulo
 
Smadex DSP MOBILE
Smadex DSP MOBILESmadex DSP MOBILE
Smadex DSP MOBILE
 
Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...
Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...
Playbook Criativo: saiba como criar campanhas personalizadas no Dia do Consum...
 
Calendário Twitter 2019 @TwitterMktgBR
Calendário Twitter 2019 @TwitterMktgBR Calendário Twitter 2019 @TwitterMktgBR
Calendário Twitter 2019 @TwitterMktgBR
 
PLAN AND GO 2019 - Building smart strategies together
PLAN AND GO 2019 - Building smart strategies togetherPLAN AND GO 2019 - Building smart strategies together
PLAN AND GO 2019 - Building smart strategies together
 
4 things that brands are doing to win in the new video landscape
4 things that brands are doing to win in the new video landscape4 things that brands are doing to win in the new video landscape
4 things that brands are doing to win in the new video landscape
 
Mobility Index 2018 - Metodologia Pontomobi
Mobility Index 2018 - Metodologia PontomobiMobility Index 2018 - Metodologia Pontomobi
Mobility Index 2018 - Metodologia Pontomobi
 
Modelos de Atribuição em Publicidade Digital
Modelos de Atribuição em Publicidade DigitalModelos de Atribuição em Publicidade Digital
Modelos de Atribuição em Publicidade Digital
 
Google Audience Catalog
Google Audience CatalogGoogle Audience Catalog
Google Audience Catalog
 
David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...
David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...
David vs Golias como o aplicativo hopper esta ganhando o mercado dos gigantes...
 
AppsFlyer Performance Index VII
AppsFlyer Performance Index VIIAppsFlyer Performance Index VII
AppsFlyer Performance Index VII
 
Desafios do negócio - O Facebook como aliado
Desafios do negócio - O Facebook como aliadoDesafios do negócio - O Facebook como aliado
Desafios do negócio - O Facebook como aliado
 
GfK Black Friday 2018
GfK Black Friday 2018 GfK Black Friday 2018
GfK Black Friday 2018
 
Who are Emerging Disruptors?
Who are Emerging Disruptors?Who are Emerging Disruptors?
Who are Emerging Disruptors?
 

Guia sobre análise de dados e aprendizado de máquina

  • 1. G U I A S O B R E A N Á L I S E D E D A D O S E A P R E N D I Z A D O D E M Á Q U I N A PA R A C I O
  • 2. Introdução | 2 Introdução Conclusão Referências 03 05 09 16 21 26 27 C O N T E Ú D O Conteúdo | 2 O novo cenário para os dados Armazenamento em nuvem e data warehousing Integração de dados em tempo real Aprendizado de máquina e inteligência artificial
  • 3. Introdução | 3 O uso de dados para tomar decisões comerciais não é novidade. Antes, “tomar decisões baseadas em dados” significava compreender a correlação entre uma campanha de anúncio impressa e os picos episódicos de vendas acima do normal. As empresas usavam quaisquer dados que tivessem em mãos, no momento em que estivessem disponíveis. Hoje, os dados estão por toda parte. Eles são transmitidos a velocidades vertiginosas, em diversos formatos, a partir de dispositivos de bilhões de usuários conectados. Geralmente, usar o Big Data é considerado uma oportunidade, mas apenas para empresas que tenham estrutura para lidar com o volume e a diversidade dele. Para as outras empresas, a avalanche de dados pode trazer o risco de que insights em potencial permaneçam inexplorados, necessidades de clientes não sejam atendidas e empresas continuem tomando decisões sem em+basamento. Dois fatores diferenciam o cenário atual dos avanços alcançados no passado. O primeiro é o aumento exponencial no volume e na diversidade de dados gerados por bilhões de usuários e dispositivos. O segundo é a demanda pelo acesso imediato a dados e insights de alta qualidade. Cada um trouxe uma nova necessidade imediata de determinar como as empresas gerenciam os dados. Além disso, o custo e o desempenho de muitos recursos de nuvem atingiram um ponto crítico, ajudando a tornar o aprendizado de máquina (ML, na sigla em inglês) e a inteligência artificial (IA) acessíveis a todas as empresas. Apesar de o valor dos dados ser amplamente reconhecido, poucas empresas implementaram estratégias de dados modernas.1 Com base em pesquisas inéditas e nas contribuições do próprio Google para a nuvem, este guia foi desenvolvido para ajudar líderes empresariais e de TI a implementarem estratégias modernas com base em nuvem para o gerenciamento de dados. Em cada seção, destacamos tecnologias que auxiliam as empresas a transformar um cenário amplo e complexo de dados em insights comerciais úteis. I N T R O D U Ç Ã O
  • 4. 2 1 8 6 0 1 5 . 0 0 0 3 . 0 0 0 2 0 1 5 2 0 2 0 2 0 2 5 1 . 0 0 0 4 . 8 0 0 Introdução | 4 N O S S A S R A Í Z E S O Guia sobre análise de dados e aprendizado de máquina do Google Cloud baseia-se nos 20 anos em que o Google enfrentou alguns dos problemas mais complexos do setor relacionados a dados. Ao longo do percurso, contribuímos com pesquisas inéditas que ajudaram a moldar o cenário do Big Data: dos dois artigos acadêmicos do final de 2003 e 2004, que juntos geraram o movimento do Hadoop, ao artigo sobre o Dremel, que constitui a base dos recursos de data warehouse na nuvem presentes neste guia. Nós concebemos, desenvolvemos e implantamos o Spanner, o primeiro sistema que distribui dados em escala global, oferece suporte a transações distribuídas externamente de maneira uniforme e que, em 2017, tornou-se totalmente disponível para os nossos clientes.3 Recentemente, o Google Brain ajudou a fomentar o interesse renovado do setor em IA, o que colaborou para o lançamento do nosso Projeto do TensorFlow em código aberto.4 Com este guia, esperamos compartilhar nossa experiência com líderes que buscam formas de decifrar as possibilidades do aprendizado de máquina e da inteligência artificial para as organizações deles. Até 2025, uma pessoa comum conectada usará dispositivos conectados aproximadamente 4.800 vezes por dia, o equivalente a uma interação a cada 18 segundos.2 Númerodeinterações/pessoa/dia I N T E R A Ç Õ E S P O R P E S S O A C O N E C TA D A P O R D I A
  • 5. C A P Í T U L O 1 O N O V O C E N Á R I O PA R A O S D A D O S 0 1
  • 6. 01 O novo cenário para os dados | 6 O N O V O C E N Á R I O PA R A O S D A D O S Seria mais fácil gerenciar os dados se o crescimento fosse limitado a poucas fontes ou se os dados fossem uniformes. O desafio consiste na diversidade de fontes e formatos. Isso inclui o volume crescente de dados não estruturados: e-mails, registros de sistema, páginas da Web, transcrições de clientes, documentos, apresentações, bate-papos informais e um extraordinário volume de rich media, como imagens e vídeos em alta definição. Volumes enormes de informação tornam-se disponíveis instantaneamente em qualquer dispositivo conectado à Internet, o que gera novas expectativas em torno da disponibilidade e da prontidão dos dados. Aplicativos de consumidores, como apps de pesquisa, mensagens de texto, comércio eletrônico, redes sociais e vídeos on-line, foram os primeiros a se deparar com esse problema. Novos sistemas tiveram que ser desenvolvidos para lidar com o tráfego na escala da Web e, ao mesmo tempo, retornar insights instantaneamente. Hoje, essas inovações estão disponíveis e tornam-se cada vez mais importantes para todas as empresas, abrangendo desde o auxílio a fabricantes no gerenciamento mais eficiente da cadeia de fornecimento até o aumento da precisão de diagnósticos clínicos. As equipes de TI estão empacadas no meio do caminho. Elas precisam encontrar formas de apresentar uma perspectiva do negócio em tempo real ao mesmo tempo em que gerenciam um cenário maior e mais complexo de dados. Como acontece com muitas soluções de software, a redução da complexidade é um fator determinante para o sucesso. Este guia analisa como os serviços gerenciados em nuvem ajudam empresas novas e já estabelecidas a enfrentar os desafios do processamento de dados. Ele detalha um caminho que começa com a captura de dados brutos da empresa no armazenamento em nuvem. Conforme as questões empresariais forem surgindo, as ferramentas com base na nuvem podem preparar e estruturar os dados brutos quando necessário. Em seguida, os dados preparados são incorporados 0 1
  • 7. C A P Í T U L O 1 R E S U M O 01 O novo cenário para os dados | 7 em um data warehouse na nuvem, onde ficam imediatamente disponíveis para análise. Esse conjunto de dados funciona como a “base operacional” a partir da qual as organizações podem capturar, preparar e analisar dados de qualquer tipo, a partir de qualquer fonte. A natureza totalmente gerenciada dos serviços em nuvem ajuda a simplificar todo o processo, incluindo o suporte a análise em tempo real, sem a necessidade de a equipe de TI conhecer a infraestrutura subjacente. Com base nesses fundamentos, o guia conclui mostrando como as organizações podem usar a captura e preparação desse ciclo de dados para possibilitar o aprendizado de máquina e a inteligência artificial. As arquiteturas modernas sem servidor são o ápice de uma série de esforços para reduzir a extensão da área que os desenvolvedores e as equipes de TI precisam gerenciar. A meta da computação sem servidor é, essencialmente, eliminar a “mercantilização” do trabalho (do gerenciamento de clusters de servidores, fragmentação de bancos de dados, balanceamento de carga, planejamento de recursos, garantia de disponibilidade) para que as equipes de TI possam se concentrar naquilo que é mais importante para o negócio. A função “sem servidor” estabelece uma nítida distinção entre a TI “mercantilizada”(o serviço cotidiano de manutenção que parece praticamente o mesmo em cada empresa) e o serviço diferenciado que eleva a TI para a posição de fornecedor direto de valor comercial. S E M S E R V I D O R : O C A M I N H O PA R A A P R O D U T I V I D A D E E M T I As empresas enfrentam três novos desafios: • o volume de dados sendo criados; • a diversidade de formatos e fontes de dados; • a velocidade em que os consumidores e as partes interessadas internas esperam ter insights. A computação em nuvem ajuda as empresas a enfrentar esses desafios ao permitir o gerenciamento de dados em escala e velocidade sem ter que se preocupar com a infraestrutura. Em especial, as empresas podem começar a modernizar as estratégias de dados delas ao se concentrar no armazenamento em nuvem e em data warehousing como primeira etapa da criação de uma base para o aprendizado de máquina e a inteligência artificial. 1 2 3
  • 8. E M P R E S A FIS S E T O R Serviços financeiros S O B R E A FIS é líder mundial em tecnologia de serviços financeiros com enfoque em varejo e transações bancárias, pagamentos, gestão de recursos e patrimônio, risco e compliance, consultoria e soluções terceirizadas. F I S C A S O D O C L I E N T E 01 Caso do cliente: FIS | 8 A FIS faz análises de eventos e inovações do mercado com serviços de nuvem totalmente gerenciados A FIS desenvolveu uma ferramenta de reconstrução do mercado que ajuda a determinar a causa potencial de eventos que desestabilizam o mercado financeiro, como o “flash crash” de 2010. O sistema da FIS não só é capaz de armazenar bilhões de transações, como também permite que os gerentes de risco e compliance realizem supervisão e consultas quando necessário, incluindo reconstrução do mercado. De acordo com a FIS, o sistema pode processar e vincular até 15 terabytes de dados diariamente em quatro horas e armazená- los por seis anos, tal como a legislação exige. “Isso representa em torno de 30 petabytes de dados”, disse Neil Palmer, diretor  da área de Tecnologia Avançada da FIS. “Não há muitas coisas disponíveis por aí nessa escala, e certamente não há nada voltado para serviços financeiros. É uma tarefa colossal.” A equipe de Palmer precisava de uma plataforma com alto poder computacional, mas também queria evitar o custo e a manutenção associados ao desenvolvimento e à operação de um sistema instalado localmente. “A escalabilidade é uma vantagem enorme do Google Cloud Platform”, afirmou Palmer. “Uma solução tradicional de TI para hardware fixo neste cenário poderia resultar em milhões de dólares em equipamentos ociosos durante vários dias de negociação.” LEIA MAIS
  • 9. C A P Í T U L O 2 A R M A Z E N A M E N T O E M N U V E M E   D A T A W A R E H O U S I N G 0 2
  • 10. 02 Armazenamento em nuvem e data warehousing | 10 A R M A Z E N A M E N T O E M N U V E M E D A T A W A R E H O U S I N G A centralização de dados brutos dos principais processos empresariais no armazenamento em nuvem é um dos primeiros passos a serem dados pelas organizações em direção à modernização. Ao fazer isso, elas se preparam para explorar os recursos de análise em nuvem. Os silos de dados distribuídos por toda a empresa continuam a aborrecer tanto a equipe de TI quanto a comercial, com novos silos (por razões técnicas, corporativas ou ambas) criados diariamente.5 A revista Harvard Business Review fez uma publicação sobre a necessidade da fonte única da verdade para dados, assim como as diversas lentes pelas quais diferentes ramos de negócios podem analisar os dados.6 O armazenamento em nuvem e o data warehousing permitem às empresas fazer as duas coisas (manter um único repositório central e possibilitar que diferentes funções empresariais analisem dados de maneiras que atendam às necessidades específicas deles) com mais rapidez e flexibilidade do que era possível anteriormente. Juntos, esses recursos ajudam a criar uma visualização em 360 graus do negócio envolvendo os silos. Capturar dados brutos para análises futuras A IDC estima que menos de 1% de todos os arquivos sejam analisados.7 Os outros 99%, dependendo das necessidades do negócio no momento, contêm informações sobre insights voltados à tomada de decisão. Como as organizações não conseguem prever as questões empresariais que poderão surgir, elas precisam de maneiras simples, baratas e flexíveis de armazenar um grande volume de dados. Isso vale principalmente para dados não estruturados, que constituem a maioria dos dados gerados.8 Com a nuvem, as empresas podem armazenar um volume enorme de arquivos a baixo custo, a menos de um centavo por gigabyte no momento da gravação.9 Os dados usados frequentemente podem ser armazenados como “mornos” (disponíveis em escala global para serem utilizados em aplicativos ou para executarem análises), enquanto os dados com valor ainda inexplorado permanecem no armazenamento frio, que é mais barato. O armazenamento on-line mais atraente permite até que os dados arquivados a frio sejam rapidamente recuperados com latência extremamente baixa. 0 2
  • 11. 02 Armazenamento em nuvem e data warehousing | 11 A I D C E S T I M A Q U E M E N O S D E 1 % D E T O D O S O S D A D O S S Ã O A N A L I S A D O S . 7 Além de gerar economia de custos, o armazenamento em nuvem funciona como a base de análises robustas. As empresas podem capturar arquivos estruturados e não estruturados nos formatos originais com facilidade. Como o armazenamento é separado intencionalmente do processamento e da análise, as equipes podem postergar a estruturação dos dados brutos para análise somente quando questões empresariais surgirem. O mais importante de tudo é que dados brutos que tenham a mesma origem podem ser facilmente reestruturados para responder a novas questões de imediato. O que diferencia o armazenamento em nuvem é a eficiência dessas etapas de captura e reutilização dos dados. Para preparar uma organização para que ela se beneficie das análises, as equipes precisam garantir que os dados brutos dos processos empresariais sejam capturados e centralizados. Essa flexibilidade está acelerando a adoção da nuvem como repositório para dados não estruturados das organizações. Cerca de metade das organizações nos EUA, Europa e Ásia-Pacífico antecipam saltos de pelo menos 5% no armazenamento de dados não estruturados na nuvem no ano seguinte, sendo que muitas delas informam um aumento superior a 10%.10 < 1 %
  • 12. 02 Armazenamento em nuvem e data warehousing | 12 Gerenciamento de dados nos silos Ao capturar dados de qualquer tipo de maneira econômica, as organizações podem voltar a atenção para possibilitar uma perspectiva organizada dos processos empresariais mais importantes. Embora o armazenamento em nuvem centralize dados no formato bruto nativo, um data warehouse na nuvem permite que empresas reúnam dados de silos diferentes para análise, assim como um data warehouse tradicional faria. Com a nuvem, as empresas podem gerenciar um grande volume de dados com investimento mínimo de capital, escala praticamente ilimitada e pagamento por utilização. Os serviços gerenciados em nuvem vão mais além, aliviando as preocupações de TI sobre a infraestrutura subjacente. As empresas precisam definir quais questões empresariais devem ser respondidas e quais são os dados necessários para respondê-las. Por exemplo: • Quais são as principais metas empresariais dos meus dados? Entender como os usuários interagem com os meus sistemas, identificar tendências, aumentar as vendas, construir a fidelidade do consumidor ou algo diferente? • Qual será a origem dos meus dados mais importantes (transações, registros de servidores, serviços em nuvem, dispositivos/Internet das coisas, mídia social)? Eles já foram importados para o armazenamento em nuvem? • Com que velocidade o meu sistema precisa incorporar novos dados em relatórios e visualizações? • Existe uma cultura que incentive a tomada de decisão baseada em dados em toda a organização (não apenas entre os analistas de TI e os cientistas de dados)? Quem deveria ter acesso à plataforma de análise? De acordo com uma pesquisa com mais de 500 líderes mundiais em TI conduzida pela MIT Sloan Management Review em nome do Google Cloud, a adesão à nuvem permanece em crescimento, e a expectativa é de que a maioria (65%) dos aplicativos, dados e/ou infraestrutura seja baseada em nuvem até 2019. A Internet das coisas é um importante fator de crescimento dessa migração para a nuvem, sendo que 91% dos entrevistados com iniciativas de IoT estão atualmente implantando (59%) ou planejam implantar (32%) dados de dispositivos conectados à IoT na nuvem. Os entrevistados mencionaram a capacidade de incorporar novas ferramentas e plataformas (33%), maior velocidade da implantação e iteração de app (31%), maior flexibilidade nos processos empresariais e nas escolhas de fornecedores (29%) e maior segurança (28%) como os principais motivos para implantar dados da IoT na nuvem. Para usar os dados da IoT de maneira eficiente, as empresas precisam compreendê-los dentro do contexto. Um data warehouse na nuvem que permite entradas de lote e dados de streaming, em conjunto com uma plataforma de análise robusta, ajuda a assegurar que seus dados de IoT gerem insights em tempo real. A I N T E R N E T D A S C O I S A S
  • 13. 02 Armazenamento em nuvem e data warehousing | 13 Assim que as metas empresariais forem definidas, as empresas precisam identificar as origens dos dados de entrada entre os silos a serem importados para um data warehouse na nuvem para análise. Veja abaixo uma lista das origens de entrada mais usadas: Armazenamento em nuvem Os dados do armazenamento em nuvem podem ser importados para um data warehouse na nuvem para análise.12 Nessa etapa, é possível formalizar um esquema com base nas questões empresariais que precisam de resposta, propiciando a estruturação dos dados brutos para análise. Bancos de dados transacionais e de análise Os dados armazenados em bancos de dados transacionais e de análise podem ser carregados em lote ou transmitidos linha por linha para um data warehouse na nuvem. Dados armazenados nos serviços em nuvem Os dados armazenados em outros provedores de SaaS podem ser importados para um data warehouse na nuvem. Em muitos casos, isso é feito de maneira automática. Dados de streaming Dados de aplicativos da Web, de dispositivos móveis e da Internet das coisas (IoT, na sigla em inglês) podem ignorar o armazenamento em nuvem e serem transmitidos diretamente para um data warehouse na nuvem (veja no capítulo 3: Integração de dados em tempo real). Administração de dados O crescimento exponencial do volume global de dados não é o único obstáculo enfrentado pelas empresas. De acordo com Forrester, os requisitos de análise e geração de relatórios em constante mudança, além da falta de alinhamento entre o negócio e a TI, estão entre os principais desafios que prejudicam os esforços de inteligência de negócio das empresas.13 Além disso, a falta comprovada de talentos em ciência de dados (veja “A ascenção dos cientistas de dados amadores”) leva as empresas a pensar em novas formas de desenvolver conhecimentos analíticos. Com o acesso baseado em funções, qualquer pessoa ou desenvolvedor de aplicativos pode consultar dados armazenados em um data warehouse na nuvem, gerar relatórios ou acessar visualizações. O data warehousing na nuvem aceita o gerenciamento de acesso individualizado voltado para o que a pessoa precisa saber. A auditabilidade total e o controle do acesso personalizado ajudam a democratizar a ciência de dados, ao mesmo tempo em que mantêm salvaguardas de segurança. De fato, mais da metade das empresas nos EUA, Europa e Ásia-Pacífico relatam que estão implementando, já implementaram ou estão expandindo o uso de ferramentas de inteligência empresarial operadas pela própria empresa e utilizadas nela.14
  • 14. C A P Í T U L O 2 R E S U M O 02 Armazenamento em nuvem e data warehousing | 14 Antes, a responsabilidade por conclusões estatisticamente precisas com base em dados era exclusiva aos cientistas de dados profissionais. Porém, em 2018, de acordo com a McKinsey, “Os EUA poderão enfrentar uma escassez de 140.000 a 190.000 pessoas com conhecimento aprofundado em análise de dados, assim como 1,5 milhão de gerentes e analistas com o conhecimento para usar as análises de Big Data para tomar decisões efetivas.”15 Com a intensificação da competição, a maioria das empresas precisará de uma estratégia diferente voltada para os talentos. Os cientistas de dados amadores que, conforme definição do InformationWeek, são pessoas que fazem análises de dados, mas cujas principais atribuições não estão relacionadas à estatística ou análise, podem ser um complemento significativo para cientistas de dados internos, principalmente para empresas que investem no desenvolvimento da cultura da ciência de dados.16 Para ter sucesso, quem pretende se tornar cientista de dados amador precisa: • ter acesso a dados; • ser curioso; • ter facilidade com SQL; • ter conhecimento de domínios; • praticar a colaboração. A A S C E N S Ã O D O S C I E N T I S TA S D E D A D O S A M A D O R E S O armazenamento em nuvem permite que as organizações capturem dados estruturados e não estruturados de qualquer tipo no formato nativo. A centralização dos dados no armazenamento em nuvem cria uma base de dados, cuja análise pode ser adiada até que as organizações tenham questões empresariais concretas. Um data warehouse na nuvem permite que as organizações reúnam dados de silos distintos para análise, abrangendo desde armazenamento em nuvem, bancos de dados transacionais e analíticos no local ou na nuvem ou dados armazenados com outros serviços em nuvem. As organizações podem executar consultas, gerar relatórios e criar visualizações sem gerenciar a infraestrutura subjacente. O acesso baseado em papéis democratiza a análise em toda a organização. Um data warehouse na nuvem pode ser voltado para a empresa toda ou organizado de acordo com a estrutura da organização. 1 2 3
  • 15. E M P R E S A Centro Colorado de Medicina Personalizada S E T O R Assistência médica S O B R E O Centro Colorado de Medicina Personalizada (CCPM, na sigla em inglês) é uma parceria entre a University of Colorado Denver, a UCHealth, o Children’s Hospital Colorado e o CU Medicine e situa-se em Denver, na região do Colorado. O Centro Colorado de Medicina Personalizada (CCPM) está conduzindo uma pesquisa de ponta por meio da análise do DNA de pacientes para prever o risco de doenças e desenvolver tratamentos direcionados com base na genética do indivíduo. O CCPM depende do Health Data Compass, o data warehouse de empresas na área da saúde do CCPM. O Health Data Compass integra os dados genômicos dos pacientes do CCPM e registros eletrônicos de saúde da UCHealth, do Children’s Hospital Colorado e do CU Medicine, incluindo registros externos como reivindicações de seguros, registros de saúde pública e dados ambientais. Antes, o Health Data Compass usava um sistema tradicional no local para armazenar e analisar dados. Mas essa abordagem revelou-se onerosa de ser mantida, não atendia às necessidades de análise existentes do centro e não atingia o crescimento previsto. Após um projeto piloto abrangente de seis meses, o Health Data Compass migrou para o GCP e o Tableau, que juntos são capazes de processar imensos conjuntos de dados e fazer análises robustas de dados visuais, além de serem mais baratos e facilitarem a escalonabilidade de acordo com o crescimento do CCPM. A capacidade de o GCP, incluindo BigQuery (o data warehouse do Google Cloud) de aceitar a compliance com a HIPAA de acordo com os requisitos do CCPM foi um fator importante para essa decisão. “Nós levamos a sério nossa responsabilidade de proteger os dados dos pacientes. O Google Cloud Platform fornece vantagens significativas na segurança de dados de sistemas locais e nos ajuda a manter a compliance com a HIPAA”, afirmou Michael Ames, diretor associado do Health Data Compass e diretor de arquitetura empresarial do CCPM.17 C E N T R O C O L O R A D O D E M E D I C I N A   P E R S O N A L I Z A D A C A S O D O C L I E N T E 02 Caso do cliente: Centro Colorado de Medicina Personalizada | 15 LEIA MAIS
  • 16. C A P Í T U L O 3 I N T E G R A Ç Ã O D E D A D O S E M   T E M P O R E A L 0 3
  • 17. M A I S D E 9 0 % 03 Integração de dados em tempo real | 17 I N T E G R A Ç Ã O D E D A D O S E M T E M P O R E A L Os cientistas de dados relatam que passam de 50 a 80% do tempo atolados nas etapas de “tratamento, limpeza e manipulação de dados” necessárias para preparar os dados para análise.18 A necessidade de provisionar recursos e aumentar ou reduzir clusters de servidores de acordo com cargas de trabalho imprevisíveis continua a atormentar equipes que fazem a preparação de dados no local.19 Menos trabalho de “limpeza” com serviços gerenciados Os serviços totalmente gerenciados em nuvem ajudam a distanciar a TI dos trabalhos de infraestrutura voltados para a preparação e integração de dados em larga escala. Imagine um termostato inteligente que procura aprender e se ajustar às preferências de diferentes equipes em um edifício comercial. Enquanto o termostato está em uso, a nuvem consome dados de uso brutos, como as configurações de temperatura e os níveis de consumo de energia ao longo do dia. Conforme os dados chegam, um canal de processamento pode ser ativado, quando necessário, na preparação dos dados brutos. Assim, é possível garantir que as entradas estejam em um intervalo válido, converter a temperatura e a energia usadas nas unidades pretendidas e formatar os dados temporais. O canal de dados os estrutura formalmente e, em seguida, carrega os resultados transformados em um data warehouse na nuvem. Consultas, visualizações e relatórios ficam instantaneamente disponíveis. 0 3 das empresas T Ê M I N T E R E S S E E M I M P L A N TA R A   P R E PA R A Ç Ã O D E D A D O S   D E A U T O AT E N D I M E N T O PA R A   A P O I A R I N I C I AT I VA S R E L A C I O N A D A S A O   B I G   D ATA . 2 0
  • 18. 03 Integração de dados em tempo real | 18 Com os serviços totalmente gerenciados em nuvem, os recursos de infraestrutura necessários para aceitar esse fluxo de trabalho são automaticamente alocados e, em seguida, desativados novamente. As empresas pagam apenas pelos recursos que utilizam, o que ajuda a eliminar o desperdício e a adivinhação durante a previsão. Em direção à análise de dados em tempo real Enquanto os sistemas tradicionais concentram-se na análise de dados off-line “em lotes”, a demanda por insights em tempo real pede uma nova abordagem. Os sistemas de análise de streaming com base em nuvem são desenvolvidos para processar o fluxo de dados de aplicativos da Web, smartphones ou milhões de sensores da IoT em tempo real. Centenas de milhares de sensores podem ser instalados em equipamentos de campo para informar continuamente o status bruto à nuvem para processamento e monitoramento. Feeds de recursos visuais podem ser analisados em tempo real para aplicativos como de detecção de anomalias e reconhecimento facial/de objetos. Os serviços em nuvem amplamente testados e implantados podem ser aproveitados para casos de uso como esses. Assim, a análise de dados de streaming pode ser implementada em questão de dias. Com a análise de dados de streaming em tempo real, os dados vão diretamente para canais de processamento. Os dados transformados podem ser integrados em um data warehouse na nuvem, possibilitando consultas, visualizações e geração de relatórios em segundos. Desta forma, o canal de processamento funciona como um tipo de middleware que pode ser ativado quando necessário, capaz de reunir o streaming de dados em tempo real com dados em lote retirados do armazenamento. Os dados podem ser estruturados com flexibilidade para responder às questões empresariais de uma organização conforme elas surjam. Desta forma, as organizações têm dois caminhos complementares, de lote e de streaming, por meio dos quais podem capturar, preparar e integrar dados de qualquer origem para qualquer destino. Os serviços gerenciados em nuvem possibilitam que ambos sejam usados com facilidade. Muitas empresas inovadoras já usam o Big Data, geralmente com base em ferramentas de código aberto como a Apache Hadoop (em inglês) e a Apache Spark (em inglês). Para esses negócios, é possível proteger os investimentos existentes em talentos e ferramentas e, ao mesmo tempo, aproveitar as vantagens da produtividade da nuvem. As ferramentas de código aberto para Big Data estão amplamente disseminadas e continuam crescendo. Mundialmente, muitas empresas estão armazenando um volume cada vez maior de dados não estruturados em sistemas de arquivo de nuvem pública, inclusive no Hadoop. Mais de um terço dos entrevistados nos EUA e na Europa e mais do que a metade na região Ásia-Pacífico relatam que estão implementando, já implementaram ou estão expandindo a implementação do Hadoop, incluindo HBASE, Accumulo, MapR, Cloudera e Hortonworks. Do mesmo modo, cerca de um terço dos entrevistados nos EUA e na Europa e impressionantes 60% na região Ásia-Pacífico estão implementando, já implementaram ou estão expandindo a implementação de plataformas de dados em memória, incluindo Apache Spark, SAP Hana, Kognitio, Terracotta e Gigaspaces. C O M O A P R O V E I TA R A O M Á X I M O S E U S I N V E S T I M E N T O S N O B I G D ATA
  • 19. C A P Í T U L O 3 R E S U M O 03 Integração de dados em tempo real | 19 Para organizações como essa, a nuvem oferece duas opções principais: • Continuar a gerenciar projetos do Big Data usando ferramentas de código aberto conhecidas, mas migrar para as máquinas virtuais na nuvem. As vantagens normais da nuvem incluem: inutilização do oneroso CapEx, migração para um modelo de faturamento OpEx, no qual as organizações pagam de acordo com os dados armazenados e processados, e facilidade na escalabilidade. Observe que, nesse modelo, os desenvolvedores e as equipes de TI ainda precisam gerenciar os próprios canais de processamento de dados e armazenamento. No entanto, esse é o caminho mais simples para aproveitar os ativos já estabelecidos nas empresas, como talentos, ferramentas e relacionamentos com fornecedores. • A nuvem oferece versões totalmente gerenciadas de muitas das ferramentas de código aberto mais conhecidas no Big Data. Por exemplo, executar Apache Hadoop, Apache Spark, Apache Pig e Apache Hive na nuvem descarrega tarefas básicas de gerenciamento de dados como implantação, registro e monitoramento.21 Esta opção é excelente para equipes que querem aproveitar os cenários físicos no local e nativos na nuvem. Qualquer uma das opções permite que as organizações protejam os investimentos na implantação do Big Data, mas usam a economia da nuvem de maneira inteligente para controlar custos e ter flexibilidade. Os canais de processamento de dados baseados na nuvem permitem às organizações extrair, transformar/ preparar e integrar dados de qualquer origem para qualquer destino (no local ou na nuvem). Na preparação dos dados, as abordagens sem servidor gerenciam completamente a infraestrutura subjacente, e os recursos são alocados automaticamente com base nas necessidades de cada canal de processamento de dados. A análise de streaming na nuvem permite que dados da Web, de dispositivos móveis e de aplicativos da IoT façam streaming para canais de processamento de dados em tempo real. A partir daqui, os dados podem ser preparados e integrados em um data warehouse na nuvem para gerar insights sobre o negócio em tempo real. 1 2 3
  • 20. E M P R E S A Citibank UK S E T O R Serviços financeiros S O B R E Em um experimento que funciona como prova de conceito, o Google Cloud fez uma parceria com a Thomson Reuters para demonstrar para o departamento comercial e financeiro internacional do Citibank as vantagens de combinar as principais tecnologias de dados do Google com o conteúdo do mercado financeiro da Thomson Reuters. Nesta prova de conceito, a tarefa da equipe era mostrar como seria fácil para o Citibank usar o Google BigQuery e o Google Cloud Pub/Sub para analisar e consumir o equivalente a 1.000 instrumentos financeiros de dados históricos e sobre oscilações quase em tempo real da Thomson Reuters. O trabalho foi feito em colaboração com Sean Micklethwaite, desenvolvedor-chefe do Citibank, e Sebastian Fuchs, especialista em soluções da Thomson Reuters. “Buscávamos uma API que pudesse ser usada para fazer consultas nos dados históricos quando precisássemos, sem a necessidade de manter nosso próprio data warehouse e sem todo o custo e sobrecarga operacional envolvidos”, explicou Micklethwaite. “Além disso, precisávamos de atualizações em tempo real sobre os dados do mercado com latência no nível humano. Com o Google Cloud, temos acesso a todos os dados necessários em uma única plataforma. O BigQuery é responsável pelas nossas necessidades relativas aos dados históricos de oscilações e pode processar as oscilações brutas em alta frequência e por longos períodos. O Cloud Pub/Sub gerencia nossos requisitos de dados em tempo real, e recebemos todos os dados em um formato consistente.” Fuchs adicionou: “começamos a usar o BigQuery sem a necessidade de fazer muitos planejamentos antecipados de capacidade. Ele simplesmente cresce conforme a necessidade, seja em provisionamento de conteúdo ou número de consultas por usuário.” C I T I B A N K U K E S T U D O D E C A S O 03 Estudo de caso: Citibank | 20 LEIA MAIS
  • 21. C A P Í T U L O 4 A P R E N D I Z A D O D E M Á Q U I N A E   I N T E L I G Ê N C I A A R T I F I C I A L 0 4
  • 22. 6 0 % 04 Aprendizado de máquina e inteligência artificial | 22 Inovações recentes sobre o aprendizado de máquina (ML, na sigla em inglês) e inteligência artificial (IA) frequentemente ganham destaque no noticiário. Computadores derrotaram campeões mundiais humanos (em inglês) no Go, um jogo de tabuleiro com mais movimentos do que a quantidade de átomos no universo.22 Eles superaram videogames famosos (em inglês) e, sobretudo, aprenderam a reconhecer gatos (em inglês).23 Mais recentemente, uma iniciativa de IA foi capaz de gerar uma economia gigantesca dos custos com energia (em inglês), destacando o aprendizado de máquina como “uma estrutura com o propósito geral de compreender dinâmicas complexas”.24 Essa estrutura está começando a encontrar várias aplicações e a gerar resultados em diversos setores. O conceito de IA é simples: é a capacidade de um software se aprimorar sem precisar ser explicitamente programado para isso. Em vez de precisar que desenvolvedores escrevam um novo código manualmente, a IA depende de algoritmos capazes de se tornarem “mais inteligentes” ao processar mais dados do mundo real. A centralização do armazenamento e da preparação de dados na nuvem (as metas dos capítulos 2 e 3, respectivamente) cria a base ideal para o treinamento e aperfeiçoamento dos modelos de IA. O objetivo da IA vai além da simples automatização de tarefas que antes eram manuais. No varejo on-line, por exemplo, os algoritmos de aprendizado de máquina são capazes de processar e analisar volumes imensos de dados de consumidores conforme os compradores em potencial navegam na loja on-line ou no aplicativo para dispositivos móveis de um varejista. Quanto mais dados o modelo processar, mais ele se aproxima de compreender quando e por que um comprador específico decidirá fazer uma determinada compra. Em algum momento, esse aprendizado se torna preditivo, permitindo que o varejista selecione o produto certo para uma determinada pessoa no momento certo. Este nível de personalização, antes atingido por pequenos comerciantes de cidadezinhas que sabiam os nomes e idades dos filhos da cliente, agora se tornou algo possível em grande escala. 0 4 A C R E D I T A M Q U E O   S U C E S S O F U T U R O D A O R G A N I Z A Ç Ã O D E L E S D E P E N D E D A I M P L E M E N T A Ç Ã O B E M - S U C E D I D A D O   A P R E N D I Z A D O D E   M Á Q U I N A . 2 5 dos entrevistados A P R E N D I Z A D O D E M Á Q U I N A E I N T E L I G Ê N C I A A R T I F I C I A L
  • 23. M O D E L O S P R É - T R E I N A D O S : O P R I M E I R O PA S S O E M D I R E Ç Ã O À I A 04 Aprendizado de máquina e inteligência artificial | 23 Muitas empresas pequenas que investem em tecnologia já estão vendo os resultados do ML. Porém, as empresas mais bem estabelecidas têm a oportunidade única de explorar um imenso volume de dados históricos.26 Com o ML, os resultados dependem da enorme quantidade de dados disponíveis para alimentar os modelos de treinamento (veja “Modelos pré-treinados: o primeiro passo em direção à IA”). Empresas bem estabelecidas podem explorar os dados próprios (tudo desde registros de sistema de TI até transações financeiras e transcrições de chamadas de atendimento ao cliente) para treinar e otimizar esses modelos, que retornam insights exclusivos para a empresa. A forma mais simples de começar a usar a IA é aplicando modelos de aprendizado de máquina pré-treinados, disponíveis instantaneamente por meio da nuvem. Não é necessário conhecimento prévio sobre ML. Esses recursos podem ser conhecidos por quem usa aplicativos de consumidores famosos, nos quais alguns dos modelos atingiram níveis de precisão preditiva que excedem a capacidade humana: Esses serviços são gerais (não vinculados a aplicativos de consumidores) e podem ser facilmente incorporados a qualquer aplicativo por meio de simples chamadas de API. Os desenvolvedores não precisam conhecer os detalhes estruturais. Sem ter que desenvolver nenhum desses serviços internamente, as empresas podem explorar os recursos mais recentes instantaneamente, como um serviço. A N Á L I S E D E I M A G E N S Compreender o conteúdo presente nas imagens ao fornecer imagens e retornar categorias de texto (p.ex.: “automóvel”, “Torre Eiffel”). Detecta objetos e rostos isolados de maneira inteligente ou até extrai palavras impressas contidas nas imagens. A N Á L I S E D E V Í D E O S Identificar objetos e entidades relevantes em vídeos e entender o que está acontecendo no nível de uma cena ou quadro específicos. R E C O N H E C I M E N T O D E FA L A Converter áudio em texto com precisão extraordinária. Fornecer áudio à API e receber de volta o texto completo instantaneamente com compatibilidade em vários idiomas. Oferece suporte a casos de uso em tempo real, como transcrição ou aplicativos orientados pela fala. T R A D U Ç Ã O Traduzir qualquer string fornecida para um dos muitos idiomas aceitos. Os serviços de tradução se aperfeiçoam continuamente e se expandem para incluir novos idiomas. A N Á L I S E D E T E X T O Entender a estrutura e o significado semântico do texto. Extrair informações sobre pessoas, lugares e eventos de qualquer texto. Compreender informações de análise e sentimentos de novos artigos, blogs, registros de bate-papo/ conversas do suporte ao cliente ou qualquer texto fornecido.
  • 24. R E D U Ç Ã O D A C O N F I A N Ç A N A I N T E R V E N Ç Ã O M A N U A LA U M E N T O D A A U T O M A T I Z A Ç Ã O M E L H O R I A D A A N Á L I S E P R E D I T I VA P R I N C I PA I S N E C E S S I D A D E S E M P R E S A R I A I S R E L ATA D A S em:28 04 Aprendizado de máquina e inteligência artificial | 24 As empresas bem estabelecidas e organizações líderes dos setores comerciais normalmente têm décadas de dados próprios acumulados: transações financeiras; registros do sistema; dados brutos gerados pelos dados da indústria, varejo e comércio eletrônico capturados ao longo dos anos; e resultados de desempenho das campanhas de marketing. Devidamente aperfeiçoados e usados para treinar modelos personalizados de aprendizado de máquina, esses dados se tornam uma fonte de capacidade preditiva. Em vez de ajustar os serviços pré-configurados, as empresas bem estabelecidas podem usar dados próprios para otimizar os processos empresariais para os clientes delas, o que constitui uma poderosa fonte de diferenciação. Os casos de uso abrangem muitos setores e revelam algumas das aplicações mais promissoras de IA. A detecção de fraudes nos serviços financeiros e a manutenção preventiva na indústria destacam a capacidade de identificar anomalias em um turbilhão de transações e registros confusos, uma necessidade comum a muitos setores. As sugestões de diagnóstico e tratamento em assistência médica e as avaliações da fiabilidade creditícia destacam a capacidade do aprendizado de máquina em auxiliar com a categorização, algo útil de forma geral. Ciclo virtuoso: capturar, preparar, treinar, prever Os recursos apresentados nos capítulos 2 e 3 funcionam como uma base para treinar os modelos de aprendizado de máquina usando dados próprios. Com os dados brutos já centralizados no armazenamento em nuvem e em um data warehouse na nuvem, os canais de dados sem servidor podem extrair esses dados continuamente e prepará-los para treinar modelos de ML personalizados. Já que os modelos de ML podem ser hospedados na nuvem, eles se tornam imediatamente disponíveis para fazer predições para aplicativos. Esse circuito forma um ciclo virtuoso, no qual os modelos de ML hospedados na nuvem continuam se aperfeiçoando a partir dos novos dados de treinamento, que, por sua vez, mantêm os modelos atualizados e relevantes. Q U A N T I F I C A Ç Ã O D O S B E N E F Í C I O S Em parceria com a empresa de pesquisa M-Brain, o Google Cloud entrevistou 20 líderes empresariais e de TI que implementaram pro- jetos de aprendizado de máquina sobre as principais vantagens provenientes dos projetos. Os principais benefícios citados foram os seguintes: • economia de tempo • redução dos custos • melhor gerenciamento de risco • melhor qualidade das análises • aumento de receita Outros citaram a automatização, a melhoria do serviço e a melhoria do planejamento de inventário. 27 • A S S I S T Ê N C I A M É D I C A • S E R V I Ç O S F I N A N C E I R O S • I N D Ú S T R I A • VA R E J O • M Í D I A / J O G O S P R I N C I PA I S C A S O S D E U S O D E A P R E N D I Z A D O D E M Á Q U I N A no varejo • avaliação do risco de crédito • previsão da demanda de produtos para melhorar a cadeia de fornecimento • reposição de materiais
  • 25. C A P Í T U L O 4 R E S U M O Faça o download do relatório completo aqui. 04 Aprendizado de máquina e inteligência artificial | 25 A era do aprendizado de máquina finalmente chegou e já está a todo vapor nas empresas pequenas que investem em tecnologia, de acordo com uma nova pesquisa com líderes empresariais e de tecnologia do MIT Technology Review Custom. Algumas das principais descobertas:29 dos entrevistados já implementaram estratégias de aprendizado de máquina. dos responsáveis pela implementação de ML em fase inicial já notaram um ROI. tiveram análises de dados e insights mais abrangentes. relatam uma maior vantagem competitiva. M L : A N O VA B A S E D E T E S T E S PA R A T E R VA N TA G E N S C O M P E T I T I VA S 6 0 % > 5 0 % 4 5 % 2 6 % A inteligência artificial e o derivado dela, o aprendizado de máquina, formam um conceito simples: a capacidade que os softwares têm de se aprimorar sem a necessidade de serem explicitamente programados para isso. A IA baseia-se em um grande volume de dados de treinamento, que oferece à empresas bem estabelecidas a vantagem exclusiva de fazer extrações do imenso volume de dados da empresa gerados durante o longo histórico de operações. Armazenamento em nuvem, data warehousing, integração de dados e análise fornecem uma base natural para a IA e o ML ao tornar os dados disponíveis para treinamento e otimização em tempo real, o que alimenta um ciclo virtuoso de melhoria contínua. 1 2 3
  • 26. Conclusão | 26 Em uma era de vasta quantidade de dados e respostas imediatas, a capacidade de extrair valor dos dados (independentemente da origem, tamanho e requisitos que envolvem conveniência) estará no cerne da vantagem competitiva de uma organização. O primeiro passo é repensar a estratégia de dados a partir do zero. As ferramentas de nuvem atuais permitem que as empresas gerenciem volumes imensos de diversos tipos de dados com mais eficiência e a um custo menor do que era possível anteriormente. As empresas que adotam uma abordagem de capturar, armazenar, preparar e analisar os dados terão a base para aproveitar o aprendizado de máquina e a inteligência artificial. Por fim, esses novos recursos serão traduzidos em relacionamentos mais próximos entre as empresas e os clientes delas, tornando os negócios mais preditivos em cada interação. C O N C L U S Ã O S A I B A M A I S S O B R E O Q U E O G O O G L E C L O U D P O D E F A Z E R P E L O S E U N E G Ó C I O . Armazenamento e bancos de dados Soluções para Big Data Aprendizado de máquina e inteligência artificial S A I B A M A I S S A I B A M A I S S A I B A M A I S
  • 27. Referências | 27 1. 81% dos executivos seniores entrevistados pela Ernst & Young concordaram que os dados devem estar no centro da tomada de decisão, somente 31% precisaram reestruturar as operações de maneira significativa para incorporar o Big Data e apenas 23% haviam implementado estratégias de dados em toda a organização. Ernst & Young, Becoming an Analytics-Driven Organization (2015) (link). 2. David Reinsel et al., Data Age 2025: The Evolution of Data to Life-Critical (IDC, 2017) (link). 3. Cade Metz, “Exclusive: Inside Google Spanner, the Largest Single Database on Earth,” Wired (26 de novembro de 2012) (link). Cade Metz, “Spanner, the Google Database that Measured Time, Is Now Open to Everyone,” Wired (14 de fevereiro de 2017) (link). 4. Robert McMillan, “Inside the Artificial Brain that’s Remaking the Google Empire,” Wired (16 de julho de 2014) (link). TensorFlow (link). 5. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link). 6. Leandro DalleMule and Thomas H. Davenport, “What’s Your Data Strategy?” Harvard Business Review (maio de 2017) (link). 7. John Gantz and David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (IDC, 2012) (link). 8. Tracie Kambies et al., Tech Trends 2017: Dark Analytics: Illuminating Opportunities Hidden within Unstructured Data (Deloitte University Press, 2017) (link). 9. Google Cloud Storage Pricing, Google Cloud Platform (link). 10. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link). 11. “Three Ways Marketing Organizations Can Make Data More Actionable,” Harvard Business Review (9 de agosto de 2016) (link). 12. Modernos data warehouses na nuvem auxiliam a importação (e até consultas específicas) de muitos formatos semiestruturados automaticamente. Para saber mais sobre dados não estruturados que precisam ser transformados primeiro (ex: ETL), veja o capítulo 3: preparação de dados. 13. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link). 14. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link). 15. James Manyika et al., Big Data: The Next Frontier for Innovation, Competition, and Productivity (McKinsey Global Institute, 2011) (link). 16. Lisa Morgan, “Citizen Data Scientists: 7 Ways to Harness Talent,” InformationWeek (24 de julho de 2015) (link). 17. Centro Colorado de Medicina Personalizada: Improving Healthcare by Integrating Patient Records and Genetic Data Using Google Cloud Platform and Tableau (Google Cloud Platform, 2017) (link). 18. Steve Lohr, “For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights,” New York Times (17 de agosto de 2014) (link). 19. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link). 20. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link). 21. Apache Hadoop, The Apache Software Foundation (link). Apache Spark, The Apache Software Foundation (link). Apache Pig, The Apache Software Foundation (link). Apache Hive, The Apache Software Foundation (link). R E F E R Ê N C I A S
  • 28. Conclusão | 28 22. Paul Mozur, “Google’s A.I. Program Rattles Chinese Go-Master As It Wins Match,” New York Times (25 de maio de 2017) (link). 23. Nicola Twilley, “Artificial Intelligence Goes to the Arcade,” The New Yorker (25 de fevereiro de 2015) (link). John Markoff, “How Many Computers to Identify A Cat? 16,000,” The New Yorker (25 de junho de 2012) (link). 24. James Vincent, “Google Uses DeepMind AI to Cut Data Center Energy Bills,” The Verge (21 de julho de 2016) (link). 25. Harvard Business Review Analytic Services Global Data and Analytics Survey, sponsored by Google (2017). 26. Uma pesquisa do MIT Technology Review mostrou pequenas empresas na fase inicial da adoção do aprendizado de máquina e descobriu que: 60% de um grupo de 375 entrevistados, no qual cerca de dois terços eram empresas com menos de 1.000 funcionários, foram amplamente influenciados pelos setores de tecnologia, negócios e serviços financeiros. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for Competitive Advantage (2017) (link). 27. Anna Rader, Machine Learning Initiatives Across Industries: Practical Lessons from IT Executives (M-Brain, sponsored by Google, 2017) (link). 28. Anna Rader and Irida Jano, Machine Learning Market Research: How Leading Industries Are Adopting AI (M-Brain 2017) (link). 29. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for Competitive Advantage (2017) (link).
  • 29. © 2017 Google Inc. 1600 Amphitheatre Parkway, Mountain View, CA 94043