O documento discute a integração de dados de Big Data com sistemas OLTP usando Polybase no SQL Server. Ele fornece detalhes sobre configuração de Polybase para acessar dados em um cluster Hadoop ou Azure Blob Storage, incluindo a criação de credenciais, data sources, file formats e tabelas externas. O documento também mostra uma demonstração ao vivo da conexão com um cluster Hortonworks Sandbox.
6. Big Data é como sexo na adolescência : Todos falam sobre
isso, ninguém sabe realmente como fazer, todos pensam que
todos os outros estão fazendo então todos dizem estar fazendo
13. Polybase
• Independe do servidor HDInsight
• Processamento no SQL Server
• Servidor precisa estar disponível
• Processamento delegado ao Hadoop -
pushdown
18. Hadoop Connectivity
Valor Tipo de Conexão
0 Desabilitada
1
Hortonworks HDP 1.3 no Windows Server
Azure blob storage (WASB[S])
2 Hortonworks HDP 1.3 no Linux
3 Cloudera CDH 4.3 no Linux
4
Hortonworks HDP 2.0 no Windows Server
Azure blob storage (WASB[S])
5 Hortonworks HDP 2.0 no Linux
6 Cloudera 5.1 no Linux
7
Hortonworks 2.1 and 2.2 no Linux
Hortonworks 2.2 no Windows Server
Azure blob storage (WASB[S])
21. Passo 1: Configurar a Autenticação do Storage
-- Create a db master key if one does not already exist, using your
own password.
CREATE MASTER KEY ENCRYPTION BY
PASSWORD='MyP@ssword31';
--Enter the Azure account name and the acccess key as the secret
CREATE DATABASE SCOPED CREDENTIAL AzureCred
WITH IDENTITY = 'demostorageaccountbf'
, SECRET =
'6xSJxNumUaiyAlXgTSbC/msp0ORv1Qduo8pa+gS3fvzVDPvBPq
+vF36NjKPoqgsQtjNZQJDzyR1h3X8Qf6c0Pw=='
• A criação de uma masterkey é necessária
para a criação de uma credential
• A credential é criada com a chave de
acesso do storage
22. Passo 2: Criar a External Data Source
CREATE EXTERNAL DATA SOURCE AzureDs
WITH (
TYPE = HADOOP,
LOCATION =
'wasbs://testedto@demostorageaccountbf.blob.core.windows.net/'
,
CREDENTIAL = AzureCred
);
• O Data Source aponta para um blob
container
• Utilizamos a credential criada no espaço
anterior
23. Passo 3: Criar o File Format
CREATE EXTERNAL FILE FORMAT CommaFormat
WITH (
FORMAT_TYPE = DELIMITEDTEXT,
FORMAT_OPTIONS (FIELD_TERMINATOR =',')
);
• Um objeto File Format determina o formato
do arquivo que será lido
24. Passo 4: Criar a External Table
CREATE EXTERNAL TABLE Tempo (
[Data] Date,
Hora varchar(15),
Dia varchar(15),
Temperatura int,
Vento int
)
WITH (
--Set the file to be the HVAC sensor sample file
LOCATION='/example/data/Weather.txt',
DATA_SOURCE = AzureDs,
FILE_FORMAT = CommaFormat,
);
• Um objeto File Format determina o formato
do arquivo que será lido
• O LOCATION pode apontar um arquivo ou
uma pasta
• Uso de Schema-On-Read
27. O que muda
Configurar o ClassPath para possibilitar o
pushdown
Credencial só necessária se servidor Hadoop usar
Kerberos
Resource Manager Location especificada no Data
Source
28. yarn.application.classpath
Abra o arquivo Yarn-site.xml no diretório de configuração do Hadoop
C:appsdisthadoop-2.4.0.2.1.16.0-2374etchadoop
Pode também checar o classpath no Ambari
Copie o valor da chave de configuração yarn.application.classpath
Encontre o arquivo Yarn-Site.xml no caminho
C:Program FilesMicrosoft SQL
ServerMSSQL13.MSSQLSERVERMSSQLBinnPolybaseHadoopconf
Cole o valor copiado na propriedade yarn.application.classpath
29. Formato do Resource_Manager_Location
Servidor Valor
Hortonworks HDP 2.0, 2.1, 2.2 on Windows NameNode_IP:8032
Hortonworks HDP 1.3 on Windows NameNode_IP:50300
Hortonworks HDP 2.0, 2.1, 2.2 on Linux NameNode_IP:8050
Hortonworks HDP 1.3 on Linux NameNode_IP:50300
Cloudera 4.3 on Linux NameNode_IP:8021
Cloudera 5.1 on Linux NameNode_IP:8032