SlideShare uma empresa Scribd logo
1 de 15
Pág.
Pág.
Gerenciamento de Big Data com
MATLAB
Tiago Monteiro
Engenheiro de Aplicação
2
Pág.
Agenda
3
• O Que é Big Data?
• Definição
• Ferramentas para Big Data
• Acesso a Dados
• Programação
• Plataformas
Pág.
O que é Big Data?
4
“Any collection of data sets so large and complex that it becomes
difficult to process using … traditional data processing applications.”
(Wikipedia)
“Any collection of data sets so large that it becomes difficult to process
using traditional MATLAB functions, which assume all of the data is in
memory.”
(MATLAB)
Pág.
O que é Big Data?
5
“Any collection of data sets so large and complex that it becomes difficult
to process using … traditional data processing applications.”
(Wikipedia)
“Any collection of data sets so large that it becomes difficult to process
using traditional MATLAB functions, which assume all of the data is in
memory.”
(MATLAB)
Pág.
O que é Big Data?
6
“Any collection of data sets so large and complex that it becomes difficult
to process using … traditional data processing applications.”
(Wikipedia)
“Any collection of data sets so large that it becomes difficult to process
using traditional MATLAB functions, which assume all of the data is in
memory.”
(MATLAB)
http://stat-computing.org/dataexpo/2009/the-data.html
Pág.
Ferramentas para Big Data
Trabalhe no Desktop Escalone a capacidade
conforme necessidade
Explore
Prototype
Access Share/Deploy
Scale
O Processo de Análise de Dados
7
Pág.
Ferramentas para Big Data
8
Acesso aos Dados
• 64-bit processors
• Memory Mapped Variables
• Disk Variables
• Databases
• Datastores
Platformas
 Desktop (Multicore, GPU)
 Clusters
 Cloud Computing (MDCS on EC2)
 Hadoop
 Spark
Programação
 Streaming
 Block Processing
 Parallel-for loops
 GPU Arrays
 SPMD and Distributed Arrays
 MapReduce
 TallArrays
Pág.
Acesso à Dados - Datastore
9
O objeto datastore permite que se acesse uma coletânea de dados
agrupando-a em pedaços menores. Ele oferece a vantagem de se acessar
conjuntos grandes de dados sem a necessidade de importa-los diretamente
na memória.
Pode ser usado em:
-> Arquivos (1 ou mais)
-> Base de Dados (SQL) (requer Database Tolbox)
-> Em sistemas de arquivos Hadoop.
ds = datastore('airlinesmall.csv');
ds = datastore('hdfs://myserver/data/file1.txt')
ds = datastore(conn,sqlquery)
Pág.
Programação – Map Reduce
10
- MapReduce é um framework muito usado para tratamento de Big Data. No
entanto, por possuir uma estrutura rígida, seu uso tem sido reduzido em
benefício de técnicas mais flexíveis como Tall Arrays.
- Com MapReduce a segmentação dos dados é feita automaticamente, e o
processo em si é dividido em duas fases:
- A fase Map é usada para extrair itens de interesse de vários segmentos
de dados. Estes resultados intermediários e seu gerenciamento é feito
automaticamente pelo MapReduce
- Na fase Reduce esses resultados intermediários são analisados e
calcula-se o resultado final.
Pág.
Programação – Map Reduce
11
1503 UA LAX -5 -10 2356
540 PS BUR 13 5 186
1920 DL BOS 10 32 1876
1840 DL SFO 0 13 568
272 US BWI 4 -2 359
784 PS SEA 7 3 176
796 PS LAX -2 2 237
1525 UA SFO 3 -5 1867
632 PS SJC 2 -4 245
1610 UA MIA 60 34 1365
2032 DL EWR 10 16 789
2134 DL DFW -2 6 914
1503 UA LAX -5 -10 2356
540 PS BUR 13 5 186
1920 DL BOS 10 32 1876
1840 DL SFO 0 13 568
272 US BWI 4 -2 359
784 PS SEA 7 3 176
796 PS LAX -2 2 237
1525 UA SFO 3 -5 1867
632 US SJC 2 -4 245
1610 UA MIA 60 34 1365
2032 DL EWR 10 16 789
2134 DL DFW -2 6 914
UA
PS
DL
DL
2356
186
1876
568
US
PS
PS
UA
US
UA
DL
DL
245
1365
789
914
359
176
237
1867
UA 2356
PS 186
PS 237
UA 1867
UA 1365
DL 1876
DL 914
US 359
US 245
Data Store Map Reduce
Pág.
Programação – Tall Arrays
12
Tall Arrays são um tipo de dado que, combinado com datastores, permitem
que funções MATLAB sejam usadas nativamente em conjuntos de dados que
não cabem na memória.
Tall Arrays são definidos a partir de datastores:
Variáveis derivadas de tall arrays são calculadas com o comando gather()
Tall Arrays suportam diversas toolboxes a algoritmos com alista crescendo a
cada nova versão do MATLAB.
Pág.
Plataformas – Hadoop e Spark
13
Usando as plataformas de computação distribuída e servidores de produção
Mathworks, é possível exportar seus modelos desenvolvidos em MATLAB
para servidores rodando Hadoop e Spark sem alterações no algoritmo
desenvolvido.
Pág.
Usando as plataformas de computação distribuída e servidores de produção
Mathworks, é possível exportar seus modelos desenvolvidos em MATLAB
para servidores rodando Hadoop e Spark sem alterações no algoritmo
desenvolvido.
Apenas acrescente antes do código informações do seu cluster:
MATLAB também suporta clusters baseados na nuvem, como Amazon EC2,
para serviços de computação distribuída on-demand .
Plataformas – Hadoop e Spark
14
Pág.
OBRIGADO!
TIAGO.MONTEIRO@OPENCADD.ENG.BR
AV. BRIGADEIRO FARIA LIMA, 1931, CJ 152
JARDIM PAULISTANO
SÃO PAULO / SP

Mais conteúdo relacionado

Mais procurados

01 02 introdução aos bancos de dados (slides)
01 02 introdução aos bancos de dados (slides)01 02 introdução aos bancos de dados (slides)
01 02 introdução aos bancos de dados (slides)
samuelthiago
 

Mais procurados (8)

OverviewBigData_PythonSudeste2017
OverviewBigData_PythonSudeste2017OverviewBigData_PythonSudeste2017
OverviewBigData_PythonSudeste2017
 
Como arquiteturas de dados quebram
Como arquiteturas de dados quebramComo arquiteturas de dados quebram
Como arquiteturas de dados quebram
 
Pos-QCon-BigData
Pos-QCon-BigDataPos-QCon-BigData
Pos-QCon-BigData
 
Hbase trabalho final
Hbase trabalho finalHbase trabalho final
Hbase trabalho final
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
01 02 introdução aos bancos de dados (slides)
01 02 introdução aos bancos de dados (slides)01 02 introdução aos bancos de dados (slides)
01 02 introdução aos bancos de dados (slides)
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Tirando água da rocha: escalabilidade via software no ExpressoV3
Tirando água da rocha: escalabilidade via software no ExpressoV3Tirando água da rocha: escalabilidade via software no ExpressoV3
Tirando água da rocha: escalabilidade via software no ExpressoV3
 

Semelhante a Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo

Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
iMasters
 

Semelhante a Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo (20)

Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Cacti
CactiCacti
Cacti
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
PostgreSQL-Prático.pdf
PostgreSQL-Prático.pdfPostgreSQL-Prático.pdf
PostgreSQL-Prático.pdf
 
Bancos de dados analíticos open source
Bancos de dados analíticos open sourceBancos de dados analíticos open source
Bancos de dados analíticos open source
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
C-Store 7 years later
C-Store 7 years laterC-Store 7 years later
C-Store 7 years later
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
Hadoop
HadoopHadoop
Hadoop
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 

Mais de Opencadd Advanced Technology

Mais de Opencadd Advanced Technology (20)

Openday PUC-RIO - Indústria 4.0 e aplicação no segmento de ar condicionado
Openday PUC-RIO - Indústria 4.0 e aplicação no segmento de ar condicionadoOpenday PUC-RIO - Indústria 4.0 e aplicação no segmento de ar condicionado
Openday PUC-RIO - Indústria 4.0 e aplicação no segmento de ar condicionado
 
Openday PUC-RIO - Determinação da Trajetória ótima em pistas de corrida com r...
Openday PUC-RIO - Determinação da Trajetória ótima em pistas de corrida com r...Openday PUC-RIO - Determinação da Trajetória ótima em pistas de corrida com r...
Openday PUC-RIO - Determinação da Trajetória ótima em pistas de corrida com r...
 
Openday PUC-RIO - Detecção de Operação Anormal em Aero Geradores
Openday PUC-RIO - Detecção de Operação Anormal em Aero GeradoresOpenday PUC-RIO - Detecção de Operação Anormal em Aero Geradores
Openday PUC-RIO - Detecção de Operação Anormal em Aero Geradores
 
Openday PUC-RIO - Transmissão de dados pela luz visível
Openday PUC-RIO - Transmissão de dados pela luz visívelOpenday PUC-RIO - Transmissão de dados pela luz visível
Openday PUC-RIO - Transmissão de dados pela luz visível
 
Openday PUC-RIO - Engenharia de Requisitos
Openday PUC-RIO - Engenharia de RequisitosOpenday PUC-RIO - Engenharia de Requisitos
Openday PUC-RIO - Engenharia de Requisitos
 
Openday PUC-RIO - Ferramenta gráfica para modelagem e análise em Engenharia E...
Openday PUC-RIO - Ferramenta gráfica para modelagem e análise em Engenharia E...Openday PUC-RIO - Ferramenta gráfica para modelagem e análise em Engenharia E...
Openday PUC-RIO - Ferramenta gráfica para modelagem e análise em Engenharia E...
 
INOVADEF - Apresentação Brigadeiro Romão
INOVADEF - Apresentação Brigadeiro RomãoINOVADEF - Apresentação Brigadeiro Romão
INOVADEF - Apresentação Brigadeiro Romão
 
INOVADEF - Apresentação Marcelo Lopes
INOVADEF - Apresentação Marcelo LopesINOVADEF - Apresentação Marcelo Lopes
INOVADEF - Apresentação Marcelo Lopes
 
INOVADEF - Apresentação Sender Rocha
INOVADEF - Apresentação Sender RochaINOVADEF - Apresentação Sender Rocha
INOVADEF - Apresentação Sender Rocha
 
Apresentação Allyson Chiarini
Apresentação Allyson ChiariniApresentação Allyson Chiarini
Apresentação Allyson Chiarini
 
Apresentação Osvaldo Maia
Apresentação Osvaldo MaiaApresentação Osvaldo Maia
Apresentação Osvaldo Maia
 
Indústria 4.0 - Vantagens e Impactos para a sociedade. Fabiana Tarabal
Indústria 4.0 - Vantagens e Impactos para a sociedade. Fabiana TarabalIndústria 4.0 - Vantagens e Impactos para a sociedade. Fabiana Tarabal
Indústria 4.0 - Vantagens e Impactos para a sociedade. Fabiana Tarabal
 
Licenciamento math works
Licenciamento math worksLicenciamento math works
Licenciamento math works
 
Webinar Classificação Images com MATLAB
Webinar Classificação Images com MATLABWebinar Classificação Images com MATLAB
Webinar Classificação Images com MATLAB
 
Webinar Novidades da Release R2017b
Webinar Novidades da Release R2017bWebinar Novidades da Release R2017b
Webinar Novidades da Release R2017b
 
Desenvolvimento de software autônomo para determinação e controle de órbita e...
Desenvolvimento de software autônomo para determinação e controle de órbita e...Desenvolvimento de software autônomo para determinação e controle de órbita e...
Desenvolvimento de software autônomo para determinação e controle de órbita e...
 
Simulação e desenvolvimento de algoritmos de tempo real usando Matlab/Simulin...
Simulação e desenvolvimento de algoritmos de tempo real usando Matlab/Simulin...Simulação e desenvolvimento de algoritmos de tempo real usando Matlab/Simulin...
Simulação e desenvolvimento de algoritmos de tempo real usando Matlab/Simulin...
 
Breve histórico da engenharia de sistemas no Brasil e as Iniciativas atuais d...
Breve histórico da engenharia de sistemas no Brasil e as Iniciativas atuais d...Breve histórico da engenharia de sistemas no Brasil e as Iniciativas atuais d...
Breve histórico da engenharia de sistemas no Brasil e as Iniciativas atuais d...
 
Utilização da Engenharia de Requisitos: Onde, quando e como utilizar
Utilização da Engenharia de Requisitos: Onde, quando e como utilizarUtilização da Engenharia de Requisitos: Onde, quando e como utilizar
Utilização da Engenharia de Requisitos: Onde, quando e como utilizar
 
Visão Computacional
Visão ComputacionalVisão Computacional
Visão Computacional
 

Último

4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf
LindinhaSilva1
 
Slide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptx
Slide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptxSlide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptx
Slide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptx
sfwsoficial
 
TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.
TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.
TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.
FLAVIA LEZAN
 

Último (20)

Aparatologia na estética - Cavitação, radiofrequência e lipolaser.pdf
Aparatologia na estética - Cavitação, radiofrequência e lipolaser.pdfAparatologia na estética - Cavitação, radiofrequência e lipolaser.pdf
Aparatologia na estética - Cavitação, radiofrequência e lipolaser.pdf
 
4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf
 
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PEEdital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
 
Enunciado_da_Avaliacao_1__Direito_e_Legislacao_Social_(IL60174).pdf
Enunciado_da_Avaliacao_1__Direito_e_Legislacao_Social_(IL60174).pdfEnunciado_da_Avaliacao_1__Direito_e_Legislacao_Social_(IL60174).pdf
Enunciado_da_Avaliacao_1__Direito_e_Legislacao_Social_(IL60174).pdf
 
Slide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptx
Slide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptxSlide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptx
Slide Licao 4 - 2T - 2024 - CPAD ADULTOS - Retangular.pptx
 
O que é, de facto, a Educação de Infância
O que é, de facto, a Educação de InfânciaO que é, de facto, a Educação de Infância
O que é, de facto, a Educação de Infância
 
MODELO Resumo esquemático de Relatório escolar
MODELO Resumo esquemático de Relatório escolarMODELO Resumo esquemático de Relatório escolar
MODELO Resumo esquemático de Relatório escolar
 
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos AnimaisNós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
 
Apostila-Letramento-e-alfabetização-2.pdf
Apostila-Letramento-e-alfabetização-2.pdfApostila-Letramento-e-alfabetização-2.pdf
Apostila-Letramento-e-alfabetização-2.pdf
 
Insegurança nunca mais tem afeta pessoas
Insegurança nunca mais tem afeta pessoasInsegurança nunca mais tem afeta pessoas
Insegurança nunca mais tem afeta pessoas
 
EBPAL_Serta_Caminhos do Lixo final 9ºD (1).pptx
EBPAL_Serta_Caminhos do Lixo final 9ºD (1).pptxEBPAL_Serta_Caminhos do Lixo final 9ºD (1).pptx
EBPAL_Serta_Caminhos do Lixo final 9ºD (1).pptx
 
Poema - Maio Laranja
Poema - Maio Laranja Poema - Maio Laranja
Poema - Maio Laranja
 
TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.
TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.
TAMPINHAS Sílabas. Para fazer e trabalhar com as crianças.
 
livro para educação infantil conceitos sensorial
livro para educação infantil conceitos sensoriallivro para educação infantil conceitos sensorial
livro para educação infantil conceitos sensorial
 
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdfROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
 
Multiplicação - Caça-número
Multiplicação - Caça-número Multiplicação - Caça-número
Multiplicação - Caça-número
 
Power Point sobre as etapas do Desenvolvimento infantil
Power Point sobre as etapas do Desenvolvimento infantilPower Point sobre as etapas do Desenvolvimento infantil
Power Point sobre as etapas do Desenvolvimento infantil
 
Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...
Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...
Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...
 
Livro infantil: A onda da raiva. pdf-crianças
Livro infantil: A onda da raiva. pdf-criançasLivro infantil: A onda da raiva. pdf-crianças
Livro infantil: A onda da raiva. pdf-crianças
 
APH- Avaliação de cena , analise geral do ambiente e paciente.
APH- Avaliação de cena , analise geral do ambiente e paciente.APH- Avaliação de cena , analise geral do ambiente e paciente.
APH- Avaliação de cena , analise geral do ambiente e paciente.
 

Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo

  • 2. Pág. Gerenciamento de Big Data com MATLAB Tiago Monteiro Engenheiro de Aplicação 2
  • 3. Pág. Agenda 3 • O Que é Big Data? • Definição • Ferramentas para Big Data • Acesso a Dados • Programação • Plataformas
  • 4. Pág. O que é Big Data? 4 “Any collection of data sets so large and complex that it becomes difficult to process using … traditional data processing applications.” (Wikipedia) “Any collection of data sets so large that it becomes difficult to process using traditional MATLAB functions, which assume all of the data is in memory.” (MATLAB)
  • 5. Pág. O que é Big Data? 5 “Any collection of data sets so large and complex that it becomes difficult to process using … traditional data processing applications.” (Wikipedia) “Any collection of data sets so large that it becomes difficult to process using traditional MATLAB functions, which assume all of the data is in memory.” (MATLAB)
  • 6. Pág. O que é Big Data? 6 “Any collection of data sets so large and complex that it becomes difficult to process using … traditional data processing applications.” (Wikipedia) “Any collection of data sets so large that it becomes difficult to process using traditional MATLAB functions, which assume all of the data is in memory.” (MATLAB) http://stat-computing.org/dataexpo/2009/the-data.html
  • 7. Pág. Ferramentas para Big Data Trabalhe no Desktop Escalone a capacidade conforme necessidade Explore Prototype Access Share/Deploy Scale O Processo de Análise de Dados 7
  • 8. Pág. Ferramentas para Big Data 8 Acesso aos Dados • 64-bit processors • Memory Mapped Variables • Disk Variables • Databases • Datastores Platformas  Desktop (Multicore, GPU)  Clusters  Cloud Computing (MDCS on EC2)  Hadoop  Spark Programação  Streaming  Block Processing  Parallel-for loops  GPU Arrays  SPMD and Distributed Arrays  MapReduce  TallArrays
  • 9. Pág. Acesso à Dados - Datastore 9 O objeto datastore permite que se acesse uma coletânea de dados agrupando-a em pedaços menores. Ele oferece a vantagem de se acessar conjuntos grandes de dados sem a necessidade de importa-los diretamente na memória. Pode ser usado em: -> Arquivos (1 ou mais) -> Base de Dados (SQL) (requer Database Tolbox) -> Em sistemas de arquivos Hadoop. ds = datastore('airlinesmall.csv'); ds = datastore('hdfs://myserver/data/file1.txt') ds = datastore(conn,sqlquery)
  • 10. Pág. Programação – Map Reduce 10 - MapReduce é um framework muito usado para tratamento de Big Data. No entanto, por possuir uma estrutura rígida, seu uso tem sido reduzido em benefício de técnicas mais flexíveis como Tall Arrays. - Com MapReduce a segmentação dos dados é feita automaticamente, e o processo em si é dividido em duas fases: - A fase Map é usada para extrair itens de interesse de vários segmentos de dados. Estes resultados intermediários e seu gerenciamento é feito automaticamente pelo MapReduce - Na fase Reduce esses resultados intermediários são analisados e calcula-se o resultado final.
  • 11. Pág. Programação – Map Reduce 11 1503 UA LAX -5 -10 2356 540 PS BUR 13 5 186 1920 DL BOS 10 32 1876 1840 DL SFO 0 13 568 272 US BWI 4 -2 359 784 PS SEA 7 3 176 796 PS LAX -2 2 237 1525 UA SFO 3 -5 1867 632 PS SJC 2 -4 245 1610 UA MIA 60 34 1365 2032 DL EWR 10 16 789 2134 DL DFW -2 6 914 1503 UA LAX -5 -10 2356 540 PS BUR 13 5 186 1920 DL BOS 10 32 1876 1840 DL SFO 0 13 568 272 US BWI 4 -2 359 784 PS SEA 7 3 176 796 PS LAX -2 2 237 1525 UA SFO 3 -5 1867 632 US SJC 2 -4 245 1610 UA MIA 60 34 1365 2032 DL EWR 10 16 789 2134 DL DFW -2 6 914 UA PS DL DL 2356 186 1876 568 US PS PS UA US UA DL DL 245 1365 789 914 359 176 237 1867 UA 2356 PS 186 PS 237 UA 1867 UA 1365 DL 1876 DL 914 US 359 US 245 Data Store Map Reduce
  • 12. Pág. Programação – Tall Arrays 12 Tall Arrays são um tipo de dado que, combinado com datastores, permitem que funções MATLAB sejam usadas nativamente em conjuntos de dados que não cabem na memória. Tall Arrays são definidos a partir de datastores: Variáveis derivadas de tall arrays são calculadas com o comando gather() Tall Arrays suportam diversas toolboxes a algoritmos com alista crescendo a cada nova versão do MATLAB.
  • 13. Pág. Plataformas – Hadoop e Spark 13 Usando as plataformas de computação distribuída e servidores de produção Mathworks, é possível exportar seus modelos desenvolvidos em MATLAB para servidores rodando Hadoop e Spark sem alterações no algoritmo desenvolvido.
  • 14. Pág. Usando as plataformas de computação distribuída e servidores de produção Mathworks, é possível exportar seus modelos desenvolvidos em MATLAB para servidores rodando Hadoop e Spark sem alterações no algoritmo desenvolvido. Apenas acrescente antes do código informações do seu cluster: MATLAB também suporta clusters baseados na nuvem, como Amazon EC2, para serviços de computação distribuída on-demand . Plataformas – Hadoop e Spark 14
  • 15. Pág. OBRIGADO! TIAGO.MONTEIRO@OPENCADD.ENG.BR AV. BRIGADEIRO FARIA LIMA, 1931, CJ 152 JARDIM PAULISTANO SÃO PAULO / SP