6. MAPREDUCE
DESENVOLVIDO PELA GOOGLE
PARADIGMA DE PROGRAMAÇÃO (CLOUD COMPUTING)
OBJETIVO
SIMPLIFICAR A PROGRAMAÇÃO - GRANDES
VOLUMES DE DADOS
MASCARAR O PARADIGMA MESTRE/ESCRAVO
6
7. MAPREDUCE
PROBLEMA
CONTAGEM DE PALAVRAS
ENTRADA = [BANANA,MELÃO,MAÇÃ,MELÃO,MAÇÃ]
SAÍDA DESEJADA = {BANANA: 1, MELÃO: 2, MAÇÃ: 2}
7
11. HADOOP
DESENVOLVIDO PELA APACHE
INSPIRADO NO GFS/MAPREDUCE
PLATAFORMA
OBJETIVOS
EXECUTAR APLICAÇÕES PARA GRANDES
VOLUMES DE DADOS
MÁQUINAS DE CUSTO BAIXO
EFICIENTE (PARALELISMO LOCAL)
CONFIÁVEL (HDFS)
11
13. DATASET
TOY-DATASET (MEAT)
APROX. 200 EXEMPLOS, 100 CARACTS. E 3 VAR.
DEPENDENTES
TOY-DATASET
REPLICAR CONJUNTO DE EXEMPLOS
1M EXEMPLOS X 100 CARACT. E 3 VAR. DEPENDENTES
13
14. METODOLOGIA
ELABORAR A VERSÃO MAPREDUCE DO PLS
ANALISAR A CORRETUDE DOS ALGORITMOS
PREPARAR O DATASET
SIMULAÇÃO
AMBIENTE PSEUDO-DISTRIBUIDO
14
17. CRONOGRAMA
ELABORAR A VERSAO MAPREDUCE DO
ok 07/09/08 - 20/09/08
PLS
ANALISAR A CORRETUDE DOS
ok 20/09/08 - 22/09/08
ALGORITMOS
PREPARAR UM DATASET PARA
ok 01/10/08
TESTE
SIMULACAO EM AMBIENTE PSEUDO-
ok 01/10/08 - 03/10/08
DISTRIBUIDO
ESCOLHER/PREPARAR AMBIENTE
ok 20/09/08 - 07/09/08
PARA OS TESTES
ANALISAR O TEMPO DE
nok 08/09/08 - ??/??/08
PROCESSAMENTO - METRICAS
ESCREVER UM RELATORIO nok ??/??/08-??/??/08
17
18. REFERÊNCIAS
MILIDIU, R. L. ; RENTERIA, Raul . DPLS and PPLS: Two PLS Algorithms for Large Data Sets. Computational Statistics and Data Analysis, v. 48, p. 125-138, 2005.
MapReduce: Simplified Data Processing on Large Clusters
Hadoop Distributed File System
Hadoop Map/Reduce
18