Indexadores distribuídos utilizando Apache Hadoop<br />Luís A. Bastião Silva<br />Recuperação de informação<br />
Agenda<br />Enquadramento<br />Lucene<br />Hadoop<br />HDFS<br />MapReduce<br />Implementações do Lucene distribuídas<br /...
Enquadramento<br />Aumento do volume de informação têm vindo a crescer<br />Criação de motores de pesquisa<br />Indexação<...
Apache Lucene<br />Projecto da ASF (Apache Software Fundation)<br />Plataforma Open Source<br />Interfaces de indexação e ...
ProjectoHadoop<br />Hadoop:  ASF + Open Source<br />Motivação: <br />criação de um sistema de ficheiros distribuído <br />...
ProjectoHadoop<br />Subprojectos do Hadoop:<br />Common<br />HDSF<br />MapReduce<br />ZooKeeper<br />Enquadramento<br />Ha...
HDFS: HadoopDistributed File System<br />Sistema de ficheiros distribuídos<br />Construído para grandes volumes de informa...
HDFS - Arquitectura<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
MapReduce<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />Modelo de programação<br ...
LuceneDistribuido<br />Discussão de diferentes abordagens<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />...
Doug Cutting Approach<br />Indicesdistribuidos pelos sistemas computacionais<br />ArquitecturaMaster/Slaves<br />Master: c...
DistributedLucene<br />Não utiliza o HDFS<br />Utiliza mecanismos de IPC do Hadoop<br />Segue os conceitos propostos por D...
Distributed Index for Semantic Search<br />Utilização do MapReduce<br />Map: Parser dos documentos armazenados no sistema ...
Conclusões<br />Mover processamento é preferível a mover dados <br />Algumas implementações de Lucene distribuídos, contud...
Questões?<br />
Próximos SlideShares
Carregando em…5
×

Indexadores Distribuidos utilizando Hadoop

1.419 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.419
No SlideShare
0
A partir de incorporações
0
Número de incorporações
75
Ações
Compartilhamentos
0
Downloads
27
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
  • Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
  • ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
  • Centramo nos HDFS e MapReduce
  • A fase de Map pode ser usada para carregar documentos do DFS
  • Indexadores Distribuidos utilizando Hadoop

    1. 1. Indexadores distribuídos utilizando Apache Hadoop<br />Luís A. Bastião Silva<br />Recuperação de informação<br />
    2. 2. Agenda<br />Enquadramento<br />Lucene<br />Hadoop<br />HDFS<br />MapReduce<br />Implementações do Lucene distribuídas<br />Conclusões<br />
    3. 3. Enquadramento<br />Aumento do volume de informação têm vindo a crescer<br />Criação de motores de pesquisa<br />Indexação<br />Pesquisa<br />Indexador versus Base de Dados relacional<br />Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    4. 4. Apache Lucene<br />Projecto da ASF (Apache Software Fundation)<br />Plataforma Open Source<br />Interfaces de indexação e pesquisa bem definidos<br />Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. <br />Capacidade de fazer “merge” de vários índices<br />Útil para indexadores distribuídos<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    5. 5. ProjectoHadoop<br />Hadoop: ASF + Open Source<br />Motivação: <br />criação de um sistema de ficheiros distribuído <br />efectuar processamento nos vários nós do cluster<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    6. 6. ProjectoHadoop<br />Subprojectos do Hadoop:<br />Common<br />HDSF<br />MapReduce<br />ZooKeeper<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    7. 7. HDFS: HadoopDistributed File System<br />Sistema de ficheiros distribuídos<br />Construído para grandes volumes de informação<br />Blocos divididos em blocos de 64MB<br />Redundância<br />Orientado a “batchprocessing” e streaming<br />ArquitecturaMaster/Slave<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    8. 8. HDFS - Arquitectura<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    9. 9. MapReduce<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />Modelo de programação<br />Map<br />“Shuffle”<br />Reduce<br />
    10. 10. LuceneDistribuido<br />Discussão de diferentes abordagens<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    11. 11. Doug Cutting Approach<br />Indicesdistribuidos pelos sistemas computacionais<br />ArquitecturaMaster/Slaves<br />Master: contém a localização dos vários indices<br />Cada indice têm uma versão<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    12. 12. DistributedLucene<br />Não utiliza o HDFS<br />Utiliza mecanismos de IPC do Hadoop<br />Segue os conceitos propostos por Doug Cutting <br />Introduz o conceito do estado do indice:<br />“uncommited”, “replicating” e “live”<br />Actualizaçãobaseadaem “leasing”<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    13. 13. Distributed Index for Semantic Search<br />Utilização do MapReduce<br />Map: Parser dos documentos armazenados no sistema de ficheiros distribuído<br />Redução: obter documentos que contém o mesmo termo<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    14. 14. Conclusões<br />Mover processamento é preferível a mover dados <br />Algumas implementações de Lucene distribuídos, contudo:<br />Limitativas para o utilizador<br />Ainda em fase beta de desenvolvimento<br />Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos.<br />Hadoop revelou-se uma plataforma bastante estável<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
    15. 15. Questões?<br />

    ×