O slideshow foi denunciado.
Indexadores distribuídos utilizando Apache Hadoop<br />Luís A. Bastião Silva<br />Recuperação de informação<br />
Agenda<br />Enquadramento<br />Lucene<br />Hadoop<br />HDFS<br />MapReduce<br />Implementações do Lucene distribuídas<br /...
Enquadramento<br />Aumento do volume de informação têm vindo a crescer<br />Criação de motores de pesquisa<br />Indexação<...
Apache Lucene<br />Projecto da ASF (Apache Software Fundation)<br />Plataforma Open Source<br />Interfaces de indexação e ...
ProjectoHadoop<br />Hadoop:  ASF + Open Source<br />Motivação: <br />criação de um sistema de ficheiros distribuído <br />...
ProjectoHadoop<br />Subprojectos do Hadoop:<br />Common<br />HDSF<br />MapReduce<br />ZooKeeper<br />Enquadramento<br />Ha...
HDFS: HadoopDistributed File System<br />Sistema de ficheiros distribuídos<br />Construído para grandes volumes de informa...
HDFS - Arquitectura<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
MapReduce<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />Modelo de programação<br ...
LuceneDistribuido<br />Discussão de diferentes abordagens<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />...
Doug Cutting Approach<br />Indicesdistribuidos pelos sistemas computacionais<br />ArquitecturaMaster/Slaves<br />Master: c...
DistributedLucene<br />Não utiliza o HDFS<br />Utiliza mecanismos de IPC do Hadoop<br />Segue os conceitos propostos por D...
Distributed Index for Semantic Search<br />Utilização do MapReduce<br />Map: Parser dos documentos armazenados no sistema ...
Conclusões<br />Mover processamento é preferível a mover dados <br />Algumas implementações de Lucene distribuídos, contud...
Questões?<br />
Próximos SlideShares
Carregando em…5
×

Indexadores Distribuidos utilizando Hadoop

1.450 visualizações

Publicada em

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Indexadores Distribuidos utilizando Hadoop

  1. 1. Indexadores distribuídos utilizando Apache Hadoop<br />Luís A. Bastião Silva<br />Recuperação de informação<br />
  2. 2. Agenda<br />Enquadramento<br />Lucene<br />Hadoop<br />HDFS<br />MapReduce<br />Implementações do Lucene distribuídas<br />Conclusões<br />
  3. 3. Enquadramento<br />Aumento do volume de informação têm vindo a crescer<br />Criação de motores de pesquisa<br />Indexação<br />Pesquisa<br />Indexador versus Base de Dados relacional<br />Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  4. 4. Apache Lucene<br />Projecto da ASF (Apache Software Fundation)<br />Plataforma Open Source<br />Interfaces de indexação e pesquisa bem definidos<br />Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. <br />Capacidade de fazer “merge” de vários índices<br />Útil para indexadores distribuídos<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  5. 5. ProjectoHadoop<br />Hadoop: ASF + Open Source<br />Motivação: <br />criação de um sistema de ficheiros distribuído <br />efectuar processamento nos vários nós do cluster<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  6. 6. ProjectoHadoop<br />Subprojectos do Hadoop:<br />Common<br />HDSF<br />MapReduce<br />ZooKeeper<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  7. 7. HDFS: HadoopDistributed File System<br />Sistema de ficheiros distribuídos<br />Construído para grandes volumes de informação<br />Blocos divididos em blocos de 64MB<br />Redundância<br />Orientado a “batchprocessing” e streaming<br />ArquitecturaMaster/Slave<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  8. 8. HDFS - Arquitectura<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  9. 9. MapReduce<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />Modelo de programação<br />Map<br />“Shuffle”<br />Reduce<br />
  10. 10. LuceneDistribuido<br />Discussão de diferentes abordagens<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  11. 11. Doug Cutting Approach<br />Indicesdistribuidos pelos sistemas computacionais<br />ArquitecturaMaster/Slaves<br />Master: contém a localização dos vários indices<br />Cada indice têm uma versão<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  12. 12. DistributedLucene<br />Não utiliza o HDFS<br />Utiliza mecanismos de IPC do Hadoop<br />Segue os conceitos propostos por Doug Cutting <br />Introduz o conceito do estado do indice:<br />“uncommited”, “replicating” e “live”<br />Actualizaçãobaseadaem “leasing”<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  13. 13. Distributed Index for Semantic Search<br />Utilização do MapReduce<br />Map: Parser dos documentos armazenados no sistema de ficheiros distribuído<br />Redução: obter documentos que contém o mesmo termo<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  14. 14. Conclusões<br />Mover processamento é preferível a mover dados <br />Algumas implementações de Lucene distribuídos, contudo:<br />Limitativas para o utilizador<br />Ainda em fase beta de desenvolvimento<br />Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos.<br />Hadoop revelou-se uma plataforma bastante estável<br />Enquadramento<br />Hadoop<br />Lucene<br />Conclusões<br />LuceneDistribuido<br />
  15. 15. Questões?<br />

×