SlideShare uma empresa Scribd logo
1 de 15
Indexadores distribuídos utilizando Apache Hadoop Luís A. Bastião Silva Recuperação de informação
Agenda Enquadramento Lucene Hadoop HDFS MapReduce Implementações do Lucene distribuídas Conclusões
Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc.  Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
ProjectoHadoop Hadoop:  ASF + Open Source Motivação:  criação de um sistema de ficheiros distribuído  efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
HDFS - Arquitectura Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
MapReduce Enquadramento Hadoop Lucene Conclusões LuceneDistribuido Modelo de programação Map “Shuffle” Reduce
LuceneDistribuido Discussão de diferentes abordagens Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting  Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
Conclusões Mover processamento é preferível a mover dados  Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
Questões?

Mais conteúdo relacionado

Semelhante a Indexadores Distribuidos utilizando Hadoop

Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceMatteus Barbosa
 
Integrado Linux y Active Directory
Integrado Linux y Active DirectoryIntegrado Linux y Active Directory
Integrado Linux y Active Directoryjdavalos
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Felipe Schimith Batista
 
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREMEOficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREMEComunidadRedDes
 
Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...
Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...
Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...josekarvalho
 
SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016Rodrigo Dornel
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...tdc-globalcode
 
Sistemas distribuidos - Hadoop
Sistemas distribuidos  - HadoopSistemas distribuidos  - Hadoop
Sistemas distribuidos - Hadooprenanaugusto18
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...Luiz Henrique Zambom Santana
 
Tecnologias para bibliotecas
Tecnologias para bibliotecasTecnologias para bibliotecas
Tecnologias para bibliotecasAnderson Santana
 
7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS
7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS 7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS
7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS iMasters
 
Integrando FreeBSD com Active Directory e OpenLDAP
Integrando FreeBSD com Active Directory e OpenLDAPIntegrando FreeBSD com Active Directory e OpenLDAP
Integrando FreeBSD com Active Directory e OpenLDAPelliando dias
 
Ebook Apache Server: Guia Introdutório
Ebook Apache Server: Guia IntrodutórioEbook Apache Server: Guia Introdutório
Ebook Apache Server: Guia IntrodutórioFernando Palma
 

Semelhante a Indexadores Distribuidos utilizando Hadoop (20)

Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
 
Integrado Linux y Active Directory
Integrado Linux y Active DirectoryIntegrado Linux y Active Directory
Integrado Linux y Active Directory
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6
 
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREMEOficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME
 
Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...
Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...
Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...
 
BrunoSQLSat 469
BrunoSQLSat 469BrunoSQLSat 469
BrunoSQLSat 469
 
SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
 
Sistemas distribuidos - Hadoop
Sistemas distribuidos  - HadoopSistemas distribuidos  - Hadoop
Sistemas distribuidos - Hadoop
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
 
Tecnologias para bibliotecas
Tecnologias para bibliotecasTecnologias para bibliotecas
Tecnologias para bibliotecas
 
Um LCMS
Um LCMSUm LCMS
Um LCMS
 
CBIE WRE Lanylldo
CBIE WRE LanylldoCBIE WRE Lanylldo
CBIE WRE Lanylldo
 
7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS
7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS 7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS
7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS
 
Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Oficina 1  Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...Oficina 1  Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
 
Integrando FreeBSD com Active Directory e OpenLDAP
Integrando FreeBSD com Active Directory e OpenLDAPIntegrando FreeBSD com Active Directory e OpenLDAP
Integrando FreeBSD com Active Directory e OpenLDAP
 
Ebook Apache Server: Guia Introdutório
Ebook Apache Server: Guia IntrodutórioEbook Apache Server: Guia Introdutório
Ebook Apache Server: Guia Introdutório
 
NoSQL
NoSQLNoSQL
NoSQL
 

Indexadores Distribuidos utilizando Hadoop

  • 1. Indexadores distribuídos utilizando Apache Hadoop Luís A. Bastião Silva Recuperação de informação
  • 2. Agenda Enquadramento Lucene Hadoop HDFS MapReduce Implementações do Lucene distribuídas Conclusões
  • 3. Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 4. Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 5. ProjectoHadoop Hadoop: ASF + Open Source Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 6. ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 7. HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 8. HDFS - Arquitectura Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 9. MapReduce Enquadramento Hadoop Lucene Conclusões LuceneDistribuido Modelo de programação Map “Shuffle” Reduce
  • 10. LuceneDistribuido Discussão de diferentes abordagens Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 11. Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 12. DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 13. Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
  • 14. Conclusões Mover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Notas do Editor

  1. Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
  2. Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
  3. ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
  4. Centramo nos HDFS e MapReduce
  5. A fase de Map pode ser usada para carregar documentos do DFS