Integracao dados Ontem Hoje e Sempre

753 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
753
No SlideShare
0
A partir de incorporações
0
Número de incorporações
8
Ações
Compartilhamentos
0
Downloads
33
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Integracao dados Ontem Hoje e Sempre

  1. 1. Integração de Dados:Ontem, hoje e sempre Bernadette Farias Lóscio bfl@cin.ufpe.br
  2. 2. motivação ... ... ... Distribuição Heterogeneidade Autonomia Transparência 2
  3. 3. agenda Sistemas de integração de dados Evolução das soluções Arquiteturas/Abordagens Integração semântica Dataspaces/pay as you go Conclusões 3
  4. 4. sistemas de integração de dados Data integration systems offer uniform access to a set of autonomous and heterogeneous data sources. Alon Halevy 4
  5. 5. sistemas de integração de dados§  O número de fontes de dados pode crescer§  As fontes de dados podem ser estruturadas ou não§  Heterogeneidade em diferentes níveis <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> 5
  6. 6. sistemas de integração de dados integração de dados é um processo ! entender Dados, propriedades, valores, significados Metadados são fundamentais! padronizar Definir terminologia, como lidar com objetos e valores inconsistentes, definir esquema integrado especificar Configurar o mecanismo de integração executar Integrar!!! (materialização x mediação)Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ] 6
  7. 7. sistemas de integração de dados The integration process is iterative, and never-ending. Change is constant... Laura Haas 7
  8. 8. sistemas de integração de dados The goal of data integration is to build tools that make it easier to build data integration applications, rather than completely automating the process. Alon Halevy 8
  9. 9. evolução das soluções ... Dataspaces Integração de dados usando web services Sistemas baseados em ontologias Sistemas baseados em agentes Sistemas de mediação Sistemas de bancos de dados múltiplos Aplicações de banco de dados 9
  10. 10. evolução das soluções/aplicações aplicação ... aplicação mediação, data warehouse, P2P,dataspace, agentes, Camada de integraçãoontologias, serviços web, informações de dados contextuaisdados governamentais, biológicos, médicos, ... dados na web... fontes de dados 10
  11. 11. arquiteturas/abordagens arquitetura de mediadores[Lóscio, 1998] 11
  12. 12. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 12
  13. 13. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 13
  14. 14. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 14
  15. 15. arquiteturas/abordagens formalizando... Um sistema de integração de dados (mediação) é uma tripla (G, S, M), onde: –  G é o esquema global –  S é o esquema fonte –  M é o mapeamento entre G e S Data Integration: A theoretical perspective , [Lenzerini, 2002] 15
  16. 16. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... M ... ... ... esquema esquema esquema local local local S 16
  17. 17. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... Como conceitos nas fontes correspondem a conceitos no ... esquema global? ... ... esquema esquema esquema local local local S 17
  18. 18. arquiteturas/abordagens (mapeamentos semânticos) R Name Surname Age Salary S1 N SN A S2 N SN S D Geração dos mapeamentos semânticos 1 identificação de correspondências (matchings) 2 geração das expressões de mapeamento (mappings) Abordagens para definição de mapeamentos semânticos: GAV e LAV 18
  19. 19. arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009] R Name Surname Age Salary global schema S1 N SN A S2 N SN S D local schemas In this example, the GAV mapping would be: R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S) Q(S):- R(Name, Surname, Age, Salary), A = 40 view Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40 unfolding 19
  20. 20. arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009] R1 Name Surname Age Salary R2 Name Dept S1 N SN A S2 N SN S D In this example, the LAV mapping would be: S1(N,SN,A) :- R1(Name, Surname, Age) S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept) Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary), R2(Name, Dept), A < 50, D = “Education”. view Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D) rewriting 20
  21. 21. integração semântica Agrupar e combinar dados de diferentes fontes considerando uma semântica explícita 21
  22. 22. integração semântica ontologias Zelia Gattai Salvador married isIn livedIn Jorge Amado Bahia wrote wrote partOf Mar Morto Brazil Tieta do Agreste partOf Ceará 22
  23. 23. integração semântica (abordagens) 1 uma única ontologia ontologia global 2 múltiplas ontologias ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. al, 2001 ] 23
  24. 24. integração semântica - (abordagens) 3 abordagem híbrida vocabulário compartilhado ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. Al, 2001 ] 24
  25. 25. dataspaces/pay as you go Problem: Querying Several Sources What is the impact of global warmingQuery in Zurich? ? ? ? ?Systems DataSources Email Web DB Laptop Server Server Server “iTrails: Pay-as-you-go Information Integration in Dataspaces“, [Salles, 2007] 25
  26. 26. dataspaces/pay as you go Job! Solution 1: Use a Search Engine Query global warming zurich Graph IR Search Engine System Drawback: Query semantics are not precise! TopX [VLDB05], FleXPath [SIGMOD04], XSearch [VLDB03], XRank [SIGMOD03] text, text, text, text, links links links links DataSources[Salles, 2007] Email Web DB Laptop Server Server Server 26
  27. 27. dataspaces/pay as you go Solution 2: Use an Information Integration System //Temperatures/*[city = zurich ] Query . . . . Information ... Temps Cities Integration Drawback: Too much effort to provide ... System CO2 System Sunspots schema mappings![VLDB96]), GAV (e.g. [ICDE95]), LAV (e.g. GLAV [AAAI99], P2P (e.g. [SIGMOD04]) missing missing schema schema schema schema mapping mapping mapping mapping[Salles, 2007] Data Sources Email Web DB Laptop Server Server Server 27
  28. 28. dataspaces/pay as you go Research Challenge: Is There an Integration Solution in-between These Two Extremes? global warming zurich //Temperatures/*[city = global warming zurich zurich ] ? . . . . . . Graph IR Dataspace ... Information Search Engine Temps Cities Integration System ... CO2 Sunspots System Pay-as-you-go full-blown text, Information schema links text, text, text, text, mappings Integration links links links links[Salles, 2007] Data Data Sources Sources Email Web DB Dataspace Vision by Laptop Franklin, Halevy, and Maier Server Server Server [SIGMOD Record 05] 28
  29. 29. dataspaces/pay as you go[Halevy, 2006] 29
  30. 30. dataspaces/pay as you go algumas diferenças... §  Mapeamentos semânticos e esquema de mediação serão criados automaticamente (porém, podem ser aproximados) §  Diferentes mecanismos de consulta (respostas aproximadas ou parciais) A semântica poderá ser aperfeiçoada com o tempo 30
  31. 31. dataspaces/pay as you go “The vision of dataspaces has been articulated as providing various of the benefits of classical data integration, but with reduced up-front costs, combined with opportunities for incremental refinement, enabling a “pay as you go” approach.” [Hedeler 2009] Dimensions of Dataspaces 31
  32. 32. dataspaces/pay as you go “This paper defines a collection of dimensions that capture both the components that a dataspace management system may contain and the lifecycle it may support.” [Hedeler 2009] Dimensions of Dataspaces 32
  33. 33. dataspaces/pay as you go Motivação Dataspaces –  Custo baixo –  Integração por demanda –  Baixa qualidade (incerteza) –  Podem visar coleções de dados diversos como: arquivos pessoais, dados de empresas ou a própria web 33
  34. 34. dataspaces/pay as you go Quadro de Classificação Tempo de vida de um dataspace –  Curto prazo –  Médio prazo –  Longo prazo –  Diferentes contextos, diferentes tempos de vida 34
  35. 35. dataspaces/pay as you go Quadro de Classificação Ciclo de vida do dataspace –  Diferentes contextos necessitam apenas de um subconjunto do ciclo de vida conceitual Fases do ciclo de vida –  Inicialização –  Teste/avaliação –  Implantação –  Manutenção –  Uso e melhoria 35
  36. 36. dataspaces/pay as you go Quadro de Classificação 36
  37. 37. dataspaces/pay as you go Fase de Inicialização §  As dimensões que caracterizam a fase de inicialização de um dataspace estão relacionadas com o processo e suas entradas ou com a saída do processo §  É importante entender que... §  Matching = conjunto de correspondências §  Mapping = regras utilizadas para executar as traduções entre esquemas 37
  38. 38. dataspaces/pay as you go Fase de Inicialização Identificação de fontes –  Geral ou específico –  Não-estruturado, semi-estruturado ou estruturado –  Local ou distribuído 38
  39. 39. dataspaces/pay as you go Fase de Inicialização Esquema de integração (projeto e derivação) –  Manual, semi-automático ou automático –  União ou merge de esquemas –  Escopo geral ou específico –  Um score de incerteza pode ser relacionado ao esquema de integração 39
  40. 40. dataspaces/pay as you go Fase de Inicialização Matchings e sua identificação –  Entre fontes locais, entre fontes locais e o esquema de integração –  Manual, semi-automático ou automático –  Incerteza (score) –  Esquema, instância ou dados de treinamento 40
  41. 41. dataspaces/pay as you go Fase de Inicialização Mappings e sua identificação –  Sempre expressos entre esquemas locais e o esquema de integração –  O processo de derivação pode ser automático, semi- automático ou manual –  Um grau de incerteza pode ser acrescentado aos mapeamentos (score) –  Informações sobre instâncias, esquemas e matchings podem ser usadas na identificação de mapeamentos 41
  42. 42. dataspaces/pay as you go Fase de Inicialização Recursos de dados resultantes –  Virtual, parcialmente materializada ou materializada –  Grau de incerteza (score) –  Duplicatas ou conflitos: pode coexistir ou não 42
  43. 43. dataspaces/pay as you go Fase de Uso: busca/consulta Avaliação (resultados de concultas) –  Completa (comp) –  Parcial (part) Se múltiplas fontes são consultadas? –  Combinação de Resultados (Merge ou Union) Verificação de Incerteza –  Scores ou Ranking 43
  44. 44. dataspaces/pay as you go Fase de Manutenção e Melhoria §  Manutenção: lida com o fato das fontes de dados serem autônomas §  Melhoria: visa aperfeiçoar os resultados de integração ao longo do tempo §  Mesmos passos da fase de inicialização com algumas adições: –  Feedback para o usuário –  Novos alinhamentos e mapeamentos, no caso de atualizaçõe, ou seja, quando as fontes são modificadas) 44
  45. 45. dataspaces/pay as you go Fase: Manutenção e Melhoria Manutenção –  DSMS precisam ser capazes de lidar com a evolução das fontes de dados (adição e/ou remoção de fontes) –  DSMS deve exigir pouco ou nenhum esforço manual para responder a essas mudanças –  Benefícios: •  Reuso de tarefas de integrações já feitas –  Matchings, mapeamentos, esquemas de integração e feedback do usuário 45
  46. 46. dataspaces/pay as you go Fase: Manutenção e Melhoria Melhoria §  Aquisição de feedback sobre diferentes recursos de dados •  Alinhamentos •  Mapeamentos •  Esquema de integração •  Consultas §  Uso de Feedback •  Implícito •  Explicito 46
  47. 47. dataspaces/pay as you go Propostas de Dataspaces §  ALADIN §  SEMEX §  iMeMeX §  PayGo §  UDI 47
  48. 48. algumas referências... §  Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink: A Decision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rd Annual ACM Symposium on Applied Computing. §  Lóscio, B.F. 1998, ‘Atualização de Múltiplas Bases de Dados através de Mediadores’, M.S. thesis, Computer Science Department, University Federal of Ceará. §  Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, Informatics Center- Federal University of Pernambuco, 2003. §  Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologies and Applications. Londres: Springer, 2007, v.1. p.337. §  Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) Formal Ontology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands. §  Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACM SIGMOD Record Vol. 33, Issue 4. §  Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACM SIGMOD Record Vol. 33, Issue 4: pp. 65-70. §  Wache, H., Vögele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S. (2001) Ontology-based Integration of Information - A Survey of Existing Approaches. In Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing. §  Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACM Symposium on Principles of Database Systems. §  Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006). §  Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. §  Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. 48

×