Integração de Dados:Ontem, hoje e sempre    Bernadette Farias Lóscio        bfl@cin.ufpe.br
motivação                   ...             ...           ...    Distribuição Heterogeneidade       Autonomia Transparênci...
agenda     Sistemas de integração de dados     Evolução das soluções     Arquiteturas/Abordagens     Integração semântica ...
sistemas de integração de dados     Data integration systems offer       uniform access to a set of    autonomous and hete...
sistemas de integração de dados§  O número de fontes de dados pode crescer§  As fontes de dados podem ser estruturadas o...
sistemas de integração de dados                                  integração de dados é um processo !   entender  Dados, pr...
sistemas de integração de dados    The integration process is iterative,            and never-ending.          Change is c...
sistemas de integração de dados    The goal of data integration is to build     tools that make it easier to build data   ...
evolução das soluções                                                      ...                                            ...
evolução das soluções/aplicações                        aplicação ... aplicação  mediação, data  warehouse, P2P,dataspace,...
arquiteturas/abordagens                          arquitetura de                           mediadores[Lóscio, 1998]        ...
arquiteturas/abordagens           reformulação de consultas - mediação[Lóscio, 1998]                                      ...
arquiteturas/abordagens           reformulação de consultas - mediação[Lóscio, 1998]                                      ...
arquiteturas/abordagens           reformulação de consultas - mediação[Lóscio, 1998]                                      ...
arquiteturas/abordagens     formalizando...    Um sistema de integração de dados    (mediação) é uma tripla (G, S, M), ond...
arquiteturas/abordagens (mapeamentos semânticos)                    esquema         G                     global          ...
arquiteturas/abordagens (mapeamentos semânticos)                 esquema        G                  global                 ...
arquiteturas/abordagens (mapeamentos semânticos)                  R   Name   Surname   Age   Salary         S1   N       S...
arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009]                     R   Name   Surname   Age   Salary   glob...
arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009]                     R1 Name    Surname       Age   Salary   ...
integração semântica         Agrupar e combinar dados de       diferentes fontes considerando uma               semântica ...
integração semântica         ontologias      Zelia Gattai                                        Salvador            marri...
integração semântica (abordagens)                  1 uma única ontologia                        ontologia                 ...
integração semântica - (abordagens)                    3 abordagem híbrida                               vocabulário      ...
dataspaces/pay as you go     Problem: Querying Several Sources                       What is the impact of global warmingQ...
dataspaces/pay as you go                                                             Job!	          Solution 1: Use a Sear...
dataspaces/pay as you go                    Solution 2: Use an Information                          Integration System    ...
dataspaces/pay as you go                       Research Challenge:      Is There an Integration Solution in-between These ...
dataspaces/pay as you go[Halevy, 2006]                           29
dataspaces/pay as you go     algumas diferenças...  §  Mapeamentos semânticos e esquema de      mediação serão criados au...
dataspaces/pay as you go  “The vision of dataspaces has been articulated  as providing various of the benefits of classica...
dataspaces/pay as you go  “This paper defines a collection of dimensions     that capture both the components that a   dat...
dataspaces/pay as you go                   Motivação    Dataspaces     –  Custo baixo     –  Integração por demanda     – ...
dataspaces/pay as you go          Quadro de Classificação    Tempo de vida de um dataspace     –  Curto prazo     –  Médio...
dataspaces/pay as you go          Quadro de Classificação    Ciclo de vida do dataspace     –  Diferentes contextos necess...
dataspaces/pay as you go          Quadro de Classificação                                    36
dataspaces/pay as you go             Fase de Inicialização     §  As dimensões que caracterizam a fase de         inicial...
dataspaces/pay as you go            Fase de Inicialização    Identificação de fontes     –  Geral ou específico     –  Não...
dataspaces/pay as you go             Fase de Inicialização    Esquema de integração (projeto e derivação)     –  Manual, s...
dataspaces/pay as you go             Fase de Inicialização    Matchings e sua identificação     –  Entre fontes locais, en...
dataspaces/pay as you go              Fase de Inicialização    Mappings e sua identificação     –  Sempre expressos entre ...
dataspaces/pay as you go             Fase de Inicialização    Recursos de dados resultantes     –  Virtual, parcialmente m...
dataspaces/pay as you go       Fase de Uso: busca/consulta    Avaliação (resultados de concultas)     –  Completa (comp)  ...
dataspaces/pay as you go     Fase de Manutenção e Melhoria  §  Manutenção: lida com o fato das fontes de      dados serem...
dataspaces/pay as you go       Fase: Manutenção e Melhoria    Manutenção     –  DSMS precisam ser capazes de lidar com a e...
dataspaces/pay as you go       Fase: Manutenção e Melhoria    Melhoria     §  Aquisição de feedback sobre diferentes recu...
dataspaces/pay as you go         Propostas de Dataspaces  §  ALADIN  §  SEMEX  §  iMeMeX  §  PayGo  §  UDI           ...
algumas referências...  §    Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink:...
Próximos SlideShares
Carregando em…5
×

Integracao dados Ontem Hoje e Sempre

734 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
734
No SlideShare
0
A partir de incorporações
0
Número de incorporações
8
Ações
Compartilhamentos
0
Downloads
31
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Integracao dados Ontem Hoje e Sempre

  1. 1. Integração de Dados:Ontem, hoje e sempre Bernadette Farias Lóscio bfl@cin.ufpe.br
  2. 2. motivação ... ... ... Distribuição Heterogeneidade Autonomia Transparência 2
  3. 3. agenda Sistemas de integração de dados Evolução das soluções Arquiteturas/Abordagens Integração semântica Dataspaces/pay as you go Conclusões 3
  4. 4. sistemas de integração de dados Data integration systems offer uniform access to a set of autonomous and heterogeneous data sources. Alon Halevy 4
  5. 5. sistemas de integração de dados§  O número de fontes de dados pode crescer§  As fontes de dados podem ser estruturadas ou não§  Heterogeneidade em diferentes níveis <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> 5
  6. 6. sistemas de integração de dados integração de dados é um processo ! entender Dados, propriedades, valores, significados Metadados são fundamentais! padronizar Definir terminologia, como lidar com objetos e valores inconsistentes, definir esquema integrado especificar Configurar o mecanismo de integração executar Integrar!!! (materialização x mediação)Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ] 6
  7. 7. sistemas de integração de dados The integration process is iterative, and never-ending. Change is constant... Laura Haas 7
  8. 8. sistemas de integração de dados The goal of data integration is to build tools that make it easier to build data integration applications, rather than completely automating the process. Alon Halevy 8
  9. 9. evolução das soluções ... Dataspaces Integração de dados usando web services Sistemas baseados em ontologias Sistemas baseados em agentes Sistemas de mediação Sistemas de bancos de dados múltiplos Aplicações de banco de dados 9
  10. 10. evolução das soluções/aplicações aplicação ... aplicação mediação, data warehouse, P2P,dataspace, agentes, Camada de integraçãoontologias, serviços web, informações de dados contextuaisdados governamentais, biológicos, médicos, ... dados na web... fontes de dados 10
  11. 11. arquiteturas/abordagens arquitetura de mediadores[Lóscio, 1998] 11
  12. 12. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 12
  13. 13. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 13
  14. 14. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 14
  15. 15. arquiteturas/abordagens formalizando... Um sistema de integração de dados (mediação) é uma tripla (G, S, M), onde: –  G é o esquema global –  S é o esquema fonte –  M é o mapeamento entre G e S Data Integration: A theoretical perspective , [Lenzerini, 2002] 15
  16. 16. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... M ... ... ... esquema esquema esquema local local local S 16
  17. 17. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... Como conceitos nas fontes correspondem a conceitos no ... esquema global? ... ... esquema esquema esquema local local local S 17
  18. 18. arquiteturas/abordagens (mapeamentos semânticos) R Name Surname Age Salary S1 N SN A S2 N SN S D Geração dos mapeamentos semânticos 1 identificação de correspondências (matchings) 2 geração das expressões de mapeamento (mappings) Abordagens para definição de mapeamentos semânticos: GAV e LAV 18
  19. 19. arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009] R Name Surname Age Salary global schema S1 N SN A S2 N SN S D local schemas In this example, the GAV mapping would be: R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S) Q(S):- R(Name, Surname, Age, Salary), A = 40 view Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40 unfolding 19
  20. 20. arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009] R1 Name Surname Age Salary R2 Name Dept S1 N SN A S2 N SN S D In this example, the LAV mapping would be: S1(N,SN,A) :- R1(Name, Surname, Age) S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept) Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary), R2(Name, Dept), A < 50, D = “Education”. view Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D) rewriting 20
  21. 21. integração semântica Agrupar e combinar dados de diferentes fontes considerando uma semântica explícita 21
  22. 22. integração semântica ontologias Zelia Gattai Salvador married isIn livedIn Jorge Amado Bahia wrote wrote partOf Mar Morto Brazil Tieta do Agreste partOf Ceará 22
  23. 23. integração semântica (abordagens) 1 uma única ontologia ontologia global 2 múltiplas ontologias ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. al, 2001 ] 23
  24. 24. integração semântica - (abordagens) 3 abordagem híbrida vocabulário compartilhado ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. Al, 2001 ] 24
  25. 25. dataspaces/pay as you go Problem: Querying Several Sources What is the impact of global warmingQuery in Zurich? ? ? ? ?Systems DataSources Email Web DB Laptop Server Server Server “iTrails: Pay-as-you-go Information Integration in Dataspaces“, [Salles, 2007] 25
  26. 26. dataspaces/pay as you go Job! Solution 1: Use a Search Engine Query global warming zurich Graph IR Search Engine System Drawback: Query semantics are not precise! TopX [VLDB05], FleXPath [SIGMOD04], XSearch [VLDB03], XRank [SIGMOD03] text, text, text, text, links links links links DataSources[Salles, 2007] Email Web DB Laptop Server Server Server 26
  27. 27. dataspaces/pay as you go Solution 2: Use an Information Integration System //Temperatures/*[city = zurich ] Query . . . . Information ... Temps Cities Integration Drawback: Too much effort to provide ... System CO2 System Sunspots schema mappings![VLDB96]), GAV (e.g. [ICDE95]), LAV (e.g. GLAV [AAAI99], P2P (e.g. [SIGMOD04]) missing missing schema schema schema schema mapping mapping mapping mapping[Salles, 2007] Data Sources Email Web DB Laptop Server Server Server 27
  28. 28. dataspaces/pay as you go Research Challenge: Is There an Integration Solution in-between These Two Extremes? global warming zurich //Temperatures/*[city = global warming zurich zurich ] ? . . . . . . Graph IR Dataspace ... Information Search Engine Temps Cities Integration System ... CO2 Sunspots System Pay-as-you-go full-blown text, Information schema links text, text, text, text, mappings Integration links links links links[Salles, 2007] Data Data Sources Sources Email Web DB Dataspace Vision by Laptop Franklin, Halevy, and Maier Server Server Server [SIGMOD Record 05] 28
  29. 29. dataspaces/pay as you go[Halevy, 2006] 29
  30. 30. dataspaces/pay as you go algumas diferenças... §  Mapeamentos semânticos e esquema de mediação serão criados automaticamente (porém, podem ser aproximados) §  Diferentes mecanismos de consulta (respostas aproximadas ou parciais) A semântica poderá ser aperfeiçoada com o tempo 30
  31. 31. dataspaces/pay as you go “The vision of dataspaces has been articulated as providing various of the benefits of classical data integration, but with reduced up-front costs, combined with opportunities for incremental refinement, enabling a “pay as you go” approach.” [Hedeler 2009] Dimensions of Dataspaces 31
  32. 32. dataspaces/pay as you go “This paper defines a collection of dimensions that capture both the components that a dataspace management system may contain and the lifecycle it may support.” [Hedeler 2009] Dimensions of Dataspaces 32
  33. 33. dataspaces/pay as you go Motivação Dataspaces –  Custo baixo –  Integração por demanda –  Baixa qualidade (incerteza) –  Podem visar coleções de dados diversos como: arquivos pessoais, dados de empresas ou a própria web 33
  34. 34. dataspaces/pay as you go Quadro de Classificação Tempo de vida de um dataspace –  Curto prazo –  Médio prazo –  Longo prazo –  Diferentes contextos, diferentes tempos de vida 34
  35. 35. dataspaces/pay as you go Quadro de Classificação Ciclo de vida do dataspace –  Diferentes contextos necessitam apenas de um subconjunto do ciclo de vida conceitual Fases do ciclo de vida –  Inicialização –  Teste/avaliação –  Implantação –  Manutenção –  Uso e melhoria 35
  36. 36. dataspaces/pay as you go Quadro de Classificação 36
  37. 37. dataspaces/pay as you go Fase de Inicialização §  As dimensões que caracterizam a fase de inicialização de um dataspace estão relacionadas com o processo e suas entradas ou com a saída do processo §  É importante entender que... §  Matching = conjunto de correspondências §  Mapping = regras utilizadas para executar as traduções entre esquemas 37
  38. 38. dataspaces/pay as you go Fase de Inicialização Identificação de fontes –  Geral ou específico –  Não-estruturado, semi-estruturado ou estruturado –  Local ou distribuído 38
  39. 39. dataspaces/pay as you go Fase de Inicialização Esquema de integração (projeto e derivação) –  Manual, semi-automático ou automático –  União ou merge de esquemas –  Escopo geral ou específico –  Um score de incerteza pode ser relacionado ao esquema de integração 39
  40. 40. dataspaces/pay as you go Fase de Inicialização Matchings e sua identificação –  Entre fontes locais, entre fontes locais e o esquema de integração –  Manual, semi-automático ou automático –  Incerteza (score) –  Esquema, instância ou dados de treinamento 40
  41. 41. dataspaces/pay as you go Fase de Inicialização Mappings e sua identificação –  Sempre expressos entre esquemas locais e o esquema de integração –  O processo de derivação pode ser automático, semi- automático ou manual –  Um grau de incerteza pode ser acrescentado aos mapeamentos (score) –  Informações sobre instâncias, esquemas e matchings podem ser usadas na identificação de mapeamentos 41
  42. 42. dataspaces/pay as you go Fase de Inicialização Recursos de dados resultantes –  Virtual, parcialmente materializada ou materializada –  Grau de incerteza (score) –  Duplicatas ou conflitos: pode coexistir ou não 42
  43. 43. dataspaces/pay as you go Fase de Uso: busca/consulta Avaliação (resultados de concultas) –  Completa (comp) –  Parcial (part) Se múltiplas fontes são consultadas? –  Combinação de Resultados (Merge ou Union) Verificação de Incerteza –  Scores ou Ranking 43
  44. 44. dataspaces/pay as you go Fase de Manutenção e Melhoria §  Manutenção: lida com o fato das fontes de dados serem autônomas §  Melhoria: visa aperfeiçoar os resultados de integração ao longo do tempo §  Mesmos passos da fase de inicialização com algumas adições: –  Feedback para o usuário –  Novos alinhamentos e mapeamentos, no caso de atualizaçõe, ou seja, quando as fontes são modificadas) 44
  45. 45. dataspaces/pay as you go Fase: Manutenção e Melhoria Manutenção –  DSMS precisam ser capazes de lidar com a evolução das fontes de dados (adição e/ou remoção de fontes) –  DSMS deve exigir pouco ou nenhum esforço manual para responder a essas mudanças –  Benefícios: •  Reuso de tarefas de integrações já feitas –  Matchings, mapeamentos, esquemas de integração e feedback do usuário 45
  46. 46. dataspaces/pay as you go Fase: Manutenção e Melhoria Melhoria §  Aquisição de feedback sobre diferentes recursos de dados •  Alinhamentos •  Mapeamentos •  Esquema de integração •  Consultas §  Uso de Feedback •  Implícito •  Explicito 46
  47. 47. dataspaces/pay as you go Propostas de Dataspaces §  ALADIN §  SEMEX §  iMeMeX §  PayGo §  UDI 47
  48. 48. algumas referências... §  Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink: A Decision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rd Annual ACM Symposium on Applied Computing. §  Lóscio, B.F. 1998, ‘Atualização de Múltiplas Bases de Dados através de Mediadores’, M.S. thesis, Computer Science Department, University Federal of Ceará. §  Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, Informatics Center- Federal University of Pernambuco, 2003. §  Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologies and Applications. Londres: Springer, 2007, v.1. p.337. §  Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) Formal Ontology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands. §  Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACM SIGMOD Record Vol. 33, Issue 4. §  Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACM SIGMOD Record Vol. 33, Issue 4: pp. 65-70. §  Wache, H., Vögele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S. (2001) Ontology-based Integration of Information - A Survey of Existing Approaches. In Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing. §  Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACM Symposium on Principles of Database Systems. §  Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006). §  Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. §  Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. 48

×