"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...
Szukanie odpowiedzi: wyszukiwarki trzeciej generacji
1. Szukanie odpowiedzi:
wyszukiwarki trzeciej generacji
dr inż. Sebastian Ryszard Kruk
Szkoła Web 3.0, http://www.semanticschool.com/
Knowledge Hives, http://www.knowledgehives.com/
Copyright @ Sebastian R. Kruk, Szkoła Web 3.0: http://www.semanticschool.com/, Knowledge Hives: http://www.knowledgehives.com/
2. Plan prezentacji
• Problemy obecnych mechanizmów wyszukiwania
• Technologie Web 3.0 dla wyszukiwania informacji
• Przegląd wyszukiwarek trzeciej generacji
– Yahoo Search Monkey / BOSS
– Google: Google Squared i wsparcie dla metadanych
– Wolfram Alpha
– Microsoft Bing
– Hakia
– SWSE
– Sindice
– GoPubMed
– Clusty
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
3. Problemy obecnych
mechanizmów wyszukiwania
Technologie Web 3.0
Wyszukiwarki trzeciej generacji
Copyright @ Sebastian R. Kruk, Szkoła Web 3.0: http://www.semanticschool.com/, Knowledge Hives: http://www.knowledgehives.com/
4. Rozumienie zapytania
• słowa kluczowe:
– wieloznaczność wyrazów w zapytaniu
– wiele słów w zapytaniu tworzy jego kontekst
– profil użytkownika daje dodatkowy kontekst
• pełne zdania:
– widziane jako zestaw słów kluczowych
• interaktywne interfejsy:
– np. fasetowa nawigacja
– bazują na predefiniowanych metadanych
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
5. Rozumienie indeksowanej treści
• pre-Google:
– pełnotekstowe, nieznaczna ilość metadanych
– zaśmiecanie wyników
• Google:
– powiązanie dokumentów w Sieci
– losowy surfer
– wiele algorytmów, aby m.in. unikać spamowania
• do niedawna:
– brak “rozumienia” metadanych
– brak integrowania metadanych
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
6. Problemy obecnych
mechanizmów wyszukiwania
Technologie Web 3.0
Wyszukiwarki trzeciej generacji
Copyright @ Sebastian R. Kruk, Szkoła Web 3.0: http://www.semanticschool.com/, Knowledge Hives: http://www.knowledgehives.com/
7. Metadane, słowniki, wnioskowanie
• <META> to nie wszystko
• osadzona semantyka:
– RDFa
– Microformaty
• powiązane słowniki:
– Linked Open Data
– WordNet
– MeSH
• identyfikowanie tych samych zasobów opisanych przez różne
źródła:
– wnioskowanie na ontologiach
– OWL inverted functional property
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
8. Przetwarzanie języka naturalnego
• przetwarzanie języka naturalnego:
– przejście od tagów do słów kluczowych
– identyfikowanie typów (Twine)
• mapowanie słów w zapytaniu do znaczeń ze słowników i ontologii
– przetwarzanie zapytań
– budowa zapytania “z przewodnikiem”
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
9. Problemy obecnych
mechanizmów wyszukiwania
Technologie Web 3.0
Wyszukiwarki trzeciej generacji
Copyright @ Sebastian R. Kruk, Szkoła Web 3.0: http://www.semanticschool.com/, Knowledge Hives: http://www.knowledgehives.com/
10. Yahoo Search Monkey / BOSS
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
11. Yahoo Search Monkey / BOSS
• indeksowanie semantyki:
– RDFa
– Microformaty
– GRDDL
• specjalne wsparcie dla kilku typów danych
• API wspierające budowanie własnych wyszukiwarek
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
12. Google: Google Squared i wsparcie dla metadanych
http://www.google.com/squared
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
13. Google: Google Squared i wsparcie dla metadanych
• wyniki wyszukiwania w tabeli
• sortowanie po metadanych
• indeksowanie osadzonych metadanych:
– RDFa
– Microformaty
• promowanie własnych ontologii
http://www.google.com/squared
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
14. Microsoft Bing i Powerset
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
15. Microsoft Bing i Powerset
• Powerset:
– wykorzystanie semantyki Wikipedii/DBpedii
– NLP
• Bing:
– “klasyczne” wyszukiwanie
– odpytywanie Powerset
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
16. Wolfram Alpha
http://www.wolframalpha.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
17. Wolfram Alpha
• przeszukiwanie baz wiedzy
• silnik przetwarzania logiki
• dedykowane prezentowanie wyników
http://www.wolframalpha.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
18. Hakia
http://www.hakia.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
19. Hakia
• przetwarzanie zapytań w języku naturalnym
• wykorzystuje BOSS do indeksowania
http://www.hakia.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
20. GoPubMed
http://www.gopubmed.org/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
21. GoPubMed
• przeszukiwanie semantyki publikacji medycznych
• wykorzystanie słowników
http://www.gopubmed.org/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
22. Clusty
http://clusty.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
23. Clusty
• przetwarzanie zapytań w języku naturalnym
• spajanie wyników odpowiedzi
http://clusty.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives
24. Podsumowanie
Szukanie odpowiedzi: wyszukiwarki trzeciej generacji
Problemy obecnych mechanizmów wyszukiwania
Technologie Web 3.0 dla wyszukiwania informacji
Przegląd wyszukiwarek trzeciej generacji
dr inż. Sebastian Ryszard Kruk
Szkoła Web 3.0, http://www.semanticschool.com/
Knowledge Hives, http://www.knowledgehives.com/
Copyright @ Sebastian Ryszard Kruk, Szkoła Web 3.0, Knowledge Hives