SlideShare uma empresa Scribd logo
1 de 11
Baixar para ler offline
Szukając pani S***k*n*us, czyli jak łączyć
kompetencje informatyczne i researcherskie
(i sięgać, gdzie Google nie sięga)
IV Warsztat Pracy Infobrokera
Filip Graliński & Karol Świetlik
Kraków, 28 maja 2019
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Tryby pozyskiwania informacji
2 skrajne (w naszym doświadczeniu) wymiary pozyskiwania
informacji na zlecenie:
podejście „przemysłowe”: masowe wydobywanie informacji z
wykorzystaniem metod tzw. sztucznej inteligencji
podejście „rzemieślnicze”: praca w trybie detektywistycznym,
ale również z wykorzystaniem nowoczesnych narzędzi
Między tymi biegunami cała sfera przejściowa.
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Research „hurtowy”
wielkie wolumeny danych
współzależność skali i szybkości
powtarzalność procesu, proceduralność
gwarancja sukcesu (progi ufności)
informacja „płytka” (tylko w przetwarzanym dokumencie)
Applica.ai czołowym dostawcą usług
przykład: klauzule NDA, pisma sądowe czy komornicze —
klasyfikacja, ekstrakcja określonych informacji
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Research „drobny” z ekstremalną niewiadomą
In Search of the Most Beautiful Pictures Ever Seen
intuicja + determinacja
znaleźć lub stworzyć
narzędzie najlepiej
dopasowane do
problemu, tu: strona
biblioteki z Manchesteru,
oferująca
najdogodniejszy
mechanizm
przeszukiwania
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Szukając pani S***k*n*us
Zagadka z bloga: http://www.strangehistory.net/2015/04/
30/searching-for-the-mysterious-mrs-sknus
Zadanie: znaleźć londyńską prostytutkę z końca XIX w. po
wygwiazdkowanym nazwisku.
wylistowanie możliwych nazwisk (raczej niemieckich), ale
Google na to nie pozwala
zatem:
1 „grepowanie” niemieckiego Internetu za pomocą wyrażenia
regularnego /S...k.n.us/, obciążające czasowo komputer,
ale jednorazowe:
xzcat de.deduped.xz | egrep -o ’S...k.n.us’ | sort
| uniq -c | sort -k 1rn
2 kwerenda w wyszukiwarkach (nazwiska + prostitute i
synonimy, a także słowa i frazy powiązane, np. disorderly house
= dom publiczny; niezbędna wiedza lingwistyczna!),
znalezione w HathiTrust!
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Szukając pani S***k*n*us cd.
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Spektrum środków pozyskiwania informacji
metody sztucznej inteligencji (masowa ekstrakcja informacji)
Research Tool as a Service?
narzędzia wewnętrzne rozwijane przez firmy researcherskie
wyspecjalizowane narzędzia (np. skrypty) tworzone ad hoc
istniejące wyszukiwarki (przydatna wiedza informatyczna, np.
języki zapytań, wyrażenia regularne, metody omijania
ograniczeń, „hakowania”) i bazy danych
działania „analogowe”
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
System Odkrywka
Odkrywka – prototypowy system wyszukiwawczy autorstwa Filipa
Gralińskiego, pokłosie badań i eksperymentów pracowników
Instytutu Językoznawstwa oraz Pracowni Systemów Informacyjnych
Wydziału Matematyki i Informatyki UAM w Poznaniu.
kolekcje upublicznione przez biblioteki cyfrowe oraz inne
otwarte źródła internetowe
3,4 mln publikacji, 22 mln stron,
15,1 mld wyrazów, 96,3 mld znaków (marzec 2019 r.)
zasoby polskojęzyczne (choć nie tylko) od XVIII w. po dzień
dzisiejszy, w znacznej części niedostępne za pośrednictwem
Google’a
wyszukiwanie pełnotekstowe, rysowanie wykresów częstości,
tworzenie dossier na zadany temat
narzędzie do researchu, szyte na miarę
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Odkrywka – tworzenie dossier
nie tylko dla uczonych (zwł. historyków czy lingwistów),
również dla dziennikarzy, pisarzy, genealogów, prawników,
funkcjonariuszy służb itd.
sztuką jest zdobyć informacje, ale też należycie je
zweryfikować, udokumentować i przystępnie zaprezentować
przykłady:
historia słynnej kamienicy przy Noakowskiego 16 w Warszawie
wydarzenia z życia ks. Stanisława Streicha w kontekście
procesu beatyfikacyjnego
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
PPJ
idea Centaura (zaawansowana technologia plus człowiek),
która choć upadła w „zamkniętym” świecie szachów, w
„otwartym” świecie researchingu wydaje się nam optymalna
PPJ – unikatowe zaplecze dla infobrokerów: zespół
informatyków i humanistów, dysponujących doświadczeniem
naukowym i biznesowym, przede wszystkim zaś lubiących
ambitne wyzwania w dziedzinie wyszukiwania informacji
www.ppj.pl, kontakt@ppj.pl
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Dziękujemy za uwagę!
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .

Mais conteúdo relacionado

Mais de Stowarzyszenie Profesjonalistów Informacji

Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...
Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...
Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...Stowarzyszenie Profesjonalistów Informacji
 
Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...
Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...
Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...Stowarzyszenie Profesjonalistów Informacji
 
Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...
Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...
Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...Stowarzyszenie Profesjonalistów Informacji
 
Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...
Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...
Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...Stowarzyszenie Profesjonalistów Informacji
 

Mais de Stowarzyszenie Profesjonalistów Informacji (19)

Obraz biznesu - wizualna prezentacja danych
Obraz biznesu - wizualna prezentacja danychObraz biznesu - wizualna prezentacja danych
Obraz biznesu - wizualna prezentacja danych
 
Przyszłość rynku informacji
Przyszłość rynku informacjiPrzyszłość rynku informacji
Przyszłość rynku informacji
 
Market Intelligence - monitorowanie konkurencji i działań konkurencyjnych
Market Intelligence - monitorowanie konkurencji i działań konkurencyjnychMarket Intelligence - monitorowanie konkurencji i działań konkurencyjnych
Market Intelligence - monitorowanie konkurencji i działań konkurencyjnych
 
Rezultaty projektów jako źródła informacji
Rezultaty projektów jako źródła informacjiRezultaty projektów jako źródła informacji
Rezultaty projektów jako źródła informacji
 
Metody poszukiwania informacji w sieci TOR (i dlaczego nie są skuteczne)
Metody poszukiwania informacji w sieci TOR (i dlaczego nie są skuteczne)Metody poszukiwania informacji w sieci TOR (i dlaczego nie są skuteczne)
Metody poszukiwania informacji w sieci TOR (i dlaczego nie są skuteczne)
 
Weryfikacja Informacji
Weryfikacja Informacji Weryfikacja Informacji
Weryfikacja Informacji
 
Facebook jako źródło informacji
Facebook jako źródło informacjiFacebook jako źródło informacji
Facebook jako źródło informacji
 
Aplikacje osint
Aplikacje osintAplikacje osint
Aplikacje osint
 
Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...
Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...
Wielki Chiński Firewall czyli o codziennym korzystaniu z internetu w Chinach ...
 
Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...
Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...
Rynek informacji gospodarczej w Polsce - wyniki branży 2012-2015 Analiza Spra...
 
Katarzyna staszewska
Katarzyna staszewskaKatarzyna staszewska
Katarzyna staszewska
 
Niekomercyjne źródła informacji na Ukrainie
Niekomercyjne źródła informacji na UkrainieNiekomercyjne źródła informacji na Ukrainie
Niekomercyjne źródła informacji na Ukrainie
 
Agregacja 17 źródeł danych jak wdrożyć i nie zwariować
Agregacja 17 źródeł danych jak wdrożyć i nie zwariowaćAgregacja 17 źródeł danych jak wdrożyć i nie zwariować
Agregacja 17 źródeł danych jak wdrożyć i nie zwariować
 
Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...
Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...
Wyszukiwanie informacji w pracy Sekcji Informacji Naukowej Biblioteki Jagiell...
 
Infobroker w sektorze finansów publicznych
Infobroker w sektorze finansów publicznychInfobroker w sektorze finansów publicznych
Infobroker w sektorze finansów publicznych
 
Źródła informacji medycznej w pracy infobrokera
Źródła informacji medycznej w pracy infobrokeraŹródła informacji medycznej w pracy infobrokera
Źródła informacji medycznej w pracy infobrokera
 
Techniki pozyskiwania informacji z social mediów
Techniki pozyskiwania informacji z social mediówTechniki pozyskiwania informacji z social mediów
Techniki pozyskiwania informacji z social mediów
 
Wykorzystanie sztucznej inteligencji w zarządzaniu wiedza
Wykorzystanie sztucznej inteligencji w zarządzaniu wiedzaWykorzystanie sztucznej inteligencji w zarządzaniu wiedza
Wykorzystanie sztucznej inteligencji w zarządzaniu wiedza
 
Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...
Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...
Zarządzanie nieopatentowaną wiedzą techniczną w przedsiębiorstwach ii warszta...
 

Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga)

  • 1. Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga) IV Warsztat Pracy Infobrokera Filip Graliński & Karol Świetlik Kraków, 28 maja 2019 Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 2. Tryby pozyskiwania informacji 2 skrajne (w naszym doświadczeniu) wymiary pozyskiwania informacji na zlecenie: podejście „przemysłowe”: masowe wydobywanie informacji z wykorzystaniem metod tzw. sztucznej inteligencji podejście „rzemieślnicze”: praca w trybie detektywistycznym, ale również z wykorzystaniem nowoczesnych narzędzi Między tymi biegunami cała sfera przejściowa. Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 3. Research „hurtowy” wielkie wolumeny danych współzależność skali i szybkości powtarzalność procesu, proceduralność gwarancja sukcesu (progi ufności) informacja „płytka” (tylko w przetwarzanym dokumencie) Applica.ai czołowym dostawcą usług przykład: klauzule NDA, pisma sądowe czy komornicze — klasyfikacja, ekstrakcja określonych informacji Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 4. Research „drobny” z ekstremalną niewiadomą In Search of the Most Beautiful Pictures Ever Seen intuicja + determinacja znaleźć lub stworzyć narzędzie najlepiej dopasowane do problemu, tu: strona biblioteki z Manchesteru, oferująca najdogodniejszy mechanizm przeszukiwania Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 5. Szukając pani S***k*n*us Zagadka z bloga: http://www.strangehistory.net/2015/04/ 30/searching-for-the-mysterious-mrs-sknus Zadanie: znaleźć londyńską prostytutkę z końca XIX w. po wygwiazdkowanym nazwisku. wylistowanie możliwych nazwisk (raczej niemieckich), ale Google na to nie pozwala zatem: 1 „grepowanie” niemieckiego Internetu za pomocą wyrażenia regularnego /S...k.n.us/, obciążające czasowo komputer, ale jednorazowe: xzcat de.deduped.xz | egrep -o ’S...k.n.us’ | sort | uniq -c | sort -k 1rn 2 kwerenda w wyszukiwarkach (nazwiska + prostitute i synonimy, a także słowa i frazy powiązane, np. disorderly house = dom publiczny; niezbędna wiedza lingwistyczna!), znalezione w HathiTrust! Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 6. Szukając pani S***k*n*us cd. Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 7. Spektrum środków pozyskiwania informacji metody sztucznej inteligencji (masowa ekstrakcja informacji) Research Tool as a Service? narzędzia wewnętrzne rozwijane przez firmy researcherskie wyspecjalizowane narzędzia (np. skrypty) tworzone ad hoc istniejące wyszukiwarki (przydatna wiedza informatyczna, np. języki zapytań, wyrażenia regularne, metody omijania ograniczeń, „hakowania”) i bazy danych działania „analogowe” Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 8. System Odkrywka Odkrywka – prototypowy system wyszukiwawczy autorstwa Filipa Gralińskiego, pokłosie badań i eksperymentów pracowników Instytutu Językoznawstwa oraz Pracowni Systemów Informacyjnych Wydziału Matematyki i Informatyki UAM w Poznaniu. kolekcje upublicznione przez biblioteki cyfrowe oraz inne otwarte źródła internetowe 3,4 mln publikacji, 22 mln stron, 15,1 mld wyrazów, 96,3 mld znaków (marzec 2019 r.) zasoby polskojęzyczne (choć nie tylko) od XVIII w. po dzień dzisiejszy, w znacznej części niedostępne za pośrednictwem Google’a wyszukiwanie pełnotekstowe, rysowanie wykresów częstości, tworzenie dossier na zadany temat narzędzie do researchu, szyte na miarę Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 9. Odkrywka – tworzenie dossier nie tylko dla uczonych (zwł. historyków czy lingwistów), również dla dziennikarzy, pisarzy, genealogów, prawników, funkcjonariuszy służb itd. sztuką jest zdobyć informacje, ale też należycie je zweryfikować, udokumentować i przystępnie zaprezentować przykłady: historia słynnej kamienicy przy Noakowskiego 16 w Warszawie wydarzenia z życia ks. Stanisława Streicha w kontekście procesu beatyfikacyjnego Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 10. PPJ idea Centaura (zaawansowana technologia plus człowiek), która choć upadła w „zamkniętym” świecie szachów, w „otwartym” świecie researchingu wydaje się nam optymalna PPJ – unikatowe zaplecze dla infobrokerów: zespół informatyków i humanistów, dysponujących doświadczeniem naukowym i biznesowym, przede wszystkim zaś lubiących ambitne wyzwania w dziedzinie wyszukiwania informacji www.ppj.pl, kontakt@ppj.pl Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 11. Dziękujemy za uwagę! Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .