Precizati care este sau ar putea fi rolul metodelor inspirate din natura -- precum algoritmi genetici, retele neuronale si altele -- in ceea ce priveste
problematicile Web-ului semantic. Posibile aspecte de interes: clasificarea automata a conceptelor/relatiilor, determinarea relatiilor (relation mining) din cadrul
surselor de date existente (vezi Linked Data), minimizarea conceptelor similare existente in cadrul unor ontologii de mari dimensiuni etc.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Recurgerea la metode inspirate din natură în contextul Web-ului semantic
1. Recurgerea la metode inspirate din natură în contextul
Web-ului semantic
Ştefan Apostoaie
Facultatea de Informatică, Universitatea „Al. I. Cuza” Iaşi
stefan.apostoaie@info.uaic.ro
Abstract. În acest articol prezentăm câteva dintre abordările unor probleme ale
Web-ului semantic bazate pe metode inspirate din natură. De-a lungul timpului
au existat mai multe direcţii spre care s-au îndreptat cercetătorii care caută să
rezolve diverse probleme ale Web-ului semantic printre care au fost şi genetica
(algoritmi genetici), psihologia şi sistemul nervos uman (reţelele de neuroni).
Astfel Jose Quesada1 a studiat teoriile de asemanare ale omului aplicate in
Web-ul semantic plecând de la ideea că web-ul semantic trebuie să se apropie
mai mult de modul de gândire al omului decât de o „gândire” a calculatoarelor.
Alexander Hogenboom, Viorel Milea, Flavius Frasincar şi Uzay Kaymak2 au
încercat să creeze algoritmi genetici pentru a optimiza căile de interogare a
RDF, ţinând cont de complexitatea acestei probleme şi de timpul scurt cerut
unei interogări. Şi cum nici Web-ul semantic nu este ocolit de atacuri Peyman
Nasirifard3 studiază „Viruşii semantici”.
1 Introducere
Mult timp tot ce ţinea de calculatoare a reprezentat ceva abstract pentru majoritatea
populaţiei globului. Chiar şi după extinderea puternică a utilizării calculatoarelor în
multe dintre domeniile de activitate oamenilor nu le este uşor să se adapteze lucrului
cu acest dispozitiv. Astfel de multe ori, în loc să-i ajute, calculatorul mai mult îi
încurca pe cei care doreau să realizeze chiar şi sarcini foarte uşoare (dacă ar fi fost
lăsaţi să-şi facă treaba cum ştiau ei folosind metodele convenţionale). Mult timp s-a
considerat că omul se va adapta, dar anii au trecut, s-au făcut investiţii masive pentru
instruire şi nu s-a ajuns la rezultatul dorit. De aceea a apărut ideea adaptării modului
de lucru al calculatorului la gândirea umană. Web-ul semantic se doreşte a fi o
evoluţie a Web-ului clasic prin faptul că se adaugă informaţii suplimentare pentru a
1
“Human Similarity theories for the semantic web”, Jose Quesada, Max Planck Institute,
Human development
2
“Genetic Algorithms for RDF Query Path Optimization”, Alexander Hogenboom, Viorel
Milea, Flavius Frasincar, and Uzay Kaymak, Erasmus School of Economics, Erasmus
University Rotterdam
3
“Anatomy of a Semantic Virus”, Peyman Nasirifard, Digital Enterprise Research Institute,
National University of Ireland, Galway
2. 2 Ştefan Apostoaie
defini relaţiile între multitudinea de concepte împrăştiate în toată lumea. Web-ul
semantic se doreşte a fi apropiat de modul de reţinere a informaţiilor de către om, deci
este inspirat din natură. De aici ideea de a căuta tot în natură a metodelor de procesare
a informaţiilor stocate la nivelul Web-ului.
2 Metode inspirate din psihologia umană
Jose Quesada[1] a analizat diversele teorii apărute în psihologie despre conceptul de
similaritate. El a remarcat modul rapid şi eficient al omului de a evalua similaritatea şi
a considerat că se poate inspira din modul de reprezentare al datelor folosit de mintea
umană pentru a face conţinutul web-ului mai prietenos cu calculatoarele.
Similaritatea în psihologie, ca şi în informatică, este un concept dificil, dar
abordabil. În istoria psihologiei au apărut mai multe variante de a privi similaritatea
printre care s-au remarcat modelul metric (indrodus de Shepard), mulţimilor discrete,
ierarhic, bazat pe alinieri şi pe distanţa transformaţională.
Modelul metric constă în folosirea spaţiilor metrice pentru a modela reprezentările
interne ale simulilor (forme, concepte, etc.) Astfel se asociază fiecărui concept un
punct in spaţiul metric, iar nivelul de asemănare dintre cele două concepte (puncte)
este dat de o funcţie de distanţă metrică.
Modelul metric presupune trei proprietăţi ale similarităţii conceptelor:
minimalitate, simetrie şi inegalitatea triunghiului.
Pentru a aplica acest model în Web-ul semantic trebuie extrase caracteristicile
conceptelor din Web. Modele bazate pe aceasta idee ar fi:
─ Latent Semantic Analysis (LSA) care rezolvă problema apărută când textele
comparate au puţine cuvinte în comun prin rularea SVD (singular value
decomposition – descompunerea valorilor singulare) şi apoi reducerea
dimensiunii folosind matricea documentului.
─ Beagle propune metode pentru a captura atât sintaxa cât şi semantica simultan
într-o singură reprezentare, folosind convoluţia.
─ O altă abordare este folosirea ca dimensiuni a unui corpus mare de articole
etichetate.
Modelul mulţimilor discrete, introdus de Tversky, este considerat opusul modelului
metric. Încălcarea celor trei proprietăţi presupuse de sistemul metric se poate
demonstra empiric conform lui Tversky, acesta argumentând că similaritatea este o
relaţie asimetrică. El a definit similaritatea ca o funcţie ce ţine cont atât de
caracteristicile comune cât si de cele diferite:
S(A,B) = f(Θ(A∩B) – α(A – B) – β(B – A))
Unde A şi B sunt mulţimi de caracteristici.
Alţi cercetători au argumentat că nici modelele spaţiale, nici cele discrete nu sunt
în măsură să modeleze reprezentarea umană, bazându-se pe rezultatele unor
experimente care au arătat că oamenii folosesc reprezentări structurate. Teoria
similarităţii structurale presupune că reprezentările mentale constau din sisteme
3. Recurgerea la metode inspirate din natură în contextul Web-ului semantic 3
ierarhice care codează obiectele, atributele obiectelor, relaţiile dintre obiecte şi
relaţiile dintre relaţii. Aceste modele sunt cele mai apropiate de structurile de date
folosite de RDF.
Modelele bazate pe distanţa transformaţională spun că similaritatea a două entităţi
este invers proporţională cu numărul de operaţii necesare pentru a transforma o
entitate astfel încât cele două să fie identice. Acest model este promiţător, însă este
dificil de măsurat în timp scurt distanţa dintre concepte atunci când cele doua au
foarte multe atribute.
3 Algoritmi genetici
Algoritmii genetici sunt bazaţi pe teoria conform căreia indivizii mai puternici dintr-o
populaţie vor ajunge să domine acea populaţie. Astfel se simulează evoluţia unei
populaţii pe mai multe generaţii, timp în care atributele indivizilor suferă două tipuri
de transformări: încrucişarea cu un alt individ şi mutaţia unui singuri atribut. De
regulă algoritmul se termină după un anumit număr de generaţii sau când nu se mai
observă o îmbunătăţire a populaţiei în căteva generaţii consecutive.
Un astfel de algoritm încearcă să aplice Alexander Hogenboom, Viorel Milea,
Flavius Frasincar şi Uzay Kaymak în [2]. Un model RDF este o colecţie de afirmaţii
declarate folosind RDF. Structura acestor afirmaţii este o colecţie de triple, fiecare
având un subiect, un predicat şi un complement. Aceste triple pot fi vizualizate
folosind un graf RDF, iar o interogare RDF ca un arbore. Frunzele unei interogări
reprezintă sursele, iar nodurile interne reprezintă operaţii relaţionale. Nodurile dintr-
un arbore de interogare pot fi aşezate în mai multe moduri, obţinând acelaşi rezultat,
dar cu timpi de execuţie mai mari sau mai mici. În acest context apare problema
ordinii join-urilor: determinarea ordinii corecte în care join-urile trebuie calculate
astfel încât timpul de răspuns să fie optim.
În spaţii de soluţii mari problema găsirii unui arbore de interogare optim este
extrem de dificilă, iar simple euristici nu sunt de ajuns. De aceea a apărut ideea
folosirii unui algoritm genetic. Chiar dacă nu garantează găsirea soluţiei optime, un
algoritm genetic se apropie destul de mult de ea într-un timp scurt. În [2] se propune o
implementare şi se prezintă rezultate ale evaluării ce sunt promiţătoare.
4 Viruşi semantici
Pezman Nasirifard în [3] discută despre soft maliţios care generează date bazate pe
RDF valide şi aleatoare folosind scheme/ontologii predefinite, iar aceste date sunt
trimise motoarelor de căutare semantice. Astfel se ajunge ca la o căutare utilizatorul
să aibă surpriza să primească date aberante, acest lucru cauzându-i neplăceri majore.
Un astfel de virus ascunde informaţia relevantă în informaţii inutile (garbage).
Autorul a ajuns să studieze un astfel de virus pornind de la sugestiile motoarelor de
căutare orientate către Web-ul semantic de a folosi triple RDF bazate pe scheme
predefinite pentru a uşura interoperabilitatea aplicaţiilor. Într-o lume ideală nu ar fi
4. 4 Ştefan Apostoaie
nicio problemă, dar cum nu trăim într-o astfel de lume cu siguranţă vor fi indivizi sau
organizaţii care vor încerca să dea peste cap aceste mecanisme aparent bine puse la
punct.
Modulul principal al unui virus ar fi o bucată de cod care primeşte ca input câteva
triple şi generează alte triple bazate pe input şi pe schemele predefinite, astfel încât
triplele RDF generate să fie corecte sintactic, dar greşite semantic (false). Numărul de
clone invalide ce pot fi generate este egal cu numărul tuturor instanţelor posibile
formate din concepte dintr-un document RDF.
Pentru a contracara un astfel de virus se pot folosi semnături digitale pentru a
certifica faptul că un anumit conţinut este autentic şi nu fals. Dar prin acest lucru se
elimină mare parte din Web-ul semantic, deci nu este fezabilă folosirea doar a
conţinutului semnat.
O soluţie acceptabilă încă nu există, însă ea trebuie găsită deoarece un astfel de
virus ar produce mari inconveniente atât utilizatorilor cât şi motoarelor de căutare
semantice.
5 Concluzii
Natura este şi va fi în continuare o sursă de inspiraţie pentru informatică deoarece ea
rezolvă probleme extrem de complexe prin soluţii simple şi eficiente. Creierul uman
rămâne în continuare surprinzător şi fascinant, oferind un model de proiectare a
structurii Web-ului. Modalitatea de reţinere şi procesare specifice sistemului nervos
uman rămân exemplele supreme pentru organizarea şi accesarea datelor în Web-ul
semantic. Şi dacă natura ne dă atât de multe rezolvări ale problemelor de care ne
lovim de ce să le ignorăm?
5. Recurgerea la metode inspirate din natură în contextul Web-ului semantic 5
6 Referinţe
1. “Human Similarity theories for the semantic web”, Jose Quesada, Max Planck
Institute, Human development
2. “Genetic Algorithms for RDF Query Path Optimization”, Alexander Hogenboom,
Viorel Milea, Flavius Frasincar, and Uzay Kaymak, Erasmus School of
Economics, Erasmus University Rotterdam
3. “Anatomy of a Semantic Virus”, Peyman Nasirifard, Digital Enterprise Research
Institute, National University of Ireland, Galway