SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
Francesco Osborne, Enrico Motta
KMi, The Open University, United Kingdom
November 2015
Klink&2:)Integra0ng)Mul0ple)Web)Sources)
to)Generate)Seman0c)Topic)Networks)
Seman&cs)vs)keywords)
•  Many)systems)for)the)explora&on)of)research)
•  A)good)number)of)LD)corpus)describing)scholarly)data)
–  Nature)LD,)Bio2RDF,)AGRIS)LOD,)RDK,)DBLP++,)SW)Dog)Food,)Seman&c)Web)
Journal,)Springer)LOD,)Aminer)FOAF,)Dataset)Scholarometer))
2
From)keywords)to)research)topics)
For)making)sense)of)academic)data)is)very)useful)to)have)an)
comprehensive)and)upNtoNdate)ontology)of)research)topics.)
)
Unfortunately:)
•  human)craCed)classifica&ons)evolve)too)slowly)and)tend)to)be)too)
coarse&grained.)
•  Current)automated)methods)for)genera&ng)ontologies)of)research)
topics:)
–  ignore)many)indirect)sta&s&cal)and)seman&c)rela&onships)
–  do)not)support)different)kinds)of)hierarchical)rela&onships)
–  are)not)able)to)handle)effec&vely)ambiguous)topics)characterized)by)a)noisy)
set)of)rela&onships.))
3
Our)first)solu&on:)Klink)
Osborne,)F.)and)Mo/a,)E.)(2012))Mining)
Seman:c)Rela:ons)between)Research)
Areas.)Interna:onal)Seman:c)Web)
Conference,)Boston,)MA)
Some)examples:)Seman&c)Network)of)Topics)
Osborne,)F.,)Mo/a,)E.)and)Mulholland,)P.)(2013))Exploring)Scholarly)
Data)with)Rexplore,)Interna:onal)Seman:c)Web)Conference,)Sydney,)
Australia)
technologies.kmi.open.ac.uk/rexplore
Main SW Communities (2000 – 2010)
Some)examples:)TopicNbased)Community)detec&on)
Osborne,)F.,)Scavo,)G.)and)Mo/a,)E.)(2014))A)Hybrid)Seman:c)
Approach)to)Building)Dynamic)Maps)of)Research)Communi:es,)
EKAW)2014,)Linkoping,)Sweden)
KlinkN2)
Klink&2)is)more)scalable)and)introduces)a)number)of)new)
features,)and)is)able:))
•  to)scale)up)to)large)interdisciplinary)ontologies)
–  )It)is)able)to)generate)the)topic)ontology)incrementally)
•  to)handle)ambiguous)keywords)
–  e.g.,)“java)(programming)”,)“java)(Indonesia)”,)“java)(Coffee)”)
•  to)take)as)input)any)kind)of)sta0s0cal)or)seman0c)
rela0onship)
–  )e.g.,)involving)authors,)organiza0ons,)venues…)
K1) K2)
K)
K)
K)
K)
K)
K)K)
K)K)
K)
K)
K)
K)
K)K)
K)
K)
K)
K)
K)
K)
K)
K)K)
K)K)
K)
K)
K)
A)
A)
A)
A)
A)
A)
O) O)
O)
O)
O)
V)
V)
V)
V)
V
K) K)
K)
Klink) Klink&2)
K1) K2)
Venues)
Authors)Organiza0ons)
Keywords)Keywords)
Rela&onships)used)in)Klink)and)KlinkN2.))
KlinkN2)data)model)
•  skos:broaderGeneric.)We)reuse)this)property)from)the)SKOS)
model,)to)indicate)the)intui&ve)no&on)that)an)area)is)a)sub&
area)of)another)one.)
•  contributesTo.)This)is)defined)as)a)subNproperty)of)skos:related)
and)indicates)that)R1)research)outputs)are)relevant)to)R2.)
•  relatedEquivalent.)Defined)as)a)subNproperty)of)skos:related,)
which)indicates)that)two)topics)can)be)treated)as)equivalent)
for)the)purpose)of)exploring)research.)
9
10
Statistical Inferences
skos:relatedEquivalent
skos:broaderGeneric
contributesTo
Filtering
Triples
generation
K)
K)
K)
K)
K)
K)K)
K)K)
K)
K)
K)
A)
A)
A)
A)
A)
A)
O) O)
O)
O)
O)
V)
V)
V)
V)
V)
K) K)
K)
K1) K2)
Venues)
Authors)
Organiza0ons)
Keywords)
Linked)Data)Cloud)
Clusterization Disambiguation
Input keywords
Klink-2
Sta&s&cal)indicators)
Hierarchical)rela0onship)(skos:broaderGeneric,)contributesTo)))
11
RelatedEquivalent)rela0onship)
Handling)ambiguous)keywords)
KlinkN2)address)mainly)three)categories)of)ambiguous)keywords:)
•  Terms)which)actually)have)two)or)more)different)meanings)
–  )e.g.,)“owl”,)the)ontology)web)language,)and)“owl”,)the)bird.))
•  Vague)terms,)with)meaning)that)can)change)according)to)the)
paper)they)are)associated)to)
–  )e.g.,)“mapping”,)“indexing”,)“performance”.)
•  Terms)that)used)to)have)a)unique)meaning,)but)are)now)used)
in)specialized)ways)by)different)research)communi0es)
–  e.g.)“ontology”.))
12
1 2
An)Example:)Java)(Programming)Language))
13Klink-2 approach
An)Example:)Java)(Programming)Language))
14Klink-2 approach
HOW?
1.  Klink-2 runs a hierarchical bottom-up clustering algorithm on the set
of associates keywords.
2.  If the algorithm yields more than one cluster, Klink-2 run a slower and
more accurate clusterization algorithm which considering only the
entities associated with disambiguator keywords.
3.  If the process yields more than one cluster, the original keyword is used
to produce as many disambiguated topics as the resulting number of
clusters.)
Evalua&on)
15
We)tested)four)different)methods:))
•  the)classic)subsump0on)method)(labelled)S);)
•  the)original)Klink)algorithm)(labelled)K);)
•  a)first)version)of)Klink&2,)with)the)ability)of)integra&ng)
mul&ple)rela&onships,)but)not)addressing)ambiguous)
keywords)(labelled)KR);)
•  the)final)version)of)Klink&2,)with)also)the)ability)to)detect)and)
split)ambiguous)keywords)in)contextual)mode)(labelled)K2);)
Evalua&on)
16
Evalua&on)
17
Current)situa&on)
•  We)are)collabora&ng)with)major)academic)publishers,)
such)as)Elsevier)and)Springer.)
•  We)run)KlinkN2)on)a)por&on)of)Scopus)data)about)
Computer)Science.)We)obtained)a)large&scale)ontology)
consist)of)about))15)000)topics)linked)by)about)70)000)
seman&c)rela&onships.))
•  We)are)developing)a)new)version)of)Rexplore)
(technologies.kmi.open.ac.uk/rexplore/))which)will)take)
full)advantage)of)KlinkN2)
Future)Direc&ons)
•  Diachronic)analysis)of)topic)meanings.)
•  Allowing)KlinkN2)to)analyze)paradigms,)technologies,)
datasets,)tools)and)so)on.)
•  Exploi&ng)KlinkN2)ontology)in)a)variety)of)ways)to)produce)
smart)analy0cs)of)research)data)
 Klink-2: integrating multiple web sources to generate semantic topic networks

Mais conteúdo relacionado

Semelhante a Klink-2: integrating multiple web sources to generate semantic topic networks

Games for Human Gene Annotation
Games for Human Gene AnnotationGames for Human Gene Annotation
Games for Human Gene AnnotationSal
 
Métodos de recuperación - Taller No, 2
Métodos de recuperación - Taller No, 2 Métodos de recuperación - Taller No, 2
Métodos de recuperación - Taller No, 2 Alejandro Rivillas
 
Teaching Tools and Tips
Teaching Tools and TipsTeaching Tools and Tips
Teaching Tools and Tipsmolmodbasics
 
Maredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernandaMaredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernandamaredata
 
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGORepositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGORodrigo Torrens
 
Publicación de datos y métodos científicos en investigación
Publicación de datos y métodos científicos en investigaciónPublicación de datos y métodos científicos en investigación
Publicación de datos y métodos científicos en investigacióndgarijo
 
Búsqueda de información Fac. Ciencias, UNAM Octubre 2013
Búsqueda de información Fac. Ciencias, UNAM Octubre 2013Búsqueda de información Fac. Ciencias, UNAM Octubre 2013
Búsqueda de información Fac. Ciencias, UNAM Octubre 2013Daniel Ramírez
 
Teaching Tools and Tips
Teaching Tools and TipsTeaching Tools and Tips
Teaching Tools and Tipsmolmodbasics
 
Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008Rodrigo Torrens
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Fernando-Ariel Lopez
 
COMUNICACIÓN VIRTUAL.pptx
COMUNICACIÓN VIRTUAL.pptxCOMUNICACIÓN VIRTUAL.pptx
COMUNICACIÓN VIRTUAL.pptxWILMERJHONSON
 
Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz. Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz. Pepe
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"NancyVegu
 
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasCharla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasChristian Sifaqui
 
La difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativasLa difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativasJavier Hernández San Miguel
 
Tallerno 141019192909-conversion-gate02
Tallerno 141019192909-conversion-gate02Tallerno 141019192909-conversion-gate02
Tallerno 141019192909-conversion-gate02Eri Fonseca P
 

Semelhante a Klink-2: integrating multiple web sources to generate semantic topic networks (20)

Games for Human Gene Annotation
Games for Human Gene AnnotationGames for Human Gene Annotation
Games for Human Gene Annotation
 
Métodos de recuperación - Taller No, 2
Métodos de recuperación - Taller No, 2 Métodos de recuperación - Taller No, 2
Métodos de recuperación - Taller No, 2
 
Teaching Tools and Tips
Teaching Tools and TipsTeaching Tools and Tips
Teaching Tools and Tips
 
Maredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernandaMaredata bcn 19 enero 2016 (2).fernanda
Maredata bcn 19 enero 2016 (2).fernanda
 
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGORepositorios de Datos para comunidades científicas. Caso Comunidad LAGO
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGO
 
Publicación de datos y métodos científicos en investigación
Publicación de datos y métodos científicos en investigaciónPublicación de datos y métodos científicos en investigación
Publicación de datos y métodos científicos en investigación
 
Datos Abiertos y Repositorios
Datos Abiertos y RepositoriosDatos Abiertos y Repositorios
Datos Abiertos y Repositorios
 
Búsqueda de información Fac. Ciencias, UNAM Octubre 2013
Búsqueda de información Fac. Ciencias, UNAM Octubre 2013Búsqueda de información Fac. Ciencias, UNAM Octubre 2013
Búsqueda de información Fac. Ciencias, UNAM Octubre 2013
 
Teaching Tools and Tips
Teaching Tools and TipsTeaching Tools and Tips
Teaching Tools and Tips
 
Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬
 
COMUNICACIÓN VIRTUAL.pptx
COMUNICACIÓN VIRTUAL.pptxCOMUNICACIÓN VIRTUAL.pptx
COMUNICACIÓN VIRTUAL.pptx
 
Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz. Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz.
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"
 
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasCharla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y Especializadas
 
Datos abiertos enlazados: situación actual y perspectivas
Datos abiertos enlazados: situación actual y perspectivasDatos abiertos enlazados: situación actual y perspectivas
Datos abiertos enlazados: situación actual y perspectivas
 
La difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativasLa difusión de datos de investigación: principales iniciativas
La difusión de datos de investigación: principales iniciativas
 
Tallerno 141019192909-conversion-gate02
Tallerno 141019192909-conversion-gate02Tallerno 141019192909-conversion-gate02
Tallerno 141019192909-conversion-gate02
 
Ciencias
CienciasCiencias
Ciencias
 
I lecture nomore
I lecture nomoreI lecture nomore
I lecture nomore
 

Klink-2: integrating multiple web sources to generate semantic topic networks