SlideShare uma empresa Scribd logo
1 de 13
- 1 -
GENERATING SYNTHETIC
COMPARABLE QUESTIONS
FOR NEWS ARTICLES
Joint work with Idan Szpektor
- 2 -
Motivation
• Increase user engagement on content pages
– Recommend additional content or activities
– Traditional engaging content:
• Related articles
• Updates from user’s social neighborhood
• Votes or comments on videos, blogs etc.
• Personalized stories recommended to the user
• Our approach:
– Introduce questions for the user to answer, which are related to
the viewed article
– Focus on comparative questions:
• “Is Beyonce a better singer than Madonna?”
• “Who is better looking, Brad Pitt or George Clooney?”,
• “Who is faster: Superman or Flash?”
- 3 -
Why the problem is challengeable?
Question Correct Relevant
X
V
X
X
VV
“Who is faster, Will Smith or David Beckham ?”
“Who is better looking: Will Smith or Angelina
Jolie ?”
“Who is better looking: Will Smith or Brad Pitt ?”
- 4 -
Yahoo!
Answers
questions
corpus
Comparable
relation
mining
Comparable
relation
unification
Topic
distribution
Single
entity
model
Entity
pair
model
Synthetic
comparable
questions
News
articles
Comparable
relation
DB
Training models
Named
Entity
extraction
Context
model
inference
Single
entity
filtering
Entity
pair
filtering
Template
instantiation
Relevant
relation
ranking
Context
model
Specific relation
- 5 -
Comparable question mining (offline stage)
1. Comparable Relation Extraction
– CRF tagger based
– Who do you think is the greatest Nascar driver ever?
2. Relation Unification
– Many relations are only syntactic variations of the same
underlying semantic relation
– the worst dancer = a better dancer
3. Comparable Template Extraction
– Mine repeated syntactic structure
– E.g. “is <ne1> <rel> than <ne2>?” can be instantiated with
“is Angelina Jolie prettier than Katie Holmes?”
– Keep most frequent ones
- 6 -
Online question generation
1. Ranking relevant relations
– Use LDA to infer topic distribution for each relation
– Compute similarity score between the article’s topic
distribution and each relations topic distribution
- 7 -
Online question generation
1. Ranking relevant relations
– Use LDA to infer topic distribution for each relation
– Compute similarity score between the article’s topic
distribution and each relations topic distribution
2. Instantiating relevant relations
a. Filter out all entities that do not seem to be valid participants in
the relation, independently of paired entity
b. Scan all possible pairings of the remaining entities and keep
only the pairs that are likely to be matched to each another
under the specific relation
male celebrities should not instantiate
the relation ‘better actress’
‘is faster’ should only be instantiated with athletes,
for whom this comparison is of interest to the reader
filter out a comparison between male and female celebs under ‘is prettier’
- 8 -
Evaluation
5000 OMG!
News articles
from 2011
1016 articles
Filter by length
100 articles
Sample
top 3
comparable
relations
Algorithm
3
comparable
questions
Instantiation
of best pair
- 9 -
Results
• We compared the performance of our algorithm to two
baselines:
1. Random baseline chooses a relation randomly out of all
possible relations in the database and then instantiate it with
a random pair out of all possible pairing of entities in the
article
2. Relevance baseline chooses the most relevant relation to the
article based on our algorithm, but still instantiates it with a
random pair
Relevance Correctness
Random baseline 29% 43%
Relevance baseline 37% 53%
Full algorithm 54% 77%
- 10 -
Example
Ron Livingston is teaming up with Tom
Hanks and HBO again after their
successful 2001 collaboration on Band
of Brothers. The actor has been cast in
HBO’s upcoming film Game Change
that centers on the 2008 presidential
campaign, Deadline reports.
He joins Ed Harris, Julianne Moore and Woody Harrelson. The Jay Roach-
directed movie follows John McCain (Harris) as he selects Alaska Gov. Sarah
Palin (Moore) as his running mate, throughout the campaign and to their
ultimate defeat to Barack Obama. Livingston will play Mark Wallace, one of
the campaign’s senior advisors and the man who prepped Palin for her
debate. Harrelson will play campaign strategist Steve Schmidt …
- 11 -
Example (contd.)
Algorithm Question
Random baseline
Who is a better singer, Sarah Palin or Barack
Obama ?
Relevance baseline
Would Ron Livingston be a better president
than Julianne Moore ?
Full algorithm
Who has the best movies, Tom Hanks or
Julianne Moore ?
Is John McCain a better leader than Barack
Obama ?
Would Sarah Palin be a better president than
John McCain ?
- 12 -
Good and bad examples
Who is a worse actress , Angelina Jolie or Sarah
Jessica Parker ?
Who is more attractive, Jennifer Aniston or
Angelina Jolie ?
- 13 -
Summary
• We introduced the novel task of automatically generating
synthetic comparable questions that are relevant to a
given news article but do not necessarily appear in it
• We assessed the performance of our algorithm via a
Mechanical Turk experiment
• The full algorithm outperformed this baseline by 45% on
question correctness, but surprisingly also by 46% on
question relevance
– These results show that our supervised filtering methods are
successful in keeping only correct pairs, but they also serve as
an additional filtering for relevant relations, on top of context
matching.

Mais conteúdo relacionado

Semelhante a O.Rokhlenko - Synthetic question generation

V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...
V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...
V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...eMadrid network
 
Socail Influence & Homophilly
Socail Influence & HomophillySocail Influence & Homophilly
Socail Influence & HomophillyNitish Upreti
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Kavita Ganesan
 
opinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.pptopinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.pptssuser059331
 
opinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.pptopinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.pptssuser059331
 
MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...
MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...
MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...Lily Ray
 
Tim Estes - Generating dynamic social networks from large scale unstructured ...
Tim Estes - Generating dynamic social networks from large scale unstructured ...Tim Estes - Generating dynamic social networks from large scale unstructured ...
Tim Estes - Generating dynamic social networks from large scale unstructured ...Digital Reasoning
 
Razorbase Examples Part 2
Razorbase Examples Part 2Razorbase Examples Part 2
Razorbase Examples Part 2Sherman Monroe
 
Information & Intent: Optimizing Content and the User Search Experience
Information & Intent: Optimizing Content and the User Search ExperienceInformation & Intent: Optimizing Content and the User Search Experience
Information & Intent: Optimizing Content and the User Search ExperienceJonathan Mendez
 
How to evaluate the whole web (without being Google)
How to evaluate the whole web (without being Google)How to evaluate the whole web (without being Google)
How to evaluate the whole web (without being Google)Dixon Jones
 
If You're Not #1 on Google, You Don't Exist!
If You're Not #1 on Google, You Don't Exist!If You're Not #1 on Google, You Don't Exist!
If You're Not #1 on Google, You Don't Exist!Bhupesh Shah
 
Trying Not to Filter: Internet Filtering Technologies in Libraries
Trying Not to Filter: Internet Filtering Technologies in LibrariesTrying Not to Filter: Internet Filtering Technologies in Libraries
Trying Not to Filter: Internet Filtering Technologies in LibrariesSarah Houghton
 
The Future Of Social Networks 1204575046606033 5[1]
The Future Of Social Networks 1204575046606033 5[1]The Future Of Social Networks 1204575046606033 5[1]
The Future Of Social Networks 1204575046606033 5[1]potix2002
 
The Future Of Social Networks
The Future Of Social NetworksThe Future Of Social Networks
The Future Of Social NetworksHelga Jensma
 
The Future Of Social Networks
The Future Of Social NetworksThe Future Of Social Networks
The Future Of Social NetworksCharlene Li
 

Semelhante a O.Rokhlenko - Synthetic question generation (20)

V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...
V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...
V Jornadas eMadrid sobre “Educación Digital”. Roberto Centeno, Universidad Na...
 
Socail Influence & Homophilly
Socail Influence & HomophillySocail Influence & Homophilly
Socail Influence & Homophilly
 
Carl 2014 slides_gotime
Carl 2014 slides_gotimeCarl 2014 slides_gotime
Carl 2014 slides_gotime
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)
 
opinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.pptopinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.ppt
 
opinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.pptopinionminingkavitahyunduk00-110407113230-phpapp01.ppt
opinionminingkavitahyunduk00-110407113230-phpapp01.ppt
 
MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...
MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...
MozCon 2022: Why Real Expertise is the Most Important Ranking Factor of Them ...
 
Tim Estes - Generating dynamic social networks from large scale unstructured ...
Tim Estes - Generating dynamic social networks from large scale unstructured ...Tim Estes - Generating dynamic social networks from large scale unstructured ...
Tim Estes - Generating dynamic social networks from large scale unstructured ...
 
Razorbase Examples Part 2
Razorbase Examples Part 2Razorbase Examples Part 2
Razorbase Examples Part 2
 
Information & Intent: Optimizing Content and the User Search Experience
Information & Intent: Optimizing Content and the User Search ExperienceInformation & Intent: Optimizing Content and the User Search Experience
Information & Intent: Optimizing Content and the User Search Experience
 
What is page rank
What is page rankWhat is page rank
What is page rank
 
Entity Recommendations Using Hierarchical Knowledge Bases
Entity Recommendations Using Hierarchical Knowledge BasesEntity Recommendations Using Hierarchical Knowledge Bases
Entity Recommendations Using Hierarchical Knowledge Bases
 
How to evaluate the whole web (without being Google)
How to evaluate the whole web (without being Google)How to evaluate the whole web (without being Google)
How to evaluate the whole web (without being Google)
 
If You're Not #1 on Google, You Don't Exist!
If You're Not #1 on Google, You Don't Exist!If You're Not #1 on Google, You Don't Exist!
If You're Not #1 on Google, You Don't Exist!
 
Trying Not to Filter: Internet Filtering Technologies in Libraries
Trying Not to Filter: Internet Filtering Technologies in LibrariesTrying Not to Filter: Internet Filtering Technologies in Libraries
Trying Not to Filter: Internet Filtering Technologies in Libraries
 
The future-of-social-networks
The future-of-social-networksThe future-of-social-networks
The future-of-social-networks
 
The Future Of Social Networks
The Future Of Social Networks The Future Of Social Networks
The Future Of Social Networks
 
The Future Of Social Networks 1204575046606033 5[1]
The Future Of Social Networks 1204575046606033 5[1]The Future Of Social Networks 1204575046606033 5[1]
The Future Of Social Networks 1204575046606033 5[1]
 
The Future Of Social Networks
The Future Of Social NetworksThe Future Of Social Networks
The Future Of Social Networks
 
The Future Of Social Networks
The Future Of Social NetworksThe Future Of Social Networks
The Future Of Social Networks
 

Mais de Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

Mais de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

Último

INDIGENOUS GODS AND INDIGENOUS GODDESSES.pdf
INDIGENOUS GODS AND INDIGENOUS GODDESSES.pdfINDIGENOUS GODS AND INDIGENOUS GODDESSES.pdf
INDIGENOUS GODS AND INDIGENOUS GODDESSES.pdfcarlos784vt
 
Values Newsletter teamwork section 2023.pdf
Values Newsletter teamwork section 2023.pdfValues Newsletter teamwork section 2023.pdf
Values Newsletter teamwork section 2023.pdfSoftServe HRM
 
Top 5 Ways To Use Reddit for SEO SEO Expert in USA - Macaw Digital
Top 5 Ways To Use Reddit for SEO  SEO Expert in USA - Macaw DigitalTop 5 Ways To Use Reddit for SEO  SEO Expert in USA - Macaw Digital
Top 5 Ways To Use Reddit for SEO SEO Expert in USA - Macaw Digitalmacawdigitalseo2023
 
The--Fraud: Netflix Original Media Pitch
The--Fraud: Netflix Original Media PitchThe--Fraud: Netflix Original Media Pitch
The--Fraud: Netflix Original Media Pitch17mos052
 
Dubai Calls Girls Busty Babes O525547819 Call Girls In Dubai
Dubai Calls Girls Busty Babes O525547819 Call Girls In DubaiDubai Calls Girls Busty Babes O525547819 Call Girls In Dubai
Dubai Calls Girls Busty Babes O525547819 Call Girls In Dubaikojalkojal131
 
Top 10 Ways to Know If a Song on social media
Top 10 Ways to Know If a Song on social mediaTop 10 Ways to Know If a Song on social media
Top 10 Ways to Know If a Song on social mediae-Definers Technology
 
Unveiling SOCIO COSMOS: Where Socializing Meets the Stars
Unveiling SOCIO COSMOS: Where Socializing Meets the StarsUnveiling SOCIO COSMOS: Where Socializing Meets the Stars
Unveiling SOCIO COSMOS: Where Socializing Meets the StarsSocioCosmos
 
Amplify Your Brand with Our Tailored Social Media Marketing Services
Amplify Your Brand with Our Tailored Social Media Marketing ServicesAmplify Your Brand with Our Tailored Social Media Marketing Services
Amplify Your Brand with Our Tailored Social Media Marketing ServicesNetqom Solutions
 
THE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECT
THE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECTTHE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECT
THE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECT17mos052
 

Último (9)

INDIGENOUS GODS AND INDIGENOUS GODDESSES.pdf
INDIGENOUS GODS AND INDIGENOUS GODDESSES.pdfINDIGENOUS GODS AND INDIGENOUS GODDESSES.pdf
INDIGENOUS GODS AND INDIGENOUS GODDESSES.pdf
 
Values Newsletter teamwork section 2023.pdf
Values Newsletter teamwork section 2023.pdfValues Newsletter teamwork section 2023.pdf
Values Newsletter teamwork section 2023.pdf
 
Top 5 Ways To Use Reddit for SEO SEO Expert in USA - Macaw Digital
Top 5 Ways To Use Reddit for SEO  SEO Expert in USA - Macaw DigitalTop 5 Ways To Use Reddit for SEO  SEO Expert in USA - Macaw Digital
Top 5 Ways To Use Reddit for SEO SEO Expert in USA - Macaw Digital
 
The--Fraud: Netflix Original Media Pitch
The--Fraud: Netflix Original Media PitchThe--Fraud: Netflix Original Media Pitch
The--Fraud: Netflix Original Media Pitch
 
Dubai Calls Girls Busty Babes O525547819 Call Girls In Dubai
Dubai Calls Girls Busty Babes O525547819 Call Girls In DubaiDubai Calls Girls Busty Babes O525547819 Call Girls In Dubai
Dubai Calls Girls Busty Babes O525547819 Call Girls In Dubai
 
Top 10 Ways to Know If a Song on social media
Top 10 Ways to Know If a Song on social mediaTop 10 Ways to Know If a Song on social media
Top 10 Ways to Know If a Song on social media
 
Unveiling SOCIO COSMOS: Where Socializing Meets the Stars
Unveiling SOCIO COSMOS: Where Socializing Meets the StarsUnveiling SOCIO COSMOS: Where Socializing Meets the Stars
Unveiling SOCIO COSMOS: Where Socializing Meets the Stars
 
Amplify Your Brand with Our Tailored Social Media Marketing Services
Amplify Your Brand with Our Tailored Social Media Marketing ServicesAmplify Your Brand with Our Tailored Social Media Marketing Services
Amplify Your Brand with Our Tailored Social Media Marketing Services
 
THE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECT
THE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECTTHE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECT
THE FRAUD NETFLIX ORIGINAL MEDIA PITCH PROJECT
 

O.Rokhlenko - Synthetic question generation

  • 1. - 1 - GENERATING SYNTHETIC COMPARABLE QUESTIONS FOR NEWS ARTICLES Joint work with Idan Szpektor
  • 2. - 2 - Motivation • Increase user engagement on content pages – Recommend additional content or activities – Traditional engaging content: • Related articles • Updates from user’s social neighborhood • Votes or comments on videos, blogs etc. • Personalized stories recommended to the user • Our approach: – Introduce questions for the user to answer, which are related to the viewed article – Focus on comparative questions: • “Is Beyonce a better singer than Madonna?” • “Who is better looking, Brad Pitt or George Clooney?”, • “Who is faster: Superman or Flash?”
  • 3. - 3 - Why the problem is challengeable? Question Correct Relevant X V X X VV “Who is faster, Will Smith or David Beckham ?” “Who is better looking: Will Smith or Angelina Jolie ?” “Who is better looking: Will Smith or Brad Pitt ?”
  • 4. - 4 - Yahoo! Answers questions corpus Comparable relation mining Comparable relation unification Topic distribution Single entity model Entity pair model Synthetic comparable questions News articles Comparable relation DB Training models Named Entity extraction Context model inference Single entity filtering Entity pair filtering Template instantiation Relevant relation ranking Context model Specific relation
  • 5. - 5 - Comparable question mining (offline stage) 1. Comparable Relation Extraction – CRF tagger based – Who do you think is the greatest Nascar driver ever? 2. Relation Unification – Many relations are only syntactic variations of the same underlying semantic relation – the worst dancer = a better dancer 3. Comparable Template Extraction – Mine repeated syntactic structure – E.g. “is <ne1> <rel> than <ne2>?” can be instantiated with “is Angelina Jolie prettier than Katie Holmes?” – Keep most frequent ones
  • 6. - 6 - Online question generation 1. Ranking relevant relations – Use LDA to infer topic distribution for each relation – Compute similarity score between the article’s topic distribution and each relations topic distribution
  • 7. - 7 - Online question generation 1. Ranking relevant relations – Use LDA to infer topic distribution for each relation – Compute similarity score between the article’s topic distribution and each relations topic distribution 2. Instantiating relevant relations a. Filter out all entities that do not seem to be valid participants in the relation, independently of paired entity b. Scan all possible pairings of the remaining entities and keep only the pairs that are likely to be matched to each another under the specific relation male celebrities should not instantiate the relation ‘better actress’ ‘is faster’ should only be instantiated with athletes, for whom this comparison is of interest to the reader filter out a comparison between male and female celebs under ‘is prettier’
  • 8. - 8 - Evaluation 5000 OMG! News articles from 2011 1016 articles Filter by length 100 articles Sample top 3 comparable relations Algorithm 3 comparable questions Instantiation of best pair
  • 9. - 9 - Results • We compared the performance of our algorithm to two baselines: 1. Random baseline chooses a relation randomly out of all possible relations in the database and then instantiate it with a random pair out of all possible pairing of entities in the article 2. Relevance baseline chooses the most relevant relation to the article based on our algorithm, but still instantiates it with a random pair Relevance Correctness Random baseline 29% 43% Relevance baseline 37% 53% Full algorithm 54% 77%
  • 10. - 10 - Example Ron Livingston is teaming up with Tom Hanks and HBO again after their successful 2001 collaboration on Band of Brothers. The actor has been cast in HBO’s upcoming film Game Change that centers on the 2008 presidential campaign, Deadline reports. He joins Ed Harris, Julianne Moore and Woody Harrelson. The Jay Roach- directed movie follows John McCain (Harris) as he selects Alaska Gov. Sarah Palin (Moore) as his running mate, throughout the campaign and to their ultimate defeat to Barack Obama. Livingston will play Mark Wallace, one of the campaign’s senior advisors and the man who prepped Palin for her debate. Harrelson will play campaign strategist Steve Schmidt …
  • 11. - 11 - Example (contd.) Algorithm Question Random baseline Who is a better singer, Sarah Palin or Barack Obama ? Relevance baseline Would Ron Livingston be a better president than Julianne Moore ? Full algorithm Who has the best movies, Tom Hanks or Julianne Moore ? Is John McCain a better leader than Barack Obama ? Would Sarah Palin be a better president than John McCain ?
  • 12. - 12 - Good and bad examples Who is a worse actress , Angelina Jolie or Sarah Jessica Parker ? Who is more attractive, Jennifer Aniston or Angelina Jolie ?
  • 13. - 13 - Summary • We introduced the novel task of automatically generating synthetic comparable questions that are relevant to a given news article but do not necessarily appear in it • We assessed the performance of our algorithm via a Mechanical Turk experiment • The full algorithm outperformed this baseline by 45% on question correctness, but surprisingly also by 46% on question relevance – These results show that our supervised filtering methods are successful in keeping only correct pairs, but they also serve as an additional filtering for relevant relations, on top of context matching.