Поисковая система Одноклассники.ру (Андрей Шевчук)

Поисковая система
Одноклассников

Одноклассники в цифрах
• Что у нас есть:
– 185 млн аккаунтов;
– 7 млн групп;
– .....
• 5.5 млн пользователей онлайн;
• В секунду:
– 250 000 страниц, 260 000 фото, 150 Гбит;
– 8 000 сообщений и комментариев;
– 3 000 поисковых запросов.

1

Задачи поисковой системы

Видео
Музыка
Группы

Пользователи Подарки
групп
Пользователи
Помощь Сообщества

Интересы Мероприятия
Города

2

Выбор нового решения
• У нас уже работал поиск пользователей на MS SQL,
что упростило определение технических
требований.
• Нужен был OpenSource-проект, написанный на
Java.
• Тестировали Solr, но он нас совсем не устроил.
• Используя Solr, провели необходимые
эксперименты с Lucene.
• Прототип на Lucene превзошел ожидания.

3

Как устроен Lucene?
The bright Term DocId DocId Values
blue blue 1,2 1 333, Author A

Index Reader & Searcher & Query parser
butterfly bright 1,2 2 777, Author C
hangs on

Tokenizers & Filters & IndexWriter
butterfly 1
the breeze
breeze 1
hangs 1
Under blue
sky, in bright need 2
sunlight, search 2
one need sky 2
not search
around

Term DocId DocId Values
It’s best to best 1 1 555, Author C
forget the forget 1
great sky
great 1
and to retire
from every retire 1
wind sky 1
wind 1

4

Что мы реализовали в Lucene за 3 года:
• собственную репликацию;
• хранение индексов в памяти;
• выполнение поиска на индексах;
• загрузку хранимых полей;
• новые виды запросов.

5

От MS SQL к Lucene
• На Indexer хранится база с данными для индекса.
• Indexer готовит индекс и рассылает изменения.
• Query-сервера исполняют запросы на индексе.

Search Presentation

Event
Cache Search processing Get Entity cache Services

Update
Query

Query service Replication Indexer service + DB

6

Эксплуатация первой версии
• Если вам что-то не нравится при нагрузочном
тестировании, лучше найдите причину
• Если что-то нужно, сделайте это регулярным

Search Presentation

Event
Cache Search processing Get Entity cache Services

Update
Query


7

Мгновенный поиск и социальный граф
• Одновременный поиск по трём
большим индексам.
• Временные персональные
индексы, разделенные на: друзья,
друзья друзей, мои группы,
группы друзей и т.д.
• Первые выдачи из тулбара
полностью идут из персонального
индекса.
• Во многих разделах сайта есть
подсказки по друзьям,
работающие на персональном
индексе.

8

Семеро одного не ждут
• В персональный индекс
дольше всего собираются Get session for Schema
группы и сообщества.
• Быстрее всего собираются Schedule queries

друзья и друзья друзей. Execute queries
• Дольше всего идет поиск waitAll ()
waitFor (queries complete)

по пользователям. waitAtLeast (result items)

• Быстрее всего – по Reduce results

сообществам. Load results

Эффективность кэширования
• Кэшируются только 5% запросов.
• Попадание в кэш доходит до 60%.
• На топ 1000 запросов приходится < 2%.

Presentation
Search

Event
Cache Search processing
Get Get Entity cache
Services Services

Update
Query


10

Кэширование и нагрузка
Cache Cache

*2 *2 *2
Service Service Service

Service 0-19 Service 20-39 Service 40-59 Service 60-79 Service 80-99

37

11

Разделять или совмещать?
• Пока систем и опыта мало, лучше разделять:
+ системы не влияют друг на друга;
+ проще тестировать и выкладывать.

• Когда однотипных систем становится много,
лучше начать их объединение:
+ проще следить за работой;
+ везде одна версия и настройки;
- каждый раз нужно тестировать все;
- сложнее решать возникающие проблемы.

12

Поиск пользователей группы
• Пользователи и состав групп находятся в разных сервисах.
• Размеры групп варируются от нескольких человек до
миллионов.
• Для заиндексированых групп применяются обновления.
• Маленькие группы «забываются» через час.

Сервисы
Пользователи портала
Основная
память

Поисковая Внешняя
Группы система Маленькие память
группы

13

Поиск пользователей онлайн
• В первой версии искали в индексе пользователей
+ легко запустить;
+ надежно работает;
– медленно работает;
– сложная логика.
• Сейчас ищем по отдельному индексу, в котором
только пользователи онлайн
+ быстро работает;
+ простая логика;
– более 200.000 изменений в минуту;
– система зависит от индексирующего сервера.

14

Спасибо!

Алексей Шевчук
Разработчик поисковых систем
Одноклассники

Работа у нас: http://v.ok.ru

Поисковая система Одноклассники.ру (Андрей Шевчук)

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Поисковая система Одноклассники.ру (Андрей Шевчук)

Semelhante a Поисковая система Одноклассники.ру (Андрей Шевчук) (20)

Mais de Ontico

Mais de Ontico (20)

Поисковая система Одноклассники.ру (Андрей Шевчук)

Notas do Editor