SlideShare uma empresa Scribd logo
1 de 59
Baixar para ler offline
Поисковая технология
         «Спектр»
Андрей Плахов
Старший разработчик



YaC, Москва, 19 сентября 2011 года
Немного истории
Немного истории
Немного истории
Немного истории
Что такое «хороший поиск»?
      Наивный подход
Что такое «хороший поиск»?
      Наивный подход

Находить больше правильных ответов
Что такое «хороший поиск»?
      Наивный подход

Находить больше правильных ответов

Показывать их выше
Что такое «хороший поиск»?
 Discounted cumulative gain (DCG)




pRelj – вероятность того,
что j-й результат релевантен
poswj – вес j-й позиции
Что такое «хороший поиск»?
 Discounted cumulative gain (DCG)




Проблема: как правильно
выбрать веса poswj?
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Как пользователи
просматривают выдачу?
                       Старт:
                        j=1
          Смотрим на j-й результат

                     1-pRelj       pRelj

    Продолжаем?                  Есть ответ!

         pContinue       1-pContinue

j:=j+1          Ответ не найден
Основная метрика Яндекса:
           pFound




MatrixNet отлично строит выдачу,
   максимизирующую pFound
Основная метрика Яндекса:
            pFound




Проблема: максимум достигается,
     когда топ однороден
Неоднозначные запросы

[МГУ]
Фото главного здания?
Приемная комиссия?
Список факультетов?
История?




         Что и в каких пропорциях
Неоднозначные запросы
[Ягуар] – автомобиль? Животное? Напиток?




10 результатов об автомобилях хорошо выглядят
на метриках, но устраивают далеко не всех
Что бы ещё показать?
Что же такое «Спектр»
Метод, используемый поиском
Яндекса
на неоднозначных запросах:

   [МГУ]
   [Иоанн Павел II]
   [Черепахи]
   [Аспирин]
   [Ягуар]

Запущен в конце 2010 года
Работает на 15-20% запросов к Яндексу
Метрика качества: wide
              pFound




Wi – процент i-той поисковой потребности
pfoundi – вероятность найти ответ на i-тую потребнос


Проблема: максимум, когда топ однороде
Метрика качества: wide
              pFound




Wi – процент i-той поисковой потребности
pfoundi – вероятность найти ответ на i-тую потребнос


Проблема: максимум, когда топ однороде
Метрика качества: wide
              pFound




Wi – процент i-той поисковой потребности
pfoundi – вероятность найти ответ на i-тую потребнос


Проблема: откуда мы узнаем потребност
Поток запросов
  Их миллиарды!
Поток запросов
          Их миллиарды!
  И вот лишь некоторые примеры:


[как сделать мотоцикл из двух зажигалок]
Поток запросов
          Их миллиарды!
  И вот лишь некоторые примеры:


[как сделать мотоцикл из двух зажигалок]
[ресторан в темноте]
Поток запросов
          Их миллиарды!
  И вот лишь некоторые примеры:


[как сделать мотоцикл из двух зажигалок]
[ресторан в темноте]
[взрыв в индии сегодня]
Поток запросов
          Их миллиарды!
  И вот лишь некоторые примеры:


[как сделать мотоцикл из двух зажигалок]
[ресторан в темноте]
[взрыв в индии сегодня]
[оральный секс у летучих мышей]
Поток запросов
          Их миллиарды!
  И вот лишь некоторые примеры:


[как сделать мотоцикл из двух зажигалок]
[ресторан в темноте]
[взрыв в индии сегодня]
[оральный секс у летучих мышей]
[изменения в ст 290 ук рф]
Поток запросов: примеры



…
турбаза старый замок алтай
турбаза старый замок астрахань
турбаза старый замок на телецком
турбаза старый замок святогорск
турбаза старый замок телецкое
турбаза старый замок телецкое озеро
турбаза старый замок телецкое адрес
турбаза старый замок телецкое телефон
Поток запросов: примеры
…
audi a8 4.2 quattro расход топлива
audi a8 4.2 quattro расход
audi a8 4.2 quattro киев
audi a8 4.2 quattro цены
audi a8 4.2 quattro комплектация
audi a8 4.2 quattro комплектация 2003
audi a8 4.2 quattro обзор
audi a8 4.2 quattro отзывы владельцев
audi a8 4.2 quattro характеристики
…
Итак, что будем делать?
Используем лог запросов, и узнаем,
какие потребности есть у пользователей!

Увы, не всѐ так просто…
Итак, что будем делать?
Используем лог запросов, и узнаем,
какие потребности есть у пользователей!

Увы, не всѐ так просто…

Не все уточнения – «потребности»
Итак, что будем делать?
Используем лог запросов, и узнаем,
какие потребности есть у пользователей!

Увы, не всѐ так просто…

Не все уточнения – «потребности»
Они отличаются не только весами
Итак, что будем делать?
Используем лог запросов, и узнаем,
какие потребности есть у пользователей!

Увы, не всѐ так просто…

Не все уточнения – «потребности»
Они отличаются не только весами
Разные уточнения – но одна и та же
потребность
Зачем нам «семантика»?
Не все расширения полезны

   [москва]   и   [москва тула]
   [минута]   и   [минута славы]
   [время]    и   [время намаза]
   [юбки]     и   [юбки порно]
Зачем нам «семантика»?
Не все расширения полезны

    [москва]   и   [москва тула]
    [минута]   и   [минута славы]
    [время]    и   [время намаза]
    [юбки]     и   [юбки порно]

Нужно отобрать «правильные»
расширения
Использование семантики
Сосредоточимся на запросах о том, что нам
понятно

  Фильмы
  Книги
  Люди
  Гаджеты
  Автомобили
  Болезни и лекарства
  …


Будем распознавать объекты этих категорий.
Для каждой из них - свои поисковые
Технология «Спектр»
Технология «Спектр»
выясняем, в какие категории попадает запрос
Технология «Спектр»
выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие
смысл
для этих категорий
Технология «Спектр»
выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие
смысл
для этих категорий

назначаем им веса
Технология «Спектр»
выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие
смысл
для этих категорий

назначаем им веса

получаем лучшие документы для каждой
потребности
Технология «Спектр»
выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие
смысл
для этих категорий

назначаем им веса

получаем лучшие документы для каждой
потребности
Но всѐ сложнее
содержательные сложности

       Сложности классификации
       Неклассифицированные запросы
       Непонятные результаты
       Геолокальность
       Временная зависимость
       Опасные ответы

       …и многие, многие другие
И ещѐ сложнее
         технологические сложности
Обрабатывать миллиарды запросов,
классифицировать, устанавливать взаимосвязи

Получать ответы по всем поисковым потребностям
(не задавая 15 запросов вместо одного)

                          На каждый запрос
решать
                          по NP-полной задаче

• ѐ
                          …и многие, многие
другие
Хорошие новости
Меньше популярных запросов без кликов
   CTR отдельных результатов растѐт
Хорошие новости: подсветка
поисковых потребностей в снипетах
И ещѐ сложнее
Простыми методами давно уже не обойтись
И ещѐ сложнее
 Простыми методами давно уже не обойтись
               Нам нужно:

больше знать об окружающем мире
И ещѐ сложнее
 Простыми методами давно уже не обойтись
               Нам нужно:

больше знать об окружающем мире

лучше понимать пользовательские сессии
И ещѐ сложнее
 Простыми методами давно уже не обойтись
               Нам нужно:

больше знать об окружающем мире

лучше понимать пользовательские сессии

лучше понимать естественные языки
И мы с этим
справимся!
Андрей Плахов
Старший разработчик


finder@yandex-team.ru

Mais conteúdo relacionado

Mais de yaevents

Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...yaevents
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндексyaevents
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...yaevents
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексyaevents
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...yaevents
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...yaevents
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...yaevents
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндексyaevents
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндексyaevents
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmannyaevents
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...yaevents
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндексyaevents
 
Julia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-awareJulia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-awareyaevents
 
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...yaevents
 
Evangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval EvaluationEvangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval Evaluationyaevents
 
Ben Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval EvaluationBen Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval Evaluationyaevents
 
Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"yaevents
 
"Efficient Diversification of Web Search Results"
"Efficient Diversification of Web Search Results""Efficient Diversification of Web Search Results"
"Efficient Diversification of Web Search Results"yaevents
 
Salvatore_Orlando
Salvatore_OrlandoSalvatore_Orlando
Salvatore_Orlandoyaevents
 
Fast dynamic analysis, Kostya Serebryany
Fast dynamic analysis, Kostya SerebryanyFast dynamic analysis, Kostya Serebryany
Fast dynamic analysis, Kostya Serebryanyyaevents
 

Mais de yaevents (20)

Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
Как научить роботов тестировать веб-интерфейсы. Артем Ерошенко, Илья Кацев, Я...
 
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, ЯндексТема для WordPress в БЭМ. Владимир Гриненко, Яндекс
Тема для WordPress в БЭМ. Владимир Гриненко, Яндекс
 
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
Построение сложносоставных блоков в шаблонизаторе bemhtml. Сергей Бережной, Я...
 
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндексi-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
i-bem.js: JavaScript в БЭМ-терминах. Елена Глухова, Варвара Степанова, Яндекс
 
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
Дом из готовых кирпичей. Библиотека блоков, тюнинг, инструменты. Елена Глухов...
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
 
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
Администрирование небольших сервисов или один за всех и 100 на одного. Роман ...
 
Мониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, ЯндексМониторинг со всех сторон. Алексей Симаков, Яндекс
Мониторинг со всех сторон. Алексей Симаков, Яндекс
 
Истории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, ЯндексИстории про разработку сайтов. Сергей Бережной, Яндекс
Истории про разработку сайтов. Сергей Бережной, Яндекс
 
Разработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, ShturmannРазработка приложений для Android на С++. Юрий Береза, Shturmann
Разработка приложений для Android на С++. Юрий Береза, Shturmann
 
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
Кросс-платформенная разработка под мобильные устройства. Дмитрий Жестилевский...
 
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, ЯндексСканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
Сканирование уязвимостей со вкусом Яндекса. Тарас Иващенко, Яндекс
 
Julia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-awareJulia Stoyanovich - Making interval-based clustering rank-aware
Julia Stoyanovich - Making interval-based clustering rank-aware
 
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
Mike Thelwall - Sentiment strength detection for the social web: From YouTube...
 
Evangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval EvaluationEvangelos Kanoulas — Advances in Information Retrieval Evaluation
Evangelos Kanoulas — Advances in Information Retrieval Evaluation
 
Ben Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval EvaluationBen Carterett — Advances in Information Retrieval Evaluation
Ben Carterett — Advances in Information Retrieval Evaluation
 
Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"Raffaele Perego "Efficient Query Suggestions in the Long Tail"
Raffaele Perego "Efficient Query Suggestions in the Long Tail"
 
"Efficient Diversification of Web Search Results"
"Efficient Diversification of Web Search Results""Efficient Diversification of Web Search Results"
"Efficient Diversification of Web Search Results"
 
Salvatore_Orlando
Salvatore_OrlandoSalvatore_Orlando
Salvatore_Orlando
 
Fast dynamic analysis, Kostya Serebryany
Fast dynamic analysis, Kostya SerebryanyFast dynamic analysis, Kostya Serebryany
Fast dynamic analysis, Kostya Serebryany
 

Поисковая технология "Спектр". Андрей Плахов, Яндекс

  • 1. Поисковая технология «Спектр» Андрей Плахов Старший разработчик YaC, Москва, 19 сентября 2011 года
  • 2.
  • 7. Что такое «хороший поиск»? Наивный подход
  • 8. Что такое «хороший поиск»? Наивный подход Находить больше правильных ответов
  • 9. Что такое «хороший поиск»? Наивный подход Находить больше правильных ответов Показывать их выше
  • 10. Что такое «хороший поиск»? Discounted cumulative gain (DCG) pRelj – вероятность того, что j-й результат релевантен poswj – вес j-й позиции
  • 11. Что такое «хороший поиск»? Discounted cumulative gain (DCG) Проблема: как правильно выбрать веса poswj?
  • 12. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 13. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 14. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 15. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 16. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 17. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 18. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 19. Как пользователи просматривают выдачу? Старт: j=1 Смотрим на j-й результат 1-pRelj pRelj Продолжаем? Есть ответ! pContinue 1-pContinue j:=j+1 Ответ не найден
  • 20. Основная метрика Яндекса: pFound MatrixNet отлично строит выдачу, максимизирующую pFound
  • 21.
  • 22. Основная метрика Яндекса: pFound Проблема: максимум достигается, когда топ однороден
  • 23. Неоднозначные запросы [МГУ] Фото главного здания? Приемная комиссия? Список факультетов? История? Что и в каких пропорциях
  • 24. Неоднозначные запросы [Ягуар] – автомобиль? Животное? Напиток? 10 результатов об автомобилях хорошо выглядят на метриках, но устраивают далеко не всех Что бы ещё показать?
  • 25. Что же такое «Спектр» Метод, используемый поиском Яндекса на неоднозначных запросах: [МГУ] [Иоанн Павел II] [Черепахи] [Аспирин] [Ягуар] Запущен в конце 2010 года Работает на 15-20% запросов к Яндексу
  • 26. Метрика качества: wide pFound Wi – процент i-той поисковой потребности pfoundi – вероятность найти ответ на i-тую потребнос Проблема: максимум, когда топ однороде
  • 27. Метрика качества: wide pFound Wi – процент i-той поисковой потребности pfoundi – вероятность найти ответ на i-тую потребнос Проблема: максимум, когда топ однороде
  • 28. Метрика качества: wide pFound Wi – процент i-той поисковой потребности pfoundi – вероятность найти ответ на i-тую потребнос Проблема: откуда мы узнаем потребност
  • 29. Поток запросов Их миллиарды!
  • 30. Поток запросов Их миллиарды! И вот лишь некоторые примеры: [как сделать мотоцикл из двух зажигалок]
  • 31. Поток запросов Их миллиарды! И вот лишь некоторые примеры: [как сделать мотоцикл из двух зажигалок] [ресторан в темноте]
  • 32. Поток запросов Их миллиарды! И вот лишь некоторые примеры: [как сделать мотоцикл из двух зажигалок] [ресторан в темноте] [взрыв в индии сегодня]
  • 33. Поток запросов Их миллиарды! И вот лишь некоторые примеры: [как сделать мотоцикл из двух зажигалок] [ресторан в темноте] [взрыв в индии сегодня] [оральный секс у летучих мышей]
  • 34. Поток запросов Их миллиарды! И вот лишь некоторые примеры: [как сделать мотоцикл из двух зажигалок] [ресторан в темноте] [взрыв в индии сегодня] [оральный секс у летучих мышей] [изменения в ст 290 ук рф]
  • 35. Поток запросов: примеры … турбаза старый замок алтай турбаза старый замок астрахань турбаза старый замок на телецком турбаза старый замок святогорск турбаза старый замок телецкое турбаза старый замок телецкое озеро турбаза старый замок телецкое адрес турбаза старый замок телецкое телефон
  • 36. Поток запросов: примеры … audi a8 4.2 quattro расход топлива audi a8 4.2 quattro расход audi a8 4.2 quattro киев audi a8 4.2 quattro цены audi a8 4.2 quattro комплектация audi a8 4.2 quattro комплектация 2003 audi a8 4.2 quattro обзор audi a8 4.2 quattro отзывы владельцев audi a8 4.2 quattro характеристики …
  • 37. Итак, что будем делать? Используем лог запросов, и узнаем, какие потребности есть у пользователей! Увы, не всѐ так просто…
  • 38. Итак, что будем делать? Используем лог запросов, и узнаем, какие потребности есть у пользователей! Увы, не всѐ так просто… Не все уточнения – «потребности»
  • 39. Итак, что будем делать? Используем лог запросов, и узнаем, какие потребности есть у пользователей! Увы, не всѐ так просто… Не все уточнения – «потребности» Они отличаются не только весами
  • 40. Итак, что будем делать? Используем лог запросов, и узнаем, какие потребности есть у пользователей! Увы, не всѐ так просто… Не все уточнения – «потребности» Они отличаются не только весами Разные уточнения – но одна и та же потребность
  • 41. Зачем нам «семантика»? Не все расширения полезны [москва] и [москва тула] [минута] и [минута славы] [время] и [время намаза] [юбки] и [юбки порно]
  • 42. Зачем нам «семантика»? Не все расширения полезны [москва] и [москва тула] [минута] и [минута славы] [время] и [время намаза] [юбки] и [юбки порно] Нужно отобрать «правильные» расширения
  • 43. Использование семантики Сосредоточимся на запросах о том, что нам понятно Фильмы Книги Люди Гаджеты Автомобили Болезни и лекарства … Будем распознавать объекты этих категорий. Для каждой из них - свои поисковые
  • 45. Технология «Спектр» выясняем, в какие категории попадает запрос
  • 46. Технология «Спектр» выясняем, в какие категории попадает запрос объединяем поисковые потребности, имеющие смысл для этих категорий
  • 47. Технология «Спектр» выясняем, в какие категории попадает запрос объединяем поисковые потребности, имеющие смысл для этих категорий назначаем им веса
  • 48. Технология «Спектр» выясняем, в какие категории попадает запрос объединяем поисковые потребности, имеющие смысл для этих категорий назначаем им веса получаем лучшие документы для каждой потребности
  • 49. Технология «Спектр» выясняем, в какие категории попадает запрос объединяем поисковые потребности, имеющие смысл для этих категорий назначаем им веса получаем лучшие документы для каждой потребности
  • 50. Но всѐ сложнее содержательные сложности Сложности классификации Неклассифицированные запросы Непонятные результаты Геолокальность Временная зависимость Опасные ответы …и многие, многие другие
  • 51. И ещѐ сложнее технологические сложности Обрабатывать миллиарды запросов, классифицировать, устанавливать взаимосвязи Получать ответы по всем поисковым потребностям (не задавая 15 запросов вместо одного) На каждый запрос решать по NP-полной задаче • ѐ …и многие, многие другие
  • 52. Хорошие новости Меньше популярных запросов без кликов CTR отдельных результатов растѐт
  • 53. Хорошие новости: подсветка поисковых потребностей в снипетах
  • 54. И ещѐ сложнее Простыми методами давно уже не обойтись
  • 55. И ещѐ сложнее Простыми методами давно уже не обойтись Нам нужно: больше знать об окружающем мире
  • 56. И ещѐ сложнее Простыми методами давно уже не обойтись Нам нужно: больше знать об окружающем мире лучше понимать пользовательские сессии
  • 57. И ещѐ сложнее Простыми методами давно уже не обойтись Нам нужно: больше знать об окружающем мире лучше понимать пользовательские сессии лучше понимать естественные языки
  • 58. И мы с этим справимся!