SlideShare uma empresa Scribd logo
1 de 52
Baixar para ler offline
Градиентные методы обучения
     Логистическая регрессия (LR)
    Метод опорных векторов (SVM)
Балансировка ошибок и ROC-кривая




Линейные методы классификации

                        К. В. Воронцов
                      vokov@forecsys.ru


  Этот курс доступен на странице вики-ресурса
    http://www.MachineLearning.ru/wiki
«Машинное обучение (курс лекций, К.В.Воронцов)»



                         20 февраля 2010


 К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации   1 / 52
Градиентные методы обучения
              Логистическая регрессия (LR)
             Метод опорных векторов (SVM)
         Балансировка ошибок и ROC-кривая

Содержание

 1   Градиентные методы обучения
       Минимизация эмпирического риска
       Линейный классификатор
       Метод стохастического градиента
       Регуляризация эмпирического риска
 2   Логистическая регрессия (LR)
      Экспонентные семейства плотностей
      Принцип максимума правдоподобия
      Скоринг
 3   Метод опорных векторов (SVM)
      Принцип оптимальной разделяющей гиперплоскости
      Двойственная задача
      Ядра и спрямляющие пространства
      Метод релевантных векторов (RVM)
 4   Балансировка ошибок и ROC-кривая
      Постановка задачи
      Определение ROC-кривой
      Эффективное построение ROC-кривой


           К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации   2 / 52
Градиентные методы обучения      Минимизация эмпирического риска
            Логистическая регрессия (LR)     Линейный классификатор
           Метод опорных векторов (SVM)      Метод стохастического градиента
       Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Задача построения разделяющей поверхности

      Задача классификации с двумя классами, Y = {−1, +1}:
      по обучающей выборке X ℓ = (xi , yi )ℓ построить
                                           i=1
      алгоритм классификации a(x, w ) = sign f (x, w ), где
        f (x, w ) — дискриминантная функция,
        w — вектор параметров.
      f (x, w ) = 0 — разделяющая поверхность;
      Mi (w ) = yi f (xi , w ) — отступ (margin) объекта xi ;
      Mi (w ) < 0 ⇐⇒ алгоритм a(x, w ) ошибается на xi .
      Минимизация эмпирического риска:
                  ℓ                                        ℓ
      Q(w ) =          Mi (w ) < 0            Q(w ) =           L Mi (w ) → min;
                                                                                 w
                i=1                                       i=1

      функция потерь L (M) невозрастающая, неотрицательная.

        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации           3 / 52
Градиентные методы обучения                     Минимизация эмпирического риска
            Логистическая регрессия (LR)                    Линейный классификатор
           Метод опорных векторов (SVM)                     Метод стохастического градиента
       Балансировка ошибок и ROC-кривая                     Регуляризация эмпирического риска

Непрерывные аппроксимации пороговой функции потерь

           Часто используемые функции потерь L (M):
               5
                        V
               4                      L
                                               E

               3
                                                                      Q
                             S
               2


               1


               0
                   -5   -4       -3       -2       -1   0    1    2       3   4   5
                                                                                      M
                                  2
        Q(M) = (1 − M)                              —   квадратичная (ЛДФ);
        V (M) = (1 − M)+                            —   кусочно-линейная (SVM);
        S(M) = 2(1 + e M )−1                        —   сигмоидная (нейросети);
        L(M) = log2 (1 + e −M )                     —   логарифмическая (LR);
        E (M) = e −M                                —   экспоненциальная (AdaBoost).

        К. В. Воронцов (www.ccas.ru/voron)                  Линейные методы классификации       4 / 52
Градиентные методы обучения           Минимизация эмпирического риска
             Логистическая регрессия (LR)          Линейный классификатор
            Метод опорных векторов (SVM)           Метод стохастического градиента
        Балансировка ошибок и ROC-кривая           Регуляризация эмпирического риска

Связь с принципом максимума правдоподобия

  Пусть X × Y — в.п. с плотностью p(x, y |w ).
  Пусть X ℓ — простая выборка (i.i.d.)
      Максимизация правдоподобия:
                              ℓ                           ℓ
         L(w ; X ℓ ) = ln             p(xi , yi |w ) =         ln p(xi , yi |w ) → max .
                                                                                       w
                             i=1                         i=1

      Минимизация аппроксимированного эмпирического риска:
                                            ℓ
                                  ℓ
                     Q(w ; X ) =                 L yi f (xi , w ) → min;
                                                                         w
                                           i=1
      Эти два принципа эквивалентны, если положить
                         − ln p(xi , yi |w ) = L yi f (xi , w ) .
               модель p ⇄ модель f и функция потерь L .
         К. В. Воронцов (www.ccas.ru/voron)        Линейные методы классификации           5 / 52
Градиентные методы обучения            Минимизация эмпирического риска
             Логистическая регрессия (LR)           Линейный классификатор
            Метод опорных векторов (SVM)            Метод стохастического градиента
        Балансировка ошибок и ROC-кривая            Регуляризация эмпирического риска

Линейный классификатор

  fj : X → R, j = 1, . . . , n — числовые признаки;
  Линейный алгоритм классификации:
                                               n
                    a(x, w ) = sign                 wj fj (x) − w0 ,
                                              j=1

  где w0 , w1 , . . . , wn ∈ R — коэффициенты (веса признаков);
  Введём константный признак f0 ≡ −1.
  Векторная запись:

                             a(x, w ) = sign w , x .

  Отступы объектов xi :

                                Mi (w ) = w , xi yi .

         К. В. Воронцов (www.ccas.ru/voron)         Линейные методы классификации       6 / 52
Градиентные методы обучения      Минимизация эмпирического риска
            Логистическая регрессия (LR)     Линейный классификатор
           Метод опорных векторов (SVM)      Метод стохастического градиента
       Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Похож ли нейрон на линейный классификатор?




        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       7 / 52
Градиентные методы обучения             Минимизация эмпирического риска
             Логистическая регрессия (LR)            Линейный классификатор
            Метод опорных векторов (SVM)             Метод стохастического градиента
        Балансировка ошибок и ROC-кривая             Регуляризация эмпирического риска

Математическая модель нейрона

  Линейная модель нейрона МакКаллока-Питтса [1943]:
                                                         n
             a(x, w ) = σ w , x            =σ                 wj fj (x) − w0 ,
                                                        j=1

  где σ(s) — функция активации (в частности, sign).

                     @ABC
                     GFED
                      x1  OOO
                             OO
                               w
                     GFED ZZZZ 1 OOOO''
                     @ABC
                      x 2
                               w2 ZZZZ--                 σ          // ?>=<
                                                                       89:;
                                                                         a
                                ... oo77
                      ···     own o
                                    o           NN
                           ooo
                     @ABC
                     GFEDo
                      xn                   w0

                               @ABC
                               GFED
                                −1

         К. В. Воронцов (www.ccas.ru/voron)          Линейные методы классификации       8 / 52
Градиентные методы обучения           Минимизация эмпирического риска
             Логистическая регрессия (LR)          Линейный классификатор
            Метод опорных векторов (SVM)           Метод стохастического градиента
        Балансировка ошибок и ROC-кривая           Регуляризация эмпирического риска

Градиентный метод численной минимизации

  Минимизация аппроксимированного эмпирического риска:
                                      ℓ
                             ℓ
                  Q(w ; X ) =             L        w , xi yi → min .
                                                                     w
                                    i=1

  Численная минимизация методом градиентного спуска:
       w (0) := начальное приближение;
                                                                                n
                                                                         ∂Q(w )
     w (t+1) := w (t) − η · ∇Q(w (t) ),                  ∇Q(w ) =         ∂wj       ,
                                                                                j=0

  где η — градиентный шаг, называемый также темпом обучения.
                                              ℓ
              w (t+1) := w (t) − η                L ′ w (t) , xi yi xi yi .
                                          i=1

  Идея ускорения сходимости:
  брать (xi , yi ) по одному и сразу обновлять вектор весов.
         К. В. Воронцов (www.ccas.ru/voron)        Линейные методы классификации        9 / 52
Градиентные методы обучения      Минимизация эмпирического риска
               Логистическая регрессия (LR)     Линейный классификатор
              Метод опорных векторов (SVM)      Метод стохастического градиента
          Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Алгоритм SG (Stochastic Gradient)

  Вход:
     выборка X ℓ ; темп обучения η; параметр λ;
  Выход:
     веса w0 , w1 , . . . , wn ;
   1:   инициализировать веса wj , j = 0, . . . , n;
   2:   инициализировать текущую оценку функционала:
        Q := ℓ L w , xi yi ;
               i=1
   3:   повторять
   4:     выбрать объект xi из X ℓ (например, случайно);
   5:     вычислить потерю: εi := L w , xi yi ;
   6:     градиентный шаг: w := w − ηL ′ w , xi yi xi yi ;
   7:     оценить значение функционала: Q := (1 − λ)Q + λεi ;
   8:   пока значение Q и/или веса w не стабилизируются;

           К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       10 / 52
Градиентные методы обучения      Минимизация эмпирического риска
             Логистическая регрессия (LR)     Линейный классификатор
            Метод опорных векторов (SVM)      Метод стохастического градиента
        Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Частный случай №1: дельта-правило ADALINE

  Задача регрессии: X = Rn , Y ⊆ R,

                               L (a, y ) = (a − y )2 .

  Адаптивный линейный элемент ADALINE
  [Видроу и Хофф, 1960]:

                                 a(x, w ) = w , x
  Градиентный шаг — дельта-правило (delta-rule):

                          w := w − η w , xi − yi xi
                                                ∆i

  ∆i — ошибка алгоритма a(x, w ) на объекте xi .


         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       11 / 52
Градиентные методы обучения      Минимизация эмпирического риска
             Логистическая регрессия (LR)     Линейный классификатор
            Метод опорных векторов (SVM)      Метод стохастического градиента
        Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Частный случай №2: правило Хэбба

  Задача классификации: X = Rn , Y = {−1, +1},
                            L (a, y ) = (− w , x y )+ .
  Линейный классификатор:
                              a(x, w ) = sign w , x .
  Градиентный шаг — правило Хэбба [1949]:
                 если w , xi yi < 0 то w := w + ηxi yi ,

  Если X = {0, 1}n , Y = {0, +1}, то правило Хэбба
  переходит в правило перцептрона Розенблатта [1957]:
                         w := w − η a(xi , w ) − yi xi .


         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       12 / 52
Градиентные методы обучения      Минимизация эмпирического риска
             Логистическая регрессия (LR)     Линейный классификатор
            Метод опорных векторов (SVM)      Метод стохастического градиента
        Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Обоснование Алгоритма SG с правилом Хэбба

  Задача классификации: X = Rn+1 , Y = {−1, 1}.

  Теорема (Новиков, 1962)
  Пусть выборка X ℓ линейно разделима:
      ∃w , ∃δ > 0: w , xi yi > δ для всех i = 1, . . . , ℓ.
        ˜           ˜
  Тогда Алгоритм SG с правилом Хэбба находит вектор весов w ,
      разделяющий обучающую выборку без ошибок;
      при любом начальном положении w (0) ;
      при любом темпе обучения η > 0;
      независимо от порядка предъявления объектов xi ;
      за конечное число исправлений вектора w ;
                                                                   1
      если w (0) = 0, то число исправлений tmax                    δ2
                                                                        max xi .

         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации        13 / 52
Градиентные методы обучения      Минимизация эмпирического риска
               Логистическая регрессия (LR)     Линейный классификатор
              Метод опорных векторов (SVM)      Метод стохастического градиента
          Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

SG: Инициализация весов

  Возможны варианты:
    1   wj := 0 для всех j = 0, . . . , n;
    2   небольшие случайные значения:
                        1 1
        wj := random − 2n , 2n ;
    3   наивный линейный байесовский классификатор
        по небольшой случайной подвыборке объектов;
                 y ,fj
    4   wj :=    fj ,fj   ,
                              ℓ
        где fj = fj (xi )     i=1
                                    — вектор значений j-го признака.

  Упражнение: в последнем случае доказать, что
  если функция потерь квадратична и признаки
  некоррелированы, то оценка w является оптимальной.


           К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       14 / 52
Градиентные методы обучения      Минимизация эмпирического риска
              Логистическая регрессия (LR)     Линейный классификатор
             Метод опорных векторов (SVM)      Метод стохастического градиента
         Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

SG: Порядок предъявления объектов

  Возможны варианты:
    1   перетасовка объектов (shuffling):
        попеременно брать объекты из разных классов;
    2   чаще брать те объекты, на которых была допущена
        б´льшая ошибка
         о
        (чем меньше Mi , тем больше вероятность взять объект);
    3   вообще не брать «хорошие» объекты, у которых Mi > µ+
        (при этом немного ускоряется сходимость);
    4   вообще не брать объекты-«выбросы», у которых Mi < µ−
        (при этом может улучшиться качество классификации);
  Параметры µ+ , µ− придётся подбирать.



          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       15 / 52
Градиентные методы обучения      Минимизация эмпирического риска
              Логистическая регрессия (LR)     Линейный классификатор
             Метод опорных векторов (SVM)      Метод стохастического градиента
         Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

SG: Выбор величины градиентного шага

  Возможны варианты:
    1   сходимость гарантируется (для выпуклых функций) при
                                       ∞                 ∞
                       ηt → 0,              ηt = ∞,            2
                                                              ηt < ∞,
                                      t=1               t=1
        в частности можно положить ηt = 1/t;
    2   метод скорейшего градиентного спуска:
                               Q w − η∇Q(w ) → min,
                                                              η
        позволяет найти адаптивный шаг η ∗ ;
    3   пробные случайные шаги
          — для «выбивания» из локальных минимумов;

  Упражнение: доказать, что
   при квадратичной функции потерь η ∗ = xi                       −2 .


          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       16 / 52
Градиентные методы обучения      Минимизация эмпирического риска
              Логистическая регрессия (LR)     Линейный классификатор
             Метод опорных векторов (SVM)      Метод стохастического градиента
         Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

SG: Достоинства и недостатки

  Достоинства:
    1   легко реализуется;
    2   легко обобщается на любые f , L ;
    3   возможно динамическое (потоковое) обучение;
    4   на сверхбольших выборках не обязательно брать все xi ;
  Недостатки:
    1   возможна расходимость или медленная сходимость;
    2   застревание в локальных минимумах;
    3   подбор комплекса эвристик является искусством;
    4   проблема переобучения;



          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       17 / 52
Градиентные методы обучения      Минимизация эмпирического риска
              Логистическая регрессия (LR)     Линейный классификатор
             Метод опорных векторов (SVM)      Метод стохастического градиента
         Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

SG: Проблема переобучения

  Возможные причины переобучения:
    1   слишком мало объектов; слишком много признаков;
    2   линейная зависимость (мультиколлинеарность) признаков;
    3   наличие «шумовых» неинформативных признаков;
  Симптоматика:
    1   резкое увеличение w ;
    2   неустойчивость классификации;
    3   Q(X ℓ ) ≪ Q(X k );
  Терапия:
    1   ранний останов (early stopping);
    2   сокращение весов (weight decay);


          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       18 / 52
Градиентные методы обучения      Минимизация эмпирического риска
              Логистическая регрессия (LR)     Линейный классификатор
             Метод опорных векторов (SVM)      Метод стохастического градиента
         Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

SG: Сокращение весов

  Штраф за увеличение нормы вектора весов:
                                         τ
            Qτ (w ; X ℓ ) = Q(w ; X ℓ ) + w 2 → min .
                                         2       w

  Градиент:
                     ∇Qτ (w ) = ∇Q(w ) + τ w .
  Модификация градиентного шага:

                          w := w (1 − ητ ) − η∇Q(w ).
  Подбор параметра регуляризации τ :
    1   скользящий контроль;
    2   стохастическая адаптация;
    3   байесовский вывод второго уровня;

          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       19 / 52
Градиентные методы обучения       Минимизация эмпирического риска
              Логистическая регрессия (LR)      Линейный классификатор
             Метод опорных векторов (SVM)       Метод стохастического градиента
         Балансировка ошибок и ROC-кривая       Регуляризация эмпирического риска

Обобщение: байесовская регуляризация

  p(x, y |w ) — вероятностная модель данных;
  p(w ; γ) — априорное распределение параметров модели;
  γ — вектор гиперпараметров;
  Теперь не только появление выборки X ℓ ,
  но и появление модели w также полагается случайным.
  Совместное правдоподобие данных и модели:

                         p(X ℓ , w ) = p(X ℓ |w ) p(w ; γ).

  Принцип максимума совместного правдоподобия:
                                      ℓ
  L(w , X ℓ ) = ln p(X ℓ , w ) =           ln p(xi , yi |w ) + ln p(w ; γ) → max .
                                                                                    w ,γ
                                     i=1                      регуляризатор


          К. В. Воронцов (www.ccas.ru/voron)    Линейные методы классификации              20 / 52
Градиентные методы обучения      Минимизация эмпирического риска
             Логистическая регрессия (LR)     Линейный классификатор
            Метод опорных векторов (SVM)      Метод стохастического градиента
        Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Пример 1: квадратичный (гауссовский) регуляризатор

  Пусть w ∈ Rn имеет n-мерное гауссовское распределение:
                                                                         n
                     1           w 2                            2
       p(w ; σ) =          exp −                       ,    w       =         wj2 ,
                  (2πσ)n/2       2σ
                                                                        j=1

  т. е. все веса независимы, имеют нулевое матожидание
  и равные дисперсии σ; σ — гиперпараметр.
  Логарифмируя, получаем квадратичный регуляризатор:
                                          1      2
                   − ln p(w ; σ) =          w        + const(w ).
                                         2σ
                                                   1
  Вероятностный смысл параметра регуляризации: τ = σ .



         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации           21 / 52
Градиентные методы обучения           Минимизация эмпирического риска
             Логистическая регрессия (LR)          Линейный классификатор
            Метод опорных векторов (SVM)           Метод стохастического градиента
        Балансировка ошибок и ROC-кривая           Регуляризация эмпирического риска

Пример 2: лапласовский регуляризатор

  Пусть w ∈ Rn имеет n-мерное распределение Лапласа:
                                                                            n
                      1           w                 1
        p(w ; C ) =       n
                            exp −                        ,     w   1   =         |wj |,
                    (2C )         C
                                                                           j=1

  т. е. все веса независимы, имеют нулевое матожидание
  и равные дисперсии; C — гиперпараметр.
  Логарифмируя, получаем регуляризатор по L1 -норме:
                                               n
                                        1
                  − ln p(w ; C ) =                  |wj | + const(w ).
                                        C
                                              j=1

  Почему этот регуляризатор приводит к отбору признаков?


         К. В. Воронцов (www.ccas.ru/voron)        Линейные методы классификации          22 / 52
Градиентные методы обучения      Минимизация эмпирического риска
             Логистическая регрессия (LR)     Линейный классификатор
            Метод опорных векторов (SVM)      Метод стохастического градиента
        Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Пример 2: лапласовский регуляризатор


                             ℓ                            n
                    ℓ                                1
         Q(w , X ) =             ln p(xi , yi |w ) +           |wj | → min .
                                                     C                 w ,C
                           i=1                           j=1

  Почему этот регуляризатор приводит к отбору признаков:
  Замена переменных: uj = 1 |wj | + wj , vj = 2 |wj | − wj .
                              2
                                                1

  Тогда wj = uj − vj и |wj | = uj + vj ;
   
                ℓ                          n
   
   Q(u, v ) =                           1
                    L Mi (u − v , w0 ) +       (uj + vj ) → min
                                         C                  u,v
               i=1                        j=1
   
   u
      j   0, vj 0, j = 1, . . . , n;

  если uj = vj = 0, то вес wj = 0 и признак не учитывается.

         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       23 / 52
Градиентные методы обучения      Минимизация эмпирического риска
            Логистическая регрессия (LR)     Линейный классификатор
           Метод опорных векторов (SVM)      Метод стохастического градиента
       Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Регуляризация в линейных классификаторах

      В случае мультиколлинеарности
      — решение Q(w ) → min неединственно или неустойчиво;
                                    w
      — классификатор a(x; w ) неустойчив;
      — переобучение: Q(X ℓ ) ≪ Q(X k ).
      Регуляризация — это выбор наиболее устойчивого :
                                                     решения
      — Гаусс — без отбора признаков;
      — Лаплас — с отбором признаков;
      — возможны и другие варианты...
      Выбор параметра регуляризации:
      — с помощью скользящего контроля;
      — с помощью оценок обобщающей способности;
      — стохастическая адаптация;
      — байесовский вывод второго уровня.

        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       24 / 52
Градиентные методы обучения      Минимизация эмпирического риска
            Логистическая регрессия (LR)     Линейный классификатор
           Метод опорных векторов (SVM)      Метод стохастического градиента
       Балансировка ошибок и ROC-кривая      Регуляризация эмпирического риска

Зоопарк методов

      Вид разделяющей поверхности f (x, w ):
      — линейная f (x, w ) = x, w ;
      — нелинейная;
      Вид непрерывной аппроксимации функции потерь L (M):
      — логарифмическая L (M) = log(1 + e −M ) . . . LR;
      — кусочно-линейная L (M) = (1 − M)+ . . . SVM;
      — экспоненциальная L (M) = e −M . . . AdaBoost;
      Вид регуляризатора − log p(w ; γ):
      — равномерный . . . персептроны, LR;
      — гауссовский с равными дисперсиями . . . SVM, RLR;
      — гауссовский с неравными дисперсиями . . . RVM;
      — лапласовский . . . приводит к отбору признаков;
      Вид численного метода оптимизации Q(w ) → min.

        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       25 / 52
Градиентные методы обучения
                                             Экспонентные семейства плотностей
            Логистическая регрессия (LR)
                                             Принцип максимума правдоподобия
           Метод опорных векторов (SVM)
                                             Скоринг
       Балансировка ошибок и ROC-кривая

Логистическая регрессия: базовые предположения

      X = Rn , Y = ±1, выборка X ℓ = (xi , yi )ℓ i.i.d. из
                                               i=1

                        p(x, y ) = Py py (x) = P(y |x)p(x)
      Функции правдоподобия py (x) экспонентные:

             py (x) = exp cy (δ) θy , x + by (δ, θy ) + d(x, δ) ,
      где θy ∈ Rn — параметр сдвига;
      δ — параметр разброса;
      by , cy , d — произвольные числовые функции;
      причём параметры d(·) и δ не зависят от y .
  Класс экспонентных распределений очень широк:
  равномерное, нормальное, гипергеометрическое, пуассоновское,
  биномиальное, Γ-распределение, и др.

        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       26 / 52
Градиентные методы обучения
                                              Экспонентные семейства плотностей
             Логистическая регрессия (LR)
                                              Принцип максимума правдоподобия
            Метод опорных векторов (SVM)
                                              Скоринг
        Балансировка ошибок и ROC-кривая

Пример: гауссовская плотность — экспонентная

  Многомерное нормальное распределение, µ ∈ Rn , Σ ∈ Rn×n ,
  является экспонентным:
      параметр сдвига θ = Σ−1 µ;
      параметр разброса δ = Σ.
                               n         1
     N (x; µ, Σ) = (2π)− 2 |Σ|− 2 exp − 1 (x − µ)т Σ−1 (x − µ) =
                                        2

                   = exp µт Σ−1 x − 2 µт Σ−1 ΣΣ−1 µ −
                                    1

                                   θ,x           b(δ,θ)

                                − 2 x т Σ−1 x −
                                  1                n
                                                   2
                                                                1
                                                       ln(2π) − 2 ln |Σ| .
                                                   d(x,δ)




         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       27 / 52
Градиентные методы обучения
                                              Экспонентные семейства плотностей
             Логистическая регрессия (LR)
                                              Принцип максимума правдоподобия
            Метод опорных векторов (SVM)
                                              Скоринг
        Балансировка ошибок и ROC-кривая

Основная теорема

  Оптимальный байесовский классификатор для двух классов:
                                                               p+ (x) λ− P−
  a(x) = sign λ+ P(+1|x)−λ− P(−1|x) = sign                           −            .
                                                               p− (x) λ+ P+

  Теорема
  Если py экспонентны, параметры d(·) и δ не зависят от y ,
  и среди признаков f1 (x), . . . , fn (x) есть константа,
  то байесовский классификатор линеен:
           a(x) = sign w , x − w0 ,                 w0 = ln(λ− /λ+ );
  апостериорные вероятности классов:
                              P(y |x) = σ w , x y ,
                 1
  где σ(z) =   1+e −z
                        — логистическая (сигмоидная) функция.

         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       28 / 52
Градиентные методы обучения
                                                  Экспонентные семейства плотностей
             Логистическая регрессия (LR)
                                                  Принцип максимума правдоподобия
            Метод опорных векторов (SVM)
                                                  Скоринг
        Балансировка ошибок и ROC-кривая

Обоснование логарифмической функции потерь

  Максимизация логарифма правдоподобия выборки:
                                              ℓ
                    L(w , X ℓ ) = log             p(xi , yi ) → max .
                                                                    w
                                          i=1

  Подставим: p(x, y ) = P(y |x) · p(x) = σ w , x y · const(w )
                           ℓ
         L(w , X ℓ ) =             log σ w , xi yi + const(w ) → max .
                                                                             w
                          i=1

  Максимизация L(w ) эквивалентна минимизации Q(w ):
                               ℓ
          Q(w , X ℓ ) =             log 1 + exp(− w , xi yi ) → min .
                                                                            w
                            i=1
                                                          Mi (w )

         К. В. Воронцов (www.ccas.ru/voron)       Линейные методы классификации       29 / 52
Градиентные методы обучения
                                                       Экспонентные семейства плотностей
            Логистическая регрессия (LR)
                                                       Принцип максимума правдоподобия
           Метод опорных векторов (SVM)
                                                       Скоринг
       Балансировка ошибок и ROC-кривая

Логарифмическая функция потерь

  Логарифмическая функция потерь L (Mi ) = log2 1 + e −Mi
  и её наклонная асимптота.

             3.5

             3.0

             2.5

             2.0

             1.5

             1.0

             0.5

              0
                   -3.0 -2.5 -2.0 -1.5 -1.0 -0.5   0   0.5 1.0 1.5 2.0 2.5 3.0   Mi


        К. В. Воронцов (www.ccas.ru/voron)             Линейные методы классификации       30 / 52
Градиентные методы обучения
                                               Экспонентные семейства плотностей
             Логистическая регрессия (LR)
                                               Принцип максимума правдоподобия
            Метод опорных векторов (SVM)
                                               Скоринг
        Балансировка ошибок и ROC-кривая

Градиентный метод

  Производная сигмоидной функции: σ ′ (z) = σ(z)σ(−z).
  Вектор градиента функционала Q(w ):
                                          ℓ
                     ∇Q(w ) = −               yi xi σ −Mi (w ) .
                                        i=1

  Градиентный шаг в методе стохастического градиента:

                  w (t+1) := w (t) + η yi xi σ −Mi (w (t) ) ,

  где (xi , yi ) — предъявляемый прецедент, η — темп обучения.
  Оказывается, это «сглаженный вариант» правила Хэбба:

                 w (t+1) := w (t) + η yi xi Mi (w (t) ) < 0 .


         К. В. Воронцов (www.ccas.ru/voron)    Линейные методы классификации       31 / 52
Градиентные методы обучения
                                                  Экспонентные семейства плотностей
            Логистическая регрессия (LR)
                                                  Принцип максимума правдоподобия
           Метод опорных векторов (SVM)
                                                  Скоринг
       Балансировка ошибок и ROC-кривая

Сглаженное правило Хэбба

  Правило Хэбба: пороговое [Mi < 0] и сглаженное σ(−Mi ):


               1.0

               0.8

               0.6

               0.4

               0.2

                0

                     -5   -4   -3   -2   -1   0     1    2    3    4    5   Mi
                  1
  где σ(z) =    1+e −z
                          — логистическая (сигмоидная) функция.

        К. В. Воронцов (www.ccas.ru/voron)        Линейные методы классификации       32 / 52
Градиентные методы обучения
                                             Экспонентные семейства плотностей
            Логистическая регрессия (LR)
                                             Принцип максимума правдоподобия
           Метод опорных векторов (SVM)
                                             Скоринг
       Балансировка ошибок и ROC-кривая

Бинаризация признаков и скоринговая карта




        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       33 / 52
Градиентные методы обучения
                                              Экспонентные семейства плотностей
             Логистическая регрессия (LR)
                                              Принцип максимума правдоподобия
            Метод опорных векторов (SVM)
                                              Скоринг
        Балансировка ошибок и ROC-кривая

Оценивание рисков

  Оценка риска (математического ожидания) потерь объекта x:

             R(x) =            Dxy P(y |x) =          Dxy σ w , x y ,
                        y ∈Y                   y ∈Y

  где Dxy — величина потери для (x, y ).
  Недостатки:
   трудно проверить, выполняются ли базовые предположения;
   т. е. оценка вероятности носит эвристический характер;
  Методика VaR (Value at Risk):
                                                                                  ℓ
    1000 раз: для каждого x разыгрывается исход y ; V =     Dxy ;
                                                        i=1
    строится эмпирическое распределение величины V ;
    определяется α-квантиль распределения.

         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации           34 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)     Двойственная задача
            Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Принцип максимума ширины разделяющей полосы

  Линейный классификатор:
           a(x) = sign w , x − w0 ,              w , x ∈ Rn , w0 ∈ R.
  Пусть выборка X ℓ = (xi , yi )ℓ линейно разделима:
                                i=1
     ∃w , w0 :    Mi (w , w0 ) = yi w , xi − w0 > 0,               i = 1, . . . , ℓ

  Нормировка: min Mi (w , w0 ) = 1.
                  i=1,...,ℓ

  Разделяющая полоса:
     x: −1         w , x − w0         1 .                                  x+
                                                    x−
  Ширина полосы:                                                  w
    x+ −x− , w   2
               =   → max .
        w        w

         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации           35 / 52
Градиентные методы обучения         Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)        Двойственная задача
            Метод опорных векторов (SVM)         Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая         Метод релевантных векторов (RVM)

Обоснование кусочно-линейной функции потерь

  Линейно разделимая выборка
               
                w 2 → min ;
                                    w ,w0
                    Mi (w , w0 )           1,    i = 1, . . . , ℓ.
  Переход к линейно неразделимой выборке (эвристика)
              
                             ℓ
              1
              
               w 2+C
                               ξi → min ;
              2                       w ,w0 ,ξ
                            i=1
              
              Mi (w , w0 ) 1 − ξi , i = 1, . . . , ℓ;
              
              
              
                ξi 0, i = 1, . . . , ℓ.
  Эквивалентная задача безусловной минимизации:
                         ℓ
                                                             1        2
      Q(w , w0 ) =            1 − Mi (w , w0 )      +
                                                        +      w          → min .
                                                            2C              w ,w0
                        i=1
         К. В. Воронцов (www.ccas.ru/voron)      Линейные методы классификации         36 / 52
Градиентные методы обучения       Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)      Двойственная задача
            Метод опорных векторов (SVM)       Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая       Метод релевантных векторов (RVM)

Задача поиска седловой точки функции Лагранжа

  Функция Лагранжа: L (w , w0 , ξ; λ, η) =
                           ℓ                             ℓ
          1       2
      =     w         −         λi Mi (w , w0 ) − 1 −         ξi λi + η i − C ,
          2
                          i=1                           i=1

  λi — переменные, двойственные к ограничениям Mi 1 − ξi ;
  ηi — переменные, двойственные к ограничениям ξi 0.
        
        L (w , w0 , ξ; λ, η) → min max;
        
        
                               w ,w0 ,ξ λ,η
        
          ξi 0, λi 0, ηi 0, i = 1, . . . , ℓ;
        λ = 0 либо M (w , w ) = 1 − ξ , i = 1, . . . , ℓ;
         i
        
                            i   0           i
        
          ηi = 0 либо ξi = 0, i = 1, . . . , ℓ;


          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         37 / 52
Градиентные методы обучения        Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)       Двойственная задача
            Метод опорных векторов (SVM)        Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая        Метод релевантных векторов (RVM)

Необходимые условия седловой точки функции Лагранжа

  Функция Лагранжа: L (w , w0 , ξ; λ, η) =
                             ℓ                             ℓ
          1        2
      =     w           −         λi Mi (w , w0 ) − 1 −            ξi λi + η i − C ,
          2
                            i=1                           i=1

  Необходимые условия седловой точки функции Лагранжа:
                    ℓ                                          ℓ
   ∂L
      =w−                λ i yi xi = 0    =⇒        w=              λ i yi xi ;
   ∂w
                   i=1                                     i=1
               ℓ                                      ℓ
   ∂L
       =−           λ i yi = 0            =⇒              λi yi = 0;
   ∂w0
              i=1                                   i=1
   ∂L
       = −λi − ηi + C = 0                 =⇒        η i + λi = C ,                i = 1, . . . , ℓ.
   ∂ξi

          К. В. Воронцов (www.ccas.ru/voron)    Линейные методы классификации                    38 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)     Двойственная задача
            Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Понятие опорного вектора

  Типизация объектов:
  1. λi = 0; ηi = C ; ξi = 0; Mi 1.
     — периферийные (неинформативные) объекты.
  2. 0 < λi < C ; 0 < ηi < C ; ξi = 0; Mi = 1.
       — опорные граничные объекты.
  3. λi = C ; ηi = 0; ξi > 0; Mi < 1.
       — опорные-нарушители.
  Определение
  Объект xi называется опорным, если λi = 0.




         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         39 / 52
Градиентные методы обучения        Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)       Двойственная задача
            Метод опорных векторов (SVM)        Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая        Метод релевантных векторов (RVM)

Двойственная задача
     
                  ℓ                      ℓ     ℓ
     
                         1
     
     −L (λ) = −     λi +                          λ i λ j yi yj xi , xj   → min;
     
                         2                                                   λ
                i=1                    i=1 j=1

      0 λi C ,
     
                          i = 1, . . . , ℓ;
      ℓ
     
     
      λi yi = 0.
     
       i=1
  Решение прямой задачи выражается через решение двойственной:
     
            ℓ
     w =      λyx;  i i i
          i=1
      
      w = w , x − y ,
        0       i   i                 для любого i: λi > 0, Mi = 1.
  Линейный классификатор:
                                         ℓ
                     a(x) = sign              λ i y i x i , x − w0 .
                                        i=1

         К. В. Воронцов (www.ccas.ru/voron)     Линейные методы классификации         40 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)     Двойственная задача
            Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Нелинейное обобщение SVM

  Переход к спрямляющему пространству
  более высокой размерности: ψ : X → H.
  Определение
  Функция K : X × X → R — ядро, если K (x, x ′ ) = ψ(x), ψ(x ′ )
  при некотором ψ : X → H, где H — гильбертово пространство.

  Теорема
  Функция K (x, x ′ ) является ядром тогда и только тогда, когда
   она симметрична: K (x, x ′ ) = K (x ′ , x);
   и неотрицательно определена:
                    ′        ′     ′   0 для любой g : X → R.
      X X K (x, x )g (x)g (x )dxdx




         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         41 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
               Логистическая регрессия (LR)     Двойственная задача
              Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
          Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Конструктивные методы синтеза ядер

    1   K (x, x ′ ) = x, x ′ — ядро;
    2   константа K (x, x ′ ) = 1 — ядро;
    3   произведение ядер K (x, x ′ ) = K1 (x, x ′ )K2 (x, x ′ ) — ядро;
    4   ∀ψ : X → R произведение K (x, x ′ ) = ψ(x)ψ(x ′ ) — ядро;
    5   K (x, x ′ ) = α1 K1 (x, x ′ ) + α2 K2 (x, x ′ ) при α1 , α2 > 0 — ядро;
    6   ∀ϕ : X →X если K0 ядро, то K (x, x ′ ) = K0 (ϕ(x), ϕ(x ′ )) — ядро;
    7   если s : X × X → R — симметричная интегрируемая
        функция, то K (x, x ′ ) = X s(x, z)s(x ′ , z) dz — ядро;
    8   если K0 — ядро и функция f : R → R представима в виде
        сходящегося степенного ряда с неотрицательными
        коэффициентами, то K (x, x ′ ) = f K0 (x, x ′ ) — ядро;



           К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         42 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
              Логистическая регрессия (LR)     Двойственная задача
             Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
         Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Примеры ядер

   1   K (x, x ′ ) = x, x ′ 2
       — квадратичное ядро;
   2   K (x, x ′ ) = x, x ′ d
       — полиномиальное ядро с мономами степени d;
                                       d
   3   K (x, x ′ ) = x, x ′ + 1
       — полиномиальное ядро с мономами степени                          d;
   4   K (x, x ′ )
              = th k0 + k1            x, x ′
       — нейросеть с сигмоидными функциями активации;
   5   K (x, x ′ ) = exp −β x − x ′ 2
       — сеть радиальных базисных функций;




          К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         43 / 52
Градиентные методы обучения          Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)         Двойственная задача
            Метод опорных векторов (SVM)          Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая          Метод релевантных векторов (RVM)

SVM как двухслойная нейронная сеть

  Перенумеруем объекты так, чтобы x1 , . . . , xh были опорными.
                                         h
                    a(x) = sign                λi yi K (x, xi ) − w0 .
                                        i=1

      @ABC 1
      GFED x1 // K (x, x1 )
       x1 ?
            ??               ??      SSS
               1
              xh ?
                                       S
                                          λ1 y1 SS
                  ??                          S))
       ···          ?
                    ?
                   ??         ···                            sign          // a(x)
               n
              x1          ??                    kkk55 HH
                            ?          kλh yh
                                  kkkk
      @ABC n
      GFED xh
       x n             // K (x, xh )
                                                 w0

                               @ABC
                               GFED
                                −1

          К. В. Воронцов (www.ccas.ru/voron)      Линейные методы классификации         44 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
            Логистическая регрессия (LR)     Двойственная задача
           Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
       Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Преимущества и недостатки SVM

  Преимущества SVM перед SG:
      Задача выпуклого квадратичного программирования
      имеет единственное решение.
      Число нейронов скрытого слоя определяется
      автоматически — это число опорных векторов.
  Недостатки SVM:
      Неустойчивость к шуму.
      Нет общих подходов к оптимизации K (x, x ′ ) под задачу.
      Приходится подбирать константу C .




        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         45 / 52
Градиентные методы обучения           Принцип оптимальной разделяющей гиперплоскости
             Логистическая регрессия (LR)          Двойственная задача
            Метод опорных векторов (SVM)           Ядра и спрямляющие пространства
        Балансировка ошибок и ROC-кривая           Метод релевантных векторов (RVM)

Машина релевантных векторов RVM

  Положим, как и в SVM, при некоторых λi                             0
                                              ℓ
                                  w=              λ i yi xi ,
                                          i=1
  причём опорным векторам xi соответствуют λi = 0.
  Проблема: Какие из коэффициентов λi лучше обнулить?
  Идея: байесовский регуляризатор зависит не от w , а от λi .
  Пусть λi независимые, гауссовские, с дисперсиями αi :
                                                                    ℓ
                            1                     λ2
                                                   i
             p(λ) =        √            exp −                                  ;
                    (2π)ℓ/2 α1 · · · αℓ       i=1
                                                  2αi
                  ℓ                                    ℓ
                                                  1                       λ2
                                                                           i
      Q(w ) =          L Mi (w (λ)) +                           ln αi +        → min .
                                                  2                       αi       λ,α
                 i=1                                  i=1

         К. В. Воронцов (www.ccas.ru/voron)        Линейные методы классификации         46 / 52
Градиентные методы обучения      Принцип оптимальной разделяющей гиперплоскости
            Логистическая регрессия (LR)     Двойственная задача
           Метод опорных векторов (SVM)      Ядра и спрямляющие пространства
       Балансировка ошибок и ROC-кривая      Метод релевантных векторов (RVM)

Преимущества RVM перед SVM

     Опорных векторов, как правило, меньше
     (более «разреженное» решение).
     Шумовые выбросы уже не входят в число опорных.
     Не надо искать параметр регуляризации
     (вместо этого αi оптимизируются в процессе обучения).
     Аналогично SVM, можно использовать ядра.




        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации         47 / 52
Градиентные методы обучения
                                              Постановка задачи
             Логистическая регрессия (LR)
                                              Определение ROC-кривой
            Метод опорных векторов (SVM)
                                              Эффективное построение ROC-кривой
        Балансировка ошибок и ROC-кривая

Балансировка ошибок I и II рода. Постановка задачи

  Задача классификации на два класса, Y = {−1, +1};
  λy — штраф за ошибку на объекте класса y ;
  модель алгоритмов a(x, w , w0 ) = sign f (x, w ) − w0 ,
  В логистической регрессии:
      f (x, w ) = x, w — не зависит от {λy };
      w0 = ln λ−1 — зависит только от {λy }.
                λ+1

  На практике штрафы {λy } могут многократно пересматриваться.

  Постановка задачи
      Нужен удобный способ выбора w0 в зависимости от {λy },
      не требующий построения w заново.
      Нужна характеристика качества классификатора,
      инвариантная относительно выбора {λy }.
         К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       48 / 52
Градиентные методы обучения
                                                Постановка задачи
             Логистическая регрессия (LR)
                                                Определение ROC-кривой
            Метод опорных векторов (SVM)
                                                Эффективное построение ROC-кривой
        Балансировка ошибок и ROC-кривая

Определение ROC-кривой

  ROC — «receiver operating characteristic».
      Каждая точка кривой соответствует некоторому a(x; w , w0 ).
      по оси X: доля ошибочных положительных классификаций
      (FPR — false positive rate):
                                      ℓ
                                      i=1 [yi   = −1][a(xi ; w , w0 ) = +1]
             FPR(a, X ℓ ) =                        ℓ
                                                                                ;
                                                   i=1 [yi   = −1]
      1 − FPR(a) называется специфичностью алгоритма a.
      по оси Y: доля правильных положительных классификаций
      (TPR — true positive rate):
                                      ℓ
                                      i=1 [yi   = +1][a(xi ; w , w0 ) = +1]
             TPR(a, X ℓ ) =                        ℓ
                                                                                ;
                                                   i=1 [yi   = +1]
      TPR(a) называется также чувствительностью алгоритма a.
         К. В. Воронцов (www.ccas.ru/voron)     Линейные методы классификации       49 / 52
Градиентные методы обучения
                                                        Постановка задачи
               Логистическая регрессия (LR)
                                                        Определение ROC-кривой
              Метод опорных векторов (SVM)
                                                        Эффективное построение ROC-кривой
          Балансировка ошибок и ROC-кривая

Пример ROC-кривой

   TPR, true positive rate, %
   100
   90
   80
   70
   60
   50
   40
   30
   20
   10
    0
          0       10      20     30      40        50     60     70     80     90     100
                                                               FPR, false positive rate, %
         AUC, ɩɥɨɳɚɞɶ ɩɨɞ ROC-ɤɪɢɜɨɣ                    ɧɚɢɯɭɞɲɚɹ ROC-ɤɪɢɜɚɹ



              К. В. Воронцов (www.ccas.ru/voron)        Линейные методы классификации        50 / 52
Градиентные методы обучения
                                                Постановка задачи
               Логистическая регрессия (LR)
                                                Определение ROC-кривой
              Метод опорных векторов (SVM)
                                                Эффективное построение ROC-кривой
          Балансировка ошибок и ROC-кривая

Алгоритм эффективного построения ROC-кривой

  Вход: выборка X ℓ ; дискриминантная функция f (x, w );
                         ℓ
  Выход: (FPRi , TPRi ) i=0 , AUC — площадь под ROC-кривой.

   1:   ℓy := ℓ [yi = y ], для всех y ∈ Y ;
                 i=1
   2:   упорядочить выборку X ℓ по убыванию значений f (xi , w );
   3:   поставить первую точку в начало координат:
        (FPR0 , TPR0 ) := (0, 0); AUC := 0;
   4:   для i := 1, . . . , ℓ
   5:      если yi = −1 то сместиться на один шаг вправо:
   6:        FPRi := FPRi−1 + ℓ1 ; TPRi := TPRi−1 ;
                                  −
             AUC := AUC + ℓ1 TPRi ;
                               −
   7:      иначе сместиться на один шаг вверх:
   8:        FPRi := FPRi−1 ; TPRi := TPRi−1 + ℓ1 ;
                                                +



           К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации       51 / 52
Градиентные методы обучения
            Логистическая регрессия (LR)
           Метод опорных векторов (SVM)
       Балансировка ошибок и ROC-кривая

Резюме в конце лекции

      Методы обучения линейных классификаторов отличаются
      — видом функции потерь;
      — видом регуляризатора;
      — численным методом оптимизации.
      Аппроксимация пороговой функции потерь гладкой
      убывающей функцией отступа L (M) повышает качество
      классификации (за счёт увеличения зазора)
      и облегчает оптимизацию.
      Регуляризация решает проблему мультиколлинеарности
      и также снижает переобучение.
      На практике ROC-кривую строят по контрольной выборке.
      Существуют методы обучения, минимизирующие AUC.


        К. В. Воронцов (www.ccas.ru/voron)   Линейные методы классификации   52 / 52

Mais conteúdo relacionado

Mais procurados

20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02Computer Science Club
 
20110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture0320110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture03Computer Science Club
 
Решение задач на собственные значения
Решение задач на собственные значенияРешение задач на собственные значения
Решение задач на собственные значенияTheoretical mechanics department
 
Многочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийМногочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийTheoretical mechanics department
 
Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрированияTheoretical mechanics department
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03Computer Science Club
 
Phép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyếtPhép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyếtVõ Hồng Quý
 
Лекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределенияЛекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределенияKurbatskiy Alexey
 
Численное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераЧисленное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераTheoretical mechanics department
 
Структурное обучение и S-SVM
Структурное обучение и S-SVMСтруктурное обучение и S-SVM
Структурное обучение и S-SVMromovpa
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторовAnton Konushin
 
К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"Yandex
 

Mais procurados (20)

Метод конечных разностей
Метод конечных разностейМетод конечных разностей
Метод конечных разностей
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture0220110224 systems of_typed_lambda_calculi_moskvin_lecture02
20110224 systems of_typed_lambda_calculi_moskvin_lecture02
 
20110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture0320110306 systems of_typed_lambda_calculi_moskvin_lecture03
20110306 systems of_typed_lambda_calculi_moskvin_lecture03
 
Pr i-7
Pr i-7Pr i-7
Pr i-7
 
Lecture 10 cont_joint_distr
Lecture 10 cont_joint_distrLecture 10 cont_joint_distr
Lecture 10 cont_joint_distr
 
Решение задач на собственные значения
Решение задач на собственные значенияРешение задач на собственные значения
Решение задач на собственные значения
 
Многочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближенийМногочлены наилучших среднеквадратичных приближений
Многочлены наилучших среднеквадратичных приближений
 
Методы численного интегрирования
Методы численного интегрированияМетоды численного интегрирования
Методы численного интегрирования
 
Сплайн интерполяция
Сплайн интерполяцияСплайн интерполяция
Сплайн интерполяция
 
20110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture0320110403 quantum algorithms_vyali_lecture03
20110403 quantum algorithms_vyali_lecture03
 
Phép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyếtPhép tính vector và tensor trong vật lý lý thuyết
Phép tính vector và tensor trong vật lý lý thuyết
 
Integral1
Integral1Integral1
Integral1
 
Лекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределенияЛекция 6. Совместный закон распределения
Лекция 6. Совместный закон распределения
 
Численное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод ЭйлераЧисленное решение ОДУ. Метод Эйлера
Численное решение ОДУ. Метод Эйлера
 
Структурное обучение и S-SVM
Структурное обучение и S-SVMСтруктурное обучение и S-SVM
Структурное обучение и S-SVM
 
Статистическое сравнение классификаторов
Статистическое сравнение классификаторовСтатистическое сравнение классификаторов
Статистическое сравнение классификаторов
 
Pr i-8
Pr i-8Pr i-8
Pr i-8
 
К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"К.В. Воронцов "Метрические методы классификации"
К.В. Воронцов "Метрические методы классификации"
 
4
44
4
 
Pr i-2
Pr i-2Pr i-2
Pr i-2
 

Destaque

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокTechnosphere1
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsolegshpynov
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05Computer Science Club
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & TricksDzianis Pirshtuk
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Локализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсЛокализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсArtyom Shklovets
 
Kaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learnt
Kaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learntKaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learnt
Kaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learntEugene Yan Ziyou
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, ЯндексYandex
 
живые сайты
живые сайтыживые сайты
живые сайтыzexzex
 
Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизацияprmegaindex
 

Destaque (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
Marta_Egorova
Marta_EgorovaMarta_Egorova
Marta_Egorova
 
20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & Tricks
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Локализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсЛокализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-Джонс
 
Kaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learnt
Kaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learntKaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learnt
Kaggle Otto Challenge: How we achieved 85th out of 3,514 and what we learnt
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
usereto
useretousereto
usereto
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, Яндекс
 
cjdk
cjdkcjdk
cjdk
 
up
upup
up
 
-
--
-
 
живые сайты
живые сайтыживые сайты
живые сайты
 
Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
 

Mais de Yandex

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовYandex
 
Поиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхПоиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхYandex
 

Mais de Yandex (20)

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатов
 
Поиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхПоиск списков в неструктурированных данных
Поиск списков в неструктурированных данных
 

К.В. Воронцов "Линейные методы классификации"

  • 1. Градиентные методы обучения Логистическая регрессия (LR) Метод опорных векторов (SVM) Балансировка ошибок и ROC-кривая Линейные методы классификации К. В. Воронцов vokov@forecsys.ru Этот курс доступен на странице вики-ресурса http://www.MachineLearning.ru/wiki «Машинное обучение (курс лекций, К.В.Воронцов)» 20 февраля 2010 К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 1 / 52
  • 2. Градиентные методы обучения Логистическая регрессия (LR) Метод опорных векторов (SVM) Балансировка ошибок и ROC-кривая Содержание 1 Градиентные методы обучения Минимизация эмпирического риска Линейный классификатор Метод стохастического градиента Регуляризация эмпирического риска 2 Логистическая регрессия (LR) Экспонентные семейства плотностей Принцип максимума правдоподобия Скоринг 3 Метод опорных векторов (SVM) Принцип оптимальной разделяющей гиперплоскости Двойственная задача Ядра и спрямляющие пространства Метод релевантных векторов (RVM) 4 Балансировка ошибок и ROC-кривая Постановка задачи Определение ROC-кривой Эффективное построение ROC-кривой К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 2 / 52
  • 3. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Задача построения разделяющей поверхности Задача классификации с двумя классами, Y = {−1, +1}: по обучающей выборке X ℓ = (xi , yi )ℓ построить i=1 алгоритм классификации a(x, w ) = sign f (x, w ), где f (x, w ) — дискриминантная функция, w — вектор параметров. f (x, w ) = 0 — разделяющая поверхность; Mi (w ) = yi f (xi , w ) — отступ (margin) объекта xi ; Mi (w ) < 0 ⇐⇒ алгоритм a(x, w ) ошибается на xi . Минимизация эмпирического риска: ℓ ℓ Q(w ) = Mi (w ) < 0 Q(w ) = L Mi (w ) → min; w i=1 i=1 функция потерь L (M) невозрастающая, неотрицательная. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 3 / 52
  • 4. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Непрерывные аппроксимации пороговой функции потерь Часто используемые функции потерь L (M): 5 V 4 L E 3 Q S 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 M 2 Q(M) = (1 − M) — квадратичная (ЛДФ); V (M) = (1 − M)+ — кусочно-линейная (SVM); S(M) = 2(1 + e M )−1 — сигмоидная (нейросети); L(M) = log2 (1 + e −M ) — логарифмическая (LR); E (M) = e −M — экспоненциальная (AdaBoost). К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 4 / 52
  • 5. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Связь с принципом максимума правдоподобия Пусть X × Y — в.п. с плотностью p(x, y |w ). Пусть X ℓ — простая выборка (i.i.d.) Максимизация правдоподобия: ℓ ℓ L(w ; X ℓ ) = ln p(xi , yi |w ) = ln p(xi , yi |w ) → max . w i=1 i=1 Минимизация аппроксимированного эмпирического риска: ℓ ℓ Q(w ; X ) = L yi f (xi , w ) → min; w i=1 Эти два принципа эквивалентны, если положить − ln p(xi , yi |w ) = L yi f (xi , w ) . модель p ⇄ модель f и функция потерь L . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 5 / 52
  • 6. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Линейный классификатор fj : X → R, j = 1, . . . , n — числовые признаки; Линейный алгоритм классификации: n a(x, w ) = sign wj fj (x) − w0 , j=1 где w0 , w1 , . . . , wn ∈ R — коэффициенты (веса признаков); Введём константный признак f0 ≡ −1. Векторная запись: a(x, w ) = sign w , x . Отступы объектов xi : Mi (w ) = w , xi yi . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 6 / 52
  • 7. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Похож ли нейрон на линейный классификатор? К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 7 / 52
  • 8. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Математическая модель нейрона Линейная модель нейрона МакКаллока-Питтса [1943]: n a(x, w ) = σ w , x =σ wj fj (x) − w0 , j=1 где σ(s) — функция активации (в частности, sign). @ABC GFED x1 OOO OO w GFED ZZZZ 1 OOOO'' @ABC x 2 w2 ZZZZ-- σ // ?>=< 89:; a ... oo77 ··· own o o NN ooo @ABC GFEDo xn w0 @ABC GFED −1 К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 8 / 52
  • 9. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Градиентный метод численной минимизации Минимизация аппроксимированного эмпирического риска: ℓ ℓ Q(w ; X ) = L w , xi yi → min . w i=1 Численная минимизация методом градиентного спуска: w (0) := начальное приближение; n ∂Q(w ) w (t+1) := w (t) − η · ∇Q(w (t) ), ∇Q(w ) = ∂wj , j=0 где η — градиентный шаг, называемый также темпом обучения. ℓ w (t+1) := w (t) − η L ′ w (t) , xi yi xi yi . i=1 Идея ускорения сходимости: брать (xi , yi ) по одному и сразу обновлять вектор весов. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 9 / 52
  • 10. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Алгоритм SG (Stochastic Gradient) Вход: выборка X ℓ ; темп обучения η; параметр λ; Выход: веса w0 , w1 , . . . , wn ; 1: инициализировать веса wj , j = 0, . . . , n; 2: инициализировать текущую оценку функционала: Q := ℓ L w , xi yi ; i=1 3: повторять 4: выбрать объект xi из X ℓ (например, случайно); 5: вычислить потерю: εi := L w , xi yi ; 6: градиентный шаг: w := w − ηL ′ w , xi yi xi yi ; 7: оценить значение функционала: Q := (1 − λ)Q + λεi ; 8: пока значение Q и/или веса w не стабилизируются; К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 10 / 52
  • 11. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Частный случай №1: дельта-правило ADALINE Задача регрессии: X = Rn , Y ⊆ R, L (a, y ) = (a − y )2 . Адаптивный линейный элемент ADALINE [Видроу и Хофф, 1960]: a(x, w ) = w , x Градиентный шаг — дельта-правило (delta-rule): w := w − η w , xi − yi xi ∆i ∆i — ошибка алгоритма a(x, w ) на объекте xi . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 11 / 52
  • 12. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Частный случай №2: правило Хэбба Задача классификации: X = Rn , Y = {−1, +1}, L (a, y ) = (− w , x y )+ . Линейный классификатор: a(x, w ) = sign w , x . Градиентный шаг — правило Хэбба [1949]: если w , xi yi < 0 то w := w + ηxi yi , Если X = {0, 1}n , Y = {0, +1}, то правило Хэбба переходит в правило перцептрона Розенблатта [1957]: w := w − η a(xi , w ) − yi xi . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 12 / 52
  • 13. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Обоснование Алгоритма SG с правилом Хэбба Задача классификации: X = Rn+1 , Y = {−1, 1}. Теорема (Новиков, 1962) Пусть выборка X ℓ линейно разделима: ∃w , ∃δ > 0: w , xi yi > δ для всех i = 1, . . . , ℓ. ˜ ˜ Тогда Алгоритм SG с правилом Хэбба находит вектор весов w , разделяющий обучающую выборку без ошибок; при любом начальном положении w (0) ; при любом темпе обучения η > 0; независимо от порядка предъявления объектов xi ; за конечное число исправлений вектора w ; 1 если w (0) = 0, то число исправлений tmax δ2 max xi . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 13 / 52
  • 14. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска SG: Инициализация весов Возможны варианты: 1 wj := 0 для всех j = 0, . . . , n; 2 небольшие случайные значения: 1 1 wj := random − 2n , 2n ; 3 наивный линейный байесовский классификатор по небольшой случайной подвыборке объектов; y ,fj 4 wj := fj ,fj , ℓ где fj = fj (xi ) i=1 — вектор значений j-го признака. Упражнение: в последнем случае доказать, что если функция потерь квадратична и признаки некоррелированы, то оценка w является оптимальной. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 14 / 52
  • 15. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска SG: Порядок предъявления объектов Возможны варианты: 1 перетасовка объектов (shuffling): попеременно брать объекты из разных классов; 2 чаще брать те объекты, на которых была допущена б´льшая ошибка о (чем меньше Mi , тем больше вероятность взять объект); 3 вообще не брать «хорошие» объекты, у которых Mi > µ+ (при этом немного ускоряется сходимость); 4 вообще не брать объекты-«выбросы», у которых Mi < µ− (при этом может улучшиться качество классификации); Параметры µ+ , µ− придётся подбирать. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 15 / 52
  • 16. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска SG: Выбор величины градиентного шага Возможны варианты: 1 сходимость гарантируется (для выпуклых функций) при ∞ ∞ ηt → 0, ηt = ∞, 2 ηt < ∞, t=1 t=1 в частности можно положить ηt = 1/t; 2 метод скорейшего градиентного спуска: Q w − η∇Q(w ) → min, η позволяет найти адаптивный шаг η ∗ ; 3 пробные случайные шаги — для «выбивания» из локальных минимумов; Упражнение: доказать, что при квадратичной функции потерь η ∗ = xi −2 . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 16 / 52
  • 17. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска SG: Достоинства и недостатки Достоинства: 1 легко реализуется; 2 легко обобщается на любые f , L ; 3 возможно динамическое (потоковое) обучение; 4 на сверхбольших выборках не обязательно брать все xi ; Недостатки: 1 возможна расходимость или медленная сходимость; 2 застревание в локальных минимумах; 3 подбор комплекса эвристик является искусством; 4 проблема переобучения; К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 17 / 52
  • 18. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска SG: Проблема переобучения Возможные причины переобучения: 1 слишком мало объектов; слишком много признаков; 2 линейная зависимость (мультиколлинеарность) признаков; 3 наличие «шумовых» неинформативных признаков; Симптоматика: 1 резкое увеличение w ; 2 неустойчивость классификации; 3 Q(X ℓ ) ≪ Q(X k ); Терапия: 1 ранний останов (early stopping); 2 сокращение весов (weight decay); К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 18 / 52
  • 19. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска SG: Сокращение весов Штраф за увеличение нормы вектора весов: τ Qτ (w ; X ℓ ) = Q(w ; X ℓ ) + w 2 → min . 2 w Градиент: ∇Qτ (w ) = ∇Q(w ) + τ w . Модификация градиентного шага: w := w (1 − ητ ) − η∇Q(w ). Подбор параметра регуляризации τ : 1 скользящий контроль; 2 стохастическая адаптация; 3 байесовский вывод второго уровня; К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 19 / 52
  • 20. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Обобщение: байесовская регуляризация p(x, y |w ) — вероятностная модель данных; p(w ; γ) — априорное распределение параметров модели; γ — вектор гиперпараметров; Теперь не только появление выборки X ℓ , но и появление модели w также полагается случайным. Совместное правдоподобие данных и модели: p(X ℓ , w ) = p(X ℓ |w ) p(w ; γ). Принцип максимума совместного правдоподобия: ℓ L(w , X ℓ ) = ln p(X ℓ , w ) = ln p(xi , yi |w ) + ln p(w ; γ) → max . w ,γ i=1 регуляризатор К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 20 / 52
  • 21. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Пример 1: квадратичный (гауссовский) регуляризатор Пусть w ∈ Rn имеет n-мерное гауссовское распределение: n 1 w 2 2 p(w ; σ) = exp − , w = wj2 , (2πσ)n/2 2σ j=1 т. е. все веса независимы, имеют нулевое матожидание и равные дисперсии σ; σ — гиперпараметр. Логарифмируя, получаем квадратичный регуляризатор: 1 2 − ln p(w ; σ) = w + const(w ). 2σ 1 Вероятностный смысл параметра регуляризации: τ = σ . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 21 / 52
  • 22. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Пример 2: лапласовский регуляризатор Пусть w ∈ Rn имеет n-мерное распределение Лапласа: n 1 w 1 p(w ; C ) = n exp − , w 1 = |wj |, (2C ) C j=1 т. е. все веса независимы, имеют нулевое матожидание и равные дисперсии; C — гиперпараметр. Логарифмируя, получаем регуляризатор по L1 -норме: n 1 − ln p(w ; C ) = |wj | + const(w ). C j=1 Почему этот регуляризатор приводит к отбору признаков? К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 22 / 52
  • 23. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Пример 2: лапласовский регуляризатор ℓ n ℓ 1 Q(w , X ) = ln p(xi , yi |w ) + |wj | → min . C w ,C i=1 j=1 Почему этот регуляризатор приводит к отбору признаков: Замена переменных: uj = 1 |wj | + wj , vj = 2 |wj | − wj . 2 1 Тогда wj = uj − vj и |wj | = uj + vj ;   ℓ n  Q(u, v ) = 1 L Mi (u − v , w0 ) + (uj + vj ) → min C u,v  i=1 j=1  u j 0, vj 0, j = 1, . . . , n; если uj = vj = 0, то вес wj = 0 и признак не учитывается. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 23 / 52
  • 24. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Регуляризация в линейных классификаторах В случае мультиколлинеарности — решение Q(w ) → min неединственно или неустойчиво; w — классификатор a(x; w ) неустойчив; — переобучение: Q(X ℓ ) ≪ Q(X k ). Регуляризация — это выбор наиболее устойчивого : решения — Гаусс — без отбора признаков; — Лаплас — с отбором признаков; — возможны и другие варианты... Выбор параметра регуляризации: — с помощью скользящего контроля; — с помощью оценок обобщающей способности; — стохастическая адаптация; — байесовский вывод второго уровня. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 24 / 52
  • 25. Градиентные методы обучения Минимизация эмпирического риска Логистическая регрессия (LR) Линейный классификатор Метод опорных векторов (SVM) Метод стохастического градиента Балансировка ошибок и ROC-кривая Регуляризация эмпирического риска Зоопарк методов Вид разделяющей поверхности f (x, w ): — линейная f (x, w ) = x, w ; — нелинейная; Вид непрерывной аппроксимации функции потерь L (M): — логарифмическая L (M) = log(1 + e −M ) . . . LR; — кусочно-линейная L (M) = (1 − M)+ . . . SVM; — экспоненциальная L (M) = e −M . . . AdaBoost; Вид регуляризатора − log p(w ; γ): — равномерный . . . персептроны, LR; — гауссовский с равными дисперсиями . . . SVM, RLR; — гауссовский с неравными дисперсиями . . . RVM; — лапласовский . . . приводит к отбору признаков; Вид численного метода оптимизации Q(w ) → min. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 25 / 52
  • 26. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Логистическая регрессия: базовые предположения X = Rn , Y = ±1, выборка X ℓ = (xi , yi )ℓ i.i.d. из i=1 p(x, y ) = Py py (x) = P(y |x)p(x) Функции правдоподобия py (x) экспонентные: py (x) = exp cy (δ) θy , x + by (δ, θy ) + d(x, δ) , где θy ∈ Rn — параметр сдвига; δ — параметр разброса; by , cy , d — произвольные числовые функции; причём параметры d(·) и δ не зависят от y . Класс экспонентных распределений очень широк: равномерное, нормальное, гипергеометрическое, пуассоновское, биномиальное, Γ-распределение, и др. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 26 / 52
  • 27. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Пример: гауссовская плотность — экспонентная Многомерное нормальное распределение, µ ∈ Rn , Σ ∈ Rn×n , является экспонентным: параметр сдвига θ = Σ−1 µ; параметр разброса δ = Σ. n 1 N (x; µ, Σ) = (2π)− 2 |Σ|− 2 exp − 1 (x − µ)т Σ−1 (x − µ) = 2 = exp µт Σ−1 x − 2 µт Σ−1 ΣΣ−1 µ − 1 θ,x b(δ,θ) − 2 x т Σ−1 x − 1 n 2 1 ln(2π) − 2 ln |Σ| . d(x,δ) К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 27 / 52
  • 28. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Основная теорема Оптимальный байесовский классификатор для двух классов: p+ (x) λ− P− a(x) = sign λ+ P(+1|x)−λ− P(−1|x) = sign − . p− (x) λ+ P+ Теорема Если py экспонентны, параметры d(·) и δ не зависят от y , и среди признаков f1 (x), . . . , fn (x) есть константа, то байесовский классификатор линеен: a(x) = sign w , x − w0 , w0 = ln(λ− /λ+ ); апостериорные вероятности классов: P(y |x) = σ w , x y , 1 где σ(z) = 1+e −z — логистическая (сигмоидная) функция. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 28 / 52
  • 29. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Обоснование логарифмической функции потерь Максимизация логарифма правдоподобия выборки: ℓ L(w , X ℓ ) = log p(xi , yi ) → max . w i=1 Подставим: p(x, y ) = P(y |x) · p(x) = σ w , x y · const(w ) ℓ L(w , X ℓ ) = log σ w , xi yi + const(w ) → max . w i=1 Максимизация L(w ) эквивалентна минимизации Q(w ): ℓ Q(w , X ℓ ) = log 1 + exp(− w , xi yi ) → min . w i=1 Mi (w ) К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 29 / 52
  • 30. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Логарифмическая функция потерь Логарифмическая функция потерь L (Mi ) = log2 1 + e −Mi и её наклонная асимптота. 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 30 / 52
  • 31. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Градиентный метод Производная сигмоидной функции: σ ′ (z) = σ(z)σ(−z). Вектор градиента функционала Q(w ): ℓ ∇Q(w ) = − yi xi σ −Mi (w ) . i=1 Градиентный шаг в методе стохастического градиента: w (t+1) := w (t) + η yi xi σ −Mi (w (t) ) , где (xi , yi ) — предъявляемый прецедент, η — темп обучения. Оказывается, это «сглаженный вариант» правила Хэбба: w (t+1) := w (t) + η yi xi Mi (w (t) ) < 0 . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 31 / 52
  • 32. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Сглаженное правило Хэбба Правило Хэбба: пороговое [Mi < 0] и сглаженное σ(−Mi ): 1.0 0.8 0.6 0.4 0.2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Mi 1 где σ(z) = 1+e −z — логистическая (сигмоидная) функция. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 32 / 52
  • 33. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Бинаризация признаков и скоринговая карта К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 33 / 52
  • 34. Градиентные методы обучения Экспонентные семейства плотностей Логистическая регрессия (LR) Принцип максимума правдоподобия Метод опорных векторов (SVM) Скоринг Балансировка ошибок и ROC-кривая Оценивание рисков Оценка риска (математического ожидания) потерь объекта x: R(x) = Dxy P(y |x) = Dxy σ w , x y , y ∈Y y ∈Y где Dxy — величина потери для (x, y ). Недостатки: трудно проверить, выполняются ли базовые предположения; т. е. оценка вероятности носит эвристический характер; Методика VaR (Value at Risk): ℓ 1000 раз: для каждого x разыгрывается исход y ; V = Dxy ; i=1 строится эмпирическое распределение величины V ; определяется α-квантиль распределения. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 34 / 52
  • 35. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Принцип максимума ширины разделяющей полосы Линейный классификатор: a(x) = sign w , x − w0 , w , x ∈ Rn , w0 ∈ R. Пусть выборка X ℓ = (xi , yi )ℓ линейно разделима: i=1 ∃w , w0 : Mi (w , w0 ) = yi w , xi − w0 > 0, i = 1, . . . , ℓ Нормировка: min Mi (w , w0 ) = 1. i=1,...,ℓ Разделяющая полоса: x: −1 w , x − w0 1 . x+ x− Ширина полосы: w x+ −x− , w 2 = → max . w w К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 35 / 52
  • 36. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Обоснование кусочно-линейной функции потерь Линейно разделимая выборка   w 2 → min ; w ,w0 Mi (w , w0 ) 1, i = 1, . . . , ℓ. Переход к линейно неразделимой выборке (эвристика)  ℓ 1   w 2+C  ξi → min ; 2 w ,w0 ,ξ i=1  Mi (w , w0 ) 1 − ξi , i = 1, . . . , ℓ;    ξi 0, i = 1, . . . , ℓ. Эквивалентная задача безусловной минимизации: ℓ 1 2 Q(w , w0 ) = 1 − Mi (w , w0 ) + + w → min . 2C w ,w0 i=1 К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 36 / 52
  • 37. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Задача поиска седловой точки функции Лагранжа Функция Лагранжа: L (w , w0 , ξ; λ, η) = ℓ ℓ 1 2 = w − λi Mi (w , w0 ) − 1 − ξi λi + η i − C , 2 i=1 i=1 λi — переменные, двойственные к ограничениям Mi 1 − ξi ; ηi — переменные, двойственные к ограничениям ξi 0.  L (w , w0 , ξ; λ, η) → min max;    w ,w0 ,ξ λ,η  ξi 0, λi 0, ηi 0, i = 1, . . . , ℓ; λ = 0 либо M (w , w ) = 1 − ξ , i = 1, . . . , ℓ;  i   i 0 i  ηi = 0 либо ξi = 0, i = 1, . . . , ℓ; К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 37 / 52
  • 38. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Необходимые условия седловой точки функции Лагранжа Функция Лагранжа: L (w , w0 , ξ; λ, η) = ℓ ℓ 1 2 = w − λi Mi (w , w0 ) − 1 − ξi λi + η i − C , 2 i=1 i=1 Необходимые условия седловой точки функции Лагранжа: ℓ ℓ ∂L =w− λ i yi xi = 0 =⇒ w= λ i yi xi ; ∂w i=1 i=1 ℓ ℓ ∂L =− λ i yi = 0 =⇒ λi yi = 0; ∂w0 i=1 i=1 ∂L = −λi − ηi + C = 0 =⇒ η i + λi = C , i = 1, . . . , ℓ. ∂ξi К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 38 / 52
  • 39. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Понятие опорного вектора Типизация объектов: 1. λi = 0; ηi = C ; ξi = 0; Mi 1. — периферийные (неинформативные) объекты. 2. 0 < λi < C ; 0 < ηi < C ; ξi = 0; Mi = 1. — опорные граничные объекты. 3. λi = C ; ηi = 0; ξi > 0; Mi < 1. — опорные-нарушители. Определение Объект xi называется опорным, если λi = 0. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 39 / 52
  • 40. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Двойственная задача  ℓ ℓ ℓ   1  −L (λ) = − λi + λ i λ j yi yj xi , xj → min;   2 λ  i=1 i=1 j=1  0 λi C ,  i = 1, . . . , ℓ;  ℓ    λi yi = 0.  i=1 Решение прямой задачи выражается через решение двойственной:   ℓ w = λyx; i i i i=1  w = w , x − y , 0 i i для любого i: λi > 0, Mi = 1. Линейный классификатор: ℓ a(x) = sign λ i y i x i , x − w0 . i=1 К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 40 / 52
  • 41. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Нелинейное обобщение SVM Переход к спрямляющему пространству более высокой размерности: ψ : X → H. Определение Функция K : X × X → R — ядро, если K (x, x ′ ) = ψ(x), ψ(x ′ ) при некотором ψ : X → H, где H — гильбертово пространство. Теорема Функция K (x, x ′ ) является ядром тогда и только тогда, когда она симметрична: K (x, x ′ ) = K (x ′ , x); и неотрицательно определена: ′ ′ ′ 0 для любой g : X → R. X X K (x, x )g (x)g (x )dxdx К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 41 / 52
  • 42. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Конструктивные методы синтеза ядер 1 K (x, x ′ ) = x, x ′ — ядро; 2 константа K (x, x ′ ) = 1 — ядро; 3 произведение ядер K (x, x ′ ) = K1 (x, x ′ )K2 (x, x ′ ) — ядро; 4 ∀ψ : X → R произведение K (x, x ′ ) = ψ(x)ψ(x ′ ) — ядро; 5 K (x, x ′ ) = α1 K1 (x, x ′ ) + α2 K2 (x, x ′ ) при α1 , α2 > 0 — ядро; 6 ∀ϕ : X →X если K0 ядро, то K (x, x ′ ) = K0 (ϕ(x), ϕ(x ′ )) — ядро; 7 если s : X × X → R — симметричная интегрируемая функция, то K (x, x ′ ) = X s(x, z)s(x ′ , z) dz — ядро; 8 если K0 — ядро и функция f : R → R представима в виде сходящегося степенного ряда с неотрицательными коэффициентами, то K (x, x ′ ) = f K0 (x, x ′ ) — ядро; К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 42 / 52
  • 43. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Примеры ядер 1 K (x, x ′ ) = x, x ′ 2 — квадратичное ядро; 2 K (x, x ′ ) = x, x ′ d — полиномиальное ядро с мономами степени d; d 3 K (x, x ′ ) = x, x ′ + 1 — полиномиальное ядро с мономами степени d; 4 K (x, x ′ ) = th k0 + k1 x, x ′ — нейросеть с сигмоидными функциями активации; 5 K (x, x ′ ) = exp −β x − x ′ 2 — сеть радиальных базисных функций; К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 43 / 52
  • 44. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) SVM как двухслойная нейронная сеть Перенумеруем объекты так, чтобы x1 , . . . , xh были опорными. h a(x) = sign λi yi K (x, xi ) − w0 . i=1 @ABC 1 GFED x1 // K (x, x1 ) x1 ? ?? ?? SSS 1 xh ?  S λ1 y1 SS ??   S)) ··· ? ?  ?? ··· sign // a(x) n x1 ?? kkk55 HH ? kλh yh  kkkk @ABC n GFED xh x n // K (x, xh ) w0 @ABC GFED −1 К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 44 / 52
  • 45. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Преимущества и недостатки SVM Преимущества SVM перед SG: Задача выпуклого квадратичного программирования имеет единственное решение. Число нейронов скрытого слоя определяется автоматически — это число опорных векторов. Недостатки SVM: Неустойчивость к шуму. Нет общих подходов к оптимизации K (x, x ′ ) под задачу. Приходится подбирать константу C . К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 45 / 52
  • 46. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Машина релевантных векторов RVM Положим, как и в SVM, при некоторых λi 0 ℓ w= λ i yi xi , i=1 причём опорным векторам xi соответствуют λi = 0. Проблема: Какие из коэффициентов λi лучше обнулить? Идея: байесовский регуляризатор зависит не от w , а от λi . Пусть λi независимые, гауссовские, с дисперсиями αi : ℓ 1 λ2 i p(λ) = √ exp − ; (2π)ℓ/2 α1 · · · αℓ i=1 2αi ℓ ℓ 1 λ2 i Q(w ) = L Mi (w (λ)) + ln αi + → min . 2 αi λ,α i=1 i=1 К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 46 / 52
  • 47. Градиентные методы обучения Принцип оптимальной разделяющей гиперплоскости Логистическая регрессия (LR) Двойственная задача Метод опорных векторов (SVM) Ядра и спрямляющие пространства Балансировка ошибок и ROC-кривая Метод релевантных векторов (RVM) Преимущества RVM перед SVM Опорных векторов, как правило, меньше (более «разреженное» решение). Шумовые выбросы уже не входят в число опорных. Не надо искать параметр регуляризации (вместо этого αi оптимизируются в процессе обучения). Аналогично SVM, можно использовать ядра. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 47 / 52
  • 48. Градиентные методы обучения Постановка задачи Логистическая регрессия (LR) Определение ROC-кривой Метод опорных векторов (SVM) Эффективное построение ROC-кривой Балансировка ошибок и ROC-кривая Балансировка ошибок I и II рода. Постановка задачи Задача классификации на два класса, Y = {−1, +1}; λy — штраф за ошибку на объекте класса y ; модель алгоритмов a(x, w , w0 ) = sign f (x, w ) − w0 , В логистической регрессии: f (x, w ) = x, w — не зависит от {λy }; w0 = ln λ−1 — зависит только от {λy }. λ+1 На практике штрафы {λy } могут многократно пересматриваться. Постановка задачи Нужен удобный способ выбора w0 в зависимости от {λy }, не требующий построения w заново. Нужна характеристика качества классификатора, инвариантная относительно выбора {λy }. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 48 / 52
  • 49. Градиентные методы обучения Постановка задачи Логистическая регрессия (LR) Определение ROC-кривой Метод опорных векторов (SVM) Эффективное построение ROC-кривой Балансировка ошибок и ROC-кривая Определение ROC-кривой ROC — «receiver operating characteristic». Каждая точка кривой соответствует некоторому a(x; w , w0 ). по оси X: доля ошибочных положительных классификаций (FPR — false positive rate): ℓ i=1 [yi = −1][a(xi ; w , w0 ) = +1] FPR(a, X ℓ ) = ℓ ; i=1 [yi = −1] 1 − FPR(a) называется специфичностью алгоритма a. по оси Y: доля правильных положительных классификаций (TPR — true positive rate): ℓ i=1 [yi = +1][a(xi ; w , w0 ) = +1] TPR(a, X ℓ ) = ℓ ; i=1 [yi = +1] TPR(a) называется также чувствительностью алгоритма a. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 49 / 52
  • 50. Градиентные методы обучения Постановка задачи Логистическая регрессия (LR) Определение ROC-кривой Метод опорных векторов (SVM) Эффективное построение ROC-кривой Балансировка ошибок и ROC-кривая Пример ROC-кривой TPR, true positive rate, % 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 FPR, false positive rate, % AUC, ɩɥɨɳɚɞɶ ɩɨɞ ROC-ɤɪɢɜɨɣ ɧɚɢɯɭɞɲɚɹ ROC-ɤɪɢɜɚɹ К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 50 / 52
  • 51. Градиентные методы обучения Постановка задачи Логистическая регрессия (LR) Определение ROC-кривой Метод опорных векторов (SVM) Эффективное построение ROC-кривой Балансировка ошибок и ROC-кривая Алгоритм эффективного построения ROC-кривой Вход: выборка X ℓ ; дискриминантная функция f (x, w ); ℓ Выход: (FPRi , TPRi ) i=0 , AUC — площадь под ROC-кривой. 1: ℓy := ℓ [yi = y ], для всех y ∈ Y ; i=1 2: упорядочить выборку X ℓ по убыванию значений f (xi , w ); 3: поставить первую точку в начало координат: (FPR0 , TPR0 ) := (0, 0); AUC := 0; 4: для i := 1, . . . , ℓ 5: если yi = −1 то сместиться на один шаг вправо: 6: FPRi := FPRi−1 + ℓ1 ; TPRi := TPRi−1 ; − AUC := AUC + ℓ1 TPRi ; − 7: иначе сместиться на один шаг вверх: 8: FPRi := FPRi−1 ; TPRi := TPRi−1 + ℓ1 ; + К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 51 / 52
  • 52. Градиентные методы обучения Логистическая регрессия (LR) Метод опорных векторов (SVM) Балансировка ошибок и ROC-кривая Резюме в конце лекции Методы обучения линейных классификаторов отличаются — видом функции потерь; — видом регуляризатора; — численным методом оптимизации. Аппроксимация пороговой функции потерь гладкой убывающей функцией отступа L (M) повышает качество классификации (за счёт увеличения зазора) и облегчает оптимизацию. Регуляризация решает проблему мультиколлинеарности и также снижает переобучение. На практике ROC-кривую строят по контрольной выборке. Существуют методы обучения, минимизирующие AUC. К. В. Воронцов (www.ccas.ru/voron) Линейные методы классификации 52 / 52