SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
Evaluando sistemas
                   ´
    de recomendacion

      Blanca Vargas Govea

                                   ´
  Grupo de Sistemas de Recomendacion
Departamento de Ciencias Computacionales
                CENIDET


    30 de noviembre de 2011
Contenido


1             ´
    Introduccion

2   Metodolog´a
             ı

3   Lo m´nimo para evaluar
        ı

4   Por grupos

5   Atributos de contexto

6   Conclusiones



Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   2 / 34
´
¿Por que evaluar?



    Mostrar que el sistema
    cumple su objetivo.


    Analizar deficiencias y
    corregirlas.


               ´
    Comparacion con otros
    sistemas/algoritmos.




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   3 / 34
Dificultades 1/2



    Gran cantidad de
    algoritmos.

    Distintas tareas.

    No hay metodolog´aı
       ´
    estandar (¿es viable?)

    Cuestionamiento en
                ´
    elegir las metricas.




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   4 / 34
Dificultades 2/2



    Escasez de datos de
    prueba.

    No se consideran las
    diferencias de los
    sistemas.

               ´
    La evaluacion no refleja
    aspectos destacables.

    El mismo esquema de
            ´
    evaluacion no funciona
    para todos.


Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   5 / 34
´       ´
¿Que se esta haciendo?


            ´
    Nuevas metricas.

    Busqueda de
     ´
    metodolog´a unica.
             ı ´

    Enfoques centrados en
    el usuario.

    Tomar en cuenta las
    caracter´sticas de los
            ı
    datos.

Nuestro enfoque
  ´
Analisis estad´stico-particionamiento y de atributos de contexto.
              ı


Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   6 / 34
Metodolog´a
         ı




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   7 / 34
´
¿Como?


                                                                  35                                                                0.8

                                                                  30                                                                0.7
                                                                  25
                                                                                                                                    0.6                                                                        dataset
                                                                  20




                                                                                                                        Precision
                                                                                                                                                                                                                   TopU.pop




                                                        Ratings
                                                                                                                                    0.5
                                                                  15                                                                                                                                               TopU.nopop
                                                                                                                                    0.4                                                                            BottomU.pop
                                                                  10
                                                                                                                                                                                                                   BottomU.nopop
                                                                  5                                                                 0.3

                                                                  0




                                                                         0
                                                                        10
                                                                        20
                                                                        30
                                                                        40
                                                                        50
                                                                        60
                                                                        70
                                                                        80
                                                                        90
                                                                       100
                                                                       110
                                                                       120
                                                                       130




                                                                                                                                                 0.1
                                                                                                                                                        0.2
                                                                                                                                                              0.3
                                                                                                                                                                    0.4
                                                                                                                                                                          0.5
                                                                                                                                                                                 0.6
                                                                                                                                                                                       0.7
                                                                                                                                                                                             0.8
                                                                                                                                                                                                   0.9
                                                                                                                                                                                                         1.0
                                                                       Restaurants                                                                            Lambda



                                                                                         0.35

                                                                                         0.30

                                                                                         0.25
                                                                                                                                                                      dataset




                                                                                Recall
                                                                                         0.20
                                                                                                                                                                                popular
                                                                                         0.15                                                                                   no_popular

                                                                                         0.10




                                                                                                0.1
                                                                                                      0.2
                                                                                                            0.3
                                                                                                                  0.4
                                                                                                                           0.5
                                                                                                                                     0.6
                                                                                                                                           0.7
                                                                                                                                                  0.8
                                                                                                                                                          0.9
                                                                                                                                                                1.0
                                                                                                            Lambda




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion                                               30 de noviembre de 2011                                                                                          8 / 34
Sistema a evaluar: Surfeous



                                                 ´
                Prototipo de sistema de informacion contextual.

     Filtrado colaborativo.

     Fusiona enfoque social y contextual.

     Social: extiende el enfoque usuario-item-rating con anotaciones.

     Contexto: incorpora modelos de contexto: entorno, usuario y
               ı                    ´
     servicio (´tem). Uso de web semantica, ontolog´as.
                                                   ı




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   9 / 34
Sistema a evaluar: Surfeous




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   10 / 34
Lo m´nimo
    ı




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   11 / 34
´
Identificacion de la tarea




      Mostrar todos los ´tems encontrados.
                        ı

              ´
      Prediccion del rating.

      Mostrar secuencia de ´tems (e.g., musica).
                           ı             ´
                                                     √
      Lista ordenada de ´tems (top n).
                        ı




 Blanca Vargas Govea (CENIDET)                                    ´
                                 Evaluando sistemas de recomendacion   30 de noviembre de 2011   12 / 34
´
Descripcion de datos
          Usuario      ´tem
                       I         Rating
                                                                                                 35
          id01         253       0
                                                                                                 30
          id02         253       1                                                               25
          id02         258       0                                                               20




                                                                           Ratings
          ...                                                                                    15

          id138        247       2                                                               10

                                                                                                 5

                                                                                                 0




                                                                                                        0
                                                                                                       10
                                                                                                       20
                                                                                                       30
                                                                                                       40
                                                                                                       50
                                                                                                       60
                                                                                                       70
                                                                                                       80
                                                                                                       90
                                                                                                      100
                                                                                                      110
                                                                                                      120
                                                                                                      130
 top     ´tem
         I        Freq       pcj     pcj acum.                                                           Restaurants

 1       5085     36         3.10    3.10
                                                                                                 100
 2       2825     33         2.75    5.85                                                         90

 3       5032     28         2.41    8.26                                                         80




                                                                           Number of ratings %
                                                                                                  70
 ...                                                                                              60
                                                                                                  50
 33      5046     11         0.948   49.31                                                        40

 ...                                                                                              30
                                                                                                  20
 130     5016     3          0.259   100 %                                                        10
                                                                                                     0




                                                                                                           0
                                                                                                          10
                                                                                                          20
                                                                                                          30
                                                                                                          40
                                                                                                          50
                                                                                                          60
                                                                                                          70
                                                                                                          80
                                                                                                          90
                                                                                                         100
                                                                                                         110
                                                                                                         120
                                                                                                         130
Cuadro: Frecuencia acumulada ´tems
                             ı                                                                              Items




                                                       Figura: Power law distribution, top 33
          Usuario      ´tem
                       I         Rating                ≈ 50 %.
          138          130       1161
 Blanca Vargas Govea (CENIDET)                                        ´
                                     Evaluando sistemas de recomendacion                                 30 de noviembre de 2011   13 / 34
Esquema entrenamiento - prueba
Leave one out. Conjunto de prueba: se extrae aleatoriamente una
instancia (usuario,´tem, rating) por cada usuario. Las instancias
                   ı
restantes forman el conjunto de entrenamiento.

   n         Usuario     ´tem
                         I      Rating                      n         Usuario     ´tem
                                                                                  I         Rating
   1         id01        253    0                           1         id01        253       0
   2         id02        253    1                           2         id02        253       1
   3         id02        258    0                           3         id02        258       0
   ...                                                      ...
   1161      id138        247   2                           1023      id138       247       2

             Cuadro: Todos                            Cuadro: Conjunto de entrenamiento

    n       Usuario      ´tem
                         I      Rating
    1       id01         253    0                   Repeticiones
    2       id02         253    1
    3       id03         258    0                   10 veces por cada experimento.
    ...
    138     id138        247    2

   Cuadro: Conjunto de prueba
Blanca Vargas Govea (CENIDET)                                        ´
                                    Evaluando sistemas de recomendacion       30 de noviembre de 2011   14 / 34
´      ´
Seleccion de metricas



                   ´
                  Metrica                                       Tarea
                            1 n              2
                  MSE =     n i=1 (pi − ai )                            ´
                                                                Prediccion de ratings
                              1    n              2
                  RMSE =      n    i=1 (pi − ai )                       ´
                                                                Prediccion de ratings
                              Relevantes recuperados
                  Precision =      Recuperados
                                                     y          Top n
                  Recuerdo = Relevantes recuperados
                                     Relevantes
                  ROC                                           Top n
                          TP
                  TPR = TP+FN
                          FP
                  FPR = FP+TN
                           1       k   2relevance score(i) −1
                  NDCGk = Z        i=1       log2 (i+1)
                                                                Top n




Blanca Vargas Govea (CENIDET)                                       ´
                                   Evaluando sistemas de recomendacion       30 de noviembre de 2011   15 / 34
´
Precision/Recuerdo
Evalua la capacidad del sistema de mostrar el ´tem esperado en la
      ´                                       ı
lista.
               Relevantes recuperados
       ´
Precision =         Recuperados
Recuerdo      = Relevantes recuperados
                      Relevantes
   ´ı
¿Que ´tems son relevantes? posibles respuestas:

    Los que aparecen en la lista y que
       ´
    estan en el conjunto de prueba.
    Los que el usuario considera
                                ´
    utiles y toma la recomendacion.
    ´
    Los que aparecen dentro de las
    primeras n posiciones de la lista y
       ´
    estan en el conjunto de prueba.



Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   16 / 34
´
Precision/Recuerdo: ejemplo

Tenemos 5 usuarios en el conjunto de prueba. Para cada usuario se
                                                   ´
realizan 11 queries en un sistema de recomendacion variando un
    ´                                                  ´
parametro (0,0-1,0). Los resultados muestran la posicion en la que
                                    ´
aparece el ´tem. Obtener la precision y el recuerdo del sistema para
           ı
las 5 primeras posiciones de la lista.

                    Usuario                              ´
                                                 Precision             Recuerdo
                    u1:{3,3,3,3,2,3,2,4,8}       0.88 (8/9)            0.73 (8/11)
                    u2:{2,2,6,8}                 0.5 (2/4)             0.18 (2/11)
                    u3:{10,7,7,6,9,9,8,7,10}     0 (0/4)               0 (0/11)
                    u4:{2,2,2,2,2,2,3,4}         1 (8/8)               0 (8/11)
                    u5:{5,5,5,6,8}               0.6 (3/5)             0.27 (3/11)
                    Promedio                     0.596 (2.98/5)        0.38 (1.9/5)

               ´                                               ´
Cuadro: Precision/Recuerdo: Para obtener el promedio, la division es entre el
numero de usuarios en el conjunto de prueba, no sobre los usuarios
  ´
recuperados. Algunos usuarios no reciben recomendaciones.



Blanca Vargas Govea (CENIDET)                                     ´
                                 Evaluando sistemas de recomendacion       30 de noviembre de 2011   17 / 34
NDCG: Normalized Discounted Cumulative Gain

Evalua la capacidad del sistema de mostrar el ´tem en las primeras
    ´                                         ı
posiciones.

                      1         k   2relevance score(i) −1
     NDCGk =          Z         i=1       log2 (i+1)

     Supongamos que en un query para un usuario, el ´tem esperado
                                                         ı
             ´             ´
     aparecio en la posicion 4 de la lista. Esto se representa como:
     {0,0,0,1,0,0,0,0,0,0}
       k     1    2        3         4        5         6        7           8        9        10
             1    0.63     0.5       0.43     0.38      0.35     0.33        0.32     0.30     0.29


                                            21 −1
     DCG4 = 0 + 0 + 0 +                  log2 (4+1)   = 0,43



Blanca Vargas Govea (CENIDET)                                           ´
                                       Evaluando sistemas de recomendacion          30 de noviembre de 2011   18 / 34
´
¿Y ahora? receta para evaluacion
Ingredientes:
                              ´
      1 sistema de recomendacion contextual (Surfeous).
          ´
      2 metricas definidas.
      10 pares de conjuntos para entrenamiento/prueba.
                             ´
      Lenguaje de programacion (sugerencia: lenguaje de scripts).
Modo de hacerse:
  1                                       ´
      Ejecutar el sistema de recomendacion para cada par de
      conjuntos: entrenar y mostrar los datos de prueba.
  2   Surfeous* da como resultados las posiciones en las que aparece
      (si aparece) el ´tem esperado (i.e., el del conjunto de prueba).
                      ı
               ´
      Obtendras 10 conjuntos de resultados.
  3                ´
      Aplicar las metricas a los resultados. Promediar.
  4   Graficar.
* La informacion de salida depende del sistema.
              ´
Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   19 / 34
Resultado

                                                                      0.70


                                                                      0.65


                                                                      0.60




                                                          Precision
                                                                                                                                                       subset
                                                                      0.55                                                                                 All

                                                                      0.50


                                                                      0.45




                                                                                   0.1

                                                                                         0.2

                                                                                                0.3

                                                                                                      0.4

                                                                                                            0.5

                                                                                                                  0.6

                                                                                                                        0.7

                                                                                                                               0.8

                                                                                                                                     0.9

                                                                                                                                                 1.0
                                                                                                  Lambda



                                                                      0.35


                                                                      0.30


                                                                      0.25




                                                          Recall
                                                                                                                                                       subset
                                                                      0.20                                                                                 All

                                                                      0.15




                                                                             0.0


                                                                                          0.2


                                                                                                      0.4


                                                                                                                  0.6


                                                                                                                              0.8


                                                                                                                                           1.0
                                                                                                  Lambda



                                                                      0.56

                                                                      0.54

                                                          NDCG        0.52

                                                                      0.50                                                                             subset
                                                                                                                                                           All
                                                                      0.48

                                                                      0.46
                                                                             0.0


                                                                                          0.2


                                                                                                      0.4


                                                                                                                  0.6


                                                                                                                              0.8


                                                                                                                                           1.0
                                                                                                  Lambda



Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion                                               30 de noviembre de 2011                        20 / 34
Por grupos




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   21 / 34
´                           ´
¿Por que? ¿no basta con la evaluacion anterior?


Muestra la capacidad del sistema para generar recomendaciones para
distintas caracter´sticas de los datos.
                  ı

       ´
    ¿Como se comporta para
    recomendar ´tems
                ı
    no-populares?
    ¿Y para usuarios con pocos
    ratings?
         ´
    ¿Que hace cuando hay mayor
    numero de ´tems que de
      ´        ı
    usuarios? ¿y viceversa?




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   22 / 34
Popularidad de ´tems
               ı
                0.70                                                                                                                      0.35
                0.68
                                                                                                                                          0.30
                0.66
                0.64                                                                                                                      0.25
                0.62
    Precision




                                                                                      dataset                                                                                                                        dataset




                                                                                                                                 Recall
                0.60                                                                                                                      0.20
                                                                                             popular                                                                                                                     popular
                0.58
                                                                                             no_popular                                   0.15                                                                           no_popular
                0.56
                0.54                                                                                                                      0.10
                0.52
                       0.1
                             0.2
                                   0.3
                                         0.4
                                               0.5
                                                     0.6
                                                           0.7
                                                                   0.8
                                                                          0.9
                                                                                1.0




                                                                                                                                                         0.1
                                                                                                                                                               0.2
                                                                                                                                                                     0.3
                                                                                                                                                                           0.4
                                                                                                                                                                                 0.5
                                                                                                                                                                                       0.6
                                                                                                                                                                                             0.7
                                                                                                                                                                                                   0.8
                                                                                                                                                                                                         0.9
                                                                                                                                                                                                               1.0
                                   Lambda                                                                                                                            Lambda


                                                                        0.56

                                                                        0.54

                                                                        0.52

                                                                        0.50                                                                            dataset
                                                                 NDCG




                                                                                                                                                               popular
                                                                        0.48
                                                                                                                                                               no_popular
                                                                        0.46
                                                                                       0.1
                                                                                             0.2
                                                                                                   0.3
                                                                                                         0.4
                                                                                                               0.5
                                                                                                                     0.6
                                                                                                                           0.7
                                                                                                                                    0.8
                                                                                                                                            0.9
                                                                                                                                                  1.0



                                                                                                   Lambda




Blanca Vargas Govea (CENIDET)                                                                                    ´
                                                                                Evaluando sistemas de recomendacion                                                                    30 de noviembre de 2011                        23 / 34
´
Ratings. Usuarios con mas ratings.
                0.8                                                                                                                     0.35

                                                                                                                                        0.30
                0.7
                                                                                                                                        0.25
                0.6
    Precision




                                                                                    dataset                                                                                                                       dataset




                                                                                                                               Recall
                                                                                                                                        0.20
                0.5                                                                        TopU.pop                                                                                                                   TopU.pop
                                                                                                                                        0.15
                                                                                           TopU.nopop                                                                                                                 TopU.nopop
                0.4
                                                                                                                                        0.10
                0.3                                                                                                                     0.05
                      0.1
                            0.2
                                  0.3
                                        0.4
                                              0.5
                                                    0.6
                                                          0.7
                                                                0.8
                                                                        0.9
                                                                              1.0




                                                                                                                                                      0.1
                                                                                                                                                            0.2
                                                                                                                                                                  0.3
                                                                                                                                                                        0.4
                                                                                                                                                                              0.5
                                                                                                                                                                                    0.6
                                                                                                                                                                                          0.7
                                                                                                                                                                                                0.8
                                                                                                                                                                                                      0.9
                                                                                                                                                                                                            1.0
                                   Lambda                                                                                                                         Lambda




                                                                       0.58
                                                                       0.56
                                                                       0.54
                                                                       0.52
                                                                                                                                                     dataset
                                                                NDCG




                                                                       0.50
                                                                                                                                                            TopU.pop
                                                                       0.48
                                                                       0.46                                                                                 TopU.nopop
                                                                       0.44
                                                                       0.42
                                                                                     0.1
                                                                                           0.2
                                                                                                 0.3
                                                                                                       0.4
                                                                                                             0.5
                                                                                                                   0.6
                                                                                                                         0.7
                                                                                                                                0.8
                                                                                                                                         0.9
                                                                                                                                               1.0




                                                                                                 Lambda




Blanca Vargas Govea (CENIDET)                                                                                   ´
                                                                               Evaluando sistemas de recomendacion                                                                  30 de noviembre de 2011                        24 / 34
Ratings. Usuarios con menos ratings.
                0.70
                                                                           0.35
                0.65
                                                                           0.30

                0.60                                                       0.25
    Precision




                                          dataset                                                           dataset




                                                                  Recall
                0.55                                                       0.20
                                                BottomU.pop                                                     BottomU.pop
                                                BottomU.nopop              0.15                                 BottomU.nopop
                0.50
                                                                           0.10
                0.44
                                                                           0.05
                       0.1
                       0.2
                       0.3
                       0.4
                       0.5
                       0.6
                       0.7
                       0.8
                       0.9
                       1.0




                                                                                  0.1
                                                                                  0.2
                                                                                  0.3
                                                                                  0.4
                                                                                  0.5
                                                                                  0.6
                                                                                  0.7
                                                                                  0.8
                                                                                  0.9
                                                                                  1.0
                       Lambda                                                           Lambda



                                       0.55


                                       0.50

                                                                              dataset
                                NDCG




                                       0.45
                                                                                  BottomU.pop
                                                                                  BottomU.nopop
                                       0.40


                                       0.35
                                                0.1
                                                0.2
                                                0.3
                                                0.4
                                                0.5
                                                0.6
                                                0.7
                                                0.8
                                                0.9
                                                1.0




                                                     Lambda




Blanca Vargas Govea (CENIDET)                                                  ´
                                              Evaluando sistemas de recomendacion                 30 de noviembre de 2011       25 / 34
´
Distribucion usuarios-´tems.
                      ı
                 0.75                                                       0.50

                                                                            0.45
                 0.70
                                                                            0.40
                 0.65
                                                                            0.35
     Precision




                                          dataset                                                             dataset




                                                                   Recall
                 0.60                                                       0.30
                                                lessU.moreItems                                                   lessU.moreItems
                 0.55                           moreU.lessItems             0.25                                  moreU.lessItems
                                                                            0.20
                 0.50
                                                                            0.15
                        0.1
                        0.2
                        0.3
                        0.4
                        0.5
                        0.6
                        0.7
                        0.8
                        0.9
                        1.0




                                                                                    0.1
                                                                                    0.2
                                                                                    0.3
                                                                                    0.4
                                                                                    0.5
                                                                                    0.6
                                                                                    0.7
                                                                                    0.8
                                                                                    0.9
                                                                                    1.0
                        Lambda                                                           Lambda


                                        0.60
                                        0.58
                                        0.56
                                        0.54
                                        0.52
                                                                              dataset
                                 NDCG




                                        0.50
                                                                                   lessU.moreItems
                                        0.48
                                        0.46                                       moreU.lessItems
                                        0.44
                                        0.42
                                                 0.1
                                                 0.2
                                                 0.3
                                                 0.4
                                                 0.5
                                                 0.6
                                                 0.7
                                                 0.8
                                                 0.9
                                                 1.0




                                                      Lambda




 Blanca Vargas Govea (CENIDET)                                                  ´
                                               Evaluando sistemas de recomendacion                   30 de noviembre de 2011        26 / 34
Atributos de contexto




 Blanca Vargas Govea (CENIDET)                                    ´
                                 Evaluando sistemas de recomendacion   30 de noviembre de 2011   27 / 34
Atributos: posibles dificultades

     Problemas de
     dimensionalidad: lentitud.


                ˜
     Desempeno predictivo:
     atributos redundantes e
     irrelevantes.


     Exceso de informacion  ´
     solicitada al usuario.


         ˜
     Diseno de interfaz.

 Blanca Vargas Govea (CENIDET)                                    ´
                                 Evaluando sistemas de recomendacion   30 de noviembre de 2011   28 / 34
Surfeous: atributos de contexto


         Service model (23 attributes)
         latitude,longitude,address,city,state,country,fax,ZIP,
         alcohol,smoking,dress,accessibility,price,franchise,
         ambiance,space,services,parking,cuisine,phone,accepts,
         days,hours
         User model (21 attributes)
         latitude,longitude,smoking,alcohol,dress,ambiance,age,
         transportation,marital-status,children,interests,
         personality,religion,occupation,favorite-color,weight,
         height,budget,accepts,accessibility,cuisine
         Environment model (2 attributes)
         time,weather



 Blanca Vargas Govea (CENIDET)                                    ´
                                 Evaluando sistemas de recomendacion   30 de noviembre de 2011   29 / 34
´
¿Que se hizo? (1/2)


 1           ´
     Se eligio el modelo de servicio.

 2              ´
     Se construyo una tabla: item, at1, ..., at23, rating.

 3                ´                         ´
     Se selecciono un algoritmo de seleccion de atributos que tomara
                           ´
     en cuenta la correlacion entre atributos (Weka).

 4   Se obtuvo el sub-conjunto: days, hours, accepts, cuisine.

 5           ´
     Se evaluo ahora con el sub-conjunto.

 6           ´
     Se evaluo eliminando un atributo a la vez (sub-conjuntos de 3).



Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   30 / 34
´
¿Que se hizo? (2/2)




Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   31 / 34
´
Resultados seleccion de atributos.
                 0.70                                                                                               0.35


                 0.65                                                                    subset                     0.30                                                         subset
                                                                                             All                                                                                     All
                 0.60                                                                                               0.25
     Precision




                                                                                             B                                                                                       B




                                                                                                           Recall
                                                                                             C                                                                                       C
                 0.55                                                                                               0.20
                                                                                             D                                                                                       D
                 0.50                                                                        E                      0.15                                                             E
                                                                                             F                                                                                       F
                 0.45
                        0.1

                              0.2

                                    0.3

                                          0.4

                                                0.5

                                                      0.6

                                                              0.7

                                                                     0.8

                                                                             0.9

                                                                                   1.0




                                                                                                                             0.0


                                                                                                                                         0.2


                                                                                                                                                     0.4


                                                                                                                                                               0.6


                                                                                                                                                                     0.8


                                                                                                                                                                           1.0
                                      Lambda                                                                                                   Lambda


                                                              0.56

                                                              0.54
                                                                                                                                          subset
                                                              0.52                                                                             All
                                                                                                                                               B
                                                       NDCG




                                                              0.50
                                                                                                                                               C
                                                              0.48                                                                             D
                                                                                                                                               E
                                                              0.46
                                                                                                                                               F
                                                                           0.0


                                                                                     0.2


                                                                                                   0.4


                                                                                                         0.6


                                                                                                                       0.8



                                                                                            Lambda                                 1.0


All: {Todos los atributos}, B:{accepts,cuisine,hours,days}, C:{cuisine,hours,days},D:
{accepts,hours,days},E: {accepts,cuisine,days}, F:{accepts,hours,cuisine}
 Blanca Vargas Govea (CENIDET)                                                                        ´
                                                                     Evaluando sistemas de recomendacion                                                   30 de noviembre de 2011         32 / 34
´
Resultados: seleccion de atributos.


             ´                                                   ˜
      Se logro reducir la dimensionalidad sin degradar el desempeno.


      Se identificaron los atributos contextuales relevantes. Criteros de
            ´
      decision de los usuarios.


                                         ´
      Se observa un grupo de prueba homogeneo.


      Los atributos relevantes pueden cambiar conforme el conjunto de
      usuarios aumenta.



 Blanca Vargas Govea (CENIDET)                                    ´
                                 Evaluando sistemas de recomendacion   30 de noviembre de 2011   33 / 34
Algunas conclusiones.

                ´
     Una sola metrica no es suficiente para mostrar distintos aspectos
     de un sistema.


                ´
     Una misma metrica puede tener distintos criterios de uso.


                                             ´
     Las diversas particiones facilitan el analisis de distintas
     capacidades del sistema.


           ´                 ´
     Las tecnicas de seleccion de atributos son una herramienta util
                                                                  ´
                     ´                                       ´
     para la reduccion de la dimensionalidad y la identificacion de los
                        ´
     criterios de decision de los usuarios.


Blanca Vargas Govea (CENIDET)                                    ´
                                Evaluando sistemas de recomendacion   30 de noviembre de 2011   34 / 34

Mais conteúdo relacionado

Mais de Blanca Alicia Vargas Govea (7)

Introducción a R - con minería de datos
Introducción a R - con minería de datosIntroducción a R - con minería de datos
Introducción a R - con minería de datos
 
Una Breve Historia de la Ingeniería de Software
Una Breve Historia de la Ingeniería de SoftwareUna Breve Historia de la Ingeniería de Software
Una Breve Historia de la Ingeniería de Software
 
In10years
In10yearsIn10years
In10years
 
Taller weka
Taller wekaTaller weka
Taller weka
 
R: Taller de Introducción
R: Taller de IntroducciónR: Taller de Introducción
R: Taller de Introducción
 
Learning Relational Grammars from Sequences of Actions
Learning Relational Grammars from Sequences of ActionsLearning Relational Grammars from Sequences of Actions
Learning Relational Grammars from Sequences of Actions
 
Sistemas de recomendación: tipos y evaluación
Sistemas de recomendación: tipos y evaluaciónSistemas de recomendación: tipos y evaluación
Sistemas de recomendación: tipos y evaluación
 

Último

🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
jlorentemartos
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
Wilian24
 

Último (20)

Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Los dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la VerdadLos dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la Verdad
 
Usos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicasUsos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicas
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 

Evaluando sistemas de recomendación

  • 1. Evaluando sistemas ´ de recomendacion Blanca Vargas Govea ´ Grupo de Sistemas de Recomendacion Departamento de Ciencias Computacionales CENIDET 30 de noviembre de 2011
  • 2. Contenido 1 ´ Introduccion 2 Metodolog´a ı 3 Lo m´nimo para evaluar ı 4 Por grupos 5 Atributos de contexto 6 Conclusiones Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 2 / 34
  • 3. ´ ¿Por que evaluar? Mostrar que el sistema cumple su objetivo. Analizar deficiencias y corregirlas. ´ Comparacion con otros sistemas/algoritmos. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 3 / 34
  • 4. Dificultades 1/2 Gran cantidad de algoritmos. Distintas tareas. No hay metodolog´aı ´ estandar (¿es viable?) Cuestionamiento en ´ elegir las metricas. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 4 / 34
  • 5. Dificultades 2/2 Escasez de datos de prueba. No se consideran las diferencias de los sistemas. ´ La evaluacion no refleja aspectos destacables. El mismo esquema de ´ evaluacion no funciona para todos. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 5 / 34
  • 6. ´ ´ ¿Que se esta haciendo? ´ Nuevas metricas. Busqueda de ´ metodolog´a unica. ı ´ Enfoques centrados en el usuario. Tomar en cuenta las caracter´sticas de los ı datos. Nuestro enfoque ´ Analisis estad´stico-particionamiento y de atributos de contexto. ı Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 6 / 34
  • 7. Metodolog´a ı Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 7 / 34
  • 8. ´ ¿Como? 35 0.8 30 0.7 25 0.6 dataset 20 Precision TopU.pop Ratings 0.5 15 TopU.nopop 0.4 BottomU.pop 10 BottomU.nopop 5 0.3 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Restaurants Lambda 0.35 0.30 0.25 dataset Recall 0.20 popular 0.15 no_popular 0.10 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 8 / 34
  • 9. Sistema a evaluar: Surfeous ´ Prototipo de sistema de informacion contextual. Filtrado colaborativo. Fusiona enfoque social y contextual. Social: extiende el enfoque usuario-item-rating con anotaciones. Contexto: incorpora modelos de contexto: entorno, usuario y ı ´ servicio (´tem). Uso de web semantica, ontolog´as. ı Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 9 / 34
  • 10. Sistema a evaluar: Surfeous Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 10 / 34
  • 11. Lo m´nimo ı Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 11 / 34
  • 12. ´ Identificacion de la tarea Mostrar todos los ´tems encontrados. ı ´ Prediccion del rating. Mostrar secuencia de ´tems (e.g., musica). ı ´ √ Lista ordenada de ´tems (top n). ı Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 12 / 34
  • 13. ´ Descripcion de datos Usuario ´tem I Rating 35 id01 253 0 30 id02 253 1 25 id02 258 0 20 Ratings ... 15 id138 247 2 10 5 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 top ´tem I Freq pcj pcj acum. Restaurants 1 5085 36 3.10 3.10 100 2 2825 33 2.75 5.85 90 3 5032 28 2.41 8.26 80 Number of ratings % 70 ... 60 50 33 5046 11 0.948 49.31 40 ... 30 20 130 5016 3 0.259 100 % 10 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 Cuadro: Frecuencia acumulada ´tems ı Items Figura: Power law distribution, top 33 Usuario ´tem I Rating ≈ 50 %. 138 130 1161 Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 13 / 34
  • 14. Esquema entrenamiento - prueba Leave one out. Conjunto de prueba: se extrae aleatoriamente una instancia (usuario,´tem, rating) por cada usuario. Las instancias ı restantes forman el conjunto de entrenamiento. n Usuario ´tem I Rating n Usuario ´tem I Rating 1 id01 253 0 1 id01 253 0 2 id02 253 1 2 id02 253 1 3 id02 258 0 3 id02 258 0 ... ... 1161 id138 247 2 1023 id138 247 2 Cuadro: Todos Cuadro: Conjunto de entrenamiento n Usuario ´tem I Rating 1 id01 253 0 Repeticiones 2 id02 253 1 3 id03 258 0 10 veces por cada experimento. ... 138 id138 247 2 Cuadro: Conjunto de prueba Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 14 / 34
  • 15. ´ ´ Seleccion de metricas ´ Metrica Tarea 1 n 2 MSE = n i=1 (pi − ai ) ´ Prediccion de ratings 1 n 2 RMSE = n i=1 (pi − ai ) ´ Prediccion de ratings Relevantes recuperados Precision = Recuperados y Top n Recuerdo = Relevantes recuperados Relevantes ROC Top n TP TPR = TP+FN FP FPR = FP+TN 1 k 2relevance score(i) −1 NDCGk = Z i=1 log2 (i+1) Top n Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 15 / 34
  • 16. ´ Precision/Recuerdo Evalua la capacidad del sistema de mostrar el ´tem esperado en la ´ ı lista. Relevantes recuperados ´ Precision = Recuperados Recuerdo = Relevantes recuperados Relevantes ´ı ¿Que ´tems son relevantes? posibles respuestas: Los que aparecen en la lista y que ´ estan en el conjunto de prueba. Los que el usuario considera ´ utiles y toma la recomendacion. ´ Los que aparecen dentro de las primeras n posiciones de la lista y ´ estan en el conjunto de prueba. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 16 / 34
  • 17. ´ Precision/Recuerdo: ejemplo Tenemos 5 usuarios en el conjunto de prueba. Para cada usuario se ´ realizan 11 queries en un sistema de recomendacion variando un ´ ´ parametro (0,0-1,0). Los resultados muestran la posicion en la que ´ aparece el ´tem. Obtener la precision y el recuerdo del sistema para ı las 5 primeras posiciones de la lista. Usuario ´ Precision Recuerdo u1:{3,3,3,3,2,3,2,4,8} 0.88 (8/9) 0.73 (8/11) u2:{2,2,6,8} 0.5 (2/4) 0.18 (2/11) u3:{10,7,7,6,9,9,8,7,10} 0 (0/4) 0 (0/11) u4:{2,2,2,2,2,2,3,4} 1 (8/8) 0 (8/11) u5:{5,5,5,6,8} 0.6 (3/5) 0.27 (3/11) Promedio 0.596 (2.98/5) 0.38 (1.9/5) ´ ´ Cuadro: Precision/Recuerdo: Para obtener el promedio, la division es entre el numero de usuarios en el conjunto de prueba, no sobre los usuarios ´ recuperados. Algunos usuarios no reciben recomendaciones. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 17 / 34
  • 18. NDCG: Normalized Discounted Cumulative Gain Evalua la capacidad del sistema de mostrar el ´tem en las primeras ´ ı posiciones. 1 k 2relevance score(i) −1 NDCGk = Z i=1 log2 (i+1) Supongamos que en un query para un usuario, el ´tem esperado ı ´ ´ aparecio en la posicion 4 de la lista. Esto se representa como: {0,0,0,1,0,0,0,0,0,0} k 1 2 3 4 5 6 7 8 9 10 1 0.63 0.5 0.43 0.38 0.35 0.33 0.32 0.30 0.29 21 −1 DCG4 = 0 + 0 + 0 + log2 (4+1) = 0,43 Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 18 / 34
  • 19. ´ ¿Y ahora? receta para evaluacion Ingredientes: ´ 1 sistema de recomendacion contextual (Surfeous). ´ 2 metricas definidas. 10 pares de conjuntos para entrenamiento/prueba. ´ Lenguaje de programacion (sugerencia: lenguaje de scripts). Modo de hacerse: 1 ´ Ejecutar el sistema de recomendacion para cada par de conjuntos: entrenar y mostrar los datos de prueba. 2 Surfeous* da como resultados las posiciones en las que aparece (si aparece) el ´tem esperado (i.e., el del conjunto de prueba). ı ´ Obtendras 10 conjuntos de resultados. 3 ´ Aplicar las metricas a los resultados. Promediar. 4 Graficar. * La informacion de salida depende del sistema. ´ Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 19 / 34
  • 20. Resultado 0.70 0.65 0.60 Precision subset 0.55 All 0.50 0.45 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda 0.35 0.30 0.25 Recall subset 0.20 All 0.15 0.0 0.2 0.4 0.6 0.8 1.0 Lambda 0.56 0.54 NDCG 0.52 0.50 subset All 0.48 0.46 0.0 0.2 0.4 0.6 0.8 1.0 Lambda Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 20 / 34
  • 21. Por grupos Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 21 / 34
  • 22. ´ ´ ¿Por que? ¿no basta con la evaluacion anterior? Muestra la capacidad del sistema para generar recomendaciones para distintas caracter´sticas de los datos. ı ´ ¿Como se comporta para recomendar ´tems ı no-populares? ¿Y para usuarios con pocos ratings? ´ ¿Que hace cuando hay mayor numero de ´tems que de ´ ı usuarios? ¿y viceversa? Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 22 / 34
  • 23. Popularidad de ´tems ı 0.70 0.35 0.68 0.30 0.66 0.64 0.25 0.62 Precision dataset dataset Recall 0.60 0.20 popular popular 0.58 no_popular 0.15 no_popular 0.56 0.54 0.10 0.52 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Lambda 0.56 0.54 0.52 0.50 dataset NDCG popular 0.48 no_popular 0.46 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 23 / 34
  • 24. ´ Ratings. Usuarios con mas ratings. 0.8 0.35 0.30 0.7 0.25 0.6 Precision dataset dataset Recall 0.20 0.5 TopU.pop TopU.pop 0.15 TopU.nopop TopU.nopop 0.4 0.10 0.3 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Lambda 0.58 0.56 0.54 0.52 dataset NDCG 0.50 TopU.pop 0.48 0.46 TopU.nopop 0.44 0.42 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 24 / 34
  • 25. Ratings. Usuarios con menos ratings. 0.70 0.35 0.65 0.30 0.60 0.25 Precision dataset dataset Recall 0.55 0.20 BottomU.pop BottomU.pop BottomU.nopop 0.15 BottomU.nopop 0.50 0.10 0.44 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Lambda 0.55 0.50 dataset NDCG 0.45 BottomU.pop BottomU.nopop 0.40 0.35 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 25 / 34
  • 26. ´ Distribucion usuarios-´tems. ı 0.75 0.50 0.45 0.70 0.40 0.65 0.35 Precision dataset dataset Recall 0.60 0.30 lessU.moreItems lessU.moreItems 0.55 moreU.lessItems 0.25 moreU.lessItems 0.20 0.50 0.15 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Lambda 0.60 0.58 0.56 0.54 0.52 dataset NDCG 0.50 lessU.moreItems 0.48 0.46 moreU.lessItems 0.44 0.42 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Lambda Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 26 / 34
  • 27. Atributos de contexto Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 27 / 34
  • 28. Atributos: posibles dificultades Problemas de dimensionalidad: lentitud. ˜ Desempeno predictivo: atributos redundantes e irrelevantes. Exceso de informacion ´ solicitada al usuario. ˜ Diseno de interfaz. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 28 / 34
  • 29. Surfeous: atributos de contexto Service model (23 attributes) latitude,longitude,address,city,state,country,fax,ZIP, alcohol,smoking,dress,accessibility,price,franchise, ambiance,space,services,parking,cuisine,phone,accepts, days,hours User model (21 attributes) latitude,longitude,smoking,alcohol,dress,ambiance,age, transportation,marital-status,children,interests, personality,religion,occupation,favorite-color,weight, height,budget,accepts,accessibility,cuisine Environment model (2 attributes) time,weather Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 29 / 34
  • 30. ´ ¿Que se hizo? (1/2) 1 ´ Se eligio el modelo de servicio. 2 ´ Se construyo una tabla: item, at1, ..., at23, rating. 3 ´ ´ Se selecciono un algoritmo de seleccion de atributos que tomara ´ en cuenta la correlacion entre atributos (Weka). 4 Se obtuvo el sub-conjunto: days, hours, accepts, cuisine. 5 ´ Se evaluo ahora con el sub-conjunto. 6 ´ Se evaluo eliminando un atributo a la vez (sub-conjuntos de 3). Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 30 / 34
  • 31. ´ ¿Que se hizo? (2/2) Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 31 / 34
  • 32. ´ Resultados seleccion de atributos. 0.70 0.35 0.65 subset 0.30 subset All All 0.60 0.25 Precision B B Recall C C 0.55 0.20 D D 0.50 E 0.15 E F F 0.45 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Lambda Lambda 0.56 0.54 subset 0.52 All B NDCG 0.50 C 0.48 D E 0.46 F 0.0 0.2 0.4 0.6 0.8 Lambda 1.0 All: {Todos los atributos}, B:{accepts,cuisine,hours,days}, C:{cuisine,hours,days},D: {accepts,hours,days},E: {accepts,cuisine,days}, F:{accepts,hours,cuisine} Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 32 / 34
  • 33. ´ Resultados: seleccion de atributos. ´ ˜ Se logro reducir la dimensionalidad sin degradar el desempeno. Se identificaron los atributos contextuales relevantes. Criteros de ´ decision de los usuarios. ´ Se observa un grupo de prueba homogeneo. Los atributos relevantes pueden cambiar conforme el conjunto de usuarios aumenta. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 33 / 34
  • 34. Algunas conclusiones. ´ Una sola metrica no es suficiente para mostrar distintos aspectos de un sistema. ´ Una misma metrica puede tener distintos criterios de uso. ´ Las diversas particiones facilitan el analisis de distintas capacidades del sistema. ´ ´ Las tecnicas de seleccion de atributos son una herramienta util ´ ´ ´ para la reduccion de la dimensionalidad y la identificacion de los ´ criterios de decision de los usuarios. Blanca Vargas Govea (CENIDET) ´ Evaluando sistemas de recomendacion 30 de noviembre de 2011 34 / 34