Los medios digitales actualmente se encuentran bajo gran presión financiera, al grado de recurrir a técnicas de “click bait” y sacrificando la calidad de su contenido. La alternativa es buscar eficiencias operativas en su cadena de valor. Presentaremos una técnica para etiquetado automático de contenidos que puede automatizar el trabajo del editor y resultar en mayor tráfico de calidad y el cross-selling de contenidos.
Por Liliana Millán
3. Problema
- Colección de documentos editoriales sin clasificación de
tema
- Contamos con una taxonomía creada por los editores del
grupo para ‘etiquetar’ el contenido —~4,000 etiquetas—
- Queremos clasificar el contenido con las etiquetas de la
taxonomía de manera automática
4. ¿Por qué es importante?
- SEO = $$$
- Recomendación de contenidos similares - usuarios
- Recomendación de contenidos similares - editores
- Organización de contenido digital en la empresa
- Ontología
5. Information Retrieval (IR)
Un sistema de recuperación de información IR está compuesto
por 3 elementos:
- Una colección de documentos
- Una consulta (con uno más términos)
- Ordenar la colección de acuerdo a una medida de
relevancia con respecto a la consulta realizada
7. Algoritmos de IR
- Algebráicos
- Similitud Jaccard, Distancia coseno, TF-IDF, LSI
- Probabilísticos
- BM25, BM25F, LDA
- Machine Learning
- Modelos supervisados de clasificación, Deep Learning
8. TF-IDF
tft,d
Frecuencia del término t en el documento d
N Tamaño de la colección de documentos
df Número de documentos de la colección en los que
aparece el término t
10. ¿Por qué BM25?
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en un documento
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en la consulta
- Permite controlar el efecto que tiene la longitud del
documento
11. Modelo para etiquetado de contenido
- Query de consulta: El contenido generado por el editor
- Colección de documentos: las ~4,000 etiquetas
- Métrica de relevancia: BM25
¿Por qué se configuró de esta manera?
- Nivel de abstracción (podado de etiquetas): Revisión de
cada nivel (sin stopwords)
- pares: al menos 50% debe estar presente en el contenido
- impares: al menos el 60% debe estar presente en el contenido
14. Resultados
Al menos el 50% de las veces se
seleccionó la recomendación de
BM25 sobre la de TF/IDF
Desempeño de BM25: 47% de los documentos totales de una
colección, verificados por 5 personas.
17. conclusiones
+ BM25 tiene mejor desempeño que TF/IDF
+ BM25 tiene recomendaciones más específicas
+ 24% BM25 = TF/IDF
+ Errores de BM25 asociados a Tema y no especificidad (60%)
+ Sección con más error: Salud → hay pocas etiquetas en la
taxonomía, poca especificidad