SlideShare uma empresa Scribd logo
1 de 18
Etiquetado de contenidos
editoriales con BM25
Liliana Millán
liliana.millan@gmail.com
Twitter: @silil3
http://sg.com.mx/dataday #datadaymx
Agenda
+ Problema
+ Justificación
+ IR
+ TF/IDF
+ BM25
+ Modelo
+ Demo
+ Resultados
+ Producción
+ Conclusiones
Problema
- Colección de documentos editoriales sin clasificación de
tema
- Contamos con una taxonomía creada por los editores del
grupo para ‘etiquetar’ el contenido —~4,000 etiquetas—
- Queremos clasificar el contenido con las etiquetas de la
taxonomía de manera automática
¿Por qué es importante?
- SEO = $$$
- Recomendación de contenidos similares - usuarios
- Recomendación de contenidos similares - editores
- Organización de contenido digital en la empresa
- Ontología
Information Retrieval (IR)
Un sistema de recuperación de información IR está compuesto
por 3 elementos:
- Una colección de documentos
- Una consulta (con uno más términos)
- Ordenar la colección de acuerdo a una medida de
relevancia con respecto a la consulta realizada
Google, el IR por default
Algoritmos de IR
- Algebráicos
- Similitud Jaccard, Distancia coseno, TF-IDF, LSI
- Probabilísticos
- BM25, BM25F, LDA
- Machine Learning
- Modelos supervisados de clasificación, Deep Learning
TF-IDF
tft,d
Frecuencia del término t en el documento d
N Tamaño de la colección de documentos
df Número de documentos de la colección en los que
aparece el término t
BM25
¿Por qué BM25?
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en un documento
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en la consulta
- Permite controlar el efecto que tiene la longitud del
documento
Modelo para etiquetado de contenido
- Query de consulta: El contenido generado por el editor
- Colección de documentos: las ~4,000 etiquetas
- Métrica de relevancia: BM25
¿Por qué se configuró de esta manera?
- Nivel de abstracción (podado de etiquetas): Revisión de
cada nivel (sin stopwords)
- pares: al menos 50% debe estar presente en el contenido
- impares: al menos el 60% debe estar presente en el contenido
Demo
+ https://lmillan.shinyapps.io/etiquetador_bm25/
Resultados
60% la recomendación
de BM25 fue
seleccionada sobre la
de TF/IDF
Resultados
Al menos el 50% de las veces se
seleccionó la recomendación de
BM25 sobre la de TF/IDF
Desempeño de BM25: 47% de los documentos totales de una
colección, verificados por 5 personas.
Producción - batch
Producción - on line
conclusiones
+ BM25 tiene mejor desempeño que TF/IDF
+ BM25 tiene recomendaciones más específicas
+ 24% BM25 = TF/IDF
+ Errores de BM25 asociados a Tema y no especificidad (60%)
+ Sección con más error: Salud → hay pocas etiquetas en la
taxonomía, poca especificidad
Preguntas
???
Liliana Millán: liliana.millan@gmail.com

Mais conteúdo relacionado

Destaque

Destaque (18)

Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública
 
Conservando empleos analíticos en México
Conservando empleos analíticos en México Conservando empleos analíticos en México
Conservando empleos analíticos en México
 
Lo que Piensan los Ahorradores Mexicanos
 Lo que Piensan los Ahorradores Mexicanos  Lo que Piensan los Ahorradores Mexicanos
Lo que Piensan los Ahorradores Mexicanos
 
¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?
 
Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral
 
Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science
 
Rapidminer: La clave para la innovación en la ciencia de los datos
Rapidminer: La clave para la innovación en la ciencia de los datosRapidminer: La clave para la innovación en la ciencia de los datos
Rapidminer: La clave para la innovación en la ciencia de los datos
 
Android y el Data maning
Android y el Data maningAndroid y el Data maning
Android y el Data maning
 
Un Producto Predictivo de la A a la Z
Un Producto Predictivo de la A a la Z Un Producto Predictivo de la A a la Z
Un Producto Predictivo de la A a la Z
 
Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño
 
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMXModelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
 
Data Day - Procuracion de justicia
Data Day  - Procuracion de justiciaData Day  - Procuracion de justicia
Data Day - Procuracion de justicia
 
JVM Reactive Programming
JVM Reactive ProgrammingJVM Reactive Programming
JVM Reactive Programming
 
Mexican Landscape of DS & AI
Mexican Landscape of DS & AIMexican Landscape of DS & AI
Mexican Landscape of DS & AI
 
Entrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AIEntrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AI
 
Estadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosEstadistica y Machine Learning para Todos
Estadistica y Machine Learning para Todos
 
Data science aplicado a periodismo
Data science aplicado a periodismoData science aplicado a periodismo
Data science aplicado a periodismo
 
Búsqueda de empleo 2.0
Búsqueda de empleo 2.0Búsqueda de empleo 2.0
Búsqueda de empleo 2.0
 

Semelhante a Machine Learnig en Digital Media: Etiquetando Contenido Editorial

Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Ketty Rodriguez
 
Clasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesClasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores sociales
Nicolás Tourné
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
selyo23
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
Cristianbike_
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009
sabueso81
 
Buscadores
BuscadoresBuscadores
Buscadores
jhonas08
 
buscadores
buscadoresbuscadores
buscadores
jhonas08
 
Clasificación de Páginas Web en dominio específico sepln2008
Clasificación de Páginas Web en dominio específico sepln2008Clasificación de Páginas Web en dominio específico sepln2008
Clasificación de Páginas Web en dominio específico sepln2008
Francisco Manuel Rangel Pardo
 
Seo consultant services v.10
Seo consultant services v.10Seo consultant services v.10
Seo consultant services v.10
Montse Mansilla
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
valerydlahoz
 

Semelhante a Machine Learnig en Digital Media: Etiquetando Contenido Editorial (20)

Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
 
Curso intensivo SEM-2013
Curso intensivo SEM-2013Curso intensivo SEM-2013
Curso intensivo SEM-2013
 
Clasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesClasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores sociales
 
Presentacion pb y dl rev b
Presentacion pb y dl rev bPresentacion pb y dl rev b
Presentacion pb y dl rev b
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Formacion SEO: Posicionamiento en buscadores
Formacion SEO: Posicionamiento en buscadoresFormacion SEO: Posicionamiento en buscadores
Formacion SEO: Posicionamiento en buscadores
 
Incremental Methods for Context-Based Web Retrieval
Incremental Methods for Context-Based Web RetrievalIncremental Methods for Context-Based Web Retrieval
Incremental Methods for Context-Based Web Retrieval
 
Búsqueda en SharePoint 2013, ahora si tenemos FAST
Búsqueda en SharePoint 2013, ahora si tenemos FASTBúsqueda en SharePoint 2013, ahora si tenemos FAST
Búsqueda en SharePoint 2013, ahora si tenemos FAST
 
Busqueda de informacion en internet
Busqueda de informacion en internetBusqueda de informacion en internet
Busqueda de informacion en internet
 
Sumo Logic Cert Jam - Fundamentals (Spanish)
Sumo Logic Cert Jam - Fundamentals (Spanish)Sumo Logic Cert Jam - Fundamentals (Spanish)
Sumo Logic Cert Jam - Fundamentals (Spanish)
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009
 
Buscadores[1]
Buscadores[1]Buscadores[1]
Buscadores[1]
 
Buscadores[1]
Buscadores[1]Buscadores[1]
Buscadores[1]
 
Buscadores
BuscadoresBuscadores
Buscadores
 
buscadores
buscadoresbuscadores
buscadores
 
PowerBI Salesforce integration
PowerBI Salesforce integrationPowerBI Salesforce integration
PowerBI Salesforce integration
 
Clasificación de Páginas Web en dominio específico sepln2008
Clasificación de Páginas Web en dominio específico sepln2008Clasificación de Páginas Web en dominio específico sepln2008
Clasificación de Páginas Web en dominio específico sepln2008
 
Seo consultant services v.10
Seo consultant services v.10Seo consultant services v.10
Seo consultant services v.10
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 

Mais de Software Guru

Mais de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (12)

Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 

Machine Learnig en Digital Media: Etiquetando Contenido Editorial

  • 1. Etiquetado de contenidos editoriales con BM25 Liliana Millán liliana.millan@gmail.com Twitter: @silil3 http://sg.com.mx/dataday #datadaymx
  • 2. Agenda + Problema + Justificación + IR + TF/IDF + BM25 + Modelo + Demo + Resultados + Producción + Conclusiones
  • 3. Problema - Colección de documentos editoriales sin clasificación de tema - Contamos con una taxonomía creada por los editores del grupo para ‘etiquetar’ el contenido —~4,000 etiquetas— - Queremos clasificar el contenido con las etiquetas de la taxonomía de manera automática
  • 4. ¿Por qué es importante? - SEO = $$$ - Recomendación de contenidos similares - usuarios - Recomendación de contenidos similares - editores - Organización de contenido digital en la empresa - Ontología
  • 5. Information Retrieval (IR) Un sistema de recuperación de información IR está compuesto por 3 elementos: - Una colección de documentos - Una consulta (con uno más términos) - Ordenar la colección de acuerdo a una medida de relevancia con respecto a la consulta realizada
  • 6. Google, el IR por default
  • 7. Algoritmos de IR - Algebráicos - Similitud Jaccard, Distancia coseno, TF-IDF, LSI - Probabilísticos - BM25, BM25F, LDA - Machine Learning - Modelos supervisados de clasificación, Deep Learning
  • 8. TF-IDF tft,d Frecuencia del término t en el documento d N Tamaño de la colección de documentos df Número de documentos de la colección en los que aparece el término t
  • 10. ¿Por qué BM25? - Permite controlar el efecto que tiene la frecuencia con la que aparece un término en un documento - Permite controlar el efecto que tiene la frecuencia con la que aparece un término en la consulta - Permite controlar el efecto que tiene la longitud del documento
  • 11. Modelo para etiquetado de contenido - Query de consulta: El contenido generado por el editor - Colección de documentos: las ~4,000 etiquetas - Métrica de relevancia: BM25 ¿Por qué se configuró de esta manera? - Nivel de abstracción (podado de etiquetas): Revisión de cada nivel (sin stopwords) - pares: al menos 50% debe estar presente en el contenido - impares: al menos el 60% debe estar presente en el contenido
  • 13. Resultados 60% la recomendación de BM25 fue seleccionada sobre la de TF/IDF
  • 14. Resultados Al menos el 50% de las veces se seleccionó la recomendación de BM25 sobre la de TF/IDF Desempeño de BM25: 47% de los documentos totales de una colección, verificados por 5 personas.
  • 17. conclusiones + BM25 tiene mejor desempeño que TF/IDF + BM25 tiene recomendaciones más específicas + 24% BM25 = TF/IDF + Errores de BM25 asociados a Tema y no especificidad (60%) + Sección con más error: Salud → hay pocas etiquetas en la taxonomía, poca especificidad