SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
Evaluación de diferentes estrategias de muestreo para tratar
el problema de la construcción del diccionario para un
clasificador Naïves Bayes de tuits.
Francisco Berrizbeitia
Noviembre 2014
Queremos encontrar una manera automática de
clasificar Tuits
Machine Learning: Clasificadores automáticos
Agenda
• Bag Of Words
• El problema de la selección de atributos o generación del
diccionario
• Preprocesamiento:
– Eliminación de ruido
– Eliminación de terminaciones
• Descripción de los datos
• Descripción de método propuesto
• Resultados
• Observaciones
• Conclusiones
Bag of Words
El tratamiento de tuits en un contexto de
clasificación se realiza utilizando la técnica de
«Bag Of Words»
Bag of words
Selección de atributos
Uno de los problemas al trabajar con esta técnica es el que el
número de dimensiones puede llegar a ser demasiado
grande.
Quisiéramos construir un diccionario con el menor número de
palabras posibles que nos permita tener una cobertura de al
menos 2 palabras para cada tuit
Construcción del diccionario
Para atacar este problema primeros se eliminar las palabras
muy comunes que no aportaran ningún valor discriminatorio
(Stopwords).
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
Construcción del diccionario
Un segundo paso consiste el eliminar las terminaciones
(Stemming) tratando de encontrar las raíces de las palabras.
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
obama administr back sanction venezuela offici
Existen varia técnicas para hacer esto, nosotros utilizamos el
algoritmo de Porter
Planteamiento del problema
Queremos responder las siguientes preguntas:
• ¿Cuántos tuits necesito para construir un diccionario que
me garantice una buena cobertura?
• ¿La calidad del diccionario en términos de cobertura
variará si el conjunto de tuits para crear el diccionario se
toma utilizando MAS o Estratificando por temas?
Método Utilizado
Para obtener el número
de tuits que requerimos
para el diccionario,
diseñamos e
implementamos el
siguiente algoritmo.
Método Utilizado
Una vez obtenido el número de tuits utilizando el algoritmo
anterior , generamos un diccionario utilizando MAS y uno
realizando muestreo estratificado por temas.
Para medir la calidad del diccionario se obtuvieron varias
muestras de 100 mensajes (Utilizando MAS) y se cuantifico la
cobertura sobre la muestra.
Descripción de los datos
• Se recuperaron 6793 tuits, en idioma ingles, creados entre
el 18 y el 20 de Noviembre sobre los siguientes temas
• Obama: 1000
• ukraine: 681
• ISIS: 547
• New York: 1080
• Siria: 119
• FARC: 102
• Venezuela: 450
• London: 862
• gunman: 627
• ferguson: 754
• amnesty: 571
Descripción de los datos
• Sobre este conjunto de datos se realizo un MAS de 3000
elementos para asegurar la aleatoriedad de la población
• A los mensajes de esta nueva población se le aplicaron los
procesos de reducción de ruido y stemming.
• Todos los experimentos se hicieron sobre los mensajes sin
Stop Words y Stemmed
Resultados
Se corrió el algoritmo cuatro veces variando los parámetros
de ganancia de información y el umbral de parada.
5 tuits seguidos aportaron menos de 2
palabras nuevas al diccionario
Resultados
Se genero un diccionario realizando un MAS de 234 tuits
sobre la población y se cuantifico la cobertura en 5 muestras
independientes de la misma población.
Resultados
Se genero otro diccionario realizando un muestreo
estratificado por temas de 234 tuits sobre la población y se
cuantifico la cobertura en 5 muestras independientes de la
misma población.
La cantidad de tuits a tomar por estrato se calculo de la siguiente manera:
1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional
2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
Resultados
Ambos diccionarios de comportan de manera muy similar
Resultados
La tasa de cobertura es ligeramente mejor para el diccionario
generado a través de un MAS
Conclusiones
• Al parecer es posible construir un diccionario con una
cobertura superior al 95% con unos 240 tuits generando
un diccionario de cerca de 1100 entradas.
• Estratificar por temas no aporta ninguna ganancia en la
construcción del diccionario.
Gracias
Francisco Berrizbeitia
Noviembre 2014

Mais conteúdo relacionado

Semelhante a Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANYabed Contreras Zambrano
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busquedamercenaries128
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busquedamercenaries128
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internetNITZARINDANI98
 
Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1estefania guizado
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internetKeila Jaimes
 
1.busquedad de informacion en internet
1.busquedad  de informacion en internet1.busquedad  de informacion en internet
1.busquedad de informacion en internetCeleste9829
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susysusana030198
 
Busqueda de la informacion en internet
Busqueda de la informacion en internet Busqueda de la informacion en internet
Busqueda de la informacion en internet susana030198
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internetTania070299
 
1. Búsqueda de información en internet
1.  Búsqueda de información en internet1.  Búsqueda de información en internet
1. Búsqueda de información en internetTania Gabriela Ramirez
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internetkinverli3
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internetTania Gabriela
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónEduardo Mendez
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...eMadrid network
 
Cómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesCómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesNatzir Turrado
 
Búsqueda de información en internet
Búsqueda de información en internetBúsqueda de información en internet
Búsqueda de información en internetangeles alvarez
 

Semelhante a Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits (20)

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
Busqueda de informacion en internet
Busqueda de informacion en internet Busqueda de informacion en internet
Busqueda de informacion en internet
 
Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
1.busquedad de informacion en internet
1.busquedad  de informacion en internet1.busquedad  de informacion en internet
1.busquedad de informacion en internet
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susy
 
Busqueda de la informacion en internet
Busqueda de la informacion en internet Busqueda de la informacion en internet
Busqueda de la informacion en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. Búsqueda de información en internet
1.  Búsqueda de información en internet1.  Búsqueda de información en internet
1. Búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la información
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Cómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesCómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitales
 
Búsqueda de la información en Internet. Capítulo 1.
 Búsqueda de la información en Internet. Capítulo 1. Búsqueda de la información en Internet. Capítulo 1.
Búsqueda de la información en Internet. Capítulo 1.
 
Búsqueda de información en internet
Búsqueda de información en internetBúsqueda de información en internet
Búsqueda de información en internet
 

Mais de Francisco Berrizbeitia

News construction from microblogging posts using open data
News construction from microblogging posts using open data News construction from microblogging posts using open data
News construction from microblogging posts using open data Francisco Berrizbeitia
 
News construction from microblogging post using open data
News construction from microblogging post using open dataNews construction from microblogging post using open data
News construction from microblogging post using open dataFrancisco Berrizbeitia
 
Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaFrancisco Berrizbeitia
 
Introducción al el mercadeo en Internet
Introducción al el mercadeo en InternetIntroducción al el mercadeo en Internet
Introducción al el mercadeo en InternetFrancisco Berrizbeitia
 
2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuelaFrancisco Berrizbeitia
 
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...Francisco Berrizbeitia
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Francisco Berrizbeitia
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFrancisco Berrizbeitia
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualFrancisco Berrizbeitia
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoFrancisco Berrizbeitia
 

Mais de Francisco Berrizbeitia (20)

News construction from microblogging posts using open data
News construction from microblogging posts using open data News construction from microblogging posts using open data
News construction from microblogging posts using open data
 
News construction from microblogging post using open data
News construction from microblogging post using open dataNews construction from microblogging post using open data
News construction from microblogging post using open data
 
Autosimilaridad en vinculaciones
Autosimilaridad en vinculacionesAutosimilaridad en vinculaciones
Autosimilaridad en vinculaciones
 
Vinculaciones autosimilares
Vinculaciones autosimilaresVinculaciones autosimilares
Vinculaciones autosimilares
 
Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimedia
 
Introducción al el mercadeo en Internet
Introducción al el mercadeo en InternetIntroducción al el mercadeo en Internet
Introducción al el mercadeo en Internet
 
¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?
 
2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela
 
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en mano
 
Listado de cursos manual rse
Listado de cursos manual rseListado de cursos manual rse
Listado de cursos manual rse
 
Text mining
Text miningText mining
Text mining
 
AID Aprendizaje - Nosotros
AID Aprendizaje - NosotrosAID Aprendizaje - Nosotros
AID Aprendizaje - Nosotros
 
Keylight ae user guide
Keylight ae user guideKeylight ae user guide
Keylight ae user guide
 
Personalizacion de blogspot
Personalizacion de blogspotPersonalizacion de blogspot
Personalizacion de blogspot
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
 
Clase 3 estrategias de difusion
Clase 3   estrategias de difusionClase 3   estrategias de difusion
Clase 3 estrategias de difusion
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exito
 
Clase02
Clase02Clase02
Clase02
 

Último

Organelas citoplasmáticas estructura y funciones
Organelas citoplasmáticas estructura y funcionesOrganelas citoplasmáticas estructura y funciones
Organelas citoplasmáticas estructura y funcionesErnesto Argüello
 
dpcc 1ero secundaria crecemos y cambiamos.pptx
dpcc 1ero secundaria crecemos y cambiamos.pptxdpcc 1ero secundaria crecemos y cambiamos.pptx
dpcc 1ero secundaria crecemos y cambiamos.pptxAleMendoza50
 
reacciones quimicas FISICA Y QUIMICA 2024
reacciones quimicas FISICA Y QUIMICA 2024reacciones quimicas FISICA Y QUIMICA 2024
reacciones quimicas FISICA Y QUIMICA 2024isaizc05
 
CONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptx
CONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptxCONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptx
CONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptxCRISTIANADOLFOPAJOYP
 
4 basico - propiedades de la materia cuarto
4 basico - propiedades de la materia cuarto4 basico - propiedades de la materia cuarto
4 basico - propiedades de la materia cuartoJENNIFFERORELLANA3
 
slideshareliderazogocursojosemanuel.docx
slideshareliderazogocursojosemanuel.docxslideshareliderazogocursojosemanuel.docx
slideshareliderazogocursojosemanuel.docxJosManuelCastaedaGon1
 
METODO HISTORICO COMPARATIVO.pptx metodología de la investigación
METODO HISTORICO COMPARATIVO.pptx metodología de la investigaciónMETODO HISTORICO COMPARATIVO.pptx metodología de la investigación
METODO HISTORICO COMPARATIVO.pptx metodología de la investigaciónJeanFranckHuaracaAgu1
 

Último (7)

Organelas citoplasmáticas estructura y funciones
Organelas citoplasmáticas estructura y funcionesOrganelas citoplasmáticas estructura y funciones
Organelas citoplasmáticas estructura y funciones
 
dpcc 1ero secundaria crecemos y cambiamos.pptx
dpcc 1ero secundaria crecemos y cambiamos.pptxdpcc 1ero secundaria crecemos y cambiamos.pptx
dpcc 1ero secundaria crecemos y cambiamos.pptx
 
reacciones quimicas FISICA Y QUIMICA 2024
reacciones quimicas FISICA Y QUIMICA 2024reacciones quimicas FISICA Y QUIMICA 2024
reacciones quimicas FISICA Y QUIMICA 2024
 
CONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptx
CONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptxCONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptx
CONSERVACIÓN Y PRESERVACIÓN DE LOS DOCUMENTOS.pptx
 
4 basico - propiedades de la materia cuarto
4 basico - propiedades de la materia cuarto4 basico - propiedades de la materia cuarto
4 basico - propiedades de la materia cuarto
 
slideshareliderazogocursojosemanuel.docx
slideshareliderazogocursojosemanuel.docxslideshareliderazogocursojosemanuel.docx
slideshareliderazogocursojosemanuel.docx
 
METODO HISTORICO COMPARATIVO.pptx metodología de la investigación
METODO HISTORICO COMPARATIVO.pptx metodología de la investigaciónMETODO HISTORICO COMPARATIVO.pptx metodología de la investigación
METODO HISTORICO COMPARATIVO.pptx metodología de la investigación
 

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

  • 1. Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción del diccionario para un clasificador Naïves Bayes de tuits. Francisco Berrizbeitia Noviembre 2014
  • 2. Queremos encontrar una manera automática de clasificar Tuits Machine Learning: Clasificadores automáticos
  • 3. Agenda • Bag Of Words • El problema de la selección de atributos o generación del diccionario • Preprocesamiento: – Eliminación de ruido – Eliminación de terminaciones • Descripción de los datos • Descripción de método propuesto • Resultados • Observaciones • Conclusiones
  • 4. Bag of Words El tratamiento de tuits en un contexto de clasificación se realiza utilizando la técnica de «Bag Of Words»
  • 6. Selección de atributos Uno de los problemas al trabajar con esta técnica es el que el número de dimensiones puede llegar a ser demasiado grande. Quisiéramos construir un diccionario con el menor número de palabras posibles que nos permita tener una cobertura de al menos 2 palabras para cada tuit
  • 7. Construcción del diccionario Para atacar este problema primeros se eliminar las palabras muy comunes que no aportaran ningún valor discriminatorio (Stopwords). Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official
  • 8. Construcción del diccionario Un segundo paso consiste el eliminar las terminaciones (Stemming) tratando de encontrar las raíces de las palabras. Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official obama administr back sanction venezuela offici Existen varia técnicas para hacer esto, nosotros utilizamos el algoritmo de Porter
  • 9. Planteamiento del problema Queremos responder las siguientes preguntas: • ¿Cuántos tuits necesito para construir un diccionario que me garantice una buena cobertura? • ¿La calidad del diccionario en términos de cobertura variará si el conjunto de tuits para crear el diccionario se toma utilizando MAS o Estratificando por temas?
  • 10. Método Utilizado Para obtener el número de tuits que requerimos para el diccionario, diseñamos e implementamos el siguiente algoritmo.
  • 11. Método Utilizado Una vez obtenido el número de tuits utilizando el algoritmo anterior , generamos un diccionario utilizando MAS y uno realizando muestreo estratificado por temas. Para medir la calidad del diccionario se obtuvieron varias muestras de 100 mensajes (Utilizando MAS) y se cuantifico la cobertura sobre la muestra.
  • 12. Descripción de los datos • Se recuperaron 6793 tuits, en idioma ingles, creados entre el 18 y el 20 de Noviembre sobre los siguientes temas • Obama: 1000 • ukraine: 681 • ISIS: 547 • New York: 1080 • Siria: 119 • FARC: 102 • Venezuela: 450 • London: 862 • gunman: 627 • ferguson: 754 • amnesty: 571
  • 13. Descripción de los datos • Sobre este conjunto de datos se realizo un MAS de 3000 elementos para asegurar la aleatoriedad de la población • A los mensajes de esta nueva población se le aplicaron los procesos de reducción de ruido y stemming. • Todos los experimentos se hicieron sobre los mensajes sin Stop Words y Stemmed
  • 14. Resultados Se corrió el algoritmo cuatro veces variando los parámetros de ganancia de información y el umbral de parada. 5 tuits seguidos aportaron menos de 2 palabras nuevas al diccionario
  • 15. Resultados Se genero un diccionario realizando un MAS de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.
  • 16. Resultados Se genero otro diccionario realizando un muestreo estratificado por temas de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población. La cantidad de tuits a tomar por estrato se calculo de la siguiente manera: 1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional 2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
  • 17. Resultados Ambos diccionarios de comportan de manera muy similar
  • 18. Resultados La tasa de cobertura es ligeramente mejor para el diccionario generado a través de un MAS
  • 19. Conclusiones • Al parecer es posible construir un diccionario con una cobertura superior al 95% con unos 240 tuits generando un diccionario de cerca de 1100 entradas. • Estratificar por temas no aporta ninguna ganancia en la construcción del diccionario.