SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
Data Mining de la información Social
Caso: Twitter en el Perú

Javier Albarracín     /   @jalbarracin




Adap – 22 de Noviembre, 2012
01
   Prometo
   brevísima
   Introducción :)




Data Mining de la Información Social   2
01          Definición de Data Mining




     Es un campo de las ciencias de la computación referido al proceso que intenta
     descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los
     métodos de la inteligencia artificial, aprendizaje automático, estadística y
     sistemas de bases de datos.
     El objetivo general del proceso de minería de datos consiste en extraer información
     de un conjunto de datos y transformarla en una estructura comprensible para su
     uso posterior.


                                                     Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012



Data Mining de la Información Social       3
01         Libro y Herramienta que no debes perderte: WEKA


                                                              Eibe Frank & Ian Witten
                                                               ●   Explica como funcionan los algorítmos.
                                                               ●   Te ayuda a seleccionar el mejor abordaje a problemas
                                                                   particulares, comparar y evaluar los resultados de
                                                                   diferentes técnicas.
                                                               ●   Cubre técnicas de mejoramiento de performance.
                                                               ●   Muestra como usar el software Weka Machine Learning.




                                       http://www.cs.waikato.ac.nz/ml/weka/

Data Mining de la Información Social                 4
01         Quantico: bloques de construcción:




             Algoritmo de                 Captura y     Segmentación
             Sentimiento               Almacenamiento    de Usuarios



           Procesamiento                                    Social
                                          Big Data
            de Lenguaje                                  Intelligence



                                         “Real-time”     Modelo de
                Actitudes
                                           Analisis      Influencia




Data Mining de la Información Social       5
02
   Descubriendo
   usuarios peruanos
   de twitter en el
   mundo del internet
   libre



Data Mining de la Información Social   6
El desafío: Tres usuarios de twitter peruanos... ¿Cómo
02          identificar su nacionalidad?




                                                         Fuente: Twitter / Noviembre 2012



Data Mining de la Información Social   7
Seleccionamos una lista de peruanos “Notablemente
02          peruanos” y obtuvimos uno a uno todos sus seguidores


                     @larepublica_pe                                     @RicardoMoran
                     262.768 seguidores                                  65.768 seguidores



                     @elcomercio                                         @Ollanta_HumalaT
                     481.019 seguidores                                  436.420 seguidores                         500 ~

                                                                                                                 Peruanos
                                                                                                               “Notablemente
                                                                                                                 Peruanos”
                     @Uterope                                            @JulianaOxenford                      Seleccionados
                     62.137 seguidores                                   59.173 seguidores



                     @elmorsa                                            @CuchoPenaloza
                     14.432 seguidores                                   20.167 seguidores

* “Notablemente peruano” = Estamos seguros que son usuarios que son ampliamente conocidos en Perú. No estamos hablando de nacionalidad.
                                                                                                                Fuente: Twitter / Noviembre 2012



Data Mining de la Información Social                           8
La Hipótesis: La proporción típica de “peruanos notables”
02          a los que sigue un peruano es mayor a la de un extranjero.


                                 Tú                    X



                    ?                          ?




                    ?
                                  ?
                                       ?
                                           >   ?
                                                       ?
                                                             ?
                                                              ?




                                       ?                      ?

                        p(PeruanosN)               p(PeruanosN)

                                                            Fuente: Twitter / Noviembre 2012



Data Mining de la Información Social       9
02          Encontrar el “cut-off” no ha sido tan dificil...


                                                                            p(Peruanos)
                2.5 millones de peruanos que siguen a “peruanos notables”




                                                                                                     Probabilidad de “Ser Peruano”
                                                                                    X                          p >= 99%




                                                                                Y                    Probabilidad de “Ser Peruano”
                                                                                                                p >=70%

                                                                                        1.3MM

                                                                                                     Probabilidad de “Ser Peruano”
                                                                            Z
                                                                                                                p < 70%




                                                                                                                            Fuente: Twitter / Noviembre 2012



Data Mining de la Información Social                                                            10
02          Un ejemplo de usuario de twitter “X”, “Y” y “Z”


                                                                                     ?

                                       X        Y                                    Z




                                                              Fuente: Twitter / Noviembre 2012



Data Mining de la Información Social       11
Hasta el momento hemos analizado 3 países. En Perú
02          estimamos 1.3 Millones de Usuarios de Twitter :)

                                                HONDURAS: 1.2MM fb
                                                ~0.2MM tw             NICARAGUA: 0.8MM fb
                                                                      ~0.2MM tw

                                                                          PANAMA: 1.0MM fb
                                                                          ~0.3MM tw
                    MEXICO: 39.38MM fb
                    ~8MM tw                                                 COLOMBIA: 17.4MM fb
                                                                            ~3.5MM tw
                         GUATEMALA: 2.2MM fb
                         ~0.3MM                                              VENEZUELA: 9.9MM fb
                                                                             2.7MM tw
                            COSTA RICA: 1.9MM fb
                            ~0.3MM

                                       ECUADOR: 5MM fb
                                       0.8MM
                                                                                                    BRASIL: 60.6MM fb
                                           PERU: 9.5MM fb                                           ~15.0MM tw
                                           1.3MM tw

                                           BOLIVIA: 1.7MM fb
                                                                                         PARAGUAY: 1.3MM fb
                                           ~0.2MM tw
                                                                                         ~0.1MM tw

                                                                                  URUGUAY: 1.6MM fb
                                               CHILE: 9.7MM fb
                                                                                  ~0.3MM tw
                                               ~2.5MM tw
                                                                           ARGENTINA: 20.4MM fb
                                                                           ~2.5MM tw
  182MM Usuarios de facebook
  ~38 MM Usuarios de twitter


                                                                          Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012



Data Mining de la Información Social                             12
03
   Estimando la Edad
   (y utilizando un
   truco simple para
   estimar el género)
   de los usuarios de
   twitter.

Data Mining de la Información Social   13
Hipótesis “Personas del misma generación siguen a algunos
03          usuarios con mayor proporción que otras generaciones”


 @spencerlandia

                                       @adammoband


                                                        @nelsonmanrique




                   @padelriol
                                                     @merinobeatriz



Data Mining de la Información Social           14
Weka: Arbol de decisión utilizando el algoritmo J48
03          (C4.5 Open Source – Ross Quinlan)




Data Mining de la Información Social   15
03          Metodología: Grupo de 100 personas se divide en 2 grupos.




                              50 50
                      Con edad conocida, nos         Con edad conocida, nos
                      servirá para diseñar el        servirá para probar el
                      modelo.                        modelo.




Data Mining de la Información Social            16
Hipótesis “Personas del misma generación siguen a algunos
03          usuarios con mayor proporción que otras generaciones”

         Clasificador                                                      Influenciador Twitter              Muestra: 100Usuarios con edad conocida
                                                                                                              Muestra: 50 Usuarios con edad conocida

                                                                                                   22   23   24   26    28   32   38   40    44   46   48   50

               O                                                           @usuarioperiodista1

               O
                         Usuarios Influenciadores (con >5,000 followers)


                                                                           @usuarioperiodista2

               Y                                                           @usuariomusico1

               M                                                           @usuariomusico2

               Y                                                           @usuariocanaltv1

               O                                                           @usuarioartista1

               M                                                           @usuariopolitico1

               Y                                                           @usuarioartista2

               M                                                           @usuarioperiodista3

               M                                                           @usuariopolitico2

               Y                                                           @usuarioradio1

               O                                                           @usuarioliderop1




Data Mining de la Información Social                                                                         17
03          Interpretando los resultados del modelo


   J48 pruned tree*                                                                    Modelo Generado
   ----------------------                                                                                            50
                                                                             Correctly Classified Instances     48
   P_Y <= 15                                                                    95.4545 %
   | P_T <= 14                                                               Incorrectly Classified Instances   2
   | | P_M <= 88: “36 - 45 Años”                                                4.5455 %
   | | P_M > 88: “25 - 35 Años”                                              Kappa statistic                    0.938
                                                                             Mean absolute error                0.0394
   | P_T > 14: “>45 Años”                                                    Total Number of Instances          50
   P_Y > 15
   | P_Y <= 25: “25 - 35 Años”                                                       Modelo Contrastado
   | P_Y > 25: “< 25 Años”                                                                                           50
                                                                             Correctly Classified Instances     46
                                                                                90.9091 %
                                                                             Incorrectly Classified Instances   4
                                                                                9.0909 %

* Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional.

Data Mining de la Información Social                                  18
03          Matriz de Confusión



     Grupo: 50 Usuarios con edad conocida (modelo contrastado)

     A            B           C            D        <-- clasificado
                                                    como


                                                                                  === Detailed Accuracy By Class ===
     17           0           0            0        A = <25 años
                                                                                  TP Rate       FP Rate       ROC Area   Class
                                                                                  1             0.030         0.998      < 25 Años
                                                                                  0.938         0.058         0.981      25 - 35 Años
      1          15           0            0        B = 25-35 años                0.833         0             0.982      36 - 45 Años
                                                                                  0.800         0.026         0.978      > 45 Años
                                                                                  0.909         0.035         0.987      weighted avg.
      0           1          10            1        C = 36-45 años


      0           1           0            4        D = >45 años




* Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional.

Data Mining de la Información Social                                  19
Estimando “rápidamente” el género de los twitteros:
03                                            Seleccionamos los nombres que más se repiten...

                                                                                                                     20133   Luis      M
                                          1.3MM                                                                       17026   Jose      M
Base Total Usuarios de Twitter Peruanos




                                          1MM
                                                                                                                      16478   Carlos    M
                                                                                                                      15664   Juan      M
                                                                                                                      11274   Jorge     M
                                                                                                                      9013    Maria     F
                                                                                                                      8516    Miguel     M
                                                                                                                      6632    Cesar      M
                                                                                                                      6470    Diego     M
                                                                                                                      5936    Victor    M
                                                                                                                      5775    Daniel    M
                                                                                                                      5616    Julio     M
                                                                                                                      5208    Ana       F
                                                                                                                      5127    David     M
                                                                                                                      5081    Claudia   F
                                                  Luis                         Tula                        Maryo      5005    Manuel    M
                                                                                                                      4630    Andrea    F
                                                                               2300                         12000+
                                                                                                                      4590    Diana     F
                                                   Nombres únicos ordenados del más repetido al menos repetido        4565    Javier    M
De la base de 1.3 MM de Twitteros pudimos colocarle género con un alto grado de precisión a 1MM


Data Mining de la Información Social                                                     20
04
   Creando un
   algorítmo de
   “análisis del
   sentimiento” con
   sabor nacional.



Data Mining de la Información Social   21
Algoritmo de sentimiento: El objetivo es generar un score de
04          sentimiento para la expresión




            Limpieza de                                           Diccionario             Reglas
                                        “Lemmatización”
               Texto                                           Palabras y Frases        de Contexto




    bieeeeen jugado!                   detestando todo                             Potencia:
                                                              “Detestar” -> -3     “muy bueno” vs. “bueno”
                                                              “Bien” -> +1
    bien jugado!                       detestar todo          “la rompen” -> +2    Negación:
                                                                                   “no es bueno”




             Typos                          Lemas                Ppos/Pneg                Reglas




Data Mining de la Información Social                     22
Algoritmo de sentimiento: El objetivo es generar un score de
04          sentimiento para la expresión



                                       -3
                              Sentimiento                      Categoria




                 Que basuuuuraaa el patita de serv. al cliente por eso     -6
                      no compraré ni muerto en crappybrand.



                                  Intención de
                                                         -3
                                                      Sentimiento
                                    Compra




Data Mining de la Información Social             23
05
   ¿Qué es lo que
   podemos hacer con
   tantos juguetes? :)




Data Mining de la Información Social   24
05          Geolocalizando la conversación...




Data Mining de la Información Social   25
05          QUANTICO TV !




Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas.


Data Mining de la Información Social                             26
05          QUANTICO TV !




Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas.


Data Mining de la Información Social                             27
05 Quantico Trends, hace simple el trabajo de análisis


               Revisión de             •   Lectura ad-hoc de medios nacionales

               millones de             •   1.3 Millones+ de Twitteros Peruanos mapeados

               fuentes                 •   Páginas de Facebook peruanas (abiertas)
                                       •   Miles de blogs peruanos, videos youtube, foros, webs…


               Organizamos             •   Clasificamos “keywords” de la Empresa y la competencia
               y clasificamos          •   Clasificamos por negocios : Marcas, Categorias, Temas..
               los temas               •   Clasificaciones adicionales (ej. “Evento1”, “Evento2”)



               Asignación
               de score de
                                       •   Se le asigna un score de sentimiento automáticamente

               sentimiento
                                       •   Expresiones “locales” (ej. “que mostra la promo”)




               Generación              •   La herramienta envía alertas automáticas de acuerdo a
                                           distintos criterios definidos.
               de Alertas
               e Informes              •   Se generan informes periódicos que se comparten
                                           internamente con los diferentes stakeholders.




Data Mining de la Información Social                          28
muchas gracias!


Data Mining de la información Social
Caso: Twitter en el Perú

Javier Albarracín     /   @jalbarracin



Adap – 22 de Noviembre, 2012

Mais conteúdo relacionado

Destaque

Qloud score en medios nacionales
Qloud score en medios nacionalesQloud score en medios nacionales
Qloud score en medios nacionalesSaraDaga
 
Qloud score en medios nacionales2
Qloud score en medios nacionales2Qloud score en medios nacionales2
Qloud score en medios nacionales2SaraDaga
 
Victor lozano - Reputación en canales digitales - ENDICOM
Victor lozano  - Reputación en canales digitales - ENDICOM Victor lozano  - Reputación en canales digitales - ENDICOM
Victor lozano - Reputación en canales digitales - ENDICOM Verne Future Mindset
 
BI - Comparison of open source and traditional vendor
BI - Comparison of open source and traditional vendorBI - Comparison of open source and traditional vendor
BI - Comparison of open source and traditional vendorOKTOPUS Consulting
 
Segmentacion por Comunidades Twitter Peru - Quantico
Segmentacion por Comunidades Twitter Peru - QuanticoSegmentacion por Comunidades Twitter Peru - Quantico
Segmentacion por Comunidades Twitter Peru - QuanticoQuantico Trends
 
Taller Community Management - Herramientas
Taller Community Management - HerramientasTaller Community Management - Herramientas
Taller Community Management - HerramientasHashtag
 
Empresas Eléctricas en la Mira de las Redes Sociales
Empresas Eléctricas en la Mira de las Redes SocialesEmpresas Eléctricas en la Mira de las Redes Sociales
Empresas Eléctricas en la Mira de las Redes SocialesQuantico Trends
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUMarcos Pierri
 
2013 Presentación web grupo el comercio- (incluye tarifas)
2013 Presentación web   grupo el comercio- (incluye tarifas) 2013 Presentación web   grupo el comercio- (incluye tarifas)
2013 Presentación web grupo el comercio- (incluye tarifas) Miguel Angel Urbina
 
Introducción a Machine Learning
Introducción a Machine Learning   Introducción a Machine Learning
Introducción a Machine Learning Pablo Casas
 
MODELO DE CONSTITUCION DE EMPRESA SRL - contabilidad de sociedades
MODELO DE CONSTITUCION  DE EMPRESA SRL - contabilidad de sociedadesMODELO DE CONSTITUCION  DE EMPRESA SRL - contabilidad de sociedades
MODELO DE CONSTITUCION DE EMPRESA SRL - contabilidad de sociedadesGenesis Belizario
 
Introduction To Pentaho Analysis
Introduction To Pentaho AnalysisIntroduction To Pentaho Analysis
Introduction To Pentaho AnalysisDataminingTools Inc
 

Destaque (16)

Qloud score en medios nacionales
Qloud score en medios nacionalesQloud score en medios nacionales
Qloud score en medios nacionales
 
Qloud score en medios nacionales2
Qloud score en medios nacionales2Qloud score en medios nacionales2
Qloud score en medios nacionales2
 
Victor lozano - Reputación en canales digitales - ENDICOM
Victor lozano  - Reputación en canales digitales - ENDICOM Victor lozano  - Reputación en canales digitales - ENDICOM
Victor lozano - Reputación en canales digitales - ENDICOM
 
BI - Comparison of open source and traditional vendor
BI - Comparison of open source and traditional vendorBI - Comparison of open source and traditional vendor
BI - Comparison of open source and traditional vendor
 
Segmentacion por Comunidades Twitter Peru - Quantico
Segmentacion por Comunidades Twitter Peru - QuanticoSegmentacion por Comunidades Twitter Peru - Quantico
Segmentacion por Comunidades Twitter Peru - Quantico
 
Taller Community Management - Herramientas
Taller Community Management - HerramientasTaller Community Management - Herramientas
Taller Community Management - Herramientas
 
Empresas Eléctricas en la Mira de las Redes Sociales
Empresas Eléctricas en la Mira de las Redes SocialesEmpresas Eléctricas en la Mira de las Redes Sociales
Empresas Eléctricas en la Mira de las Redes Sociales
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIU
 
2013 Presentación web grupo el comercio- (incluye tarifas)
2013 Presentación web   grupo el comercio- (incluye tarifas) 2013 Presentación web   grupo el comercio- (incluye tarifas)
2013 Presentación web grupo el comercio- (incluye tarifas)
 
Introducción a Machine Learning
Introducción a Machine Learning   Introducción a Machine Learning
Introducción a Machine Learning
 
Auditoria Oracle 10g
Auditoria Oracle 10gAuditoria Oracle 10g
Auditoria Oracle 10g
 
LANZAR UN NUEVO PRODUCTO AL MERCADO
LANZAR UN NUEVO PRODUCTO AL MERCADOLANZAR UN NUEVO PRODUCTO AL MERCADO
LANZAR UN NUEVO PRODUCTO AL MERCADO
 
MODELO DE CONSTITUCION DE EMPRESA SRL - contabilidad de sociedades
MODELO DE CONSTITUCION  DE EMPRESA SRL - contabilidad de sociedadesMODELO DE CONSTITUCION  DE EMPRESA SRL - contabilidad de sociedades
MODELO DE CONSTITUCION DE EMPRESA SRL - contabilidad de sociedades
 
Poderes del estado IV
Poderes del estado IVPoderes del estado IV
Poderes del estado IV
 
Introduction To Pentaho Analysis
Introduction To Pentaho AnalysisIntroduction To Pentaho Analysis
Introduction To Pentaho Analysis
 
MODELO DE MINUTA DE CONSTITUCIÓN DE EMPRESA -SAC
MODELO DE MINUTA DE CONSTITUCIÓN DE EMPRESA -SACMODELO DE MINUTA DE CONSTITUCIÓN DE EMPRESA -SAC
MODELO DE MINUTA DE CONSTITUCIÓN DE EMPRESA -SAC
 

Último

La acción psicosocial desde la perspectiva humanista.pptx
La acción psicosocial desde la perspectiva humanista.pptxLa acción psicosocial desde la perspectiva humanista.pptx
La acción psicosocial desde la perspectiva humanista.pptxnomadadigital14
 
El enamoramiento es una fuente de inspiración.pdf
El enamoramiento es una fuente de inspiración.pdfEl enamoramiento es una fuente de inspiración.pdf
El enamoramiento es una fuente de inspiración.pdfEdward Chero Valdivieso
 
La Magia de Pensar en Grande -- David J_ Schwartz.pdf
La Magia de Pensar en Grande -- David J_ Schwartz.pdfLa Magia de Pensar en Grande -- David J_ Schwartz.pdf
La Magia de Pensar en Grande -- David J_ Schwartz.pdfvan graznarth
 
Cuadernillo para niños inicial 2 años con 15 páginas
Cuadernillo para niños inicial 2 años con 15 páginasCuadernillo para niños inicial 2 años con 15 páginas
Cuadernillo para niños inicial 2 años con 15 páginasNinettAB
 
el desafío del amor .pdf el desafío del amor
el desafío del amor .pdf el desafío del amorel desafío del amor .pdf el desafío del amor
el desafío del amor .pdf el desafío del amorrtvmfd5s46
 
Puede un cristiano genuino ser poseído por.pptx
Puede un cristiano genuino ser poseído por.pptxPuede un cristiano genuino ser poseído por.pptx
Puede un cristiano genuino ser poseído por.pptxRicardoMoreno95679
 
Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...
Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...
Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...JulianaosorioAlmecig
 
4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf
4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf
4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdfMiNeyi1
 
CATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOS
CATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOSCATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOS
CATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOSFredyMolina26
 
LAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docx
LAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docxLAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docx
LAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docxRafael Reverte Pérez
 
GUIA DE NUTRICION Y ENTRENAMIENTO para principiantes
GUIA DE NUTRICION Y ENTRENAMIENTO para principiantesGUIA DE NUTRICION Y ENTRENAMIENTO para principiantes
GUIA DE NUTRICION Y ENTRENAMIENTO para principiantesDiegoGandara5
 
Revista Actualidad Espiritista N°33.pdf
Revista  Actualidad Espiritista N°33.pdfRevista  Actualidad Espiritista N°33.pdf
Revista Actualidad Espiritista N°33.pdfPatricia487970
 
la obra literaria EL AVARO DE moliere 2024
la obra literaria EL AVARO DE moliere 2024la obra literaria EL AVARO DE moliere 2024
la obra literaria EL AVARO DE moliere 2024Jose Aguilar
 

Último (13)

La acción psicosocial desde la perspectiva humanista.pptx
La acción psicosocial desde la perspectiva humanista.pptxLa acción psicosocial desde la perspectiva humanista.pptx
La acción psicosocial desde la perspectiva humanista.pptx
 
El enamoramiento es una fuente de inspiración.pdf
El enamoramiento es una fuente de inspiración.pdfEl enamoramiento es una fuente de inspiración.pdf
El enamoramiento es una fuente de inspiración.pdf
 
La Magia de Pensar en Grande -- David J_ Schwartz.pdf
La Magia de Pensar en Grande -- David J_ Schwartz.pdfLa Magia de Pensar en Grande -- David J_ Schwartz.pdf
La Magia de Pensar en Grande -- David J_ Schwartz.pdf
 
Cuadernillo para niños inicial 2 años con 15 páginas
Cuadernillo para niños inicial 2 años con 15 páginasCuadernillo para niños inicial 2 años con 15 páginas
Cuadernillo para niños inicial 2 años con 15 páginas
 
el desafío del amor .pdf el desafío del amor
el desafío del amor .pdf el desafío del amorel desafío del amor .pdf el desafío del amor
el desafío del amor .pdf el desafío del amor
 
Puede un cristiano genuino ser poseído por.pptx
Puede un cristiano genuino ser poseído por.pptxPuede un cristiano genuino ser poseído por.pptx
Puede un cristiano genuino ser poseído por.pptx
 
Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...
Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...
Programa - CIEI 2024.pdf Desafíos, avances y recomendaciones en el acceso a ...
 
4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf
4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf
4.- COMO HACER QUE TE PASEN COSAS BUENAS.pdf
 
CATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOS
CATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOSCATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOS
CATEQUESIS SOBRE LA FE CATÓLICA PARA ADULTOS
 
LAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docx
LAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docxLAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docx
LAS CIRCULARES Y MIS COMUNICADOS de los Maestres COMENTADOS.docx
 
GUIA DE NUTRICION Y ENTRENAMIENTO para principiantes
GUIA DE NUTRICION Y ENTRENAMIENTO para principiantesGUIA DE NUTRICION Y ENTRENAMIENTO para principiantes
GUIA DE NUTRICION Y ENTRENAMIENTO para principiantes
 
Revista Actualidad Espiritista N°33.pdf
Revista  Actualidad Espiritista N°33.pdfRevista  Actualidad Espiritista N°33.pdf
Revista Actualidad Espiritista N°33.pdf
 
la obra literaria EL AVARO DE moliere 2024
la obra literaria EL AVARO DE moliere 2024la obra literaria EL AVARO DE moliere 2024
la obra literaria EL AVARO DE moliere 2024
 

Quantico: Data Mining de la Informacion Social

  • 1. Data Mining de la información Social Caso: Twitter en el Perú Javier Albarracín / @jalbarracin Adap – 22 de Noviembre, 2012
  • 2. 01 Prometo brevísima Introducción :) Data Mining de la Información Social 2
  • 3. 01 Definición de Data Mining Es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012 Data Mining de la Información Social 3
  • 4. 01 Libro y Herramienta que no debes perderte: WEKA Eibe Frank & Ian Witten ● Explica como funcionan los algorítmos. ● Te ayuda a seleccionar el mejor abordaje a problemas particulares, comparar y evaluar los resultados de diferentes técnicas. ● Cubre técnicas de mejoramiento de performance. ● Muestra como usar el software Weka Machine Learning. http://www.cs.waikato.ac.nz/ml/weka/ Data Mining de la Información Social 4
  • 5. 01 Quantico: bloques de construcción: Algoritmo de Captura y Segmentación Sentimiento Almacenamiento de Usuarios Procesamiento Social Big Data de Lenguaje Intelligence “Real-time” Modelo de Actitudes Analisis Influencia Data Mining de la Información Social 5
  • 6. 02 Descubriendo usuarios peruanos de twitter en el mundo del internet libre Data Mining de la Información Social 6
  • 7. El desafío: Tres usuarios de twitter peruanos... ¿Cómo 02 identificar su nacionalidad? Fuente: Twitter / Noviembre 2012 Data Mining de la Información Social 7
  • 8. Seleccionamos una lista de peruanos “Notablemente 02 peruanos” y obtuvimos uno a uno todos sus seguidores @larepublica_pe @RicardoMoran 262.768 seguidores 65.768 seguidores @elcomercio @Ollanta_HumalaT 481.019 seguidores 436.420 seguidores 500 ~ Peruanos “Notablemente Peruanos” @Uterope @JulianaOxenford Seleccionados 62.137 seguidores 59.173 seguidores @elmorsa @CuchoPenaloza 14.432 seguidores 20.167 seguidores * “Notablemente peruano” = Estamos seguros que son usuarios que son ampliamente conocidos en Perú. No estamos hablando de nacionalidad. Fuente: Twitter / Noviembre 2012 Data Mining de la Información Social 8
  • 9. La Hipótesis: La proporción típica de “peruanos notables” 02 a los que sigue un peruano es mayor a la de un extranjero. Tú X ? ? ? ? ? > ? ? ? ? ? ? p(PeruanosN) p(PeruanosN) Fuente: Twitter / Noviembre 2012 Data Mining de la Información Social 9
  • 10. 02 Encontrar el “cut-off” no ha sido tan dificil... p(Peruanos) 2.5 millones de peruanos que siguen a “peruanos notables” Probabilidad de “Ser Peruano” X p >= 99% Y Probabilidad de “Ser Peruano” p >=70% 1.3MM Probabilidad de “Ser Peruano” Z p < 70% Fuente: Twitter / Noviembre 2012 Data Mining de la Información Social 10
  • 11. 02 Un ejemplo de usuario de twitter “X”, “Y” y “Z” ? X Y Z Fuente: Twitter / Noviembre 2012 Data Mining de la Información Social 11
  • 12. Hasta el momento hemos analizado 3 países. En Perú 02 estimamos 1.3 Millones de Usuarios de Twitter :) HONDURAS: 1.2MM fb ~0.2MM tw NICARAGUA: 0.8MM fb ~0.2MM tw PANAMA: 1.0MM fb ~0.3MM tw MEXICO: 39.38MM fb ~8MM tw COLOMBIA: 17.4MM fb ~3.5MM tw GUATEMALA: 2.2MM fb ~0.3MM VENEZUELA: 9.9MM fb 2.7MM tw COSTA RICA: 1.9MM fb ~0.3MM ECUADOR: 5MM fb 0.8MM BRASIL: 60.6MM fb PERU: 9.5MM fb ~15.0MM tw 1.3MM tw BOLIVIA: 1.7MM fb PARAGUAY: 1.3MM fb ~0.2MM tw ~0.1MM tw URUGUAY: 1.6MM fb CHILE: 9.7MM fb ~0.3MM tw ~2.5MM tw ARGENTINA: 20.4MM fb ~2.5MM tw 182MM Usuarios de facebook ~38 MM Usuarios de twitter Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012 Data Mining de la Información Social 12
  • 13. 03 Estimando la Edad (y utilizando un truco simple para estimar el género) de los usuarios de twitter. Data Mining de la Información Social 13
  • 14. Hipótesis “Personas del misma generación siguen a algunos 03 usuarios con mayor proporción que otras generaciones” @spencerlandia @adammoband @nelsonmanrique @padelriol @merinobeatriz Data Mining de la Información Social 14
  • 15. Weka: Arbol de decisión utilizando el algoritmo J48 03 (C4.5 Open Source – Ross Quinlan) Data Mining de la Información Social 15
  • 16. 03 Metodología: Grupo de 100 personas se divide en 2 grupos. 50 50 Con edad conocida, nos Con edad conocida, nos servirá para diseñar el servirá para probar el modelo. modelo. Data Mining de la Información Social 16
  • 17. Hipótesis “Personas del misma generación siguen a algunos 03 usuarios con mayor proporción que otras generaciones” Clasificador Influenciador Twitter Muestra: 100Usuarios con edad conocida Muestra: 50 Usuarios con edad conocida 22 23 24 26 28 32 38 40 44 46 48 50 O @usuarioperiodista1 O Usuarios Influenciadores (con >5,000 followers) @usuarioperiodista2 Y @usuariomusico1 M @usuariomusico2 Y @usuariocanaltv1 O @usuarioartista1 M @usuariopolitico1 Y @usuarioartista2 M @usuarioperiodista3 M @usuariopolitico2 Y @usuarioradio1 O @usuarioliderop1 Data Mining de la Información Social 17
  • 18. 03 Interpretando los resultados del modelo J48 pruned tree* Modelo Generado ---------------------- 50 Correctly Classified Instances 48 P_Y <= 15 95.4545 % | P_T <= 14 Incorrectly Classified Instances 2 | | P_M <= 88: “36 - 45 Años” 4.5455 % | | P_M > 88: “25 - 35 Años” Kappa statistic 0.938 Mean absolute error 0.0394 | P_T > 14: “>45 Años” Total Number of Instances 50 P_Y > 15 | P_Y <= 25: “25 - 35 Años” Modelo Contrastado | P_Y > 25: “< 25 Años” 50 Correctly Classified Instances 46 90.9091 % Incorrectly Classified Instances 4 9.0909 % * Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional. Data Mining de la Información Social 18
  • 19. 03 Matriz de Confusión Grupo: 50 Usuarios con edad conocida (modelo contrastado) A B C D <-- clasificado como === Detailed Accuracy By Class === 17 0 0 0 A = <25 años TP Rate FP Rate ROC Area Class 1 0.030 0.998 < 25 Años 0.938 0.058 0.981 25 - 35 Años 1 15 0 0 B = 25-35 años 0.833 0 0.982 36 - 45 Años 0.800 0.026 0.978 > 45 Años 0.909 0.035 0.987 weighted avg. 0 1 10 1 C = 36-45 años 0 1 0 4 D = >45 años * Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional. Data Mining de la Información Social 19
  • 20. Estimando “rápidamente” el género de los twitteros: 03 Seleccionamos los nombres que más se repiten... 20133 Luis M 1.3MM 17026 Jose M Base Total Usuarios de Twitter Peruanos 1MM 16478 Carlos M 15664 Juan M 11274 Jorge M 9013 Maria F 8516 Miguel M 6632 Cesar M 6470 Diego M 5936 Victor M 5775 Daniel M 5616 Julio M 5208 Ana F 5127 David M 5081 Claudia F Luis Tula Maryo 5005 Manuel M 4630 Andrea F 2300 12000+ 4590 Diana F Nombres únicos ordenados del más repetido al menos repetido 4565 Javier M De la base de 1.3 MM de Twitteros pudimos colocarle género con un alto grado de precisión a 1MM Data Mining de la Información Social 20
  • 21. 04 Creando un algorítmo de “análisis del sentimiento” con sabor nacional. Data Mining de la Información Social 21
  • 22. Algoritmo de sentimiento: El objetivo es generar un score de 04 sentimiento para la expresión Limpieza de Diccionario Reglas “Lemmatización” Texto Palabras y Frases de Contexto bieeeeen jugado! detestando todo Potencia: “Detestar” -> -3 “muy bueno” vs. “bueno” “Bien” -> +1 bien jugado! detestar todo “la rompen” -> +2 Negación: “no es bueno” Typos Lemas Ppos/Pneg Reglas Data Mining de la Información Social 22
  • 23. Algoritmo de sentimiento: El objetivo es generar un score de 04 sentimiento para la expresión -3 Sentimiento Categoria Que basuuuuraaa el patita de serv. al cliente por eso -6 no compraré ni muerto en crappybrand. Intención de -3 Sentimiento Compra Data Mining de la Información Social 23
  • 24. 05 ¿Qué es lo que podemos hacer con tantos juguetes? :) Data Mining de la Información Social 24
  • 25. 05 Geolocalizando la conversación... Data Mining de la Información Social 25
  • 26. 05 QUANTICO TV ! Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas. Data Mining de la Información Social 26
  • 27. 05 QUANTICO TV ! Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas. Data Mining de la Información Social 27
  • 28. 05 Quantico Trends, hace simple el trabajo de análisis Revisión de • Lectura ad-hoc de medios nacionales millones de • 1.3 Millones+ de Twitteros Peruanos mapeados fuentes • Páginas de Facebook peruanas (abiertas) • Miles de blogs peruanos, videos youtube, foros, webs… Organizamos • Clasificamos “keywords” de la Empresa y la competencia y clasificamos • Clasificamos por negocios : Marcas, Categorias, Temas.. los temas • Clasificaciones adicionales (ej. “Evento1”, “Evento2”) Asignación de score de • Se le asigna un score de sentimiento automáticamente sentimiento • Expresiones “locales” (ej. “que mostra la promo”) Generación • La herramienta envía alertas automáticas de acuerdo a distintos criterios definidos. de Alertas e Informes • Se generan informes periódicos que se comparten internamente con los diferentes stakeholders. Data Mining de la Información Social 28
  • 29. muchas gracias! Data Mining de la información Social Caso: Twitter en el Perú Javier Albarracín / @jalbarracin Adap – 22 de Noviembre, 2012