Divergencias entre las metodologías que diversos autores han utilizado para respectivos análisis de predicción basados en los datos obtenidos en las redes sociales. Carencia de una metodología úncia, lo que conlleva falta de unanimidad en los resultados obtenidos
3. Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
4. Encuesta tradicional
Predicting de future within social media
“Moreover our predictions are consistently better than those produced by an
information market such as the Hollywood Stock Exchange, the gold standard in the
industry.”
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
5. Encuesta tradicional
Twitter Not So Good At Predicting Box Office Revenues After All
“A new study of tweets about movies suggests they are not necessarily a good
predictor of box office revenues, say computer scientists .”
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
6. ¿Por qué sus resultados difieren tanto?
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
7. ?¿Por qué sus resultados difieren tanto
ceteris paribus
Método en el que se mantienen constantes todas las variables de una
situación, menos aquella cuya influencia se desea estudiar.
Elementos comparados
Sujetos de comparación
Herramientas de análisis
Periodo captura
24 ordinary films
HSX
3 meses (2.89 millones de tweets)
Otros métodos propios
Sentiment analysis
34 nominated Oscar film
MDB y RottenTomatoes
2 meses (12 millones de tweets)
Otros métodos propios
Numerical ratings
Wong et al.Asur y Huberman
DIFERENCIAS
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
8. Encuesta tradicional
The Pulse of News in Social Media: Forecasting Popularity
“Our experiments show that it is possible to estimate ranges of popularity with an
overall accuracy of 84% considering only content features… Interestingly we have found
that in terms of number of retweets, the top news sources on twitter are not necessarily
the conventionally popular news agencies and various technology blogs such as
Mashable and the Google Blog are very widely shared in social media. Overall, we
discovered that one of the most important predictors of popularity was the source of
the article. “
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
9. Encuesta tradicional
Twitter Mood Predicts The Stock Market
“The calmness of the public (measured by GPOMS) is thus predictive of the DJIA rather
than general levels of positive sentiment as measured by OpinionFinder.”
87,6%
Precisión en la
predicción diaria
en los valores de
cierre del
Dow Jones
6%
Reducción del
MAE
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
10. Encuesta tradicional
Predicting elections with Twitter:
What 140 characters reveal about political sentiment
“The mere number of tweets mentioning a political party can be considered a plausible
reflection of the vote share and its predictive power even comes close
to traditional election polls.”
Cuantitativo ---- recuento menciones
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
11. Encuesta tradicional
Form tweets to polls:
linking text sentiment to public opinion time series
“While our results vary across datasets, in several cases the correlations are as high as
80%, and capture important large-scale trends. The results highlight the potential of
text streams as a substitute and supplement for traditional polling.”
Presidential job approval in 2009
Pesidential elections polls in 2008
100% correlación
Correlación no significativa
Cualitativo- ---- Sentiment Analysis: OpinionFinder
While the results do not come without caution, it is encouraging that expensive and time-
intensive polling can be supplemented or supplanted with the simple-to-gather text data
that is generated from on line social networking.
Metodología para el análisis de Redes Sociales
Canales de monitorización: Twitter
12. Limits of electoral predictions using Twitter
-Dataset 1: 2010 US Senate special election in Massachusetts
- Dataset2: US Congressional elections 2010
“Unfortunately, we find no correlation between the analysis results and
the electoral outcomes, contradicting previous reports.”
Cualitativo- ---- Sentiment Analysis: OpinionFinder Cuantitativo ---- recuento menciones
Metodología para el análisis de Redes Sociales
Canales de monitorización: Twitter
13. ¿Por qué sus resultados difieren tanto?
Metodología para el análisis de Redes Sociales
Canales de monitorización: Twitter
14. ?¿Por qué sus resultados difieren tanto
ceteris paribus
Método en el que se mantienen constantes todas las variables de una
situación, menos aquella cuya influencia se desea estudiar.
Tumasjan et al.
O’Connor et al.
DIFERENCIAS
Gallo-Avello et al.
Cada tweet que menciona a
un partido (candidato) es
tomado como un “voto”.
No se han contabilizado los
tweets en los que se mencionan
a candidatos opuestos.
Aunque se ha empleado el mismo tesauro,
cada tweet podía únicamente pertenecer
a una de las tres categorías definidas
(positiva, negativa o neutra.), y no a varias
de ellas.
Cada tweet podía pertenecer a varias de
las tres categorías definidas (positiva,
negativa o neutra).
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
15. “Exploring the Characteristics of Opinion Expressions for
Political Opinion Classification”
Once we have properly identified a person’s ideology, we may be able to predict his or her
opinions on various political issues.
It is our goal for future work to explore viable approaches for ideology based on political
opinion classification.
“Predicting de future within social media”
Sentiment analysis is a well-studied problem in linguistics and machine learning, with
different classifiers and language models employed in earlier work [13], [14]. It is common to
express this as a classification problem where a given text needs to be labeled as
Positive, Negative or Neutral.
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Twitter
16. Metodología para el Análisis de Redes Sociales
Canales de monitorización: FacebookCanales de monitorización: Facebook
17. U.S. Politics on Facebook (2010)
http://www.facebook.com/note.php?note_id=449141550881
EEUU 2010
77 ganadores con + likes 43 ganadores con +likes y – dinero
118 elecciones
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Facebook
18. Encuesta tradicional
“What is a Social Network Worth?
Facebook and Vote Share in the 2008 Presidential Primaries”
Explainig Facebook Support in the 2008 Congressional Election Cycle”
Thus while Facebook supporter numbers would not be a useful predictor that foreshadows electoral victory
or defeat, the most electable candidates do have more Facebook supporters
14213 seguidores60339 seguidores
Metodología para el análisis de Redes Sociales
Canales de monitorización: Facebook
19. Metodología para el Análisis de Redes Sociales
Canales de monitorización: Google
20. “Detecting influenza epidemics using search engine query data”
About 90 million American adults are
believed to search online for information
about specific diseases or medical problems
each year7, making web search queries a
uniquely valuable source of information
about health trends.
This system is not designed to be a
replacement for traditional surveillance
networks or supplant the need for
laboratory-based diagnoses and
surveillance.(...) Demographic data, often
provided by traditional surveillance, cannot
be obtained using search queries.
http://www.google.org/flutrends/about/how.html
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Google
21. “On the predictability of the U.S. Elections through search volume activity”
In this paper we report that Google Trends was, actually, not a good predictor of both
the 2008 and 2010 elections
http://cs.wellesley.edu/~webtrust/insights/?cand_id=4
A variable that may have affected G-trends
effectiveness as a tool for predicting political
elections is the sentiment of a user’s query.
It is difficult, though not impossible, to
determine the circumstances behind a user’s
search of the profile of a certain candidate
to make a guess about that candidate’s
public image and why a user might be
interested in the candidate. This is part of
future research that we plan for the next
stage of our work.
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Google
22. Metodología para el Análisis de Redes Sociales
Canales de monitorización: Otros
23. Early Prediction of Movie Box Office Success based on
Wikipedia Activity Big Data
“However, bridging between real time monitoring"
and early predicting"
remains as a big challenge. Here, we report on an
endeavor to build a minimalistic predictive model
for the financial success of movies based on
collective activity data of online users. We show
that the popularity of a movie could be predicted
well in advance by measuring and analyzing the
activity level of editors
and viewers of the corresponding entry to the
movie in Wikipedia, the well-known online
encyclopedia.”
boxofficemojo.com + wikipedia
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Wikipedia
24. Replublican candidates: The Wikipedia effect
“Millions of Americans use Wikipedia as
their primary source of information about
politicians. The user-edited encyclopedia
comes up as the first or second search result
for every candidate for the Republican
nomination, and in most respects provides a
very thorough and accurate profile of their
lives and careers.”
“Wikipedia preserves every version of an
article ever published, so it's possible to
watch the evolution of a page over time.
While all four major candidates were well
known before the primary began, editors
have continued to finesse their biographies
and quarrel over their records. “
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Wikipedia
25. Amazon Election Heat Map 2012
“…los 'best-sellers' de corte republicano
representan un 56% del total despachado,
mientras que los de afiliación demócrata
constituyen un 44%.”
“What about categorizing O’Reilly’s book
about President Lincoln as a “red” book?
“Well, Lincoln was a Republican, but that
doesn’t add much.” Schluep says. “We did
take into consideration Mr. O’Reilly’s
background, as well as the buying habits of
people who bought this book.”
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Amazon
26. Crawling Big Data in a New Frontier for Socioeconomic Research:
Testing with Social Tagging
“On the other hand, the relation between users and
resources, which is largely employed by
traditional Recommender Systems, changes into a ternary
relation between users, resources,
and tags, which is more complex to manage.”
Metodología para el Análisis de Redes Sociales
Canales de monitorización: Delicious
27. ¿Existe un Método único?
El análisis de redes sociales se caracteriza por la alta
heterogeneidad de sus fuentes de información y las grandes
cantidades de datos disponibles para el estudio. Así, mientras
que el volumen de datos es un aspecto tremendamente
atractivo para la investigación, la diversidad de fuentes y sus
modos de captura y entrega de información, suponen una
barrera metodológica que consigue que, en muchos casos, los
resultados de los estudios se afirmen con salvedades nada
desdeñables, a la vez que imposibilitan la comparación entre
“pares”.
Metodología para el Análisis de Redes Sociales
Conclusiones
28. With regards to the process of retrieval of
information, the method presented here was
somewhat complex but easy to apply if there is
some computer knowledge. Nevertheless, working
in interdisciplinary teams could greatly help to
develop this kind of knowledge, as it was in our
case. Though the technical process described was
successful, improvements are necessary in the
future…
Metodología para el Análisis de Redes Sociales
Conclusiones
Bandari, Asur y Huberman (2012) quisieron comprobar si existe alguna característica en las noticias capaz de determinar su popularidad, entendida ésta en relación al grado de difusión en Twitter. En otras palabras, tratan de encontrar los factores que determinan la popularidad futura de una noticia, incluso antes de su publicación. Para averiguarlo, examinaron el contenido de las noticias que acontecieron en una semana de agosto de 2011, obtenidas mediante el servicio agregador de noticias Feedzilla, y vigilando su repercusión en Twitter durante los 50 días posteriores a su aparición.
Cada artículo fue etiquetado sobre la base de cuatro categorías:
- la fuente de noticias que genera y publica el artículo (t-density o popularidad del dataset de Twitter comparada con la popularidad de Google News y NewsKnife)
- la categoría de noticias (aportada por Feddzilla),
- la subjetividad del lenguaje empleado en su redacción (Ling-Pipe y entrenamiento utilizando las transcripciones de la conocidatelevisión y radio de Rush Limbaugh y Keith Oberman como el corpus de lenguaje subjetivo, y las transcripciones de CSPAN 6, así como una serie de artículos de la web FirstMonday para el entrenamiento del lenguaje objetivo).
- las personas y entidades mencionadas en el mismo.
Utilizaron la formula “tweets-rate” igual al número de tweets publicados por hora referidos a una película.
LingPipe. http://alias-i.com/lingpipe/index.html/
Con el uso de dos algoritmos de registro del estado de ánimo, el Google-Profile of Mood States (GPOMS) y OpinionFinder, los investigadores analizaron 9,7 millones de tweets publicados entre marzo y diciembre de 2008, encontrando que las correlaciones para el índice de tranquilidad (calmness), uno de los seis estados de ánimo medido por GPOMS, podría ser utilizado para predecir si el DJIA aumentó o disminuyó entre dos y seis días más tarde. Sus resultados indican que la exactitud de las predicciones del DJIA (Dow Jones Industrial Average) puede mejorarse significativamente por la inclusión de las dimensiones específicas de un estado público de ánimo (calmness) pero no en otros, encontrando una precisión del 87,6% en la predicción diaria en los valores de cierre del Dow Jones y una reducción del MAE (Mean Average Percentage Error) en más de un 6%.
Lo interesante de este seguimiento de los estados de ánimo de Twitter es que de los seis estados GPOMS medidos - felicidad, bondad, estado de alerta, seguridad, vitalidad y tranquilidad – la tranquilidad es el estado de ánimo más útil en la predicción de los cambios del mercado de valores. Ninguno de los otros índices, incluyendo los indicadores de sentimiento positivo / negativo que facilita la herramienta OpinionFinder, refleja todos los cambios del mercado de valores.
Entre los diferentes índices bursátiles del Dow Jones, elaborados por la empresa Dow Jones Indexes, se encuentran cuatro principales:
El Promedio Industrial Dow Jones también conocido como Dow Jones Industrial Average (DJIA) es el más importante de todos y refleja el comportamiento del precio de la acción de las 30 compañías industriales más importantes y representativas de Estados Unidos.
http://www.technologyreview.com/view/421251/twitter-mood-predicts-the-stock-market/
Twitter Mood Predicts The Stock Market
http://www.technologyreview.com/view/426818/how-to-predict-the-spread-of-news-on-twitter/
How to Predict the Spread of News on Twitter
Las epidemias de influencia o gripe estacional son una de las grandes preocupaciones en salud pública. Ginsberg et al. (2009) pensaron que una forma de mejorar la detección temprana sería monitorear la salud en base a la conducta de búsqueda que millones de personas en todo el mundo realizan en Internet sobre este tema cada día. Los autores basan su hipótesis en que debido a que la frecuencia relativa de determinadas consultas en la Red está altamente correlacionado con el porcentaje de visitas al médico en el que un paciente se presenta con síntomas gripales, se podría estimar con precisión el nivel actual de la actividad semanal de la gripe, con un desfase de información de aproximadamente un día, un rango inferior al que presenta el CDC (U.S Center for Desease Control and Prevention) que alcanza una posterioridad de dos semanas.
En su método agregaron las búsquedas realizadas durante los años 2003-2007 contabilizando series temporales semanales de más de 50 millones de las búsquedas más comunes en los EEUU. Cada búsqueda fue normalizada dividiendo el número de búsquedas por una query particular entre el total de búsquedas realizadas esa semana en una región concreta. Los topics o términos de búsqueda utilizados en su investigación fueron aquellos encontrados automáticamente en Google que mantenían una relación directa con los datos publicados en ILI (Regional and state-level estimates of influenza-like illness).
Lui, Metaxas and Mustafaraj en su análisis en Google Trends en las elecciones de 2008 y 2010 en EEUU, “On the predictability of the u.s. elections through search volume activity. In e-Society Conference”, concluyen que Google Trends no es un buen predictor en ninguno de los dos procesos electorales analizados.
Las líneas básicas de su metodología fueron las siguientes:
- Recolectar los datos de Google Trends para ambos procesos, centrándose en la semana previa a la celebración de las elecciones y utilizando como términos de búsqueda los nombres de los candidatos tal y cómo los difunde el diario New York Times.
- Establecer una comparación de estos con las encuestas publicadas por el New York Times y con el ratio de “incumbency re-eleection” de ambas elecciones
- Marcar una segunda línea de análisis comparado en la que sólo incluyen las disputas (races) o pares de candidatos con una alta presencia en los medios de comunicación a lo largo del mes previo a las elecciones (highly contested).
- Separar las “races” en las que alguno de los candidatos Google Trends no había registrado dato alguno de búsqueda, de aquellas en las que ambos candidatos si obtuvieron registros.
Los autores argumentan que las causas de estas desviaciones pueden deberse por un lado al hecho de cuando un usuario busca por un candidato y no por su oponente, el resultado es que este último no alcanza los niveles mínimos de curiosidad y/visibilidad (permaneciendo en el vacío) lo que repercute más positivamente en el candidato buscado; por otro, que los electores pueden buscar por un candidato pero con el objetivo de encontrar información negativa lo que provoca ese margen de error con los resultados electorales; y finalmente, que aquellos candidatos que ya ocupan un cargo político sobresaliente pueden ser buscados a causa de esta actividad y no tratando de encontrar información sobre su campaña.
The Hungarian researchers claims that, with algorithm in hand, they need only five publicly accessible points of data to make a pretty good financial hit-or-miss prediction for any film. From BoxOfficeMojo.com they need the number of theaters the movie will be released in, an obvious factor in calculating a movie’s overall box office revenue. From the film’s Wikipedia page, they need four pieces of data provided by the Wikimedia foundation:
1) The number of users who edited the page pre-release. 2) The number of edits made to the page.
3) The number of page views recorded on the page. 4) The “collaborative rigor” of the page, i.e. the number of edits made to the page when multiple subsequent edits by the same contributor are counted as a single edit.
Asur and Huberman use a sample of 24 movies to train and test their model. In the same approach we
train and test our model focusing on the same set of movies.
Sus conclusiones: “Asur and Huberman use a sample of 24 movies to train and test their model. In the same approach we train and test our model focusing on the same set of movies. The R2(t) of our Wikipedia model reaches 0.94 few days before release, while 0.98 for the Twitter model. However, presented results of the Twitter model is limited to the night of the release, while the model presented here can make predictions with reasonable determinations (R2>0.925) as early as one month before release.” (Mestyán, Yasseri y Kertész, 2012, p. 4)
http://arxiv.org/pdf/1211.0970v1.pdf
La página de Wikipedia de Mitt Romney, con motivo de las pasadas elecciones americanas de 2012, ha sido editada cientos de veces desde el inicio de las primarias republicanas.
- Bain", el nombre de la empresa donde Romney fue una vez presidente,
- "Misa", donde Romney fue gobernador, y
- "negocio", con referencia a espacios en los que la carrera de Romney se había desarrollado fuera de la política.
La frecuencia máxima de ediciones a la página de Romney se produjo cuando las primarias de Florida estaban en marcha. Esta podría ser una señal de que se está editando la página Wikipedia del candidato para influir en la opinión pública en algunas direcciones, dado que Wikipedia es un destino común para los ciudadanos que buscan información sobre los candidatos, ganándose un papel en la formación de opinión de los votantes.
http://columnfivemedia.com/work-items/yahoo-interactive-republican-candidates-wikipedia-effect/
http://news.yahoo.com/wikipedia-edits-republican-primary.html
Amazon también intentó su método de predicción ideológica basado en los datos de venta de libros, intentando, a su manera una cierta predicción electoral basándose en la corriente ideológica mayoritaria, por estados, de los ciudadanos americanos, y dando a entender o sobrentender, que la ideología dominante que se desprendiera, sería la posible tendencia ganadora en las Elecciones Presidenciales EEUU 2012. No obstante, Amazon advirtió que: “…books aren’t votes, so a map of book purchases may reflect curiosity as much as commitment.”
Recopilando toda la información de las ventas de libros (papel y ebook) Amazon elaboró un mapa que se actualizaba diariamente, en el que se mostraba qué línea ideológica domina en cada estado, según las características ideológicas de los títulos que se hayan vendido en él. Es probable que Amazon no pretendiera indicar una “predicción electoral”, pero el hecho de que su investigación se publicara en agosto de 2012, pocos meses antes de la elección puede arrojar una duda al respecto. Dicha duda se acentúa al comprobar que toda referencia este trabajo ha sido eliminado de su página Web, siendo únicamente posible su rastreo a través de páginas web de terceros que repercutieron la noticia.
http://www.businessweek.com/articles/2012-08-23/amazons-election-heat-map-polling-by-the-book
No podemos terminar esta ponencia sin hacer referencia a las grandes capacidades de análisis que hoy nos brindan las herramientas Web de etiquetado social (social tagging) o, en un conjunto de usuarios, la denominada folksonomía, tales como Digg, StumbleUpon, Reddit o Pinterest. En esta ocasión vamos a referirnos a un reciente estudio basado en la captura de datos de Delicious y centrados en el tema “la globalización de la agricultura”.
www.delicious.com. Es un marcador social de libre uso para guardar, compartir y descubrir marcadores Web. Delicious utiliza un sistema de clasificación no jerárquica en la que los usuarios pueden etiquetar cada uno de sus favoritos con los términos de un índice libremente generado. Su carácter colectivo hace posible ver los marcadores añadidos por otros usuarios. Todos los marcadores enviados a Delicious son públicos y visibles por defecto.
Según Stiglitz, el comercio bilateral están impidiendo el desarrollo en los países más pobres del mundo. La globalización del sistema de agricultura está en el centro de este debate, porque muchas personas pobres dependen de la agricultura como fuente de ingresos ya que emplean una gran parte de sus recursos monetarios en la adquisición de alimentos.
Los autores de "Crawling Big Data in a New Frontier for Socioeconomic Research: Testing with Social Tagging" basaron su recogida de datos en tres varibles co-ocurrentes que pueden extraerse de la herramienta de etiquetado social Delicious: usuarios (U), recursos Web (R) y tags (T). El método de captura de datos fue el siguiente: (Barrero y Gualda)
- Elegir, un conjunto de 26 páginas Web, de acuerdo con la definición de Wikipedia de " critics of globalization”. (A)
- Los atributos de búsqueda se extrajeron manualmente de las páginas web y de las nubes de etiquetas o los temas que aparecen en sus páginas principales. (B)
- En una tercera etapa, recogida de datos en crudo en Delicisou de todos los usuarios, registros de las direcciones URL y las etiquetas para los cuatro pares de etiquetas alrededor de la etiqueta principal de la globalización - la globalización + agricultura, la globalización + comida; globalización + orgánico; globalización + GMO - . (C)
En su posterior análisis, atendiendo a los características de los usuarios de una red, conocidos como “In-degree” y “Out-degree”, clasificaron las páginas Web analizadas, obteniendo una lista de las mismas por orden de relevancia atendiendo a la actividad de etiquetado que los usuarios habían dejado marcada en la herramienta Delicious
Posteriormente, usando la herramienta Wordle para creación de nubes de etiquetas (tag cloud), generaron una visualización de los tags en orden de relevancia, con el fin de obtener los tags o etiquetas de marcado centrales.
En ciencias se llama así al método en el que se mantienen constantes todas las variables de una situación, menos aquella cuya influencia se desea estudiar. Esto permite simplificar el análisis, ya que en caso contrario sería muy difícil o imposible dilucidar el efecto de cada variable individual.
Además de la heterogeneidad que viene dada por las propias herramientas a estudio (Twitter, Facebook, Wikipedia, etc.), podemos comprobar cómo en algunos casos, aún tratándose del mismo objeto de estudio (éxito de taquilla de una película) y empleando similares herramientas sociales para la obtención de los datos, los resultados resultan antagónicos. Hay que apuntar tb. en este caso, la diferencia de fechas en la captura de la información.