Lo que siempre
quisiste saber de
las redes sociales
JJ Merelo
@jjmerelo
Http://facebook.com/jjmerelo
¿Por qué las redes?
Todo es una red.
La red tiene una dinámica.
Formamos parte de una red
Y lo que escribimos también.
Escribir mejor, difundir
mejor.
2
Nudos y mallas
Los elementos de
una red son nodos y
las conexiones entre
ellos aristas o arcos.
3
Redes a cascoporro
Las aristas o arcos pueden ser físicos, virtuales o
referirse a una relación
4
¿Quieres ser un superhéroe?
Alberich, y luego Gleiser, han investigado el
Universo Marvel
5
Las redes no se pueden dejar al
azar
Ésta sería la
apariencia de una
red generada al
azar.
Tienen pinta de
maraña.
Pero no son muy
realistas.
6
Y nos conducen hacia Kevin Bacon
John Landis
Enrique Villén
13
Las buenas noticias viajan rápido
Debido al camino
medio pequeño, la
información se
propaga rápidamente
Lo que provoca modas, monopolios,
y monotonía
En redes sociales, la ley
del mínimo esfuerzo
exige estar de acuerdo
con todo el mundo.
Porque se propagan a través de los
más conectados
El reparto de
conexiones no
suele ser equitativo.
Y esto lleva a una distribución
desigual
Ley de potencias
El primero tiene 2 veces más
que el segundo,, éste 2 más
que el tercero...
Libre de escala
La escala o número típico del
sistema no existe
Leyes de potencia en el grado
P(k)
≈ k-
Donde
k es el grado del vértice
18
Lo que lleva a un comportamiento
libre de escala
No
hay número de enlaces
preferido
En redes aleatorias la distribución es
de Poisson (puntiaguda).
lo que no hay una escala
preferida
Por
Muchos enlaces son improbables, pero
posibles.
22
¿Por qué aparecen las leyes de
potencia?
Enlazado
No siempre se cumple.
Efecto
preferencial (Barábasi)
San Mateo
Los mejores consiguen más.
Otros
modelos: log-normal,
exponencial estirada, Weibull.
23
Estos ricos, como lo viven
Se
habla de club de ricos cuando los vértices
con muchos enlaces solo se enlazan entre si
24
También hay redes antisociales
El
grado de
asortatividad
depende de la red.
En
el caso de los
superhéroes, son
disortativos.
25
¿Y por qué deberían de
importarme?
Distribuciones
80/20
(Pareto)
Listas-A:
Cola
populares.
larga.
Condensado
de Bose-
Einstein.
Monopolios naturales
26
Qué pequeño es el mundo
redes mundo-pañuelo necesitan
pocos enlaces para conectarlo todo
Las
Coeficiente alto de clustering
Escalado logarítmico de la longitud de camino con
el tamaño.
27
¿Y qué pasa con los nodos?
Miden
la relevancia de un nodo (o enlace)
dentro de la red.
Basadas en geodésicas
Cercanía
Intermediación (betweenness)
Basadas
en el grado (o flujo)
Centralidad de flujo
31
En medio, como el jueves
El
grado de intermediación mide la frecuencia
con la que un nodo aparece en las geodésicas.
Si es alta controla el flujo de información.
Número de geodésicas del nodo j al
k que pasan por el nodo i.
C
BET
i
=∑
j <k
# g jik
# g jk
Número de geodésicas del nodo j al
nodo k.
32
Nos estamos acercando
La
centralidad de cercanía mide cómo de cerca
está un nodo del resto.
C
CLO
i
1
=
∑ dij
j
Longitud de la geodésica del nodo i
al nodo k.
34
Hay que tirar
Los
nodos con alta cercanía son los primeros
que consiguen nueva información (y los más
eficientes para diseminarla).
35
Centros y autoridades
En
grafos dirigidos,
importa los que
reciben enlaces
(autoridades) y los
que los emiten
(hubs)
36
¿Y Google, qué opina de esto?
Los
buenos hubs
apuntan a buenas
autoridades y
viceversa.
El
pagerank de
Google se basa en el
mismo concepto.
37
Imagen de http://www.flickr.com/photos/wwworks/2943810776/
Vale, todo, todo, no, pero una red es una forma de visualizar fenómenos donde haya algún tipo de relación o interacción pero, sobre todo, intercambio de información.
En redes sociales se habla de vértices, agentes o sujetos; las aristas son dirigidas (no son recíprocas; por ejemplo, un pase de fútbol o una transferencia de un equipo a otro); los arcos son sin dirigir (por ejemplo, es familiar de)
La foto está obtenida de http://www.flickr.com/photos/benmcleod/248327132/
En algunas ocasiones no importa la dirección de la conexión y se pueden analizar las redes como si fueran relaciones recíprocas.
En este caso estamos representando la topología de la Internet
La idea es que hay muchos fenómenos que se pueden representar mediante una red compleja, no sólo lo obvio. Por ejemplo, una red de capítulos de Perdidos, o el hecho de que dos superhéroes aparezcan o no en el mismo número. Por ejemplo:
How to become a superhero
Pablo M Gleiser J. Stat. Mech. (2007) P09020 doi: 10.1088/1742-5468/2007/09/P09020
http://www.iop.org/EJ/abstract/1742-5468/2007/09/P09020
Vamos a ver a continuación unos cuantos ejemplos.
La red está extraída de “El Retorno del Rey”, por ejemplo: http://www.flickr.com/photos/walterra/436805745/
Y hecha con un software denominado “Rhizome navigation”, que explora directamente el script para averiguar las relaciones. El tamaño del nombre está relacionado con el número de veces que aparece.Más información sobre el gráfico en http://www.metaportaldermedienpolemik.net/blog/Blog/2007-03-27/rotk-social-network
¿Y para qué? Buena pregunta. ¿El UM es igual o diferente a la realidad? ¿Quiénes son los personajes más importantes y por qué?
Esta red se genera con Pajek. Se trata simplemente de poner una serie de nodos que tienen un número medio de enlaces con el resto de los nodos, y todos a la vez. Si ponemos unos antes que otros
Las redes ordenadas tampoco son demasiado interesantes. Son también muy simples, pero además son poco eficientes. Para llegar de un sitio a otro hay que pasar por muchos nodos intermedios, y además al crecer la red aumenta también el camino medio que hay que recorrer para llegar de un sitio a otro.
La foto es de San Francisco, tomada desde el aire, claro está. Tiene licencia creative commons y está sacada de http://www.flickr.com/photos/giblet/83156357/
En el primer caso los caminos son cortos, y aumentan lentamente cuando se añaden nuevos nodos. En el segundo caso son largos, y aumentan rápidamente cuando se añaden nuevos nodos.
En un caso es totalmente impredecible, y en el otro totalmente predecible. Estos triángulos se llaman “cierres”, y al porcentaje de triángulos existentes entre todos los posibles se le denomina coeficiente de clustering. El coeficiente de clustering de una red aleatoria depende de su densidad, el de una red regular de su forma; pero en cualquier caso se diferencian en su predictibilidad.
El que sea bajo en el primer caso (y posiblemente en el segundo) implica que los agrupamientos son poco frecuentes.
Es difícil apreciar la diferencia entre estas dos imágenes (tomadas de la web de andén 1, mapas de la red ferroviaria integrada de Madrid), pero consisten en el añadido de un solo vínculo en la red, vínculo que cambia totalmente la estructura de la misma, y que hace que se acerquen muchos lugares que antes estaban lejos.
El inglés se llaman “social trails” o “desire paths o trails”. Son caminos creados espontáneamente, y que normalmente surgen de una necesidad de optimización, pero que acaban haciendo evolucionar una red hacia la creación de una red mundo pequeño y disinuye el camino característico o camino medio de forma considerable.
Las redes mundo pequeño se describieron matemáticamente por primera vez por parte de Watts (foto de la izquierda) y Strogatz (foto de la derecha, de la Wikipedia); se crean a partir de las regulares por “realambrado” de unas cuantas conexiones.
Son las que llevan a los célebres 6 grados de separación, un concepto propuesto posiblemente por Marconi, quizás en un relato de principios de siglo, y establecido definitivamente por Milgram a finales de los años 60.
Obtenido de The Oracle Of Bacon; oracleofbacon.org. La imagen es del Twitter de Mario Casas.
El bonito gráfico sobre cómo se propaga la felicidad en grupos está sacado de http://jhfowler.ucsd.edu/
Figure 1. Loneliness Clusters in the Framingham Social Network. This graph shows the
largest component of friends, spouses, and siblings at exam 7 (centered on the year 2000). There
are 1,019 individuals shown. Each node represents a participant and its shape denotes gender
(circles are female, squares are male). Lines between nodes indicate relationship (red for
siblings, black for friends and spouses). Node color denotes the mean number of days the FP and
all directly connected (distance 1) LPs felt lonely in the past week, with yellow being 0-1 days,
green being 2 days, and blue being greater than 3 days or more. The graph suggests clustering in
loneliness and a relationship between being peripheral and feeling lonely, both of which are
confirmed by statistical models discussed in the main text.
El artículo se puede descargar de aquí: http://jhfowler.ucsd.edu/alone_in_the_crowd.pdf
Se trata de la red de coautorías de un campo científico: los algoritmos evolutivos.
Ilustraciónde Mark Newman, que ha analizado “Les Miserables”. Disponible en http://www-personal.umich.edu/~mejn/networks/lesmis.gif
Tanto ley de potencias como libre de escala son conceptos relativamente abstractos, pero que se reflejan en la práctica en distribuciones desiguales: de riqueza, de tamaño de las ciudades, de abundancia de especies en un ecosistema, la ley de Zipf de abundancia de palabras...
Lo esencial de las leyes de potencias es precisamente este comportamiento: muchos tienen pocos enlaces, pocos (pero algunos) tienen muchos enlaces.
Sacado de http://www2002.org/CDROM/poster/164/
que hace un análisis general de la web en África
Se trata de las visitas a una cuenta de Flickr. Todas se comportan de la misma forma.
Haced un experimento simple: ¿cuantos seguidores en Twitter tiene cada persona de tu clase?
Los conectores se descubren de forma intuitiva, pero muchas veces uno no tiene conocimiento suficiente para hacerlo, así que conviene usar alguna herramienta (o simplemente preguntar) para saber quién es.
¿Cuál puede ser el conector del cine peruano? ¿O del fútbol peruano? ¿O de los escritores?
Y aquí es donde vendría bien un plano del metro de Londres, donde en el 7J atacaron precisamente las estaciones con la mayor centralidad.
En realidad, debido a la distribución de nodos y enlaces, las leyes con ley de potencias son relativamente invulnerables a ataques, porque un ataque aleatorio se cargaría con más probabilidad aquellos nodos de la red menos conectados. Sin embargo, es mucho más vulnerable a un ataque dirigido.
Vamos a ver qué le pasaría a nuestra red social si la atacáramos...
No todas las redes son así, pero si muchas de las redes habituales.
En el fútbol no aparece, porque son redes con pocos nodos, claro, aunque si hiciéramos un gráfico a lo largo de una liga posiblemente aparecerían.
En general, aparece cuando hay un recurso limitado que hay que repartir entre diferentes elementos, y cada uno asegura una porción fija de lo que queda. El primero se queda con el 10%, p. ej., el 2º con el 10% de lo que queda... la proporción entre cada uno y el siguiente es fija, pero va disminuyendo.
No todas las redes libres de escala son iguales: el valor del exponente influye mucho.
Hay varias objeciones al enlazado preferencial; la principal es que es imposible (o casi) tener una muestra completa de la red para decidir quién es el que más enlaces tiene. Aunque posiblemente se puedan hacer buenas aproximaciones.
Lo que viene a decir, además, es que hasta cierto punto el número de enlaces depende casi exclusivamente de lo pronto que se haya añadido uno a la red, lo que tampoco suele ser cierto.
Sacado de:
Detecting rich-club ordering in complex networks
http://vw.indiana.edu/netsci06/conference/Colizza_Detecting.pdf
También podría ser la “red de los populares”: sólo se juntan entre sí.
http://en.wikipedia.org/wiki/Assortativity
Los superhéroes nuevos suelen asociarse con los famosos simplemente para aumentar la popularidad de su revista; los superhéroes famosos ya son famosos y no suelen aparecer (salvo casos muy particulares) en las revistas de otros.
¿Tendrá nuestra red social un coeficiente de clustering alto? Vamos a comprobarlo. Por otro lado, siempre se considera el coeficiente de clustering con respecto a una red aleatoria de características similares.
How to become a superhero
Pablo M Gleiser J. Stat. Mech. (2007) P09020 doi: 10.1088/1742-5468/2007/09/P09020
http://www.iop.org/EJ/abstract/1742-5468/2007/09/P09020
La parte que no he comentado es el componente gigante, que una parte fuertemente conectada, más que el resto de los componentes.
Imagen de Amber Case en Flickr http://www.flickr.com/photos/caseorganic/4330677637
Ya hemos visto la estructura a gran escala de la red, ¿qué ocurre con los nodos por separado? ¿Tienen más importancia unos que otros?
Foto de http://www.flickr.com/photos/22688299@N07/2182670593/
En el caso del fútbol lo importante es la cercanía al gol de todo el equipo, pero eso está relacionado con la cercanía total, y también la cercanía de quien, efectivamente, ha marcado gol. También la cercanía mínima, que en este caso era menor en España que en Alemania.
Imagen de
http://www.flickr.com/photos/paulwatson/4148536/
En un estudio de traspasos entre paises del mundial de Francia en 1998, se vio qué paises actuaban como hubs (Nigeria, Argentina) cuales como autoridades (España, Francia) y otros que actuaban de las dos formas (Holanda, Brasil, Austria)
http://www.flickr.com/photos/pforret/431960947/
Aunque hoy en día el ránking de Google es tan complejo que no sé qué importancia tendrá el PageRank.
Los conceptos de redes corresponden fácilmente con conceptos futbolísticos: ahí está el doble pivote de Senna y Xavi, y los receptores y emisores de balones de la selección.