More Related Content
More from Sun Quan Huang (18)
劉勇 <引用数据的可视化及网络分析>
- 1. 16国32媒引用数据可视化及网络分析
在这个分享中,会用一个实例介绍如何用 Gephi 做数据的可视化及网络分析。
先简单介绍一下 Gephi 。
1.Gephi 基本介绍
Gephi 是一款对网络做探索性研究的工具,那么这里所说的网络,是指把某一类事物想象为一个一个的节点,然后把事物之间的关系想象为节点与节
点之间的边,并画成这样的图形。这也就是网络的一个基本概念,把它理解为是一个人际关系网也完全没有问题,这样的网络也经常被称作图。
有了这样一个规范的由节点与边组成的图以后,人们就可以展开多种方式的研究,包括下面这些特性:
1. 节点的重要性
2. 节点之间路径的关系
3. 节点之间的团伙特性
4. 邻居节点的聚类特性
5. 图的密度
这些也都是 Gephi 对图统计计算的主要方面,关于 Gephi 就先简单介绍这么多,接下来还会实际的使用。
虽然也可以通过画一些图来产生数据,但大多数情况下,都是根据数据来产生图,也可以把 Gephi 看做是数据与网络分析之间的一个桥梁,那么下
面,我就会用前段时间刚得到的数据做一个实际的演示与分析。
2.数据来源及介绍
这个数据是三位作者,发表在《新闻与传播研究》2015年第九期的论文,题目是 “多种声音一个世界:中国与国际媒体互引的社会网络分析” 。
数据先从以下十六个国家中,每个国家选两个最有国际影响力的媒体,然后查找它们互相之间的引用关系,也就是哪个媒体引用或提到了哪个其它媒
体。
1. 中国选取《人民日报》、《中国日报》
2. 美国《纽约时报》和《华盛顿邮报》
3. 英国《卫报》和《泰晤士报》
4. 法国《世界报》和《解放报》
5. 德国《世界报》和《南德意志报》
6. 日本《读卖新闻》和《每日新闻》
7. 新加坡《海峡时报》和《联合早报》
8. 俄罗斯《俄罗斯报》和《消息报》
9. 韩国《朝鲜日报》和《东亚日报》
10. 印度《印度时报》和《印度斯坦时报》
11. 菲律宾《菲律宾每日询问报》和《菲律宾星报》
12. 巴西《圣保罗报》和《环球报》
13. 南非《水星报》和《星报》
14. 智利《信使报》和《时代评论者报》
15. 马来西亚《新海峡时报》和《星洲日报》
16. 印尼《雅加达邮报》和《雅加达环球报》
数据采集的时间从 2010年1月1日 到 2014年12月31日,共五年时间,这 32 种媒体全部都是日报,可以想象一下,也算是不小的数量,如果人民日报
的话,一年堆起来会有多高,那么五年呢,也就是差不多这么高的 32 堆报纸中,收集到了这些数据。
数据以一个矩阵的形式记录下来,也就是行与列的标题都是这 32 个媒体的名字,从列到行表示引用关系。比如列中的第一行是人民日报,那么这一行
就表示人民日报引用上面这些媒体的数量。
这里是个空格,应该表示人民日报没有引用人民日报,或者人民日报自己引用自己不算。所以就为空。
- 3. 3.1 数据预处理
上图中的表格是个 Excel 文件,我们知道 Excel 文件可以另存为 CSV 格式,CSV 就是这样一种文本格式,见下图:
对于 Gephi 来说,Gephi 无法直接读入 Excel 格式的数据,但可以读入 CSV 格式的数据。那么,我们把一个 Excel 文件存储为 CSV 格式以后,只需
要把 CSV 的分隔符号有 “,” 替换为 “;” 。
3.2 数据进入 Gephi
把数据处理为能够被 Gehpi 读取后,就可以在 Gephi 中直接打开,打开后这样的样子:
- 4. 可以放大看看,这个图里面现在有32个节点表示32个媒体,有很多连线是这32个媒体之间的引用关系,连线有粗细表示不同的引用数量。
3.3 统计计算
前面说过,Gephi 对网络分为五种处理方式,其实大多数处理方式还可以细分:
1. 节点的重要性
基本度
HITS 算法
PageRank 算法
特征向量中心度
2. 节点之间路径的关系
介数中心都
紧密中心都
离心率
3. 节点之间的团伙特性
模块化
连通分量
4. 邻居节点的聚类特性
聚类系数
5. 图的密度
图密度
在目前这个图中,我们只计算两个值,一个是节点重要性的 PageRank ,一个团伙特性的模块化。
PageRank计算
计算方法很简单,只要点击统计面板中的这两个位置就可以。
PageRank ,因为引用关系有量的数据,可以把边的权重选上。
模块化
然后点模块化,这个是计算节点的相似性,计算后,会给相似的节点添加相同的编号。
经过上面的操作以后, Gephi 就对原先的边和节点做了计算,并把计算的数据写到里面的一个表中。
我们可以在数据资料里面看看。
然后,我们就把这些计算后的数据用可视化的方式,写到这些节点上。
3.4 把统计值作用到图中
节点大小
先处理 PageRank 的值,PageRank 计算的是谁更重要,要在排序选 “PageRank” 的值,那么这个重要性可以在图中用节点的大小表示,,要通过排
序做到,那么在排序需要设置一下,我们定义最重要的节点最大是 180 ,最不重要的节点为 30 。
然后点应用,就可以看到节点有大小的差异了。
节点颜色
这个在 “分割” 里面,在分割选 模块化。
然后,在这里会出现一组颜色,如果颜色觉得不够合适,可以更换另外一组颜色。
然后点应用。
3.5 布局
我们可以先做一个布局的操作,布局有很多方式,我们就选用最常用的力引导布局
布局样式:ForceAtlas2
行为替代:全选 缩放:400 重力:30
- 5. 性能: 容差:0.01 近视斥力:无 近视:1.2
ForceAtlas2 是一种力引导布局算法,它是模仿物理世界中的引力和斥力,根据节点之间的牵扯拉力,不断自动调整节点的位置,直到形成一种平衡,
也就是节点的位置基本固定下来,或保存较小幅度的摇摆。
当布局算法基本稳定下来以后,就可以去预览查看。
去预览看,一方面是有更多的设置。另外一方面,因为 Gephi 对中文支持还不太好,也就是,如果在图界面打开中文字体显示后,运行速度会很慢,
有时候甚至就停止下了,而在预览不存在这个问题。
3.6 预览
在预览也需要做一些基本的设置。
字体:微软雅黑54普通 比例大小:不选
边的厚度:0.009
在预览调整合适以后,可以把这个图保存下来,可以存储为三种格式,现在存储为png,然后就可以在 Gephi 外面看这个图了。
我之前也用这个数据做过多个图,因为每次导入数据后,应该是它原始的位置不同,所以,每次做下图外观上好像都有差异。
但根据相同的规则制图以后,它们连接结构的形态应该是稳定的。
4.读图
前面做图的目的都是为了使数据能够合理清晰的显示出来,在制图完成以后,就需要进行另外一项也很有意思的事情,就是从图中读出一些什么东西
来。