链接结构分析实验

实验内容

基于维基百科网站中各网页之间的链接关系图,计算该网站中各网页对应的PageRank值。

数据格式

1
2
head:node1,node2,…,noden\n
源网页:目标网页1,目标网页2,…,目标网页n\n

实现

按照课件中的PageRank算法完成实现即可, 其中跳出参数aplha = 0.15, 迭代次数TN = 30

链接结构文件在results.txt文件中

运行结果

PageRank算法结果分布情况,PageRank得分与相应条目语义内容的分析

PageRank值前10的页面为

网页名IDPageRankOutDegreeInDegree
箭头258837810.0222736998255545
<-271173270.01729151372412228676
维基数据265309380.0048002223092514196429
Unicode270035940.00390634021739170945
符号270132100.0038329572059178283
中国271162310.00129406053337228768798
美国271168670.00115684939603174170222
学名271081580.001084909647832068384
法国271147270.00098004413010862954791
市镇270793310.000972332108811064201

由结果可以发现箭头和<-是两个页面结果奇地高,分析这两个页面可以发现,“箭头”和“<-”两个页面的出度都比较小,而‘<-’入度特别高,这在一定程度上使得其PageRank值偏高,而’箭头’页面的入度实际上并不高,但其PageRank值却是最高的,查询对应网页内容,发现’<-‘页面其实是维基百科的重定向页面,有大量页面指向该页面,因此其PageRank值会偏高

<-出度

箭头出度1

箭头出度2

‘<-’页面由于有很多页面指向,因此其PageRank值偏高是比较合理的,而“箭头”页面的入度实际上并不高,但是其PageRank值却是最高的,进一步分析“箭头页面”,查看“箭头”页面的出度,发现其5个出页面中有两个指向了自己,进一步查看‘<-’页面的出度,发现其两个出度都是’25883781’,即“箭头页面”,由PageRank迭代过程中PageRank值更新过程(PageRank算法图所示),‘<-’页面由于入度大故PageRank值较高,而该页面又全部指向了‘箭头’页面,由算法图中标记位置可知,“箭头”页面的PageRank值的确会特别高

由此可以得出结论,计算PageRank时一定要注意数据的清洗,清除一些不必要的页面,PageRank值排名第2和3的页面实际的重要程度并不高,但是由于其是分类或者重定向页面而显得比较高,这实际上影响了其页面重要性的真实度。

PageRank算法图

算法结果分布情况

维基百科语料库中入连接数/出连接数分布情况

维基百科语料库中入连接数/出连接数分布情况

PageRank与入链接数的关联分析

通过计算PageRank值和入连接数的相关系数,可知其相关性不大

打赏