搜索引擎性能评价实验

实验步骤

  1. 自由分组, 至多2人一组
  2. 构建查询样例集合:利用网络资源(http://top.baidu.com/; http://top.sogou.com/等)
    和个人使用经验构建查询样例集合,查询样例集合需覆盖不同查询热门程度( 冷门/热门) 和各种类型的用户查询需求( 导航类/信息类/事务类),样例集合的规模为10个查询,各类比例为2:5:3, 并根据个人经验,撰写每个查询样例的信息需求内容。
  3. 构建Pooling:学生根据其构建的查询样例集合,抓取常用的三个中文搜索引擎(百度、360好搜、
    搜狗)对这部分查询词的查询结果,每个搜索引擎抓取查询结果的前十位结果,并利用这些结果
    构建Pooling。
  4. 构建相关性标注集合:根据步骤2中撰写好的信息需求,对Pooling里的结果进行标注,标注为
    “ 答案” 和“ 非答案” 两类即可。
  5. 根据标注结果,依据MAP,P@10,MRR等评价指标对各个搜索引擎的查询性能进行评价,并对
    搜索引擎满足不同信息需求的情况加以比较,每人各自撰写实验报告。

查询样例集合创建

导航类

丝芙兰官网(热门)
河海大学主页(冷门)

信息类

萨德(热门), 美对朝忍耐到尽头(热门),红薯 地瓜(冷门),青铜器制作流程(冷门), 烟草学专业(冷门)

事务类

NBA直播(热门), 金刚狼3下载(热门),张家界联想笔记本维修(冷门)

查询样例信息需求

  • 丝芙兰官网(热门):找到丝芙兰官网,查看产品信息,功效,购买方式等等
  • 河海大学主页(冷门):找到河海大学的校园主页
  • 萨德:关于萨德的最新新闻,以及事件经历
  • 美对朝忍耐到尽头:相关的新闻
  • 红薯 地瓜:红薯与地瓜是否是同一种事物,各地有什么区别
  • 青铜器制作流程:直接给出青铜器的制作方法
  • 烟草学专业:查询专业简介,需要给出专业学习内容,就业方向,相关学校
  • NBA直播:最新NBA赛事直播,比分情况,赛况解说等
  • 金刚狼3下载:给出电影的下载链接或者在线观看链接
  • 张家界联想笔记本维修:给出维修点,联系方式等

构建pooling

针对三个搜索引擎分别抓取对应搜索数据,并进行标记,抓取结果及Pooling标记结果见【统计数据.xls】

性能指标计算

首先需要明确性能指标的计算方法

平均准确率(AP):

$$AP=\frac{1}{N}\sum_{i=1}^NPrecision(i)$$

MAP

MAP方法是Mean Average Precison,即平均准确率法的简称。其定义是求每个相关文档检索出后的准确率的平均值(即Average Precision)的算术平均值(Mean),即
$$MAP = mean(AP)$$

RR

首位相关结果倒数RR,即出现第一个相关性标注的排序的倒数

$$RR = \frac{1}{Rank(1)}$$

MRR

MRR是平均排序倒数(Mean Reciprocal Rank)的简称,MRR方法主要用于寻址类检索(Navigational Search)或问答类检索(Question Answering),MRR方法首先计算每一个查询的第一个相关文档位置的倒数,然后将所有倒数值求平均。

P@N

P@N本身是Precision@N的简称,指的是对特定的查询,考虑位置因素,检测前N条结果的准确率

基于此,计算各词条的RR,P@10,AP,以及对搜索引擎的MRR,MAP,P@10结果如下:

分词条结果

进一步统计各个搜索引擎对不同类型的关键词的搜索结果性能:

各搜索引擎不同类别的统计结果

实验结论

按照统计结果做出各项指标的柱状图如下:

MAP

MP@10

MRR

总体的数据

由统计结果分析,从总体来看,在各项指标中,百度是三个搜索引擎中表现最好的,360的性能次之,而搜狗的结果则稍差一些。

导航类搜索词

对于导航类搜索关键词,RR一般用作评价导航类的查询需求,用于表示用户在知道目标前需要浏览的结果数目,可以看到,三大搜索引擎的导航类关键词的MRR指标均为1,可以发现,当用户想要搜索的信息为已知资源,主页,资源等信息时,搜索引擎可能会更倾向于返回给用户一些官方的主页信息,以使用户能够尽快找到目标,对于导航类信息的其他指标,相差也不大,但是P@10的指标值相差比较大,百度的P@10值是较好的,而360和搜狗的结果则稍差,查看原始搜索结果标记,三大搜索引擎都加入了对应的百科,问答平台,而搜狗和360的结果还夹杂了不少“同名的广告”,以“河海大学主页”词条为例,360和搜狗的结果中有不少标题虽是“河海大学招生网”等信息,但实际是一些培训机构的页面,两家的搜索引擎并没有做这方面的剔除,使得结果首页多了不少奇怪的“广告”,影响了搜索体验。另一个比较有趣的现象是,河海大学离退休工作处官网的名称是“河海大学主页”,这个页面在三大搜索引擎的结果中排第2、3位,可见搜索引擎背后会根据用户的点击数据调整结果的显示顺序。

信息类搜索词

信息类数据是用户搜索需求中占比最大的,用户的关注点在于结果的全面和权威性,对于这类搜索词,搜索引擎多数会给出其问答平台的结果,相关新闻结果,或者百科结果。对于信息类关键词,P@10是评价其搜索性能的较好指标,百度的数据在70%左右,而360和搜狗在60%左右,可见在中文搜索中,百度的确做得比较好,对于大多数信息类搜索词,百度的结果足够全面。对于新闻类的信息,三大搜索引擎结果差别并不是特别大,但是对于一些知识类信息,或者生活类信息的搜索,360和搜狗的表现则差强人意,以“红薯 地瓜”关键词为例,用户的搜索需求是查询红薯地瓜的区别,百度的结果大体上与之相符,而搜狗和360除了少数两三条结果与之相关,多数结果只与红薯有关,可以推测是由于搜索引擎的分词和联合搜索系统的处理方式的差异。

事务类搜索词

事物类搜索词中,百度的结果优势不是那么明显,甚至略差,360的结果则稍微更好一些,
这里差异较大的词条是金刚狼3下载这个搜索词条,其实这个词条是一个坑,一般来说这类资源可能在互联网上很少甚至不存在,因此很多数据可能其实是广告或者一些死链接,这时可能更需要搜索引擎去剔除一些不必要的结果以帮助用户完成其任务需求,360的结果大多数是迅雷的链接,而百度的结果则包含了各种不同的站点,这些站点大多数是广告等非用户目标站点,可能是出于广告费等方面的考虑吧,使得其结果表现并不好。

冷热门

对于热门数据,三大搜索引擎的表现都比较好,冷门数据百度表现依然较好,而360和搜狗的性能则有所下降,一方面可能是由于百度的市场占有率更大,用户更多,能够获取到的用户数据也更多更全面,即使是冷门搜索词由于有较大的用户基数也能得到较好地反馈结果,另一方面,百度的数据抓取可能更全面,对于不同类别的搜索词,百度的P@10指标均能达到近70%,可见其数据是比较齐全的,这也给其冷门搜索词的搜索提供的数据。

总结

从各方面的分析可以看出,百度的性能的确是最好的,分析推测其原因如下:百度的实力更强,硬件资源,软件资源均遥遥领先于其他两家搜索引擎,这就使得百度可以拿到更多的数据,拿到更全面的数据,这会对搜索引擎性能有较大的影响;此外,百度的用户群体更大,丰富的用户数据可以帮助百度动态优化其搜索结果的排序,进而提升用户体验;百度的分词和检索算法可能更优,正如前面提到的“地瓜 红薯”词条,百度的结果是两个词的联合结果,而360和搜狗的结果可能只与其中一个有关。对于搜狗来说,其搜索结果中有时总是会有微信或者知乎的结果,当用户的意图并不在此时,可能会极大地影响其体验。

打赏