搜索
您的当前位置:首页正文

信息检索与搜索引擎技术_万维网数据质量评估读书报告

来源:六九路网
XXXX大学

读书报告

课程名称: 信息检索与搜索引擎技术 课题名称: 万维网数据质量评估读书报告 学 院: 信息工程与自动化学院 专业年级: 学 号: 学生姓名: 指导教师: 日 期:

目 录

1. 万维网数据质量评估困境„„„„„„„„„„„„„„„„„„„„1

2. 数据质量评估的解决思路„„„„„„„„„„„„„„„„„„„„1

2.1 宏观粒度网络数据质量评估技术„„„„„„„„„„„„„„„1 2.2 微观粒度网络数据质量评估技术„„„„„„„„„„„„„„„2 2.3 冗余页面识别技术„„„„„„„„„„„„„„„„„„„„„2 2.4 网络数据质量评估方式总述„„„„„„„„„„„„„„„„„2 3. 面向搜索引擎需求的网络数据质量定义„„„„„„„„„„„„„„2 3.1 基于万维网链接结构分析的网页质量定义„„„„„„„„„„„2 3.2 基于搜索引擎用户信息需求分析的网页质量定义„„„„„„„„3 4. 基于万维网链接结构分析的网页质量评估„„„„„„„„„„„„„3

4.1 PageRank在真实万维网环境中的困境„„„„„„„„„„„„„3 4.2 用户访问数据与用户浏览关系图„„„„„„„„„„„„„„„3 4.3 基于用户浏览关系图的页面质量评估„„„„„„„„„„„„„3 5. 基于搜索引擎用户信息需求分析的网页质量评估„„„„„„„„„„3 5.1 网页查询无关特征„„„„„„„„„„„„„„„„„„„„„3 5.2 查询页面与普通页面的差异分析„„„„„„„„„„„„„„„4 5.3 查询目标页面与普通页面的长度特征差异„„„„„„„„„„„4 5.4 查询页面与普通页面的PageRank特征差异„„„„„„„„„„4 5.5 基于用户信息需求分析的网页质量评估方法„„„„„„„„„„4 5.6 基于用户信息需求分析的网页质量评估效果„„„„„„„„„„4 6. 基于用户信息需求分析的网页质量评估方法的介绍„„„„„„„„„5

万维网数据质量评估困境

根据对用户查询量的计算分析,发现搜索引擎索引数据的数量已经远远超过了用户能够利用的规模,急需扩大索引规模对用户实际体验不一定差生正面的效果。相反,在保持一定数据规模的前提下提升数据质量,保证用户所需要的页面能够被索引到才是搜索引擎当前需要关注的和核心问题。

1. 万维网数据质量评估困境

自2003年开始,提高索引规模成为当时各个商用搜索引擎竞争的焦点。但在2005年的万维网会议上的报告却表明,尽管搜索引擎的索引量节节攀升,却没有任何一家搜索引擎可以覆盖互联网上所有有用资源。此后,经过索引规模竞争之后的搜索引擎更加务实的面对网络数据资源,索引数据的质量而不是数量成为网络信息检索研究更加关注的课题。

造成搜索引擎的关注重点从数量到质量转变的核心原因是其面对的巨大的存储和网络服务压力,面对这样繁杂的数据环境和海量的用户需求,搜索引擎不得不从简单的提高索引数量转而更加关注质量问题,以使其有限的存储和计算资源得到更加合理的使用。

网络数据质量评估问题的核心,是清除索引中冗余、低质量、不可信和过时的数据,而保持真正满足用户需求的数据能够得到检索算法的关注。

2. 数据质量评估的解决思路

面对网络数据中的冗余、低质量、不可信和过时现象,产业界和研究领域的主要解决思路集中在两个方面,即使网页数据清理的方式清除无用数据;或者使用网络数据质量苹果的方式挑选有用数据。两者都需要借助于机器学习和网页分类技术,无论采用哪种技术进行质量评估任务,都需要建立适当规模的训练集合。

围绕高质量数据定位的数据质量评估工作按照其评价对象的粒度不同可以分为两类,即Web页面质量评估(宏观粒度)和页面内部元素质量评估(微观粒度)。

2.1 宏观粒度网络数据质量评估技术

Web环境中的噪音信息可以分为不同粒度:全局噪音是指页面级别的噪音信息;二局部噪音则是之页面内部的噪音信息。处理全局噪音是页面级别数据质量评估的任务,而清除局部噪音则是页面内部元素级别数据质量评估的工作,两者是相互补充的关系。

当前网页质量评估的主要工作集中在分析超链接关系上,超链接结构关系是网络数据区别于普通文本数据的最大差别之一,因此,网页质量评估算法依靠超级链接算法的内容推荐与主题相关特性,而搜索引擎当前的运营机制却无

1

法保证上述特性的成立。相反,搜索引擎的兴起和广泛应用反而导致了超链接结构数据质量的下降。

搜索引擎及其运营机制,在高质量的网络信息与真实的物质财富之间形成了直接的联系,而这种联系的公平性则是由搜索引擎的运行算法和运营机制决定的。如果在网页质量评估的过程中不仅采用链接结构分析的方法,而且充分采集高质量网页各方面的内容和非内容特征,则会更加精确地评估页面质量。

2.2 微观粒度网络数据质量评估技术

微观粒度的网络数据质量评估问题在网络信息检索、网络信息抽取和网络数据挖掘的研究中都发挥着重要作用。

研究的重点是面向搜索需要的网络数据质量评估,因此重点关注的也只是清除页面局部噪音的相关研究工作,因此局部噪音处理一直是相关领域研究的重心之一,总体看来,可以分为两类研究。

第一类研究集中在清除某种特定类型的垃圾信息,第二类研究的特点是将页面进行“分块”处理,其出发点是:网页的组成一般具有明显的块组成,每个块的内容都有特定的主题。如果能够实现合理分块并挑选出网页主题内容所在块,则其他块的内容自然可以作为局部噪音信息丢弃,从而实现页面内部的数据清理。

2.3 冗余页面识别技术

另一类无用页面是网络环境中存在大量重复文本及冗余页面。重复网页判定算法必须把处理效率作为首要考虑的因素之一,因此这方面的重心一般都集中在网页特征降维上,即如何使用适当数目的网页特征取得较高效率与较好去重效果的折中。

2.4 网络数据质量评估方式总述

综上评述,可以发现,宏观粒度的网络数据质量评估即Web页面质量评估技术,是整个数据质量评估过程的中心环节。因此,基于用户群体行为的分析方法使最可能满足用户需求的网页进入索引,也就成为我们这方面工作的核心内容。

3. 面向搜索引擎需求的网络数据质量定义

对于搜索引擎而言,最主要的数据资源是网页资源,因此网络数据质量评估问题的核心也就是网页质量评估问题。

3.1 基于万维网链接结构分析的网页质量定义

搜索引擎目前的数据质量评估问题通常都需要借助于对万维网超链接结构的挖掘分析来进行。从万维网用户需求的角度,我们可以把网页在超链接结构图的“重要程度”作为其质量评价的标准。从另一角度来说,也可以基于搜索引擎用户信息需求的研究成果对网页质量给予更加明确的定义。

2

3.2 基于搜索引擎用户信息需求分析的网页质量定义

从用户查询需求角度分析,搜索引擎网页质量评估的核心,是定位出高质量网页,即可能被作为用户某个查询的目标页面。如果我们从用户信息需求的角度对网页质量进行定义的话,则可以将网页质量定义为其成为用户搜索目标页面的可能性大小,即:

Quality(p)=P (p是某个查询Q的目标页面)

按照这种定义,由于查询目标页面的类别只有两类,因此就可以将网页质量评估工作转化为针对需求页面和关键资源页面的网页分类任务。

4. 基于万维网链接结构分析的网页质量评估

4.1 PageRank在真实万维网环境中的困境

依照PageRank算法的设计原理进行的实验预测,PageRank得分排名与用户访问量排名之间不应有太大的差异,然而,实验结果却与预测不同,这说明PageRank得分高却只有低访问量的网页有可能是被大量不被用户喜爱的链接指向的。因此不得不考虑使用用户浏览信息对万维网链接结构信息进行过滤和清理,使之真正反映用户的互联网访问情况。

4.2 用户访问数据与用户浏览关系图

使用用户访问数据可以构建出反映用户实际浏览点击情况的用户浏览关系图。构建出的浏览关系图中,实际上已经去除了未被用户访问过的网页和超链接,在用户浏览关系图上施行PageRank算法,则可以很大程度上避免随机游走模型带来的超链接访问概率的错误估计。

4.3 基于用户浏览关系图的页面质量评估

通过实验分析得出,基于用户浏览关系图的质量评估效果优于基于原始链接关系图的方法效果。这充分说明了基于用户浏览关系图的页面质量评估方法的有效性。

5. 基于搜索引擎用户信息需求分析的网页质量评估

从用户信息需求的角度,可以把网页质量问题转化为评判网页是否是特殊需求和关键资源页面的网页分类问题。而这种方法施行的可行性的关键,在于特殊需求和关键资源页面是否具有与其他页面相区别的页面特征。

5.1 网页查询无关特征

下面引入了一些研究者采用的特征,包括以下几个方面:

(1)文档长度。 (2)链接文本长度。

3

(3)PageRank。 (4)入链接个数。 (5)出链接个数。

(6)站点内出链接个数。 (7)URL长度。

上述都是一些被证明可以在一定程度上反映页面质量的查询无关特征。

5.2 查询页面与普通页面的差异分析

关键页面与普通页面存在较明显的特征差异,表现在一下几个方面: (1)关键资源页面在出链接个数与站内出链接个数这两个特征方面与普通页面有非常大的不同。

(2)特殊需求页面与普通需求页面的最大差异在于PageRank特征上。 (3)在PageRank和出链接特征上两类页面有一定差异,这也验证了两类特征是特殊需求页面和关键资源页面的主要特征。

5.3 查询目标页面与普通页面的长度特征差异

页面长度是网页重要的内容特征之一。页面长度较小的网页除掉垃圾页面外,很大一部分是提供图片、音频、视频的网页,对于网页文本内容检索而言,它们不可能提供太多用户需要的信息,因此查询目标页面的长度不会太短是合理的统计结果。

5.4 查询页面与普通页面的PageRank特征差异

关键资源页面与特殊需求页面,就页面本身特性而言,其最大的区别在于关键资源页面通常包含较多链接向其他高质量页面的链接,而特殊需求页面则没有这方面的特征。

PageRank数值在一定程度上可以被看做页面质量评估的量度,因此查询目标页面作为被用户挑选的质量较高的页面具有较高的PageRank值是合理的。从这个角度讲,成为特殊需求页面的网页,其PageRank数值也应相比关键资源页面高。

5.5 基于用户信息需求分析的网页质量评估方法

由于查询目标页面与普通页面之间具有明显的查询无关特征差异,采用机器学习方法可以完成定位可能满足用户需求页面的任务。然而,对于面向网络数据的机器学习算法而言,大量的研究证明主要的困难集中在如何获取有充足代表性的训练样例反例上。

既然获取反例是一项非常困难的任务,那么一个可行的实现查询目标页面分类就是选取那些可以不依赖反例信息进行学习的算法。

5.6 基于用户信息需求分析的网页质量评估效果

4

被算法给予高度评价值的页面集合能否取得较好的检索效果,通过实验,可以发现,信息检索系统的检索性能决定以下两个因素。

(1)页面集合规模

利用页面质量评估算法,有可能将页面集合中的低质量页面去除,因此合理减少页面集合的规模有可能提高检索性能。

(2)查询目标页面召回率

一个在页面质量评估过程中被摒弃的页面是绝可能被检索系统返回的,因此一旦查询目标页面被丢弃,就意味着对应查询主题的检索性能会下降。

6. 基于用户信息需求分析的网页质量评估方法的介绍

特殊需求页面与关键资源页面具有类似的查询无关特征,而这两类查询目标页面与普通页面之间的查询无关特征差异则较大。查询目标页面具有查询无关特征是有其客观合理性存在的。由于查询目标页面与普通页面之间具有明显的查询无关特征差异,采用机器学习方法可以完成定位可能满足用户需求页面的任务。然而,对于面向网络数据的机器学习算法而言,大量的研究证明主要的困难集中在如何获取有充足代表性的训练样例反例上。

既然获取反例是一项非常困难的任务,那么一个可行的实现查询目标页面分类就是选取那些可以不依赖反例信息进行学习的算法。尽管没有反例信息,但是,结合实际问题,往往有许多辅助信息可以让分类变得更加有效。不少研究成果证实了包括决策树学习算法、贝叶斯学习算法、SVM等在内的众多机器学习算法可以在适当的设置下较好的完成任务。

5

因篇幅问题不能全部显示,请点此查看更多更全内容

Top