欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 新闻动态 >
联系我们
企业网站建设 建站咨询
电话咨询:13524991327
E-mail:1424374510@qq.com
QQ:1424374510

基于更新信息的网页机器理解及其在站内搜索引

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-10-12

在介绍搜索引擎的概念、架构的基础上,总结了搜索引擎的研究内容和现状,其中最核心的技术是网页分析技术。 在分析站内搜索引擎在网页分析方面的特点基础上提出了利用网页更新信息来分析网页的思想。最后给出利用该思想分析 网页的结果,表明该方法获取的网页更新信息对网页分析确实有帮助作用。
1.搜索引擎概念
搜索引擎一般包括获取网页的网页爬虫和分析程序、提供 用户查询的查询程序和保存内容的数据库三部分。具体架构见 图1:

其工作过程是首先由网页爬虫(又称为蜘蛛程序)获取各网 站网页内容,分析其中内容,并把分析结果保存在网页内容数据 库中;搜索引擎使用者(用户)通过查询检索程序提供查询关键 词,由程序从库中找到相应记录返回用户;为了及时、准确地返回 用户结果,往往将网页内容数据进行索引。网页爬虫及网页分析 属于后合工作程序,不被用户感知,但库中内容完整与否、数据更 新程度完全、用户的查询率、查准率均与它有密不可分的关系。
2.搜索引擎研究的内容
2.1网页爬虫研究
巨大的数据量使得对网页内容和链接关系的处理成为搜索 引擎研究的难点,当然也是热点。针对广域网的海量信息,由单 一网页爬虫来获取信息几乎不可能,解决方式之一就是分布式 Web爬虫。分布式Web爬虫是由多个可并发获取Web信息的 Agent构成的Web爬虫系统,每个Agent运行于不同的计算资 源之上,这些资源或集中部署在同一个局域网内部,或分布在广 域网的不同地理位置和网络位置,每个Agent以多进程或多线 程方式通过并发保持多个TCP链接获取Web信息。文献主要探讨分布式爬虫技术和与Agent技术结合的课题。解决广 域网的海量信息的另一种方式就是让爬虫对网页过滤,只对感 兴趣的网页进行处理,这类爬虫称为主题爬虫或关键词爬虫。文 献讨论具有主题内容过滤的爬虫设计技术,这些技术包 括数据挖掘、知识发现、自然语言机器理解等。
2.2 网页分析技术研究
无论网络爬虫采用何种方式,对搜索引擎的研制而言核心 技术仍然是对网页内容的分析理解方面。网页内容从形式上分 类包括文字、图像和声音等;从数据来源分为一般静态内容和动 态内容,其中动态内容来自数据库,称为Deep Web数据;按内 容所属的专业和社会领域来分就很多很多。网页内容无论是文 字、图像还是声音等让机器来理解均是一个科学挑战、就是一个 科学研究领域,如文字的理解就是自然语言理解、图像的机器理 解就是机器视觉、声音的机器理解就是声音的机器识别。虽然现 在对网页内容彻底分析还不能实现,但这些不彻底的分析方法 已经使得搜索引擎在网络信息中被广泛使用。正是这个原因,一 方面已经有许多商业的搜索引擎在使用,另一方面针对搜索引 擎的各个环节的研究还在进行,而且有关网页分析可能是搜索引 擎研究的永恒的话题。目前网页分析一般方法大多集中在文字的 分析上,图像和声音分析的少。文字分析的方法有分词、词频统 计、语义理解等,文献[7-9]就属于这类。网页分析还有非一般方 法,那就是针对网页中特定成分的内容进行特定的分析方法,文 献就属于这类,主要讨论网页中各种特定内容的分析理 解和获取,如网页中Deep Web数据、网络话题、数字版权信息、 网络社区信息、搜索与翻译结合、网页中的多媒体信息等。这些分 析技术均为针对特定内容的分析技术、通用性少,有效性待检验。
由于网页分析难以做到完全全面、准确,数据库中数据具有 模糊性,所以用户查询存在有查全率和查准率问题。
2.3网页相关性排序和网页搜索性能的研究
网页搜索性能除了网页相关性定义的准确与否,还取决于 用户的搜索意图理解和表现,对用户意图尽可能准确地分类。这 就是引擎的个性化问题。文献主要讨论如何按照用户 查询意愿来进行网页排序。
网页搜索性能除了上述因素外,还与库中数据的及时性和 新鲜度、覆盖率有关。解决覆盖率的典型做法就是元搜索引擎, 文献探讨元搜索引擎。有关数据及时性和新鲜度研究实际 上就是网页更新策略的研究,涉及派出爬虫频度和网页更新情 况的获取等。文献着重研究网站网页分类更新策略,说明网页的更新性是网页属性之一。
2.4搜索引擎研究的核心问题
搜索引擎研究的核心问题还是在网页分析。无论是爬虫研究还是网页相关性研究都需要网页分析技术。而在网页分析中又以网页文字的分析为重点和难点,因为文档、超链接标题、表格标题等均为文字信息。在自然语言理解的研究方向中有一个研究分支称为摘要自动生成。该分支的研究目标就是对一段文字形式存在的信息进行分析,提取出反映该段文字内容的主题词或关键词。这里以文字形式存在的这段信息不是以形式语言形式存在,而是以自然语言形式存在。
摘要或关键词自动生成技术是搜索引擎研究的核心问题,它存在于上面所列的三个方面的研究中。在网页爬虫研究中,由于信息的海量,具有“理解网页内容”的智能爬虫是目前研究发展的趋势,智能爬虫实际上就要具有能准确提取关键词;在网页分析、在网页相似性排序中提取准确含义的关键词技术是基础和核心。
3.搜索引擎研究现状及站内搜索引擎
站内搜索引擎就是只针对某个网站网页进行搜索分析,并建立针对该网站的查询搜索系统。站内搜索引擎与一般搜索引擎相比,其架构没有变化,依然由蜘蛛程序(网页爬虫)、用户查询程序和数据库三部分组成,一般搜索引擎中的各算法依然适用站内搜索引擎,一般搜索引擎面临的挑战在站内搜索引擎中依然存在。正是基于这个原因,有关专门研究站内搜索引擎的文献不多;也就是这个原因,目前站内搜索引擎也不多见,许多网站仍然无搜索功能,就是有搜索功能也是人工整理信息生成的,非搜索引擎自动产生、自动维护。文献是研讨站内搜索引擎
的文献。该文通过对站内搜索的设计分析和实现,以及对网页排序算法的研究,提出了利用综合倒排文件和快速排序方法进行站内网页决策性排序,建立新式站内搜索,并应用于实际。
4.站内搜索引擎在网页搜索中的特点分析
站内搜索引擎与一般搜索引擎不同就是要处理的网页数量少。普通搜索引擎搜索网页采用的搜索策略是宽度优先遍历,而站内搜索根据其特征和需要采用深度遍历或者宽度遍历均可,因为一个站点的链接是有限的、深度优先遍历不会导致存储待搜索超链接的缓冲区溢出。站内搜索的网页爬虫可以不需要采用分布式甚至多线程的设计方式。
站内搜索引擎的搜索对象是一个网站的网页,这些网页的数量和网页内容具有比一般引擎所面临的网页具有更好的稳定性和确定性。站内的网页数量和每个网页的内容还是会变化的,只是变化的频度和程度与一般引擎比要小许多。一般的搜索引擎相邻的两次网页搜索面临的网页变化非常大,甚至有一些网站消失,一些新的网站出现;而站内搜索引擎在相邻的两次网页搜索时可能有网页的增加和网页的减少,但变化数量不会有一般引擎的那么剧烈、不会出现原来站点和子站点的消失和新站点或新的子站点的出现等现象。这表明对站内搜索引擎而言,相
邻两次搜索的网页之间对应性容易找到,因此同一个网页的内容变化情况可以通过两次获取的内容对比获得,即可以获得每个网页更新信息。对一般搜索引擎,由于它搜索的网页数量是海量级、网页爬虫可能是分布式的,至少也是多线程的,再加上它每两次搜索的网页本身变化巨大,要找两批次网页爬虫获得的
网页对应性很难,因此获得网页的更新信息也很难。
5.网页更新信息在网页分析中的应用
网页是网站设计者提供信息让用户阅读的唯一方式,是信息的载体。一个网页就是一定量信息的集合,一个网站是网页的集合,是信息的更大的集合。作为向访问者提供信息的网站要解决好两个问题:一是信息在哪里,二是信息是什么,解决这两个 问题的内容构成了网页内容的主体,因此站内网页的内容根据 其角色不同,分为引导信息和信息。站内网页也因其中主要信息 的不同可以分为引导信息网页和信息网页。 引导信息网页主要 是提供用户需要的信息到哪里去取,一般是网站的主页或网页 节点树中较上层的网页,这种网页的特征是信息主要是以超链 接形式存在。由于站内信息是有一定组织形式,因此引导性网页 与网页架构有关,含有网页架构信息。信息网页就是信息本身, 是网页节点树中的叶节点。这两类网页在内容组织上表现形式 不同,引导信息网页具有分块特点,而信息网页不具有分块特 点;这两类网页在更新性上表现出完全不同的行为,引导性网页 中反映架构信息的部分一般是不变化的,而引导性网页中反映 信息的部分和信息网页一般随时间变化。如图2的例子很好地 说明了这一点:

我们的思路是利用站内网页树中主网页或上层网页及超链 接相对稳定和可跟踪性,让爬虫定期上网抓取这些网页内容,将相 邻时间间隔的对应网页进行对比分析,可以区分出以下几类超链 接:永不改变的、新增的、位置变化的和消失的。而这四类超链接的 连接目标对应不同的处理类型:不变化的链接反映站内结构,其链 接标题具有部门、类型信息;新增的、位置变化的和消失的链接往 往是新闻、通告等变化内容,这些链接对应的网页一般是文档网 页,这类网页需要采用一般网页分析方法。这些变化信息为进一步 分析网页提供了帮助,如:不变化超链接标题、不变化的表格标题 等含有部门、类型信息,变化信息中时间信息可以缩小查询的范 围,这就是我们提出的根据网页更新信息来分析网页的方法。
6.站内搜索引擎设计及实现
按照上述设计思想,设计了一个基于更新信息的站内搜索 引擎。在这个搜索引擎设计过程中,对引导性网页的分析主要采 用我们提出的基于更新信息的网页分析方法,对于处于网页树 的叶子节点的信息网页则采用通用的分析方法:分词、统计词频和其它文本分析方法,这里我们借助开源的Clucene(Lucence的C++版)实现。更新信息的时间跨度设为天,即每天访问网站一次。图3是对应图1网页的更新信息的数据库中数据。

实验结果和实际使用说明这种方法对网页分析是有效的。