欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 新闻动态 >
联系我们
企业网站建设 建站咨询
电话咨询:18017747315
E-mail:2355555999@qq.com
QQ:2355555999

基于爬虫技术的关键词关联推荐算法优化与实现

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-07-02

随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和 完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之 带来用户检索、筛选时间的增加,以及查准率的降低。为了解决这一矛盾,本研究融合网络爬虫技术和学术资源网站结 构化数据的特征,将网站网页数据进行爬取、加工、整合,用结构化、可视化的图像数据辅助检索,实现了在缩小用户 的筛查范围,提升用户检索的准确度的同时,以关联推荐方式提升用户在学术资源网站中信息检索的效率。
1.研究背景
学术文献的爆炸式增长,需要更强的信息检索技术与 之相匹配,来满足用户快速、高效检索信息的需求。将 用户搜索行为锁定在搜索引擎的端口位置,使搜索词转化 为机器语言提升检索正确率,应用数据库检索技术进行结 构性数据信息横向关联的开发,是学者们创新研究和理论 实践的热点。
关联推荐的研究主要集中于电子商务物品交易网站、 数据库的构建和关联推荐算法设计方面。陈晓金0指出, 搜索引擎克服服务个性化太差和返回结果过于简单的问 题,需要用户的数据素养和知识背景的全面考虑;施晓 华[3]借以用户生成的大量检索记录信息库进行关联文献 的推荐,提高用户信息获取效率。针对自然语言信息检索 系统,Gruber 4提出,定义语义和本体后,语义化模型的 创建使更多的系统匹配方式不再局限于关键词的机械性匹 配,而是囊括概念和数据间语义性的关联,使信息检索由 机器匹配层次过渡到了概念层次。伴随着语义化模型的不 断深入,数学方法逐渐参与到语义性信息分析中,王菲菲 和邱均平8从信息计量学的角度,构建了类比语义本体模 型;刘庆华H通过Web数据挖掘设计了基于用户访问行 为的个性化关联推荐算法;金加和0在一定程度上降低无 用信息的推荐,改进了个性化的关联推荐算法;岑咏华[8 指出从知识挖掘的角度为检索提供实际的推荐功能;王丹 丹®指出用户数据集间的关联构建、共享是推荐关联文献 的又一挑战;温有奎M —方面设计关联关键词推荐算法 解决用户检索不透明问题,另一方面在关键词关联推荐算 法上加入了关键词的数据库组合信息的推荐以确保用户更 换搜索词时不至切换到另一领域,对搜索词系统界面进行 了改进。
尽管提高信息检索技术是提高信息检索结果与用户真 正信息需求相匹配度的重要的匹配手段,但往往忽略用户 主动知识发现对完成检索任务的影响。朱明权指出,用户 利用同一页面内的“相关链接”进行信息检索,会减少 实现检索目的的时间;利用不同页面内的数据链接进行信 息检索会增加搜索时间,对绩效产生不利的影响[11。 J. W. Ahn,P. Brusilovsky [10指出探索性的检索对完成检索任务有十分重要的影响,并提出了自适应性检索VIBE的 可视化检索方式和以用户体验为核心是信息检索的发展方 向。同时,页面跳转在知识获取过程存有不利影响,搜索 论文文献的成本急剧上升,无法得到检索意图相关论文文 献数据,且词不达意的情况经常出现。针对不同的5个信 息检索系统,A. D. Asher测试证明,92%的学生只在相关 度匹配的第一页面中浏览信息,而不会采用二级页面和跳 转页面的方式获取信息[13]。因此,将检索界面与更多的 信息复合到同一页面内,利用用户的个人能动性可有效提 升用户检索信息效率。
综合上述,现有的信息检索方式存在以下问题:第一由于用户本身对相关领域的名词积累较少,进行信息 检索时,只能调用知识储备中相对该领域匮乏的词项进行 搜索,检索难度大,并且常常搜索不到需要的信息。第 二,文献数据库资源得不到最大化利用。知识性信息服务 平台是提供信息资源的平台,由于用户输入的检索词无法 被机器语言理解和匹配,需要根据文档特征或者深入到文 档本体内部来进行探索性获取,成本较大。第三,传统信 息管理系统是基于功能的角度进行设计的,设计重点是如 何以从人脑匮乏的知识储备中调出检索词与机器语言进行 相关性匹配的方法来提升检索词与文献文档相关度匹配的 效率。人与计算机的交互过程不仅包括检索词的检索,还 有比较典型的相关链接。通过相关链接来获取信息是一个 探索的过程,要求用户以相关链接作为一条线索不断进行 探索,直到最终获取需要的信息。尽管用户的信息检索匹 配方式在第一次检索中效率较高,但当用户缺乏专业信息 时,很难获取一条清晰的知识脉络。况且,学术信息检索 服务平台的相关链接数量较少,一般是根据用户检索词所 属的学科大类、引用频率进行链接并提供少数的研究人 员。当引用度较高的文献与用户的需求相去甚远时,相关 链接会造成误导。
因此,本文提出,首先利用用户输入的搜索词和排序 方式获取一次检索数据文本;其次,数据文本预处理,抽 取代表语义特征的元数据;再次,将元数据按照不同的语 义特征加权整理;最后,一次检索数据和分属于不同语义 特征数据共同作为信息检索的反馈结果。实现在同一页面 内直接获取文献资料本体的相关数据来源URL链接,满 足用户信息检索需求。
2.关联关键词推荐检索界面系统实现
2.1关联关键词推荐算法改进设计
关联关键词推荐算法的改进设计主要作用于信息检索 界面的相关链接,丰富关联关键词并提供URL链接,其 构建体系包含对一次检索结果中本体属性动态化的分析和概括,见图1.

 首先,对现有信息检索系统反馈进行改进。将一次检 索结果中各条论文本体与检索词完成相关性(发布时间、 引用量等)排序后对论文本体进行锚定,以第一次检索到 的论文本体作为数据分析整合的语料库,并将其语义性特 征属性加工重新排序,使相关反馈栏目共同呈现在信息检 索界面上。其次,跟踪文献数据,实现网络的节点化处 理。 在用户所提供-次性检索词无法获取满足需要信息 时,利用论文语义特征整理出的属性特征背后的URL链 接进一步检索。一方面避免了在第一次检索后出现词穷的 情况;另一方面从匹配后的文献或论文本体二级页面中获 取准确信息。反复处理,并沿着每一条路径探索,实现对 信息库中所有数据的跟踪。最后,各条路径交织,汇集成 为信息库的暂时性外部化的关联关键词网络,同时将数据 网络各个节点文献本体的属性特征共同呈现在一次检索界 ^面 。
2.2多维关联关键词推荐界面算法设计
:用户输入检索关键词A;
:将关键词A进行相关度匹配,取前n个论文本体 进行锚定,作为推荐词语义特征库P;
:取n个论文本体进行赋值,由信息检索系统相关 度匹配结果降序排列,第i篇论文赋值n - i +1 (i = 1,2,
…,n);
:关键词集合K =伙1,,…,Ki,…,Kn },Ki =
{ ki1,ki2,…,ip,…,iq };
:存在第i篇与第J篇,关键词字符串kip = kiq,则
kip = n - P - q +2,kiq =0;
:将关键词kin所获得分倒排给出关联关键词的推荐结果并附URL链接;
S,:重复配置刊物,作者,研究机构进行赋值排序输 出推荐结果。
2.3实验流程及结果
1)实验流程。以万方数据知识服务平台为实验平台, 首先以‘‘信息检索”为检索词在学术论文下进行搜索, 选择按相关度排序的选项。其次,二级页面作为万方数据 库的映射,为获取信息采取爬虫的方式直接获取二级页面 结构信息,包括关键词、作者、刊物及研究机构。最后, 将作者、作者单位、刊名、关键词各自分类,按所属论文 权重由大到小进行排序,相同数据进行合并。权重为所出 现论文权重之和,比如,作者王芳分别出现在第一、第三 篇论文中,则合并这两篇论文的权重。
权重的取值方法如下:针对文献资源的检索结果,需 要综合考虑多个指标对文献资源进行排序,以提升资源的 有效利用率。当前检索系统主要通过以下两种方式实现资 源的硬排序:①根据文献出版年份、文献期刊级别、文献 类型进行单方面或者多方面进行筛选排序,这种检索排序 结果往往不尽如人意,不利于学者的研究。②针对文献标 题关键词近似度和文章内容与检索词相似度。当访问者使 用检索词不规范时,难以实现对文献资源的有效排序。学 术研究中,对于不同指标的重要程度不仅决定于个人的研 究偏好,学术价值也需要进一步衡量。由于专家预测法一 般指选取具有专业知识、精通业务、在某些方面积累丰富 经验、富有创造性和分析判断能力的人对相关问题作出的 评价和度量。因此,本文选取专家预测法对文献检索结果 的相关指标进行综合测定,基于各种不同指标的差异值进 行不同的权值分配,并对计算结果进行客观描述,最终得 到的结果,如表1所示。

2)实验结果。本文采用爬虫的编程环境为Python语 言。爬虫分别由爬取队列、加工排序队列和存储队列三个 队列依次作用完成整个爬取过程。首先,由爬取队列对各 学术论文二级页面的语义信息进行爬取,交给加工排序队 列;其次,加工排序队列对获得的信息赋予权重;最后, 存储队列汇总数据和得分,并将相同数据的权重相加得到 最终得分。
本试验中设置了4种爬取数据类型,需要对不同数据 进行程序加工后进行4次相同类型的实验。爬取论文部分 代码及爬取结果(前20项)分别见图2和表2。


随后,进入二次爬虫检索。该检索以一次检索按相关 度排序的前100条检索记录为基础,分别给予每个论文本 体属性权重后加工编辑得到。其中包含240名独立作者或 联合作者,58家研究机构,48家刊物以及涉及的462个 关键词。例如,按照实验设置的每篇论文的赋值规律可知作者“吴丹”至少在获取的范围内发表了4篇以上的论 文;涉及图书、情报、档案以及计算机信息技术领域,有 关信息检索的学术论文主要发表在《计算机研究与发展》 《情报学报》《中国图书馆学报》等学术刊物上;与信息 检索关联度较大的关键词除“信息检索”本身外有“查 询扩展’ “跨语言信息检索’ “本体’ “clustering”等。最 后,将所获得的信息整理列表加入信息检索界面中,如 图3所示。

为使数据更加直观,使用户从视觉感官上获取数据的 频度关联程度, 本文采取信息可视化列表数据方式进行处 理。常用的信息频度表示的可视化形式主要是通过方块面 积来展示数据信息频度的Masico图,和文字大小代表关 键词频度的词云14 (也称“标签云”。词云软件Tagxe- do 15在实现可视化图示的同时还可以根据背景图片的形 状变换相应数据的位置。将信息检索列表转为CSV文件 加入word_cloud包,前100条数据进行信息可视化处理, 并以矩形方片中心椭圆式向外扩散,可视化结果见图4。 其中,关键词出现频度不高,设置最低字体大小词汇,以 远离中心显示。
2.4实验的动态性
作为获取信息数据的工具,爬虫和从数据库获取数据具有一定的相似性。例如,类似于经过匹配算法由数据库 整理获取数据生成检索结果的页面, 爬虫所展现的是本次 检索的实施数据。但是,当选择时间先后和引用度排序, 论文本体排序发生变化时, 每篇论文上的赋值也会发生相 应变化,爬虫获取得到的二级网页信息的初始网页信息排 序也相应地进行动态的赋值调整。这种实时动态性的变化 会帮助用户对不同匹配指标偏重的信息进行检索。
2.5爬虫技术的选择及影响
在改进的信息检索系统中,二次检索是通过爬虫技术 完成的,在信息检索系统中爬虫技术包含深度优先搜索 (DFS,Depth _ First Search)和广度优先搜索(BFS, Breadth_ First Search)方法,在技术的选择上往往取决于 数据结构和检索行为的目的。由于DFS与BFS两种爬虫 技术的差别并不大,均可实现对信息数据顶点、关节点的遍历,但当对于关联数据后的网页进行爬取时DFS往往 会使爬虫陷入trapped问题,因此,本文选择BFS爬虫 技术。
清华大学周立柱等M提出一种按照网页分析算法判 断相似性的最佳优先搜索策略。在本次实验过程中,这种 方法对效率的提升理论上影响并不大。原因如下,一是由 于用户进行探索性检索,必须为其提供大量的相关信息, 操作上的实现就是对所有相关二级页面的遍历,而判断相 似性的网页分析算法会减少30% ~90%的二级页面。二 是由于本文实验前反馈数据已经是与关键词进行匹配后的 结果,再次进行同种算法类型的匹配会造成信息的大量 损耗。
该方法同样适用于学术资源文献内容的知识发现,它 为从内容检索入手的用户信息检索提供了技术支撑和实现 途径。
3.结束语
关联关键词推荐算法研究与信息检索效率的提升有着 密切的关系。针对学术资源检索特性,本文基于爬虫技术 对关联推荐的方式和算法进行了优化与技术实现,一方面 在缩小用户筛查范围的同时,提升了用户检索的准确度; 另一方面实现了在同一页面内直接获取文献资料本体的相 关数据来源URL链接,满足了用户快速、全面、可视化 信息检索的需求。