欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 网站优化百科 >
联系我们
企业网站建设 建站咨询
电话咨询:18017747315
E-mail:2355555999@qq.com
QQ:2355555999

浅谈基于Web挖掘的个性化搜索引擎技术

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-10-12

本文针对搜索引擎存在的问题,简要介绍了 W eb挖掘的相关技术,并构建 了用户个性化数据库,设计出基于W eb挖掘的个性化搜索引擎模型,使检索结果更加 符合用户的实际需要。
引言
搜索引擎的基本概念出现于20世纪70年代,并 于20世纪90年代中期得到快速的发展。随着Web 信息的迅速增加,搜索引擎市场出现了前所未有的繁 荣景象,搜索引擎正向着智能化、个性化等适应不同 用户需求的方向发展。目前,搜索引擎仍然存在很多 的局限性,主要表现在以下几个方面:查询精度不高 且不能根据用户兴趣返回信息、资料检索与用户的交 互不够、查询结果排序不合理、不能处理多种格式的 文件等。
一、Web挖掘技术概述
Web挖掘[1]是指从异构的分布式互联网数据中 收集信息,利用计算机网络技术和人工智能技术,不 断地发现有用的数据模型和隐含知识。根据挖掘对象 的不同,Web挖掘可分为Web内容挖掘、Web结构 挖掘以及Web日志记录挖掘。
Web内容挖掘是基于Internet中各种网站的数 据内容,以获得有效的知识驱动模型,并自动检索网 络资源,提高网络数据的使用。
Web结构挖掘是研究Web文档的链接结构,找 到链接中隐含的可用模式。其中两个最著名的算法是 PageRank算法和HITS算法。
Web日志记录挖掘也称为Web日志挖掘,以 Web服务器访问日志为主要数据,分析用户的浏览 行为与页面之间的结构类型,改进站点结构,为用户 提供个性化服务。
二、基于Web挖掘的用户个性化数据库
用户个性化数据库以用户的多维信息为基础,不 断深入挖掘用户的浏览行为,并根据页面权重、时间 间隔、深入挖掘用户的浏览行为,并根据页面权重、时间 间隔、下载信息等因素不断更新数据库,帮助用户查 找真实需求的资源信息。用户个性化数据库包括信 息收集与信息更新。
1.收集用户访问信息
如何获取有关用户的个性化信息是用户个性化数 据库需要解决的首要问题。用户个性化数据库的数据 信息主要来自于用户提交的信息以及分析用户的访 问日志。
用户在访问互联网的过程中,提交的查询关 键词、停留网页时间、下载状态等信息会在Web服务 器上留下记录,并形成用户访问日志。用户个性化数 据库通过不断分析用户访问日志,挖掘用户的潜在个 性化信息。
2.更新用户个性化信息
用户的个性化需求不是一成不变的,大多数用户 的个人特征数据会随着时间推移而变化。其主要表现 形式有两方面,一为兴趣领域的变化,二为兴趣程度 的变化。用户兴趣的变化将不可避免地影响用户个性 化数据库的内容,这就要求用户个性化数据库具有自 主学习的能力,并根据用户的兴趣变化不断更新数据 库中的相关特征项。
本文采用改变权重的方法更新用户的个性化特征 项,公式如下:
NewWeight= OldWeight+t
i为用户访问网站的参数。针对不同用户的访问行为进行定义,如用户对访问内容进行下载、对网页 进行全文浏览、对部分网页内容进行浏览、未对网页 进行浏览等。不同的访问行为反应了用户对信息的满 意程度,依次为i确定不同的数值。
t是时间参数。用户通常会长时间浏览他们感兴 趣的页面,否则浏览时间将会变短。
三、基于Web挖掘的个性化搜索引擎模型
个性化服务的目标是反映用户之间的差异,尊重 用户的个性特征并向用户提供各种信息服务[3]。基于 Web挖掘的个性化搜索引擎模型主要为用户提供个 性化的信息检索服务,便于用户查阅使用。
本系统主要包括个性化数据库、检索系统、后台 管理系统。
个性化数据库主要表示用户的兴趣趋势,通过不 断挖掘用户访问曰志,自动更新用户的个性化特征 项。
检索系统主要基于用户查询关键词,在检索信息的同时计算相应页面的权重,以此为依据进行排序, 并把检索结果反馈给用户。
后台管理系统主要加强子系统之间的通信连接, 维持系统的稳定运行。
四、结语
随着互联网信息的急剧增加,搜索引擎技术在信 息检索中发挥的作用越来越大。相信随着科学技术的 进步,网络信息检索技术的发展也会越来越快。