欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 新闻动态 >
联系我们
企业网站建设 建站咨询
电话咨询:13524991327
E-mail:1424374510@qq.com
QQ:1424374510

面向区域农业信息的垂直搜索引擎研究

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-10-11

区域农业信息对于特定区域的关切人群具有重要价值。提出了一种面向区域农业信息的垂直搜索引擎设计方 法,从信息采集、信息组织和信息服务3个角度,提升用户获取区域农业信息的体验。
搜索引擎是一种应对信息过载的有效方式。但通 用搜索引擎在面对狭小细分领域信息检索的时候,信 息收集不充分、索引数据库不完备,从而导致该领域信 息查全率和查准率低的问题。因此,垂直搜索引擎应运 而生。垂直搜索引擎是指应用于搜索某一专业领域(比 如科技论文、汽车、房产等)或者某一类信息(比如地 图、音乐等)的专业搜索引擎,也被称为专题或专门搜 索引擎,是搜索引擎的细分和延伸。垂直搜索引擎并不 追求大而全,强调的是专而精,可以在特定领域信息检 索中获得较好的效果。
区域农业信息指通过各种渠道传播的以地方区域 为范围的涉农相关信息,这些信息对于特定区域关切的 人来说往往关乎切身利益,具有重要价值。每天都有大 量的各类信息从各个地方产生,但受限于主流媒体有限 的版面和时长,只有极少数信息能被选择报道传播,许 多区域信息被埋没而失去价值。通过建立面向区域农业 信息的垂直搜索引擎,快速、精准地满足相关用户个性 化的信息需求,下文将就几个关键技术点进行阐述。
1.区域农业信息搜索基本流程
从信息管理角度看,要实现区域信息垂直搜索引 擎的设计。首先需要根据设定区域从互联网各种渠道 采集相关信息,并建立基本的信息库。接着对信息库 中的信息进行标注,从每一条信息中提取若干主题特 征。此外为了搜索结果的有效性,还应计算信息的权 重。最后考虑到区域信息规模往往不大,可以采用关 键词匹配的方式响应用户搜索,同时采用top-N推荐 的方式提升用户使用体验。
2.区域农业信息基础库建设
垂直搜索设计的首要问题是基础信息库的建设,对于区域信息,主要有三类一、稳定的信息,产生时间 早且不容易发生变化,比如某地的历史、地理信息、风 俗习惯等;二、较稳定信息,信息变化不频繁但一定周 期会发生更新,比如某地的火车时刻表、农业经营场所 信息等;三、实时信息,这类信息变化快、数量大,比如 某地的天气信息、某地的交通路况信息、惠农政策信息 等。针对不同类别信息需要建立相应的信息库。
3.区域农业信息采集
对于不同类别信息,信息采集方式不一样。对于稳定的信息,主要是做好前期工作,信息来源不仅仅 是互联网,还可以是线下信源,传统方志、实地考察 等,确保权威、准确。对于较稳定的信息,则注意信息 抓取的周期,尽量响应信息更新。对于实时信息,则需 要耗费较多计算资源,密切抓取信息源实时更新。互 联网信息来源多样,在有限资源的前提下,考虑到信 息分布呈现的马太效应,尽可能聚焦核心信息源信 息进行采集可以提升采集效率。
4.区域农业信息组织
对于已建立好的信息库,要实现搜索的响应功 能,需要做好两个工作。一是对信息进行标注,提取信 息的主题特征,可通过中文分词进行涉农词汇识别, 去除无意义的停用词,提取有意义的涉农词语标签。 二是计算信息的权重值,主要从时间角度和影响力角 度进行衡量,从时间角度看通常较新的信息具有更大 的价值,从影响力角度看主要考虑信息来源和信息引 用及互动情况。比如权威信息源发布的信息往往重要 性高于普通网民发布的信息,又比如被广泛转载和评 论的信息往往具有较高的价值。
5.区域农业信息搜索
区域涉农信息规模通常不大,在信息呈现上,可 以以两种方式:一是提供搜索入口,用户提交关键词, 然后直接通过关键词匹配和近似词匹配的方式,按照 权重和时间顺序给出搜索结果,单纯依赖关键词匹配 可能会降低查全率,在信息组织阶段可以将信息进行 基本类别的划分,当关键词匹配结果不理想的情况 下,可以反馈同类别信息;二是采用topN推荐的方 式,列出特定时间段重要性较高的信息,满足用户多 样性和新颖度的需求。
6.结束语
相比通用综合搜索引擎大而全的方式,垂直搜素 引擎强调专而精,在特定领域信息搜索中具有更高的 查准率。区域农业信息对于某一地方关切的用户具有 重要价值,通过垂直搜索引擎采集和挖掘本地信息便 具有重要意义。