欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 新闻动态 >
联系我们
企业网站建设 建站咨询
电话咨询:13524991327
E-mail:1424374510@qq.com
QQ:1424374510

基于物联网技术的搜索引擎技术研究

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-10-11

近年来,随着物联网在各个领域的不断应用,使搜索引擎技术具备了极为广阔的发展前景,针对搜索引擎在我国的应用现 状,现将物联网技术应用到搜索引擎软件当中,以此提高搜索引擎软件的速度,使搜索引擎能够为人们提供更好的信息搜索服务。
引言
随着物联网技术的不断发展,将信息技术和物联网技 术进行融合,将使其在各个领域中发挥更大的作用。其主 要包括检索器、搜索器、用户接口及索引器四个组成部分。 搜索引擎在物联网中发挥着极为重要的作用,人们能够通 过搜索引擎在物联网中搜索到自己所需的信息,同时还能 利用搜索引擎进行漫游,可以说,搜索引擎极大程度地满 足了人们对信息的需求。将物联网技术应用到搜索引擎技 术当中去,能够在很大程度上提高搜索引擎的性能,使搜 索引擎在物联网中进行更加优质的信息搜索服务。因此, 本文便对基于物联网技术的搜索引擎技术进行深入的研 究,以此开发出更加智能化的搜索引擎。
1.基于物联网技术的搜索引擎软件模块的设计
在基于物联网技术的搜索引擎软件中,其共包括四个 组成模块,这些模块分别是网页抓取模块、内容索引模块、 内容提取模块以及内容显示模块,以下便对这四个组成模 块进行深入的研究。
1.1网页抓取模块的设计
网页抓取模块的功能在于其能够对用户所指定的站 点实施网页抓取,然后将所抓取的网页存储到用户计算机 的数据库当中。而在本文中所提到的基于物联网技术的搜 索引擎软件模块能够从腾讯、搜狐、凤凰及网易等大型网 站中对相关网页进行抓取,其只需要将这些大型网站中的 页面URL当作种子URL,并对这些大网站中的网页URL 所具备的格式进行分析,然后对网络爬虫在网页分析及抓 取时所产生的行为进行相应的控制,并对能够进行爬取的 网页URL格式和对能够进入到等待爬取的URL队列所具 备的URL格式进行限定。而要想使网络爬虫的爬取速度 得到相应提高,就必须要对URL分配策略进行相应的改 善,以确保网络爬虫所具备的并发线程数量能够增多,同 时,还可以对Robot文件访问进行限制,以达到提高网络爬虫爬取网页效率的目的。
1.2内容提取模块的设计
网页内容的提取模块功能在于其能够从用户计算机 存储的网页中根据特定的提取规则来对用户的所需信息 进行提取,然后将这些提取的信息按照相应的格式存储至 数据库当中。其在分析目标网页过程中,会对相应的信息 抽取规则进行制定,以定位网页中的相关内容,同时对网 页中所包含的文本内容进行抽取。在网页信息词库的构建 中,利用分词器来对用户所需的提取信息进行解析,然后 将这些提取到的信息写入到相应的词库文件当中,从而使 这些提取出的网页信息能够转化为结构化信息,最后再由 数据库对这些结构化信息进行存储。
1.3内容索引模块的设计
在基于物联网技术的搜索引擎软件中,对于内容索引 模块的设计,主要是通过Luence索引工具来根据数据库 中所存储的结构化信息来对索引文件进行建立的,在成功 建立索引文件后,再将这些索引文件分别存储至磁盘当 中。这样,当用户需要对相应的内容进行索引査询时,其只 需要在搜索引擎中输入相应的査询条件,即可对磁盘中的 任意索引文件实施査询,而且搜索引擎软件还会根据用户 输入的査询条件的满足程度,按照相应的顺序分别反馈给 用户,从而使用户能够对所有符合査询条件的索引文件进 行一目了然地筛选。
1.4内容显示模块的设计
在基于物联网技术的搜索引擎软件中,内容显示模块 的设计也是一大设计要点,该模块以Jsp技术为核心,在向 用户展示界面时,是以Web形式实现的。用户在对某些信 息进行搜索时,需要在搜索引擎软件的搜索栏界面输入相 应的关键词,此时,搜索引擎软件便会根据用户搜索的词,从本地数据库中对能够与关键词相匹配的网页进行査询, 在査询到所有与关键词相匹配的网页后,搜索引擎软件会 根据这些网页的匹配程度,并按照相应的排序规则将这些 网页显示到界面当中,用户只需要点击这些网页信息,便 可迅速切换到该网页的详细内容,进而帮助用户快速找出 网页内容。
2.基于物联网技术的搜索引擎技术的具体设计
2.1网页抓取
在基于物联网技术的搜索引擎软件设计中,网页抓取 技术实质上便是一个能够对网页进行自动提取的网络爬 虫程序,其能够从物联网中对网页进行下载,可以说,该程 序也是搜索引擎软件的核心所在。在以往的网络爬虫中, 其是从单独或多个初始网页的URL做为起始点,以得到 这些初始网页中的URL格式,其在对网页进行抓取时,需 要在当前界面中对新的URL进行不断地抽取,然后将其 放入到队列当中,当满足停止条件时才会停止。对于聚焦 爬虫的工作流程来说,其是比较复杂的,其依据网页分析 算法来对网页中和主题没有关系的链接进行过滤,并对有 用链接进行保留,同时将其置于待抓取URL队列当中。此 时,其便会按照特定的搜索策略在URL队列中对需要进 一步抓取的网页URL进行抓取,然后对上述过程进行不 断的重复,直至满足系统的停止条件时才停取抓取。网页 抓取模块利用网络爬虫从各个网页中对用户的所需页面 URL进行爬取。网络爬虫在被激活时,我们需要在URL请 求队列中加入URL种子,种子应为具备代表性的页面 URL,如凤凰、搜狐、腾讯等,并通过分析这些具备代表性 的页面URL格式,以获得与上述页面相符的URL格式,然 后将这些URL格式放入到请求队列当中。
2.2网页信息抽取
在搜索引擎软件中的网页信息抽取模块中,其主要是 根据相应的抽取规则来对本地计算机中存储的网页进行 相关信息的抽取,然后将这些抽取到的用户所需信息按照 相应的格式存储至数据库当中。其在对网页信息进行抽取 时,需要对存储网页的本地文件夹进行遍历搜索,遍历的 方法可以采用深度优先遍历或广度优先遍历等。当遍历到 该文件中包含有需要抓取的网页时,则会通过Jsoup的使 用来对网页中的作者、标题、正文及时间进行定向抓取,然 后将这些抓取到的内容按照.txt格式存储至用户所指定的 文件夹当中。对于这些抓取到的内容,如网页中的标题、发 布时间、作者、链接地址等还会存储到数据库中的new表 相应列当中。
2.3内容索引
在内容索引时,搜索引擎会根据数据库中所存储的结 构化信息,通过Luence索引工具来对相应的索引文件进 行构建,在索引文件构建好以后会将其存储至磁盘当中, 然后依据用户的査询条件来对相应的索引文件进行排序, 然后将排序结果反馈给用户。
综上所述,本文根据物联网技术中所生成的海量数据,提出一种基于物联网技术的搜索引擎,该搜索引擎在 实际应用过程中具备以下功能:其通过扩展网络爬虫 来提高网页抓取速度其二,利用Jsoup网页解析工具来对 目标网页中的具体内容进行提取,然后将这些提取到的内 容存储到数据库当中;其三,利用Luence检索工具实现用 户对本地数据库中相关信息的索引,并采用Jsp来对信息 进行过滤及展示;其四,通过MYSQL数据库在搜索引擎中 的应用,以使搜索成本降低,并且MYSQL数据库还能有效 减轻结果集的负荷,使数据的传输速度加快;其五,搜索引 擎软件的界面美观简便。通过对该搜索引擎软件进行测 试,测试结果证明,基于物联网技术的搜索引擎在信息搜 索过程中具备稳定、高效的优势,同时具备良好的UI交互 设计功能。