欢迎来到上海园丁鸟网络科技有限公司|企业网站建设企业建站企业官网建设企业官网
咨询热线:18017747315当前位置: 首页 > 新闻动态 >
联系我们
企业网站建设 建站咨询
电话咨询:13524991327
E-mail:1424374510@qq.com
QQ:1424374510

十大深网搜索引擎 提供无法从Google和Bing获取的信

作者/整理:http://www.voez.net/ 来源:http://www.voez.net/ 日期:2018-11-26

当想要搜索某些内容时,Google或Bing通常会是第一选 择。但无论是Google还是Bing都不会提供隐藏在暗网中的 信息。此外,当通过Google搜索时,Google还会记录你在互联 网上的每一步操作。对于注重个人隐私安全的人来说,能够对 在线活动保持匿名显然更能引起兴趣。
“深网(Deep Web ”也称为“不可见网Gnvisible Welb ”该 术语指的是一个庞大的底层内容存储库,一个通用网络爬虫 工具无法访问的在线数据库。
说它庞大,是因为深网所包含的内容估计要比能够通过 常规搜索引擎搜索到内容要多近500倍,但由于搜索引擎的 限制,大部分内容仍无法被搜索到。
由于大多数个人档案、公共记录和其他与个人有关的文 档都存储在数据库中而不是静态网页上,因此大多数关于个 人的敏感隐私信息对于常规搜索引擎来说都是“不可见的”。
然而,随着搜索算法的不断完善和更新,通过深网搜索引 擎来找到想要的商品、内容或信息正在变得越来越容易。
为什么无法通过Google搜索出深网的内容
通常来讲,深网或者暗网(Dark Web,深网的一个子集)的 内容是没有编制索引的,所以无法通过常规搜索引擎(如 Google和Bing搜索出结果。换句话来说,所有Deb网站 (.onion)都没有编制索引,而Google不会提供任何不通过万 维网索引的搜索结果,这些内容隐藏在HTML表单后面。
通过常规搜索引擎进行搜索,内容会从相互连接的服务 器上提供,而当访问暗网时,并不是在浏览这些相互连接的服 务器。相反,一切都保留在Tor网络的内部,这就为每个人都 提供了安全和隐私。
根据研究人员的说法,只有4 %的互联网内容是公众可 见的,其余96 %的网站和数据隐藏在深网中。
不得不说的robots.txt文件
robots.txt文件是搜索引擎中访问网站的时候要查看的第 一个文件,通常位于一个站点的根目录下,其作用是告诉搜索 机器人哪些记录、注册表、文件和目录禁止被索引。
当搜索机器人访问一个站点时,它会首先检查该站点根 目录下是否存在robots.txt,如果存在,搜索机器人就会按照该 文件中的内容来确定访问的范围;如果该文件不存在,搜索机 器人将访问网站上所有没有受到口令保护的页面。
这里为大家介绍十款能够获取深网搜索结果的搜索引 擎,有一些读者可能使用过,但相信并不是所有人都了解。
1.pipl
pipl的查询引擎可以帮助找到在常规搜索引擎上无法找 到的深层网页。与其他搜索引擎不同,pipl能够提供从深网获 取的搜索结果。pipl的robots文件设置为与可搜索的数据库进 行交互,并从个人档案、成员目录、科学出版物、法庭记录和许 多其他深网资源中提取相关信息。
根据pipl官方的说法,pipl搜索引擎所使用高级语言分析 和排序算法,能够在一个简单、易于阅读的结果页面中提供关 于某个人或事物的最相关的信息。
2.My Life
MyLife的公共页面可以列出与某个人相关的大量数据, 包括年龄、曾居地和现居地地址、电话号码、电子邮箱地址、就 业信息、照片、亲属信息等。
据称,MyLife拥有超过2.25亿个公共页面,几乎涵盖了所 有18岁以上的美国公民的数据。
3. Yippy
事实上,Yippy是一个元搜索引擎(它通过利用其他网络 索引得到的结果。与Google不同,它不会存储你的浏览历史、 查看过的条款或电子邮件。
4.Surfwax
SurfWax搜索是一项免费和基于订阅的服务。该搜索网站 提供了许多功能,而不是纯粹的搜索。这些功能包括:
Focus-允许添加“焦点词”到搜索中。根据焦点词的不同, 可用于扩大或缩小搜索范围;
SiteSnaps-获取网站页面的简要说明,并进一步识别引擎 认为与焦点词相关的词条;
ResultStats-衡量并显示要罗列出大量搜索结果所需花费 的时间。
根据Surfwax的比喻,这就相当于在冲浪过程中,surfwax 能够帮助冲浪者抓住他们的冲浪板,而对于网上冲浪的人来 说,SurfWax可以帮助获得最佳的信息控制——提供最佳相关 搜索结果。
5.Way Back Machine
Wayback Machine 是互联网档案馆(Internet Archive)收集 开放网页的一个前端,包含超过100 TB的数据。
Wayback Machine通过URL访问这些数据,但无法通过 内容来访问,因为客户端必须知道特定网页或Web网站的正 确URL才能进入对应的页面。
互联网档案馆允许公众将数字资料上传和下载到其数据 集群,但其大部分数据是由其网络爬虫工具自动收集的,这些 爬虫工具可以尽可能多地保留公共网络。Wayback Machine的 Web档案包含超过1 500亿份网络捕获数据.
6.Google Scholar
 
Google Scholar允许搜索各种学术文献。它从期刊出版 商、大学资料库和其他被它认为是学术性的网站上获取信息。 Google Scholar旨在帮助发现与输入关键词相关的学术资源。 另外,还可以配置Google Scholar,以允许它自动访问NCSU 库对期刊和数据库的订阅。
7.DuckDuckGo
这个深网搜索引擎与其他九款搜索引擎一样,允许搜索 常规的网页。它有一个简洁易用的界面,且不会追踪使用者的 搜索内容,并且搜索设置中的选项是十分丰富,甚至可以通过 自定义它来增强用户体验。
DuckDuckGo强调返回最好的结果,而不是最多的结果, 并从400多个独立的来源中筛选出这些结果,包括一些知名 的百科网站(如维基百科),以及其他搜索引擎,如Bing、 Yahoo!、Yandex 和 Yummly。
8.Fazzle
Fazzle.com是一个元网络索弓I,可以用英语、法语和荷兰 语访问。Fazzle会搜索120多个经过修改的Web索引,以传达 “快速准确的结果”每一条搜索结果旁边都有一个查看页面。 它的查询项目包括网站、下载、图像、视频、音频、黄页、白页、 购物和新闻等。
不管其他的查询项是什么,都是从Fazzle运行的众多搜 索列表中组合起来的,但是Fazzle会在它的SERPS页面上显 示“最佳选择”和20个不同的结果。
9.not Evil
与其他Tor搜索引擎不同,not Evil并不是以营利为目的 的,它是Tor网络中的另一个搜索引擎,从功能和搜索质量来 看,它在众多搜索引擎中具有很强的竞争力,且没有广告和追 踪。随着搜索算法不断更新和完善,用户可以很容易找到想要 的商品、内容或信息,使用not Evil,可以节省大量时间并保持 完全匿名,且它的用户界面非常地直观。
10.Start Page
如果十分注重个人隐私安全,并且不会使用Tor浏览器, 那么Start Page绝对会是一个非常不错的选择,它可以说是最 好的搜索引擎之一。
Start Page也不会记录IP地址,因此用户的搜索历史会得 到很好地保护。对于从事研究的人来说,Start Page搜索引擎会 是一种很好的选择,因为它不会泄露个人隐私。