首页 > 编程知识 正文

搜索引擎有哪三个部分组成(搜索引擎中竖线的作用)

时间:2023-05-03 20:15:36 阅读:64322 作者:3478

什么是搜索引擎? 有什么作用? 01搜索引擎与检索系统02搜索引擎发展史03搜索引擎分类1 .全文搜索引擎2 .元搜索引擎3 .垂直搜索引擎4 .目录搜索引擎

作者:大数据DT

来源:大数据灾难恢复

我们现在是信息过载的时代。

全世界每年产生1EB到2EB(1EB1018B )的信息,相当于地球上每个人每年产生约250MB的信息。 其中,纸质信息仅占所有信息的0.03%。

有几百亿个静态页,动态页和隐藏页至少是静态页的500倍。 Tom Landauer认为人脑只能存储约200MB的信息,一生只能访问约6GB的信息。

近年来,大数据技术的出现和发展,深度学习和神经网络计算能力的提高,加速了我们的信息处理能力,但并没有缓解信息过载对我们的影响。 搜索引擎已经成为我们获取信息的主要手段之一

01检索引擎及检索系统信息检索(Information Retrieval,IR )是指从文件集合中返回满足用户需求的相关信息的过程。 是一门研究信息检索(Acquisition )、演示(Representation )、存储(Storage )、组织)、访问(Access )的学科。

搜索来自Retrieval,有些人将其翻译为获取,本义是获取符合输入要求的输出。

搜索来自Search,指有目的地搜索。 信息检索不仅仅是搜索,信息检索系统(IR System )也不仅仅是搜索引擎。

狭义上,信息检索是指信息检索(Information Search );

广义上,信息检索包括搜索引擎(Search Engine )、问答; a系统)、信息提取(信息提取)、信息过滤(信息过滤)、信息推荐(信息过滤)

搜索引擎是指根据一定的策略,通过特定的计算机程序从互联网上收集信息,组织和处理信息后,向用户展示用户检索到的相关信息,向用户提供搜索服务。

搜索引擎有四个界面:搜索器、索引器、搜索器和用户界面。

搜索器的功能是在网络上漫游,负责信息的发现和收集。

索引器的功能是理解搜索器搜索到的信息,从中提取索引项目,输出用于显示文档和生成文档库的索引表。

检索器的功能是根据用户查询在索引库中快速检测文档,进行文档与查询的关联度评估,并对输出结果进行排序,从而实现某种用户相关反馈机制。

用户界面的功能是输入用户查询、显示查询结果和提供用户相关性反馈机制。

以下是具体搜索引擎体系结构的示意图

检索系统的概念可以从以下两个方面来说明。

系统角度。 从系统的角度看,检索系统是包括搜索引擎在内的更广泛的概念。 所有具有相关计算和分析的系统都可以归类为检索系统。 除了常见的搜索引擎外,搜索系统还应该包括外部支持的业务场景和应用领域等特点。

用户角度。 从用户的角度来看,检索系统的输出是投影用户需求的,因此除了观察用户对检索结果的反应的同时设计检索系统之外,还需要考虑适当的APP场景和检索步骤。

02在搜索引擎发展史上世纪90年代,xqdqb Berners-Lee开启了互联网时代,取得了巨大的发展。 1990年,xqdqb Berners-Lee开发了世界上第一个Web服务器和第一个Web客户端,并将其命名为万维网(www )。

第二年,世界上第一个WWW网站info.cern.ch成立,随之产生了HTTP传输协议和相应的HTML等Web服务技术。 1993年,NCSA发明了第一个显示图像的浏览器Mosaic,此后客户端浏览器逐渐成熟。 这些技术为互联网的快速发展奠定了基础。

互联网的迅速发展必然了搜索引擎的出现。 1990年,第一个互联网搜索引擎Archie问世,主要用于搜索FTP服务器上的文件。

在用户正确输入文件名的基础上,Archie可以正确地告诉用户该文件的位置。 阿奇搜索的内容不是网络,但结构与网络搜索相似。 是信息资源的自动检索、索引、提供检索服务。

1995年,Excite搜索引擎正式上线。 这是早期流行的搜索引擎之一。 Excite的出现可以追溯到1993年2月,起源于斯坦福大学的6名大学生试图通过分析单词关系来有效地检索网上大量的信息。

Excite以概念检索闻名,是搜索引擎技术——文本检索的代表。 文本检索一般有布尔模型、向量空间模型等,主要用于计算用户查询关键字与网页文本内容的相似度。

1995年4月,雅虎正式成立。 它是由斯坦福大学博士懦弱的发箍和滴滴涕制成的。 随着访问量和收录链接数量的增加,雅虎对互联网上重要网站的目录进行了分类整理,以满足用户的需求,并迅速发展。

雅虎也成为“目录导航”搜索引擎技术的代表。 该技术提高了收录网站的质量,但不容易扩展,收录网站数量少。

1998年9月,积极的果汁和危机的寒风共同创建Google公司,其以PageRank链接分析等新技术大幅度提高搜索质量,成为占有搜索引擎市场份额最大的公司。

Google是PageRank链接分析技术的代表,其充分利用网页之间的链接关系,考虑网页链入的数量和质量,从而计算网页的排名,提升搜索质量。

2000年1月,中国最大的搜索引擎公司百度成立,并一举成为国内最大的搜索引擎。目前,百度不再只是某一搜索引擎技术的使用,其试图通过用户查询、地理位置以及历史行为(搜索、点击、浏览)去理解用户此刻真正的需求。

STATCOUNTER统计的2019年1月~12月全球搜索引擎市场份额中,Google占比高达92.63%,微软的Bing和雅虎分别位居第二和第三,百度排在第四位。

STATCOUNTER统计的2019年1月~12月中国国内搜索引擎市场份额占比中,百度依靠本地化优势,以67.51%的占比排在第一位,搜狗和神马排在第二和第三。

在互联网快速发展的今天,信息正呈爆炸式增长,如何在信息过载的环境下快速有效地定位到目标信息成为关键问题。

搜索是解决信息过载较为有效的方式。搜索引擎通过对互联网资源整理和分类,并将其存储在数据库中为用户提供查询服务,包括信息搜集、信息分类、用户查询等。

因此,作为互联网网站和应用的入口,搜索引擎的地位越来越重要。

03 搜索引擎的分类

搜索引擎可以分为以下4类:全文搜索引擎、元搜索引擎、垂直搜索引擎、目录搜索引擎。下面对这4类搜索引擎进行具体介绍。

1. 全文搜索引擎

计算机通过扫描文章中的每个词,对每个词建立索引,记录词汇在文章中出现的次数和位置信息。当用户进行查询时,计算机按照事先建立好的索引进行查找,并将结果反馈给用户。按照数据结构的不同,全文搜索可以分为结构化数据搜索和非结构化数据搜索。

对于结构化数据,全文搜索一般是通过关系型数据库的方式进行存储和搜索,也可以建立索引。

对于非结构化数据,全文搜索主要有两种方法:顺序扫描和全文检索。

顺序扫描,顾名思义,按照顺序查询特定的关键字,这种方式耗时且低效;

全文检索需要提取关键字并建立索引,因此,搜索到的信息过于庞杂,用户需要逐一浏览并甄别所需信息。在用户没有明确检索意图情况下,全文检索方式效率稍显不足。Google和百度都是典型的全文搜索引擎。

2. 元搜索引擎

按照功能划分,搜索引擎可以分为元搜索引擎(Meta Search Engine)和独立搜索引擎(Independent Search Engine)。

元搜索引擎是一种调用其他独立搜索引擎的搜索引擎,其能对多个独立搜索引擎进行整合、调用并优化结果。独立搜索引擎主要由网络爬虫、索引、链接分析和排序等部分组成;元搜索引擎由请求提交代理、检索接口代理、结果显示代理三部分组成,不需要维护庞大的索引数据库,也不需要爬取网页。

元搜索引擎具体实现逻辑如下图所示

请求提交代理就是将请求分发给独立搜索引擎。元搜索引擎可以按照用户需求和偏好请求实际需要调用的独立搜索引擎,该方式能够有效提升用户查询的准确率和响应效率。

检索接口代理是将查询内容转化成独立搜索引擎能够接受的模式,并且保证不会丢失必需的语义信息。结果显示代理是元搜索引擎按照用户的需求采用不同的排序方式对结果进行去重、排序。元搜索引擎常用的排序方式有:相关度排序、时间排序、搜索引擎排序等。

元搜索引擎的整体工作流程如下:

用户通过网络访问元搜索引擎并向服务器发出查询,服务器接收到查询内容后,先访问结果数据库,查询近期记录中是否存在相同的查询,如果存在,返回结果;

如果没有,将查询进行处理后分发到多个独立搜索引擎,并集中各搜索引擎的查询结果,结合排序方式对结果进行排序,生成最终结果并返给用户,同时保存现有结果到数据库中,以备下次查询使用。

保存的查询结果有一定的生存期,超过一定时间的记录就会被删除,以保证查询结果的时效性。

3. 垂直搜索引擎

垂直搜索引擎是针对某个行业的专业搜索引擎,是搜索引擎的细分和延伸,对特定人群、特定领域、特殊需求提供服务。它的特点是专业、精确和深入。垂直搜索引擎将搜索范围缩小到极具针对性的具体信息。

垂直搜索引擎的结构与通用搜索系统类似,主要由三部分构成:爬虫、索引、搜索。但垂直搜索的表现方式与Google、百度等搜索引擎在定位、内容、用户等方面存在一定的差异,所以它不是简单的行业搜索引擎。

用户使用通用搜索引擎时,通常是通过关键字进行搜索,该搜索方式一般是语义上的搜索,返回的结果倾向于文章、新闻等,即相关知识。垂直搜索的关键字搜索是放到一个行业知识的上下文中,返回的结果是消息、条目。对于有购房需求的人来说,他们希望得到的信息是供求信息而不是关于房子的文章和新闻。

4. 目录搜索引擎

目录搜索引擎是网站常用的搜索方式,类似于书本章节目录。该搜索方式是对网站信息整合处理并分目录呈现给用户,整合处理的过程一般需要人工维护,更新速度较慢,而且用户需要事先了解网站的基本内容,熟悉主要模块,所以应用场景越来越少。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。