什么是搜索引擎？搜索引擎的历史-成都软件公司

搜索引擎（Search Engine）是指按照一定的策略收集互联网上的信息，利用特定的计算机程序，将信息组织和处理后显示给用户，为用户提供检索服务的系统。搜索引擎已经成为人们上网的必备工具之一。

简而言之，搜索引擎的工作方式就是抓取网站制作页面、处理网页并提供检索服务。每个独立的搜索引擎都有自己的网页爬虫（Spider），蜘蛛会跟随网页中的超链接，不断地爬取网页。被抓取的网页称为网页快照。由于超链接在互联网中的应用非常普遍，理论上从一定范围的网页开始，就可以收集到绝大多数的网页。搜索引擎抓取网页后，需要做大量的预处理工作，才能提供检索服务。其中，最重要的是提取关键字（Keywords）和建立索引文件。其他包括删除重复的网页、分析超链接和计算网页的重要性。当用户输入关键字进行搜索时，搜索引擎会从索引数据库中找到与该关键字匹配的网页。为了方便用户判断，除网页标题和网址（URL）外，还会提供网页摘要等信息。1.搜索引单的历史

所有搜索引擎的始祖是Archie，它是由加拿大麦吉尔大学的学生Alan Emtage、Peter Deutsch和Bill Wheelan于1990年发明的。虽然当时www还没有广泛使用，但是网络中的文件传输还是相当频繁的，而且由于大量的文件分散在各个零散的FTP主机上，查询起来很不方便。 Alan Emtage 等人想开发一个文件名可以用来搜索文件的系统，于是就有了Archie。 Archie 是一个可搜索的FTP 文件名列表。用户必须输入准确的文件名才能搜索，然后Archie会告诉用户哪个FTP地址可以下载文件。所以Archie 是第一个自动索引来自Internet 上匿名FTP 站点的文件的程序，但它还不是真正的搜索引擎。由于阿奇的人气，

受其启发，美国内华达大学的研究人员于1993年开发了地鼠（Gopher FAQ）搜索工具维罗妮卡（Veronica FAQ）。Jughead是后来的另一款Gopher搜索工具。

一个搜索引擎一般由三部分组成：爬虫（Spider、robot/spider）、索引生成器和查询检索器。专门用来检索信息的“机器人”程序像蜘蛛一样在网络上爬行，所以搜索引擎的“机器人”程序被称为“蜘蛛”程序。

世界上第一个Spider程序是由麻省理工学院的Matthew Gray开发的World Wide WebWanderer，用于跟踪互联网的发展规模。起初它只是用来统计互联网上的服务器数量，后来发展到也可以抓取URL。

1994年7月，美国卡内基梅隆大学的Michael Mauldin将John Leavitt的蜘蛛程序整合到其索引程序中，创建了Lycos。同年4月，美国斯坦福大学博士生David Filo与美籍华人杨致远（Jerry Yang）共同创立超级目录索引雅虎，并成功提出搜索引擎的概念深受人们喜爱。此后，搜索引擎进入了高速发展时期。目前，互联网上有数百个带名字的搜索引擎，它们检索到的信息量已今非昔比。以谷歌为例，其数据库中存储的网页已达30亿！ http://www.sina. com/

下面简单介绍几种常用的搜索引擎。

(1) 谷歌

Google搜索引擎的界面如图6-18所示。谷歌最初只是斯坦福大学的一个小项目，BackRub。 1995年，博士生Larry Page开始研究搜索引擎设计，并于1997年9月15日注册了域名T google.com。1997年底，在Sergey Brin、Scott Hassan和Alan Steremberg的参与下，BachRub开始了提供谷歌的演示版本。 1999年2月，谷歌完成了T从Alpha版到Beta版的改造。 Google

Google在Page rank、动态摘要、网页快照、Daily refresh、多文档格式支持、地图、股票、词典等综合搜索、多语言支持、用户界面等功能上的创新，永久地改变了搜索引擎的定义. 2006年新版《韦氏大学辞典》收录新词100多个。在这本一向以保守、严肃着称的词典中，收录了互联网搜索引擎谷歌，意为“在互联网上快速查找信息”。

(2) 百度

目前，百度（www.baidu.com）是全球最大的中文搜索引擎，其界面如图6-19所示。 2000年1月，前Infoseek高级工程师李彦宏和他的朋友徐

勇(加州大学伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2000年5月，百度开始为门户网站(如搜狐、新浪等)提供搜索技术服务，之后发布Baidu. com搜索引擎Beta版，开始独立提供搜索服务。

(3) Alltheweb

诞生于1999年5月的Alltheweb是一个优秀的全文搜索引擎，除了搜索常规网页外，也能搜索新闻、图片、视频、音频等内容，其目标是做世界上最大、最快的搜索引擎，其界面如图6-20所示。

(4) Ask. Com

Ask. Com是以提问方式进行搜索的搜索引擎，用户可以输人一个问题，搜索得到想要的答案，其界面如图6-21所示.

3.搜索引的分类

搜索引擎常分为全文索引引擎、目录索引和元搜索引擎三类。

(1)全文搜索引擎

全文搜索引擎是名副其实的搜索引擎，国外的代表有Google，国内则有百度。它们从互联网提取各个网站的信息(以网页文字为主)，建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。

根据搜索结果来源的不同，全文搜索引擎可分为两类，一类拥有自己的检索程序，即“蜘蛛”程序或“机器人”程序，能自建网页数据库，搜索结果直接从自建的数据库中调用，上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos搜索引擎。

(2)目录索引

顾名思义，目录索引就是将网站分门别类地存放在相应的目录(Directory)中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找.如果以关键词搜索，则返回的结果与全文搜索引擎一样，也是根据信息关联程度排列网站(其中的人为因素要多一些)。

如果按分层目录查找，某一目录中网站的排名则由标题字母的先后顺序决定(也有例外)。

与全文搜索引擎相比，目录索引有许多不同之处。

首先，全文搜索引擎属于自动网站检索，而目录索引的建立则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览用户的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳用户的网站。其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功.而目录索引对网站的要求则要高得多，有时即使登录多次也不一定能成功。此外，在登录搜索引擎时，人们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录中。最后，全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为用户提交的网站目录、网站信息不合适。他可以随时对其进行调整，当然事先是不会和用户商量的。目前，搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索，如Google就借用Open Directory目录提供分类查询。而像Yahoo!这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。

(3)元搜索引擎

元搜索引擎(Meta Search Engine)接收用户的查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace,Dogpile, Vivisim。等，中文元搜索引擎的典型代表是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo,目前搜索引擎正处于高速发展的阶段，各主要大型搜索引擎都是基于分布式计算的。

简单地说，分布式系统就是由多台服务器共同协作组成的系统，从而能够检索海量信息。以Google为例，它由上万台服务器组成，以提供较好的检索性和抗压性.抗压性是指在一个几秒钟的时间段内，服务器处理大量并发请求的能力。

现在搜索引擎技术的主要发展空间在搜索的准确度上，除了传统的网页排序算法(指对搜索结果进行排序的规则)，如Page rank, Hill top等，也与自然语言的研究进展密切相关。

我们专注高端建站，小程序开发、软件系统定制开发、BUG修复、物联网开发、各类API接口对接开发等。十余年开发经验，每一个项目承诺做到满意为止，多一次对比，一定让您多一份收获！