系统,于是便有了archie。
archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于archie深受用户欢迎,受其启发,美国内华达system computing services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
当时,“机器人”一词在编程者中十分流行。电脑“机器人”(computer robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
世界上第一个用于监测互联网发展规模的“机器人”程序是matthew gray开发的world wide web wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
与www.13800100.comartin koster于1993年10月创建了aliweb,它是archie的http版本。aliweb不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在matthew gray的wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以jumpstation、the www.13800100.com(goto的前身,也就是今天overture),和repositorybased softwww.13800100.compstation和www.13800100.com只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而rbse是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
最早现代意义上的搜索引擎出现于1994年7月。当时michael mauldin将john leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的lycos。同年4月,斯坦福(stanford)大学的两名博士生,david filo和美籍华人杨致远(gerry yang)共同创办了超级目录索引yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的google,其数据库中存放的网页已达30亿之巨!
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的inktomi(已被yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括overture(原goto,已被yahoo收购)、looksmart、msn、hotbot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。
萧宸还记得,由互联网市场研究公司comscore日前发布的2007年全球十大搜索引擎排名研究报告显示,谷歌继续保持着全球搜索引擎市场第一的地位,其2007年12月份全球搜索引擎市场份额为62.4%。
位列第二的是雅虎公司,其市场份额为12.8%。而华夏的百度跃进到第三位,以全球搜索市场5.2%的份额而超过微软。阿里巴巴搜索引擎排名第十位。
据这家互联网市场研究公司周四发布的研究数字显示,2007年12月份全球总搜索量达到662亿次。微软排名第四,其市场份额为为2.9%。韩国nhn位列第五,市场份额为2.4%。ebay位列第六,市场份额为2.2%。时代华纳网络位列第七,市场份额为1.6%。ask.com位列第八,市场份额为1.1%。俄罗斯的yandex位列第九,市场份额为0.9%。阿里巴巴搜索引擎位列第十,市场份额为0.8%。
(本章未完,请点击下一页继续阅读)