导读:Google搜索引擎已经赢得全球范围的赞誉,而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成千上万台普通服务器。MapReduce的成功也直接推动了Hadoop的发展。现今从Facebook、Twitter、eBay、LinkedIn以及eBay都受其影响,而为了适应大数据时代的浪潮他们必须有进一步的举措。
Harry Shum已经在Microsoft研究院工作了11年,现在他负责研发Microsoft Bing搜索引擎,以对抗Google 搜索。(图片来自Microsoft)
在2010年,Google搜索引擎发生了重大变革。Google将其搜索迁移到新的软件平台,他们称之为“Caffeine”。Caffeine是Google出自自身的设计,Caffeine使Google能够更迅速的添加新的链接(包括新闻报道以及博客文章等)到自身大规模的网站索引系统中,相比于以往的系统,新系统可提供“50%新生”的搜索结果。
而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成千上万台普通服务器。MapReduce的成功也直接推动了Hadoop的发展。现今从Facebook、Twitter、eBay、LinkedIn以及eBay都受其影响,而为了适应大数据时代的浪潮他们必须有进一步的举措。
Google在基于Web的分布式计算系统领域已经赢得了赞誉。而Microsoft Bing搜索引擎的负责人Harry Shum认为Microsoft虽然没有“Caffeine”的支持,但Bing搜索(利用数以万计的服务器软件平台处理数据)的能力丝毫不输给Google。Google Caffeine的优势在于快速抓取、编制索引和服务器文档。而Bing在这方面也是非常出色的。但这一切都需要基础设施的支持。
Harry Shum于2007年加入Bing团队,Harry Shum已经在Microsoft研究院工作了11年。Harry Shum的目标就是让Bing在搜索引擎领域技术赶上Google。在过去五年中,Google仍旧是全球最出色的搜索引擎,有人预计其市场占有率可能高达85%或90%。但Harry Shum深信Bing终将在技术水平上赶超Google。多年来,我们一直在努力完善,在经过持之以恒的努力后,Bing的搜索质量已经接近Google的水平。Harry
Shum说到。
毫无疑问,Google不会赞同Harry Shum的说法,Google的工程师认为Caffeine是非常重要的。Caffeine索引覆盖1亿GB数据。Caffeine可在几秒或几分钟的时间从新闻网站或博客中添加内容。
Harry Shum认为Bing索引系统与Caffeine不同。他表示虽然Google声称他们一些重大的技术是最新的。但Caffeine的一些功能Bing已经在内部运行了。但同时我们也要构建新的技术,以完善我们的系统,我们也在这样做着。
当讨论软件时,无论是Google还是Microsoft都避而不谈支撑他们搜索引擎和其他Web服务的技术。但Harry Shum表示驱动Bing的专有软件平台被称之为Cosmos。这在Microsoft研究院发布研究论文有所提及。Cosmos类似于Google构建与MapReduce之上的GFS(Google File System)。Harry Shum同时表示Microsoft正在设法完善并扩大Cosmos平台,以便使之能够帮助Bing搜索引擎达到实时收录的地步。
在Google采用Caffeine之前,Google使用MapReduce和分布式文件系统(如GFS)来构建搜索索引(从已知的Web页面索引中)。MapReduce是一种处理大型及超大型数据集并生成相关的执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。MapReduce将整个任务分解成成百甚至上千块小任务,然后发送到计算机集群中。
Google的网络爬虫会从整个网络中抓取相关的文件信息。然后将信息分发到Google全球配置了GFS的网络服务器中。而MapReduce负责在服务器协调数据处理的任务,以便可以将处理好的所有数据分配到人们实际搜索的页面索引中。在Google刚刚推出搜索引擎时,MapReduce每个月都会建立新的索引。后来,Google改善了系统,并逐步减少re-crunch索引所需的时间。但当需求达到新的高度时,就需要动态的方式来更新索引。于是Google进入了Caffeine时代。
Goolge的技术使得系统可以很快的抓取页面并添加到索引之中。在过去,因为在每次更新索引要分析整个Web,这导致Google需要处理大量的索引页(数十亿的文档)。但自从Google采用Caffeine后,Google只需从Web中分析其中的一小部分,所以Google可以持续不断的更新索引。
在本质上Caffeine丢弃MapReduce转而将索引放置在由Google开发的分布式数据库BigTable上。作为Google继GFS和MapReduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。这种海量数据可以定义为在云计算平台中数千台普通服务器上PB级的数据。Bigtable的出现也彻底改变了Google的索引机制。Google正在构建新版本的GFS,其被称为GFS2,但在Google内部GFS2被称为Colossus。
Hortonworks CEO Baldeschwieler认为Google将Caffeine用于搜索中是非常令人信服的创意。当Baldeschwieler还在Yahoo工作时,公司曾考虑过这样的平台,但因为昂贵的成本最终决心走Hadoop路线。
Microsoft的Harry Shum表示相对于Google Caffeine,Microsoft选择了不同的道路和发展方向。虽然他并没有透露过多的细节,但Harry Shum表示Microsoft目前基于Cosmos平台是更多并行的数据库。
Dryad在微软软体系结构中的位置
去年,微软曾公布了建立与Cosmos之上的Dryad框架,这个类似MapReduce的框架一直驱动着Bing。但目前无法得知Dryad在Bing搜索引擎中占据怎样的角色。其实Dryad也并非微软的新产品,Dryad和DryadLINQ早在微软收购Powerset之前就已经存在。微软于2007年首度揭晓了关于技术的研究成果,并于2009年向学术界推出了非商业版Dryad和DryadLINQ。但与MapReduce不同的是,Dryad是针对运行Windows
HPC Server的集群计算设计的,而非Linux。
Mike Olsen表示Dryad在许多方面都优于Hadoop,Dryad是经过精心设计的。但Microsoft已经在去年决定Hortonworks合作提供Windows平台之上的Hadoop,目前还不清楚Microsoft是否还会继续研究Dryad。然而Harry Shum表示Microsoft将继续经营Cosmos以及其周边的平台和基础设施项目。
Hortonworks CEO Eric Baldeschwieler表示不会使用Cosmos和其他的Microsoft搜索平台的基础设施工具。在大多数情况下,那些技术仅用于Microsoft内部。同时Baldeschwieler也证实了Cosmos和Dryad确实类似GFS和MapReduce,但他表示他并不了解Cosmos上并行数据库的讯息。
Mike Olsen表示”当MapReduce刚刚出现时,世界领先的数据库设计人员都对它嗤之以鼻,在数据库领域的所有人(包括我自己)都认为这是一个笑话。但Mike Olsen最终意识到MapReduce不应该只是一个数据库,它的目的与众不同,他们从未打算将它作为数据库使用。大数据时代数据呈现不同的类型并需要不同的分析方法,而MapReduce正是为了解决这一问题的方案。
对MapReduce的全新认识也改变了Mike Olsen的想法,后来Mike Olsen创建名称为Cloudera的公司,公司业务全部围绕Hadoop展开。Cloudera提供的服务不仅提供给网络公司,还跨越了众多的行业。
Google与Microsoft在搜索领域的游戏还会继续下去,双方都意识到快速的更新索引已经变得非常重要。Google与Microsoft都在想一个新的方向发展(分布式数据库)。存储数据的设备分布在全球的服务器之中将成为未来趋势,但这同时需要更有效的组织方式。但这绝不是终点,搜索引擎技术的演进还会继续下去。(李智/编译)
原文链接:Wired
分享到:
相关推荐
卢松松:Bing与Google搜索排名因素研究.docx
jQuery微软Bing搜索引擎应用实例。
bing搜索需要一个微软的appid,可以用我的,也可以自己去免费申请。bing会限制每个appid的每天查询次数。 google和baidu的结果很好,bing的服务器好像常常连不上去。。。 google实现的时候尤其需要一个user-agent域...
Google Bing 搜索脚本,#keyword 是关键字,page是搜索引擎的页码,一般需要做个循环跑n个页面,engine 可以选择 GOOGLE 或者 BING, 国家可以选择 按照搜索引擎的规则一般ID = Indonesia ,#Start_data 和end_data...
仿bing搜索首页图片效果提示效果,鼠标移动出现文字说明框
使用Jqery和Bing搜索来实现自定义搜索功能的Demo
调用bing搜索api 本地网站实现搜索功能 并借用fiddler软件 解决跨域问题 伪装服务器 本地实现该搜索功能
搜索链接集合,集百度Bing谷歌搜狗360搜索于一体,无广告,可在同一界面使用多种搜索引擎进行搜索
必应bing网页搜索小偷php程序 1.0 使用说明: 1.只需修改配置文件config.php即可。 2.为了让更好的被搜索引擎收录,在首页加上search.php?q=关键字 即可。 免费版和商业版区别: 1.没有相关搜索 2.没有页数 3....
Bing是由微软开发的搜索引擎和语音识别应用程序,而CHATGPT是生成式对话模型,由OpenAI开发。尽管这两个系统看起来不相关,但它们实际上在某些方面具有相似之处。例如,它们都使用了机器学习算法,以便在不同的任务...
必应bing网页搜索小偷php程序使用说明: 1.只需修改配置文件config.php即可。 2.为了让更好的被搜索引擎收录,在首页加上search.php?q=关键字 即可。 免费版和商业版区别: 1.没有相关搜索 2.没有页数 3.此版本供于...
js模拟bing搜索引擎登录效果,背景图片始终适应整个浏览器分辨率大小,始终铺满整个页面,远程实时调用bing搜索页面背景图 默认为php首页文件,需要服务器支持
爬虫用于爬取Bing搜索引擎的n页标题,可以改进后作为一个小的搜索api 有一定的小bug没有解决,比如爬去标题内容不全,有时候无法爬取,正在解决。
内容索引:脚本资源,jQuery,搜索引擎,Bing jquery调用微软bing搜索引擎的数据并显示的一个示例,主要是通过调用Bing API 2.0,展示了JSON协议下的Web类型搜索的使用。在输入框输入任何一个字符,程序就开始调用Bing...
java调用bing search api搜索关键字.docxjava调用bing search api搜索关键字.docx
微软的新搜索引擎Bing每天都会更新一副精美的背景图片,如果能将每幅图片统统收集起来,简直就是一巨大的图片资料库,往后必有用到之处。但是Bing只能显示当天的背景图片,以往用过的图片就无法找到,而且背景图片...
更确切地说,当您首次安装该应用程序时,它提供了将 Bing 设置为主页的功能,并且使 Bing 成为浏览器上的默认搜索提供程序(无论您使用的是哪种浏览器:Internet Explorer,Microsoft Edge,Firefox 和 Google ...