-
百度和 Google 的搜索技术是一个量级吗?
网络 2014/11/13 16:28:561,在搜索江湖的早期历史中,李彦宏的技术创新领先于谷歌。
1994年,infoseek公司成立,其后推出搜索引擎服务,很快成为了市场上最受欢迎的搜索技术提供商。作为技术的领先者,这家公司的产品被网景浏览器设置为默认的搜索引擎。要知道,在那个年代的美国市场上,网景浏览器占有了90%以上的市场份额。于是,在网景春风得意的岁月里,搜索引擎=infoseek。
——infoseek的CTO是威廉张,曾经以“次线性文本匹配算法上的突破性成果获得了美国加州大学的计算机博士学位”,其后于2006年加入百度成为首席科学家。
——infoseek的核心研发工程师是李彦宏,其首创的“超链分析”技术是现代搜索引擎的基础发明之一。这个技术率先解决了如何将基于网页质量的排序与基于相关性的排序完美结合的问题,并获得了美国专利。
在搜索引擎的早期发展史中,李彦宏+威廉张,无疑是技术的领先者。在1998年的布里斯班世界互联网大会上,李彦宏是主讲台上的技术布道者,而谷歌的两位创始人仍是坐在台下聆听的学生而已。
infoseek的衰落,不是因为技术,而是因为商业模式,他仅仅是隐藏在网景浏览器背后的技术提供者。随着网景在与微软IE浏览器的竞争中失利,infoseek无可避免的出现了大幅亏损,贱卖给迪士尼后不适应于传统企业的官僚管理作风,更加加速了自己的末日到来。
同一年,谷歌推出自己的搜索引擎,以精准广告为商业模式,成功解决了持续成长的问题,在搜索江湖的较量中熬到了最后。谷歌今日引以为荣的网页评级机制pagerank技术,直到2001年才被授予美国专利,比李彦宏的1996年申请的超链分析专利技术晚了5年。
注意:我以上这段要说的是,李彦宏的技术水平并不输于谷歌的两位创始人。看轻百度那你就无知了。
2,百度从一开始就和谷歌走上了不同的发展方向。
谷歌在2000年就已经建立了搜索行业的统治地位,而在这一年,李彦宏才回国创业,无论在资金还是人才上都处于绝对劣势地位。
百度如果要跟谷歌比拼搜索精度,那是飞蛾扑火,李彦宏当然不会犯下这种蠢事。从一开始,百度所选择的就是一条农村包围城市,侧翼攻击的路线。
在早期的网页搜索上,百度的原则是能用就行。所以,你在百度上搜到的,几乎都是网站的首页,而谷歌的都是内页。
百度的真正重点是,提供谷歌不能提供的服务。2002年,百度率先推出mp3音乐搜索,2003年推出图片,贴吧,新闻,搜索风云榜服务。正是这些多元化的垂直服务,让百度实现了在中国市场上的后来者居上。如果你了解百度的历史,你就知道,在早期的百度流量中,mp3盗版音乐的搜索和下载,一度贡献了40-50%的用户来源。贴吧同样获得巨大成功,在2004年的超级女声热潮中,大量的音乐粉丝涌入贴吧为他们的偶像加油,这个产品一度为百度带来了超过20%的流量。
mp3,图片,贴吧,是百度早期最重要的三项服务,他们的流量贡献加起来甚至超过了网页搜索。
3,百度真正在搜索技术上开始发力,是在2009年后。这一年,百度推出框计算,在一站式生活搜索方面,开始超越谷歌。
举个例子:
判断百度和谷歌在搜索技术上是不是一个量级的标准是什么?
技术是不是一个量级,不是由一堆玄而又玄的技术名词决定的,而是由行业发展过程中对实际需求的满足变化决定的。
举个例子,
飞机时代的划分,
一代机:喷气发动机
二代机:高空高速,2倍音速
三代机:中低空机动敏捷性
四代机:隐身性能
二代机比一代机性能更好,飞的更高,速度更快,但是到了三代机的时代,即使你的飞行能够去到3万米高度又怎么样?这个时代更讲究的是低空的格斗性能。
到了四代机的时代,隐身性能才是决定性的,你机动性再好也没用了,你发现不了敌人。
到了今日,智能无人机技术又是起决定性作用的技术,其他的都不重要了。
技术的发展并不是线性的,而是理念的改变,带来了更革命性的进步。
一架性能差点的隐形机,比一架没有隐形性能的三代机,谁的作战效果更好?什么,你认为隐形技术不是技术,发动机性能才是技术?别脑残了好不好。
说回搜索引擎技术的发展,无非就是为了让人们更好的找到自已需要的信息,是搜索结果的准确性,而不是收录的网页数量,拥有的专利数量决定的。
第一代搜索引擎:以雅虎为代表,目录式结果呈现。
第二代搜索引擎:以谷歌和百度为代表,网页引用评级技术呈现结果,至于权重设置的不同考虑不能体现差距。
第三代搜索引擎:不知道各位的划分标准是什么,是什么gps和原子钟技术么?实际使用中差别有革命性变化么?反正我是感觉不出来。
谷歌的技术创新能力很强,在安卓系统、无人驾驶汽车、谷歌眼镜这些技术上都有很多创新,但在搜索引擎技术上,我的感觉是,最近5年来并没有明显的进步。
相反,百度从2008年到2013年这5年,我的使用体验感觉是进步很明显的。
在我看来,搜索引擎发展到今天这个时代,更重要的趋势是智能化的语义理解,而不是一楼答案所说的“gps和原子钟技术,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。”
收录的网页多一些,搜索的速度快0.001秒,这些微不足道的区别,就相当于IPHONE4和IPHONE4S的区别,或许是挑战了新的技术极限,但是对于普通用户的实际体验来说,区别不大。
而三星的大屏智能手机,在很多人看来并没有什么高深的技术,但是偏偏是更满足用户的使用体验和需求的,于是三星的市场份额就不断壮大了。
百度所发展的框计算技术,在我看来,恰恰是更适合搜索引擎行业发展趋势的。
让你的搜索更能理解你的问题,给你更准确的答案,
——不用跳转就将答案直接呈现在你的面前。什么?你认为百度这样违背了搜索的公平公正精神?别脑残了,搜索就是为用户服务的,谁能够在最短的时间内让用户得到最正确的答案,对于用户来说就是最好的搜索体验。将来语音搜索技术成熟了,你说告诉我王菲唱过什么流行歌?百度直接就将歌曲列表呈现出来,按热门度排列供你选择播放,谷歌先问你,我这里有**,**,**,音乐公司提供的服务,请选择,进了音乐公司的链接,音乐公司又说,请先登录会员,登陆会员后……如此一番下来,谁的服务更好,自己考量吧。
——通过知道、贴吧、百科、第三方网站的接入,综合满足你的多方位搜素需求,而不是只提供一个单一的网页。你想去某个地方,告诉你汽车、火车、飞机不同交通手段的通行方式,告诉你花费的时间,购买的费用,直接购买的入口,而不是只有一个冷冰冰的第三方链接。你输入一个名人的名字,呈现给你相关的照片、影视作品、最新的新闻、粉丝讨论的社区、与名人存在社交关系的名人链接,所有这些服务,都是非常直观的,而不是只像谷歌一样给你一个维基百科了事。
——搜索的问题不止于“等于”,而是“相当于”等类似问题都能听懂。所谓智能,不就是即使我语法用错了,也能听懂么?
在这一点上,或许谷歌在英文上也有一些应用提供,但是百度做的更加深入、更加完善,从这个角度来说,他们不但是一个量级的,百度也有领先谷歌的地方。
很多人认为百度的搜索答案都只是人工干预的结果,没有技术含量,我感到很遗憾。
或许早年是如此,但是现在应该已经有很大的改进了。
我举个例子。
前面的谢霆锋的身高的问题,为什么百度能够给我答案,谷歌给不了呢?
百度该不会无聊到这么细节的问题都专门去优化一下答案吧,当然不是了,这些答案都是依托于百科里用户自行编写的答案,百度不过是把他们的知识有机的整合起来,通过程序的设计,巧妙的呈现到你的面前。
是的,谷歌的搜索技术很先进,但他的所有答案都是依托于外部链接的,他没有自己的知识库。这就像一个人,他的逻辑思维和知识是割裂的,可以给你答案,但这答案必然是生硬的,无法做到水乳交融。
百度不同的是,他是有自己的知识库的,知道,贴吧,百科,这三个社区的知识可以跟他的思维进行有机整合,将得票最高的热门答案很直观的呈现到你的面前。
…………
正是因为有前面这些有机整合为基础,
百度可以通过逻辑思考,a推出b,b推出c,c推出d的结论,将答案d呈现到你的问题结果里。
但谷歌就做不到,他只能给你答案b,c之后的结论就只能由你自己去寻找了。
这就是为什么我问张柏芝的儿子的爸爸的身高,百度能够告诉我的原因。
所谓深度学习,不就是人类知识库的有机整合嘛,谷歌的思维和知识库的割裂,导致了在这方面的进步必然要慢于百度,原理就像是一个人的头脑指挥自己的手脚必然比两个人的合作效率更高。
因此在未来的搜索技术竞争中,我认为百度的路线是正确的。
有朋友问,为什么你问谢霆锋的身高就能搜到答案,我问陈冠西或者毛泽 东就搜不到呢?
请记住,这些类似问题的答案完全取决于用户在社区里的编写。在张柏芝的百科里有提及,儿子是谢振轩,在谢振轩的百科里有提及,老子是谢霆锋,在谢霆锋的百科里有提及,身高是174,那么你就能搜到这个答案。
如果其中任何一个环节出现了缺失,你就无法得到答案。
答案的正确与否,取决于知识库的自我完善和纠错。就像你问百度是个大SB吗?百度知道的高票答案告诉你百度就是个大SB。这能说明这个答案是百度的人工干预吗?很明显不能嘛,这只能说明SB用户太多了而已。
就像知乎的答案一样,开始问题提出的时候,高票答案是错误的,没有关系,慢慢的新的正确答案会被顶上去,错误答案会被折叠或者报错。
人类的知识库是在不断的自我完善和丰富的,百度的算法也是在不断改进的,目前这些技术仍然处于起步阶段,请以发展的眼光来看待他。
PS:那些说我偏袒百度的朋友们:
在这个提问下面,为谷歌敲锣打鼓,大声赞美的答案还不够多么?难道你们的心里就不能容忍一个不同的声音,非要我也来高呼,谷歌千秋万代,一统江湖,你才满意么?!
说我不懂谷歌关键字搜索技巧的朋友们:
我怎么会不懂呢?但是一定要懂关键字,搜索引擎才能听懂,换个字眼,换个语法,他就不懂了,这语言理解水平也太烂了吧?你确定你不是在黑谷歌?!
搜索引擎行业的技术发展方向,一定是“自然语言人机对话+智能化逻辑思考”。 不要跟我说,百度是给你答案,谷歌是给你思考,人永远是懒惰的动物,希望产品适应人的需求,而不是人去适应产品的要求。
在这个方面,百度的技术发展水平与谷歌的差距是越来越接近的。
须知,技术的研发来自金钱的投资和人才的聚集,百度在2008年后才逐渐拥有一定的家底,开始加大在搜索技术的研发投入;而谷歌,她的研发重点已经转移至其他的领域了。这就是百度与谷歌在搜索技术的发展水平越来越接近的主要原因。
update:
刚刚看了百度发布的2013Q4财报——
百度2013年度总营收为319.44亿元,同比增长43.2%;净利润为105.19亿元,同比增长0.6%。
之所以会出现,营收高速增长,而利润停滞不前的状况,主要的原因是着眼于未来的研发投资在以更高的速度增长:2013年全年,百度研发投入达人民币41.07亿元,相比2012年增长78.2%,占全年总营收的比例接近13%,2012年这一比例为10%,单单在第四季度,百度的员工就增加了5300人,其中绝大部分是研发人员。
与之相比,谷歌的营收规模虽然更高,但是营收增长速度只有12%,研发投入占营收比例在12%左右。
在分析师会议上,百度强调,目前的研发重点在:移动端搜索、云服务、LBS(基于位置的服务)三个方面。
引用一篇新闻报道:2013年,百度多项创新技术取得突破,如人脸搜索、图像识别、语音识别等。如今,百度已经拥有业界领先的人脸检测、特征点定位、性别判断、身份识别以及大规模人脸检索等常规的人脸识别技术。并且,很大一部分已经被广泛用于图像搜索、贴吧、百度知心、百度框、云相册、媒体云等重要产品线上。
同时,百度的图像识别技术也已成功产品化,如凭借趣味性和无穷创意走红网络的百度“实物翻译”,用户只需打开实物翻译功能,对着物体拍张照,软件就能迅速识别并翻译成英文。百度翻译凭借实物翻译功能受到用户欢迎,成为一款同类软件根本无从模仿的应用,这不仅是百度在交互模式领域的一次具有跨时代意义的探索,更显示其背后的巨额科研投入的努力。
提到语音识别技术,百度在经历了摸索期之后同样迎来了开花、结果,其语音识别准确率已经超越竞争对手。不仅如此,在“2013百度世界大会”上,百度还宣布向开发者免费开放整个语音识别平台,致力于打造一个听得懂人类语言背后隐藏意图的“大脑神经系统”。
除此之外,百度在2013年更是将Deep Learning提到核心技术创新地位,建立公司历史上第一个研究院Idl(Institute of Deep Learning,深度学习研究院)。在全球范围内,目前除斯坦福大学等高校研究机构外,唯有百度、IBM、谷歌、微软四家企业设立了专门研究机构,形成深度学习研究的第一阵营。
通过Idl,2013年百度在多个前瞻性科研项目上取得丰硕果实。比如,自然场景OCR,其作用是在自然场景拍摄的图像中准确检测并识别出其中的文字内容,它在信息搜索、地理位置信息服务、文字翻译、盲人辅助阅读、图像标注、人机交互等众多场合下有着广阔的应用前景。
阅读(867) 分享(0)