Google的原罪--网页序列等级
(编辑:jimmy 日期: 2024/11/5 浏览:3 次 )
1998年,当时互联网正在高速发展,处于最光彩照人的阶段。1995年开始出现的搜索引擎引起世人关注,在当时被高科技的权威们(以及福布斯杂志)评判为另一个互联网神奇组合中又一个让大家富裕的利润增长点。然而,这样的创新除了意味着整个商业模式的终结之外没有其他。 事实的真相是,就像这些早期的预言家事后不得不承认的是:轻松的迅速致富的虚假诺言成为一种附加在优秀公司头上的最大压力,妨碍了他们本来可以了解得更多,做得更好。
最早最成功的搜索引擎之一,数字设备公司(DEC)旗下的AltaVista,从1998年开始就迷失了它原有的方向,所有的网络先驱们都在谈论"门户",所以AltaVista也尝试成为一个门户网站,它忘却了继续在搜索引擎序列上寻求发展。 甚至到了1998年,搜索人在搜索引擎中键入一到两个关键字所获得的搜索结果过多这个问题已经变得非常明显。AltaVista提供了众多的方法以调整关键字的特定联系,但是它仍然极少关心到"序列或者排序"的问题。序列,或者说是按照一定标准的返回信息列,应该早就不成为问题了。搜索引擎用户们可不想进行布尔逻辑运算,同时他们也不会想看前二十个以外的搜索结果。所以,真正的问题是:相对于搜索引擎B,在搜索引擎A中输入相同的关键字,其首页显示结果如何能给用户更多有用的帮助。AltaVista在忙着尝试成为门户网站的同时根本无法注意到这么重要的一点。
进入Google 1998年初,斯坦福大学毕业生Larry Page和Sergey Brin已经在网上运用了一个独有的排列方法。他们在全球互联网大会上交了名为"超级文本搜索引擎网站的解析"一文。斯坦福作为指导而Larry Page作为发明者,并于1998年9月注册了专利。直到2001年9月4日被授予专利(专利号:第6,285,999),这种计算方法被成为"页面序列等级",而Google在当时拥有1亿5千万的日查询量。AltaVista则日暮西山;甚至连续两次易主都未能有所起色。 Goolge开始大肆宣传页面序列等级,因为这一个极为方便的流传词汇,使那些想知道为何Google的引擎确实能提供更好的搜索结果的人感到满意。甚至在今天,Google都在为他们所取得的进步而骄傲。所有的宣传都接近于一点,那些网络文章的发表者有时候不得不说明他们所使用的"PR"含义,是指页面序列等级(PageRank),一种计算方式,而非指Google所做的优秀的公共关系(Public Relations): 页面序列等级凭借了互联网特有的自由民主特性,将大量的链接指向作为判定单个网页价值的标准以及指向器。非常精髓之处在于:Google把从网页A通向网页B的链接作为一个A对B的投票。投票的多少决定在搜索引擎中的排名。但是,Google并不仅仅只注意一个绝对的链接量,或者是某个网页接到的链接要求有多少。一个网页本身在Google的重要性越高,将越能使其它被链接的网页显得重要。比如:品牌几何网站在Google的重要性指数为5,在中文网页中已经算较高,所以被品牌几何链接的网页的重要性会比其他被低于5的网站链接的重要性要高。 Google继而承认,除了网页序列等级之外,还有其它的变量被使用于决定网页的意义。当另外的这些变量的宏大外观易于被那些想知道如何提升自己网站排名的斑竹们辨识的时候,所有序列计算方法实际的细节将会被考虑作为Google公司的商业机密。使网站的管理者尽可能困难地探知他们的序列方法正是Google的兴趣所在。 万般皆序列 早在饱受怀疑之前,搜索引擎已经在网上日渐重要。电子商务与网页序列非常合拍,因为高位的网页序列等级能直接转化为销售成绩。各种不同的引擎设计出各种不同的方式使网页序列创造利益价值,诸如付费排名,点击付费广告以及付费的含有性链接。2002年6月27日,美国联邦交易委员会在讨论此类问题后要求:不论是按照客观公正的网页重要性标准进行排列,还是按照付费高低的网页序列等级,都应该清楚地被标识出来,从而保护消费者的利益。这表明,像网页序列等级这类总能被解释得合情合理的计算方式将会为搜索网站的未来维持一个重要的方向。 这样,搜索引擎网站不仅仅是改进了他们的排列方式,同时还使他们的网站成长得庞大以至于大多数网上冲浪的人每天都会使用搜索引擎数次。所有的门户网站都嵌入了搜索功能,而且他们中大多数都不得不依靠少数已有的搜索引擎提供商提供搜索结果。这是因为真正有能力经常检索和排列超过2亿个页面以保持数据时效性的网站屈指可数。Google也许是唯一被公认的持续性和规律性最好的搜索引擎,而实现这一点也只用了两年不到的时间。Google用一周时间覆盖现有的网页,同时再用一周时间计算排列每一个页面的序列等级。Google的一个更新周期大约是28天,这对那些对新闻如饥似渴的网虫们来说似乎是慢了一些。
2001年8月,Google对新闻类网站开始了二次迷你检索,此类检索将会使新闻类网站每天均被检索一次。而每次检索的结果将会被混在一起,这样就会给搜索者一种更新的印象。 对于普通的网站管理者,从1996年到2002年,运营好一个网站的技巧被戏剧性地改变了。这完全是由于搜索引擎重要性的增加。尽管在2000年以及2001年大多数.COM神话开始崩溃(这对于那些对崩溃前的日子记忆犹新的非商业性网站的斑竹们是一个解脱),这个事实一直延续到现在,而搜索引擎几乎是所有网站页面设计与链接的基本要素。那也是为什么搜索引擎网站认为应该将联邦交易委员会所提出的公正客观的排序标准计算法则需要进一步审视。 什么样的客观标准才是有效的 序列标准评判分成三个部分。第一部分是链接受欢迎程度,这被大量的搜索引擎一定程度使用。Google的页面序列等级是"链接知名度"的最原始模式,并且保持着其最纯洁的表达方式。这第二个部分则是网页特色。这部分包括字体大小、网页标题、关键字、关键字出现频率、文字相近度、文件名、目录名以及域名。最后那部分是内容分析。通常这一步会将搜索结果即时分类后归入几个项目中,这使得搜索者可以通过更具体的样式得到数据。以上每一种方法都有自己的作用。搜索引擎使用第一和第二种方法的一些组合,或者是单独使用页面特性检索(第三种方法),又或者是三种方法全部使用。 内容分析是这三种方法中最最困难的一种,但它也是非常让人浮想联翩的。如果一切变得理想化,当使用这种方法时,图形的检索将会成为可能,这种方法会使搜索引擎因为其创新与卓越赢得辉煌的声誉。但在许多情况下,这种方法并不能正常运作,因为计算机对于自然语言的处理并不擅长。它们不会明白这一大堆来自于不相干的来源的语言之间有什么细微的差别。而且大部分顶级的搜索引擎都会使用成打的语言种类,而由于每一种语言都会有自己的不同之处,这使得内容分析更为困难。有一些搜索引擎已经对此做了一些有趣的改进,其中有些甚至还发展了图形搜索功能,但是Google并不是其中之一。其实内容分析最有希望的前景在于它能够被用于和链接知名度相结合,在特定的领域内排列网站。这可能为解决一些纯链接知名度的问题提供一个新的思考角度。 链接知名度,Google把它成为PageRank,很显然是Google的序列层最重要的部分。当一个页面的部分页面特性能够胜过其较其上位的竞争页面的页面序列时,一些按照通常标准具有十分完美页面关联的网页会因为极低的页面序列而被埋没将会成为十分正常的事。另一方面,一个在其标题、头条以及内部链接均有可查询元素的网站,也可能因为其母网站的链接知名度不够而在排列中遭到埋没,同时不能向这些相关网站过渡足够的页面序列等级。 2002年12月,Google发布了一个可供下载的工具栏,它可以看到任何网页相关的页面序列等级。实际上可下载的工具栏解析,以及针对竞争页面所做的页面排列研究,也涉及了对页面序列规律的相当洞察。 此外,页面序列等级驱使Google每月检索一次,相对于那些页面序列等级低的网站,页面序列等级高的网站将会被更早,更快,更深入地检索。对于那些拥有相对较低序列等级的大型网站,这确实是个阻碍。假如你的网页不被检索,那也就不会被编入序列索引中。假如不被编入Google的索引中,人们就不会知道。假如人们不知道,那么就没有足够的点数维持网站。Google另外对所有网页启动了28天的更新周期,所以错过的网页在下一轮更新还有机会。简单地说,页面序列等级是Google的核心与实质,对于非常重要的检索和排列也一样。到2002年Google已经被普遍认知为世界最知名的搜索引擎。 如何使页面序列等级达到标准? 首先,Google的单纯的宣言"页面序列等级完全是依赖于网站的独一无二的民主特性"必须被认真审视一番。在一个民主体制中,每一个人只有一次投票机会。而对于页面序列等级,富有的人比贫穷的人有更多的投票机会,或者,在网络范围内,页面序列等级高的网页所投的票会比页面序列等级低的网页所投的票重要。Google对此的解释是:"投票计算是投票方自身的重要性决定了投票本身的重要?quot;。换句话说其实就是,富人更富,而穷人几乎都不能被计算在内。这不是"独一无二的民主",而是独一无二的暴政。搜索引擎是美国的梦幻机器,是一个可以以大欺小的地方。页面序列等级只是看上去更贴合联邦交易委员会所标榜的 "公平、客观的序列标准"。 其次,只有大型的网站才会有大量的数据。假如你的网站拥有一个较平均的页面序列等级,你就不用非常费心地将你的数据改成Google能检索到的有效格式,因为Google很有可能不会检索你所有的数据。这对于一些拥有超过几千个网页,同时主页在Google的工具栏上的粗略分数只有不足5个等级分的网站来说非常重要。 再次,为
下一篇:GOOGLE左侧排名实战演习