1

探秘Google新算法意义何在

  Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合,几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件(LocalScore)的链接对你网站的排名的影响程度有着深远的意义。

   我列了一个简单的公式来说明新算法的效果和影响 (谨供参考):

  "旧"Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)}

  "新"Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} *{(1-f)+c (LS)}

  其中:

  RS = 相关性得分:

  基于网页标题(Title),元标识(Meta tags), 正文标题(Headlines),正文(Body text),URL和图片Alt文字,锚文字(Anchor Text)等元素中出现的关键词得出的分数。

  PR = 页面等级:

  基于链接至你网站的网页数量及其PR值得出的分数。

  原始公式为PR (A) = (1-d) + d (PR (t1)/C (t1) + …+ PR (tn)/C (tn))

  其中D为阻尼因子,一般设为0.85;

  公式可描述为:A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。

  LS = 行业得分(LocalScore):根据专家文件计算得出的分数。

  a,b,c = 调节控制比重:Google用于精工调整查询结果

  d,e,f = 阻尼控制:Google用于精工调整查询结果。目前"f"值可能为"0"。

  fb = 因子基数:Google工具栏山所显示的页面等级得分范围从1到10,但它实质上并不是一个线性函数,而是一个指数/对数函数。

  经过分析,我们认为它有一个趋近于8的基数。即PR为5的网页的值比PR为4要多8倍之多(PR5=PR4X8),同样,一个PR值为8的网站比一个PR值为4的网站的值要高出4000多倍(PR8=PR4X8X8X8X8)。

  Google新算法的优势/优点

  页面因子极易被人利用和控制,例如最早被用作排名因子的META TAGS,就由于很多网站无度的关键词充斥泛滥而不得不被搜索引擎喊停。

  此外,在开始的时候,由于顾忌到真实来访者的感受,对网站内容一般作手脚的并不多,但后来亦难免诱惑,过度优化,甚至页面上放上许多"隐形"的内容已是屡见不鲜的伎俩。页面因子确实无形中赋予网站管理员太多"恶意"控制权。

  而在Google的新算法中,各排名因素所占比重分别如下:

  总"排名"得分由三部分组成:

  相关性得分(页面因素),页面等级得分(非页面因素)和行业得分(非页面因素):

  相关性得分(RS)= 20%,页面等级值(PR) = 40%,行业得分(LS) = 40%

  其中:

   RS (相关性得分:页面相关度) --是所有SEO努力的转换结果;

  PR (页面等级得分:外部链接度) --是所有建立链接的努力的转换结果;

  LS (行业得分:专家文件链接度) --是得自专家文件的链接的转换结果;

  从上述结果不难看出,页面优化的得分只占到20%,Google显然已将重心转至非页面因子上,而把排名控制权越来越多地从网站管理员手中夺回来。1

Matt把谷歌识别文章关键词密度分为了3个阶段:
  上升阶段:当谷歌通过蜘蛛索引到一篇文章中时,会注意到文章中关键词出现的频率和数量,当第一次发现关键词的时候,比如在首段的第一句话中,你会让谷歌明白文章将要讲述一个怎样的话题,谷歌会有兴趣继续阅读,所以此时会为文章评级加分,并继续观察。
  持平阶段:如果在随后的段落里再次找到了该关键词,如果这些关键词出现的频率和时机都是很正常的话,谷歌不会做什么动作,因为觉着一切正常,这也就是一个持平阶段,绝大部分独立创作的的文章都会停留在此阶段。
  危险阶段:但如果文章被过度优化了,那么情况就危险了:随着谷歌对文章的继续深入索引,如果发现了过多的关键词异常的出现在网页中,并根据自己的严格的算法体系判断出这些关键词频率已经超过正常标准,如果文章内这些异常现象被谷歌看上去像是软件修改或者认为故意添加的痕迹的话,那么谷歌会降低文章的权重评级,轻则文章不被收录,重则网站受到惩罚。
  站长不必担心正常行文会被误判为过度优化,只要把握一个原则:即不影响用户阅读体验即可。所以,大家应该可以看到,谷歌并非通过简单的关键词密度去判断一篇文章的质量,而是根据行文规则等一系列复杂算法去判断的,绝非是修改关键词密度那么简单。

  假若一个水平一般般的优化专家可以拿到RS中的10分,而一个水平很高的优化专家最高也不过能拿到18,19分,大家可以看到:这两个水平悬殊的优化专家之间的差别仅仅只有8分而已!

  Hilltop算法是否以实时方式运行

  Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。

  而一旦了解了Hilltop算法后,我们很难相信这样的奔腾服务器能够具备如此的处理能力:试想一下,首先要从成千上万的主题性文件中找到"专家文件",然后计算目标网页自这些专家文件的链接的得分,然后再将数值返回Google算法的其它排名系统,并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜索速度内完成。确实使人难以置信。

  Hilltop算法的运行频率及涵盖范围

  我们认为,要保证Google一贯的"闪电般"搜索速度,Google会对搜索频率较高(热门)的查询词(即所谓的"商业词"黑名单)定期运行批处理,并将结果存储起来供日后使用。

  Google的数据库拥有数目庞大的高查询频率的查询词,收集自实地搜索和其AdWords自助广告系统中所使用的关键词。

  Google很可能对关键词搜索次数设置了上限值,凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统,然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理,可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。

  同时,每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的数据库进行同步更新,但稍小规模的批处理的数据库更新会更加频繁一些。

  对于那些用户查询频率不算高,因而无此"荣幸"被纳入Hilltop算法的查询词语,Google仍将使用原来的算法并显示原来的排名结果。

  因而对于那些高度明确或专业化的关键词,由于它们被排除在新算法的范围之内,因而有望保持原来的排名。

  Hilltop算法为何经过如此长时间才投入使用

  Google早在2003年2月就获得了该专利,但在实际投入使用前,需要首先保证新算法和Google当时所使用的页面等级和页面相关性系统的完全兼容性,所以需要对其兼容性做大量测试,然后再评估算法整合后所提供的结果,再做精工调整,然后是进一步的繁复测试…

  我想所有这些都需要大量时间。

  Google新算法的不利方面/瑕疵

  经过进一步分析,我们发现了该算法存在着的若干缺陷和不足:

  Hilltop的前提是每个专家文件都是完全公正的,且无欺*和人工操纵成分。然而情况可能并非如此理想。

  专家文件的一个小小污点就可以对排名产生极大的负面影响。

   Hilltop意图通过"权威性"专家文件的链接来确定一个网页的行业可信度,但又不能够明确保证这些所谓的"专家文件"的""量"确是名副其实。

  运行Hilltop算法需要大量的计算机处理能力,因而我们猜测Hilltop算法(可能)是每个月对收集到的全部高频率(热门)查询词运行一次批处理。

  由于Google算法将40%重心转移至Hilltop,且Hilltop算法运行后的得分会保持至下一次批处理,因而在此期间搜索结果很可能不会有太大变动。

  此外,由于"专家"网页的投票方式往往不会有太大变动,因而在某段时期内我们可能只会看到一些"陈旧"的搜索结果。

  这一点悖离了搜索引擎的"提供最新、最好"的查询结果的宗旨。

  除了"权威网页",用户同样希望看到一些新鲜的内容,然而对"新"Google而言,用户只有寄望于那些查询频率不太高,从而未被纳入Hilltop系统的查询词语上看到"新鲜"的查询结果了。

  新站点对热门查询词的排名的难度将越发加大。看来对于那些特别热门的查询词,Google对新网站或新内容的排名的门槛是越来越高了。

  商业性站点要链向网络分类目录,贸易协会,政府贸易机构,教育机构,公益性组织的站点并非难事,故而这样的站点会占据搜索结果的前十名位置。