GooglePageRank 是基于大资料智能演算法,它们往往缺乏人类自带的技能:常识。

众所周知,在多个页面上放置相同的内容会产生重复的内容。

但是如果您建立关于类似产品的页面会有什么影响呢?演算法会将它们标记为重复,但其实他们完全是不相同的两个产品。

比如: 电子商务:具有多种型号或关键差异的类似产品 旅游:酒店的分店,目的地套餐,内容相似 分类:相同专案的详尽列表 业务:本地分支机构的页面,在不同地区提供相同的服务 一、重复内容很危险 网站会出现以下情况: 丢失竞争相同关键字的唯一网页的排名 无法对群集中的网页进行排名,因为 Google 选择了一个网页作为规范 大量精简内容丢失了网站许可权 二、机器如何识别重复内容 Google 使用演算法来确定两个页面或部分页面是否是重复内容,而 Google 将其定义为 “明显相似” 的内容。

谷歌的相似性检测基于他们的专利 Simhash 演算法,该演算法可以分析网页上的内容块。

然后,它为每个块计算唯一识别符号,并为每个页面组成一个杂凑或 “指纹” 。

由于网页数量巨大,因此可扩充套件性至关重要。

目前,Simhash 是大规模查询重复内容的唯一可行方法。

Simhash 指纹: 计算成本低廉,它们是在页面的单个爬网中建立的。

固定长度,易于比较。

能够找到近乎重复的东西,与许多其他演算法不同,它们将页面上的微小变化等同于杂凑中的微小变化。

这意味著任何两个指纹之间的差异可以通过演算法测量并显示为百分比。

为了降低评估每一页网页的成本,Google 采用了以下技术: 聚类:通过将多组足够相似的页面分组在一起,只需要比较聚类中的指纹,因为其他所有指标都已被分类为不同。

估计:对于异常大的聚类,在计算一定数量的指纹对之后应用平均相似性。

比较页面指纹。

来源:用于网络抓取的近似重复文件检测(Google 专利)最后,谷歌使用加权相似率排除相同内容的某些块(样板:标题,导航,侧边栏,页尾,免责宣告……)。

它考虑了页面的主题,使用 n-gram 分析来确定页面上哪些词最常出现,并且在站点的上下文中是最重要的。

三、使用 Simhash 分析重复内容 我们将使用 Simhash 检视标记为相似的内容丛集的地图。

OnCrawl 的此图表覆盖了对重复内容群集的重复内容策略的分析。

OnCrawl 的内容分析还包括相似性比率,内容聚类和 n-gram 分析。

OnCrawl 还在开发一个实验性热图,表明每个内容块的相似性可以覆盖在网页上。

按内容相似性对映网站。

每个块表示具有类似内容的丛集。

颜色表示每个群集的规范化策略的一致性。

资料来源:OnCrawl 。

四、使用规范验证丛集 使用规范 URL 来指示一组相似页面中的主页面是一种有意聚集页面的方式。

理想情况下,由规范建立的丛集和由 Simhash 建立的丛集应该是相同的。

标准聚类匹配相似性聚类(绿色)。

突出显示:6 页 100%相似。

您的规范政策和 Google 的 Simhash 分析以同样的方式对待它们。

如果不是这种情况,通常是因为您的网站上没有规范的政策: 没有规范宣告:每个数百页的丛集,平均相似率为 99-100%。

Google 可能会施加规范网址。

您无法控制哪些页面将排名,哪些页面不排名。

或者因为您的规范策略与 Google 用于对类似内容进行分组的方法之间存在冲突: 规范的问题:具有超过 80%相似性的大型丛集和每个丛集的多个规范 URL 。

Google 会强制使用自己的规范网址,或者将您希望保留的重复网页编入索引。

您网站的群集与上面的群集不同。

您已经遵循了重复内容的最佳做法。

包含相同内容的网址(例如可列印/移动版本或 CMS 生成的备用网址)会宣告正确的规范网址。

规范化后对映相似性聚类。

过滤掉规范策略正确处理的重复内容,其余的非规范化 URL 是您要排名的页面。

在删除经验证的(绿色)簇和具有小于 80%相似性的簇之后的先前对映。

其余 46 个丛集中的大多数只有 2 页。

仍然出现在基于 Simhash 和语义分析的群集中的网址是您和 Google 不同意的网址。

五、解决重复内容问题 没有令人满意的技巧来纠正机器对看似重复的独特页面的看法:我们无法改变 Google 识别重复内容的方式。

但是,仍然有一些解决方案可以使您对独特内容和 Google 的感知保持一致…… 同时仍然会根据您需要的关键字进行排名。

以下是适应您网站的五种策略。

1 、解决边缘情况 首先检视边缘情况:具有非常低或非常高的相似率的聚类。

·相似度低于 20%:相似,但不太相似。

您可以通过连结群集中的页面,使用每个页面的不同锚文字,通知 Google 将它们视为不同的页面。

·最大相似度:找出潜在问题。

您需要丰富内容以区分页面或将页面合并为一个页面。

2 、减少相似页面的数量 页面不要追求数量,需要追求质量。

大量的重复页面,可能会产生页面里面小块内容高相似度,会被搜索引擎认为是重复页面,影响到网站的整体的索引。

资料来源:OnCrawl 。

3 、使页面独特 请记住:内容的微小差异会在 Simhash 指纹中产生细微差别。

您需要对页面上的内容进行重大更改,而不是进行小的调整。

丰富页面内容: ·向页面新增文字内容       o 新增不同的影像描述       o 包括完整的客户评论(如果评论适用于多个页面,请合并页面)      o 新增其他信息       o 新增相关信息 ·使用不同的影像 ·使用非常不同的锚文字测试连结到不同的页面 ·减少类似页面之间共同的原始码量 ·提高页面的语义密度     o 增加与主题相关的词汇量并减少填充 4 、建立排名参考页面 如果无法或不适合丰富您的页面,请考虑建立一个代替所有 “重复” 页面的单个参考页面。

此策略使用与内容中心相同的原则来提升多个关键字的主页面。

当您需要将多个版本的产品作为单独的页面进行维护时,它尤其有用。

此策略可用于建立定位需求或季节性机会的网页。

它可以通过提供更强大的语义和排名来改善页面群。

它还可以使分类广告网站,招聘网站和其他具有许多通常类似列表的网站受益。

参考页面应按单个特征对列表进行分组。

该怎么办:      1. 建立一个参考页面,汇集所有 “重复” 产品页面的语义内容。

它应该宣传您要使用的所有关键字并连结到所有 “重复” 页面。

    2. 将每个 “重复” 页面的规范 URL 设置为参考页面,将参考页面的规范 URL 设置为自身。

    3.“重复” 页面之间的连结。

    4. 优化网站导航以推广参考页面。

通过 “重复” 页面,规范宣告和组合内容的连结加强,参考页面很容易排名。

5 、合并您的页面 您一直在尝试使用相同的内容来丰富页面?您无法解释为什么要保留它们?可能是时候将它们结合起来了。

如果您决定将您的网页合并为一个: 保持表现最佳的网址。

将您正在删除的页面重定向(301)到您要保留的页面。

将您要删除的页面中的内容新增到您保留的页面中,并对其进行优化以对所有群集的关键字进行排名。

六、重复内容的未来 Google 理解页面内容的能力不断发展,越来越精确的识别样板以及区分网页上的意图,被识别为重复的独特内容最终将成为过去式。

在那之前,了解为什么您的内容看起来是重复的,并使其适应谷歌的规则,是类似网页成功搜索引擎优化的关键。