我们在做SEO优化过程中有一个问题经常被大家忽视,那就是“重复内容”。重复内容意味着类似内容出现在网络上的多个位置(URL),因此搜索引擎不知道在搜索结果中显示哪个URL。这可能会损害网页的排名,当人们开始链接到相同内容的不同版本时,问题就会变得更糟。今天我们将帮助您了解重复内容的各种原因,并找到每个内容的解决方案。
什么是重复内容?
重复的内容可以比作处于十字路口,其中道路标志指向同一目的地的两个不同方向:您应该走哪条路?更糟糕的是,最终的目的地也是不同的,但只是微不足道。作为读者,你不介意因为你得到了你所获得的内容,但搜索引擎必须选择要在搜索结果中显示的页面,因为当然,它不希望两次显示相同的内容。
假设您关于“关键字x”的文章 出现在http://www.example.com/keyword-x/,同样的内容也出现在http://www.example.com/article-category/keyword-x/。这种情况并非虚构:它发生在许多现代内容管理系统中。然后让我们说你的文章已经被几个博主收录,其中一些链接到第一个URL,而另一些链接到第二个。这是搜索引擎的问题显示其真实性质的时候:这是你的问题。重复的内容是您的问题,因为这些链接都会提升不同的网址。如果它们都链接到同一个网址,那么“关键字x”的排名机会会更高。
目录
1、重复内容的原因
重复内容有几十个原因。他们中的大多数都是技术性的:人们决定将相同的内容放在两个不同的地方而不清楚哪个是原始内容并不常见 - 对我们大多数人来说这感觉不自然。虽然有很多技术原因,但主要是因为开发人员不像浏览器或用户那样思考,更不用说搜索引擎蜘蛛了。拿我们前面提到的那篇文章,它出现在http://www.example.com/keyword-x/和http://www.example.com/article-category/keyword-x/。如果你问开发者,他们会说它只存在一次。
1.1 误解URL的概念
不,那个开发人员没有发疯,他们只是说一种不同的语言。CMS可能会为网站提供支持,在该数据库中只有一篇文章,但该网站的软件只允许通过多个URL检索数据库中的同一篇文章。这是因为,在开发人员看来,该文章的唯一标识符是文章在数据库中具有的ID,而不是URL。但对于搜索引擎,URL是一段内容的唯一标识符。如果您向开发人员解释,他们将开始解决问题。阅读完本文后,您甚至可以立即为他们提供解决方案。
1.2 会话ID
您经常希望跟踪访问者并允许他们在购物车中存储他们想要购买的商品。为了做到这一点,你必须给他们一个'会话'。会话是访问者在您网站上执行操作的简要历史记录,可以包含购物车中的商品等内容。为了在访问者从一个页面点击到另一个页面时维持该会话,该会话的唯一标识符(称为会话ID)需要存储在某处。最常见的解决方案是使用cookie。但是,搜索引擎通常不存储cookie。
此时,某些系统会回退到URL中使用会话ID。这意味着网站上的每个内部链接都会将该会话ID添加到其URL中,并且因为该会话ID对于该会话是唯一的,所以它会创建一个新的URL,从而创建重复的内容。
1.3 用于跟踪和排序的URL参数
重复内容的另一个原因是使用不会更改页面内容的URL参数,例如在跟踪链接中。你看,搜索引擎,http://www.example.com/keyword-x/并且http://www.example.com/keyword-x/?source=rss是不一样的URL。后者可能允许您跟踪人们来自哪些来源,但它也可能使您更难排名 - 这是一个不必要的副作用!
当然,这不只是用于跟踪参数。它适用于您可以添加到不会更改重要内容的URL的每个参数,无论该参数是用于“更改一组产品的排序”还是“显示另一个侧边栏”:所有参数都会导致重复内容。
1.4 转载和内容联合
重复内容的大部分原因都是您或您网站的“错误”。但是,无论是否征得您的同意,其他网站都会使用您的内容。它们并不总是链接到您的原始文章,因此搜索引擎不会“得到”它并且必须处理同一文章的另一个版本。您的网站越受欢迎,您将获得越多的转载,使这个问题变得越来越大。
1.5 参数顺序
另一个常见原因是CMS不使用漂亮的干净URL,而是使用URL,例如/?id=1&cat=2,ID表示文章,而cat表示类别。URL /?cat=2&id=1将在大多数网站系统中呈现相同的结果,但它们对于搜索引擎而言完全不同。
1.6 评论分页
在Wordpss中,以及其他一些系统中,有一个选项可以对你的评论进行分页。这导致内容在文章URL和文章URL + / comment-page-1 /,/ comment-page-2 /等中重复。
1.7 打印页面友好
如果您的内容管理系统创建了打印机友好页面,并且您链接到文章页面中的页面,搜索引擎通常会找到它们,除非您专门阻止它们。现在,问问自己:您希望搜索引擎展示哪个版本?包含广告和周边内容的广告或仅展示您文章的广告?
1.8 WWW与非WWW
这是本文中最古老的一个问题,但有时搜索引擎仍然会出错:WWW与非WWW重复内容,当您的网站的两个版本都可访问时。另一个不常见的情况,但我们也看到过的是HTTP与HTTPS重复内容,只因为二者URL不同。
2、概念解决方案:“规范”URL
正如我们已经看到的那样,几个URL导致相同内容的事实是一个问题,但它可以解决。在出版物上工作的一个人通常能够很容易地告诉你某篇文章的“正确”URL是什么,但有时当你在同一家公司内询问三个人时,你会得到三个不同的答案......
这是一个需要解决的问题,因为最终只能有一个(URL)。一段内容的“正确”URL被搜索引擎称为规范URL。
3、识别重复的内容问题
您可能不知道您的网站或您的内容是否存在重复的内容问题。使用Google是发现重复内容的最简单方法之一。
有几个搜索运算符在这些情况下非常有用。如果您要查找网站上包含关键字X文章的所有网址,请在Google中输入以下搜索字词:
site:example.com intitle:“关键字X”
然后,Google会向您显示example.com上包含该关键字的所有网页。您intitle对查询的这一部分越具体,就越容易清除重复的内容。您可以使用相同的方法来识别Web上的重复内容。让我们说你的文章的完整标题是 '关键字X - 为什么它很棒',你要搜索:
intitle:“关键字X - 为什么它真棒”
Google将为您提供与该标题相匹配的所有网站。有时甚至可以从你的文章中搜索一两个完整的句子,因为一些刮刀可能会改变标题。在某些情况下,当您进行此类搜索时,Google可能会在结果的最后一页显示如下通知:
这表明Google已经“删除”了结果。它仍然不好,所以值得单击链接并查看所有其他结果,看看是否可以修复其中一些。
4、重复内容的实用解决方案
一旦你确定哪个URL是你的内容的规范URL,你就必须开始规范化的过程。这意味着我们必须告诉搜索引擎有关页面的规范版本并让他们尽快找到它。按优先顺序有四种解决问题的方法:
- 不创建重复内容
- 将重复内容重定向到规范URL
- 将规范链接元素添加到重复页面
- 将重复页面中的HTML链接添加到规范页面
4.1 避免重复内容
重复内容的上述原因之一对它们有非常简单的修复:
- 您的网址中是否有会话ID?
这些通常只能在系统设置中禁用。 - 你有重复的打印机友好页面?
这些是完全没必要的:您应该只使用打印样式表。 - 你在Wordpss中使用评论分页吗?
您应该在99%的网站上禁用此功能(在 设置»讨论下)。 - 您的参数是否以不同的顺序排列?
告诉程序员构建一个脚本,以便始终以相同的顺序放置参数(这通常称为URL工厂)。 - 有跟踪链接问题吗?
在大多数情况下,您可以使用基于哈希标记的广告系列跟踪代替基于参数的广告系列跟踪。 - 你有WWW与非WWW问题吗?
选择一个并通过将一个重定向到另一个来坚持它 。您还可以在Google网站站长工具中设置偏好设置,但您必须声明两个版本的域名。
如果您的问题不是那么容易解决的问题,那么可能还是值得投入。目标应该是防止重复内容完全出现,因为它是目前问题的最佳解决方案。
4.2 301重定向重复内容
在某些情况下,不可能完全阻止您使用的系统为内容创建错误的URL,但有时可以重定向它们。如果这对您来说不符合逻辑(我可以理解),请在与开发人员交谈时牢记这一点。如果您 确实 摆脱了一些重复的内容问题,请确保将所有旧的重复内容网址重定向到正确的规范网址。
4.3 使用链接
有时您不希望或不能删除文章的重复版本,即使您知道它是错误的URL。为了解决这个特殊问题,搜索引擎引入了规范链接元素。它位于您网站的部分,它看起来像这样:
在href规范链接的部分中,您可以为文章放置正确的规范网址。当支持规范的搜索引擎找到此链接元素时,它会执行软301重定向,将该页面收集的大部分链接值传输到规范页面。
这个过程比301重定向要慢一些,所以如果你可以做一个更好的301重定向。
4.4 链接回原始内容
如果你不能做上述任何一项,可能是因为你没有控制你的内容出现在网站的部分,在文章的顶部或下面添加一个回到原始文章的链接总是好的理念。您可能希望在RSS源中执行此操作,方法是将链接添加回其中的文章。一些抓取工具会过滤掉这个链接,但其他人可能会把它留在里面。如果谷歌遇到几个指向您原始文章的链接,它很快就会发现这是真正的规范版本。
5、网站优化结论:重复内容是可修复的,应该是固定的
重复的内容到处都有。我还没有遇到超过1,000页的网站,至少没有一个小的重复内容问题。这是你需要不断关注的东西,但它是可以修复的,而且奖励可以很丰富。只需从您的网站上删除重复内容,您的高质量内容就可以在排名中飙升!