由于链接的的指向,而导致网站内容重复,一直是网站SEO的大忌。不同的链接指向同一个网页,就会被搜索引擎判定为作弊。昨天提到的WordPress重定向插件,在一定意义上也是为了阻止重复内容。然而,由于WordPress的结构原因,往往就会发生网页内容重复的状况。例如:http://www.domain.com/archive/1 和 http://www.domain.com/archive/1/feed两个网址下的内容就是一样的,所以,我们就必须想办法阻止这样的情况发生。
通常,解决重复内容的方法有:使用noindex标签,利用excerpt实现内容摘要,以及配置robots.txt。今天就主要说说在WordPress下使用robots.txt文件。
robots.txt文件就像一个网站的大门,它会告诉搜索引擎的蜘蛛,可以抓取哪里的网页内容,哪里的不能抓取。因此,配置好robots.txt文件,完全可以理想的组织blog内容重复的问题。robots.txt的具体文法和使用方法,可以参考robotstxt.org。在国内,此类的WordPress robots.txt比较流行:
User-agent: * 
Disallow: /wp- 
Disallow: /feed/ 
Disallow: /comments/feed 
Disallow: /trackback/ 
Disallow: /?s= 
刚才看到 filination.com上面提到的一个robots文件,并且提供了简短的解释。刚刚接触robots.txt文件的朋友,可以参考一下:
User-agent: Googlebot
# Disallow all directories and files within 
Disallow: /cgi-bin/ 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
# Disallow all files ending with these extensions 
Disallow: /*.php$ 
Disallow: /*.js$ 
Disallow: /*.inc$ 
Disallow: /*.css$ 
# Disallow parsing individual post feeds, categories and trackbacks.. 
Disallow: */trackback/ 
Disallow: */feed/ 
Disallow: /category/* 
Robots.txt因人而异,不同的人对robots有不同的理解,在加上SEO一直是一个热门话题,所以WordPress的robots文件不会是唯一的,也不会有一个最好的。大家要是有觉得更好的,不妨分享一下。
 
                

 
             
            