草根吧VPS_WordPress技巧分享_优化WordPress站点的Robots.txt文件协议
很多网站新手并不清楚robots.txt文件的重要作用,所以我将用这篇文章来普及robots.txt文件和WordPress网站的编写知识
Robots协议的全名(也称为爬虫协议,机器人协议等)是“Robots Exclusion Protocol”,该网站使用机器人协议告诉搜索引擎可以抓取哪些页面以及哪些页面不能抓取
当搜索引擎机器人访问网站时,它首先在站点的根目录中查找 robots.txt文件。如果存在此文件,则根据文件的内容确定文件的范围。如果不是,则包括默认访问和所有页面。此外,当搜索蜘蛛发现没有robots.txt文件时,它将在服务器上生成404错误日志,这增加了服务器的负担。因此,将robots.txt文件添加到站点非常重要
现在您已经了解了Robots协议的功能,接下来让我们讨论WordPress站点如何编写Robots .txt文件
默认情况下,WordPress网站会在浏览器中输入:http://您的域名/ robots.txt,它将显示以下内容:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
这是由WordPress自动生成的,这意味着告诉搜索引擎不要抓取后台文件
但这还不够,我们需要创建一个新的robots.txt文件,然后将以下内容复制到其中进行保存
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=* Disallow: /*?* Disallow: /attachment/
保存后,您可以将其直接上传到您网站的根目录,您可以访问 http://您的域名/ robots.txt 来检查您的上传是否成功
那么上面文件里的内容分别代表什么意思呢?普及下小知识
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页
4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关
6、Disallow: /?s=*和Disallow: /*/?s=*
禁止搜索引擎抓取站内搜索结果
7、Disallow: /*?*
禁止搜索抓取动态页面
8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面
有很多方法可以编写这个文档,就不在此一一列出了,我有这个就够了,希望对你的网站seo有所帮助。