robots.txt这个 文件的意思是什么?它有什么作用?它该如何设置?在这里给大家介绍下robots.txt相关的知识。
我们在seo优化操作的时候,有时候会遇到过不想让蜘蛛爬行和抓取网站的一些页面,或者新建网站上线,由于种种原因暂时不想让搜索机器人程序抓取网站内容,我们该怎么办呢?方法很简单,这里就要用到robots.txt了,这个robots.txt文件是搜索蜘蛛进入一个网站后首先要爬行的文件,它的作用就是告诉搜索机器人,网站那些页面可以爬行抓取,哪些页面不可以抓取。它是一个最简单的,文本形式的TXT格式文件,一般情况下都默认放在网站程序的根目录里,现在常用的CMS系统如:dede、discuz、74cms、帝国cms、phpcms等等网站内容管理系统,都自带的有这个文件,如果是自己开发的一些网站内容管理系统,可以在程序根目录自行创建这个文本文件。
最关键的就是这个robots文件里面的内容改如何写,写法及注意事项如下:
1、如果你的网站没要需要屏蔽的内容,那么这个文件里面就是空白
2、这个文件必须命名为:robots.txt ,必须是小写字母。
3、这个文件必须放在网站根目录下,例如:通过http://www.genban.org/robots.txt 这个路径可以正常访问到,就说明放置正确。
4、一般情况下,robots.txt里只写着两个函数:User-agent(允许)和 Disallow(不允许抓取)
5、至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
6、还要放你的网站地图的路径地址,因为这个文件时蜘蛛访问你的网站时首先爬行的页面,所以网站地图地址放进去会有利于收录。