robots.txt协议是网站与搜索引擎之间的一种约定,当搜索引擎蜘蛛访问网站时会第一时间查看网站是否设置了robots.txt协议,并根据robots.txt协议的内容进行访问和抓取。网站可以利用robots.txt协议屏蔽蜘蛛抓取部分隐私的内容或者不愿意公开的内容,已达到对搜索引擎抓取收录的有效规范。
一、robots语法
1、User-agent:定义搜索引擎类型
2、Disallow:定义禁止抓取收录
3、Allow:定义允许抓取收录
4、*:通配符
5、$:结束符
6、/:代表网站根目录
示例:
1、User-agent: * 表示所有的搜索引擎蜘蛛
2、Disallow: / 表示屏蔽整个网站(Disallow: 后面为关键词,只要路径中存在该关键词就会被屏蔽)
(1)Disallow: /t/ 屏蔽文件夹t内的所有文件
(2)Disallow: /t 屏蔽主域名后面带t的文件,可能会屏蔽非“t”文件夹内的文件,不精准
3、Disallow: /*?* 屏蔽动态路径
4、Disallow: /*.css$ 屏蔽css文件
5、Disallow: /*.js$ 屏蔽js文件
6、Disallow: /*.jpg$ 屏蔽jpg格式的图片
二、什么情况下使用robots.txt协议?哪些文件应当被屏蔽?
1、统一路径:屏蔽掉目标优化外的其他链接;
2、搜索链接:Disallow: /search/
3、标签链接:Disallow: /tag/
4、中文链接
5、js链接:Disallow: /*.js$
robots.txt协议的使用应当是基于对网站的充分了解的基础上,屏蔽掉对用户没有作用、无价值,对整站质量提升没有帮助的页面。
三、robots.txt协议编写注意事项
1、符合使用的细节
(1)“/”后面不可留有空格,留有空格表示屏蔽整站
(2)英文状态下的“:”
(3)注意大小写,首字母大写
(4)冒号后面紧跟一个空格
2、生效时间
robots.txt协议的生效时间并不固定,几天或者两个月之内生效都有可能。
3、不要随意屏蔽整站
即使是未上线期间的整站屏蔽也会留有不好的影响,谨记!
写好以后的robots.txt协议写法放在网站的根目录即可,用FTP工具上传,查看的话在浏览器中输入网站域名,后面加上robots.txt,例如http://www.kaneseo.com/robots.txt,即可打开robots文件。同时大家也可以去百度站长平台工具验证robots文件设置的正确与否。