教程十七:robots.txt协议作用及写法说明 | KaneSEO

教程十七:robots.txt协议作用及写法说明

robots.txt协议是网站与搜索引擎之间的一种约定,当搜索引擎蜘蛛访问网站时会第一时间查看网站是否设置了robots.txt协议,并根据robots.txt协议的内容进行访问和抓取。网站可以利用robots.txt协议屏蔽蜘蛛抓取部分隐私的内容或者不愿意公开的内容,已达到对搜索引擎抓取收录的有效规范。

robots.txt的作用

一、robots语法

1、User-agent:定义搜索引擎类型

2、Disallow:定义禁止抓取收录

3、Allow:定义允许抓取收录

4、*:通配符

5、$:结束符

6、/:代表网站根目录

示例

1、User-agent: * 表示所有的搜索引擎蜘蛛

2、Disallow: / 表示屏蔽整个网站(Disallow: 后面为关键词,只要路径中存在该关键词就会被屏蔽)

(1)Disallow: /t/ 屏蔽文件夹t内的所有文件

(2)Disallow: /t 屏蔽主域名后面带t的文件,可能会屏蔽非“t”文件夹内的文件,不精准

3、Disallow: /*?* 屏蔽动态路径

4、Disallow: /*.css$ 屏蔽css文件

5、Disallow: /*.js$ 屏蔽js文件

6、Disallow: /*.jpg$ 屏蔽jpg格式的图片

二、什么情况下使用robots.txt协议?哪些文件应当被屏蔽?

1、统一路径:屏蔽掉目标优化外的其他链接;

2、搜索链接:Disallow: /search/

3、标签链接:Disallow: /tag/

4、中文链接

5、js链接:Disallow: /*.js$

robots.txt协议的使用应当是基于对网站的充分了解的基础上,屏蔽掉对用户没有作用、无价值,对整站质量提升没有帮助的页面。

三、robots.txt协议编写注意事项

1、符合使用的细节

(1)“/”后面不可留有空格,留有空格表示屏蔽整站

(2)英文状态下的“:”

(3)注意大小写,首字母大写

(4)冒号后面紧跟一个空格

2、生效时间

robots.txt协议的生效时间并不固定,几天或者两个月之内生效都有可能。

3、不要随意屏蔽整站

即使是未上线期间的整站屏蔽也会留有不好的影响,谨记!

写好以后的robots.txt协议写法放在网站的根目录即可,用FTP工具上传,查看的话在浏览器中输入网站域名,后面加上robots.txt,例如http://www.kaneseo.com/robots.txt,即可打开robots文件。同时大家也可以去百度站长平台工具验证robots文件设置的正确与否。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:教程十七:robots.txt协议作用及写法说明 | KaneSEO

发表评论