发布:阿里云代理商凯铧互联
问题场景:
今天客户问凯铧互联小编他使用的阿里云虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,问小编如何处理。
解决方法:
可以通过在站点根目录下创建 Robots.txt文件。Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。
注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。
1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
2. Robots.tx t样例代码:
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent:
Disallow: /
例2. 允许所有的搜索引擎访问网站的任何部分
User-agent:
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项:
三个目录要分别写。
请注意最后要带斜杠。
带斜杠与不带斜杠的区别。
例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/
专享服务:
如果您的问题还未能解决,您可以联系阿里云代理商凯铧互联客服寻求帮助。阿里云代理商凯铧互联提供阿里云服务器/企业邮箱等产品的代购服务,同样的品质,更多贴心的服务,更实惠的价格。 阿里云代理商凯铧互联会为您提供一对一专业全面的技术服务,同时还能为您提供阿里云其他产品购买的专属折扣优惠。通过凯铧互联购买可以获得折上折优惠!若您需要帮助可以直接联系我方客服,阿里云代理商凯铧互联专业技术团队为您提供全面便捷专业的7x24技术服务。 电话专线:136-5130-9831,QQ:3398234753。
如果您是工作时间以外的时间需要服务,请加微信号158-0160-3153,当然了,这个微信号也是手机号,可以随时拨打!
扫一下凯铧互联微信号,立享优惠折扣!!