使用 CloudFlare 后怎样才能不影响搜索引擎蜘蛛爬虫。

1、关闭 SSL/TLS 里的【随机加密】

在 CloudFlare 后台的【SSL/TLS】【边缘证书】里有一个【随机加密】的开关,其主要目的是让浏览器知道您的站点通过加密连接提供,从而让它们从 HTTP/2 的性能改进中受益。浏览器将继续在地址栏中显示 “http”,而不是 “https”。这个【随机加密】目前国内主流搜索引擎都不支持,尤其是百度爬虫,所以一定要关闭这个开关,否则就会造成百度爬虫抓取网页失败:

国外的谷歌、必应都是支持这个【随机加密】的,如果不想让百度爬虫抓取你的网页也可以利用这个来限制百度爬虫。总之,就是灵活运用了,但一般明月是建议大家关闭的。

2、WAF 里创建放行爬虫规则(必须)

这个是很多新手站长们使用 CloudFlare 容易忽略的地方,CloudFlare 默认 WAF 理论上是不会拦截爬虫的,但国内部分爬虫对 robots.txt 遵守不完全,加上 IP 不固定等等因素就会造成被 CloudFlare 的默认 WAF 误拦截,所以明月强烈建议大家要在 CloudFlare 的 WAF 里单独创建一个放行爬虫的规则来以防万一,在 CloudFlare 后台【安全性】——【WAF】里“创建规则”,具体规则配置如下所示:

这里的有区别于【CloudFlare 如何让合法搜索引擎蜘蛛爬虫正常抓取】一文里第一个字段变更为“已知自动程序”了,无论是“合法机器人爬虫”还是“已知自动程序”其实指的都是搜索引擎爬虫,只是称谓变更而已,这里使用的意思是来访爬虫是已知的爬虫程序,注意后面的“值”就是勾选(意思是判断为“是”)。然后是“And”下一个条件“威胁分数”小于或者等于 60 分,结合到一起的意思就是来访爬虫是已知合法自动爬虫并且威胁分数小于等于 60 分的请求,这里的威胁分数是 CloudFlare 大数据里的评分,只要是合法搜索引擎爬虫威胁分数都不会高于 60 分的。当然你也可以设定更高,但基于安全考虑,明月的经验是 60 分足够了。

满足上述两个条件后就是下面要采取的措施了,一般我们都是选择“跳过”的,具体跳过什么如下图所示:

这里大家可以根据自己的安全需要灵活勾选,仅供参考,理论上全部勾选也是可以的,大家根据自己需要勾选就是了。不推荐无脑照抄,因为站点情况是不一样的,只能是根据需要来选择,实在不懂了可以咨询明月。

至此,你的 CloudFlare 已经对所有合法的搜索引擎爬虫完全开放了,还具备了对恶意、垃圾爬虫的自动拦截屏蔽。并且还可以根据自己站点的实际需求,灵活的向爬虫、UA、IP 区域等等设定开放条件。

转自:https://www.imydl.com/wzjs/17680.html

文章版权归原作者所有或来自互联网,未经允许请勿转载。如有侵权请联系我删除,谢谢!
THE END
分享
二维码
打赏
< <上一篇
下一篇>>
文章目录
关闭
目 录