使用 CloudFlare 后百度抓取诊断抓取失败的解决办法。

很多站长都在向明月反应网站接入全部 CloudFlare 后百度爬虫抓取失败很严重,哪怕是规则和 IP 里都向百度爬虫开放依旧会抓取失败,无论是 PC 端还是移动端都是如此,理论上来说 CloudFlare 强大又灵活的软防实力和大数据基础是不应该出现这类问题的,毕竟谷歌、必应等境外爬虫就从来没有出现过这个问题。

在百度站长平台【抓取诊断】里无论是 PC 抓取还是移动端抓取都是报“socket 读写错误

已登录明月开始全站接入 CloudFlare 后几乎就没有关注过百度爬虫了,但有几个客户也碰到同样的问题了,这就得着手解决了,在看了大量 CloudFlare 文档后明月发现问题很有可能出在 CloudFlare 的 TSL/SSL 配置上,今天实测后发现百度站长平台的【抓取诊断】里竟然实测通过了,并且无论 PC 还是已移动端都成功抓取了,几乎是实时生效。具体操作也很简单只需要我们在 CloudFlare 后台的【SSL/TLS】——【边缘证书】中关闭【随机加密】即可,境外也建议默认 TLS 版本选择低于等于 1.2 最佳,具体如下图所示:

设置完成后等待十分钟后再进入百度站长平台的【抓取诊断】里测试抓取就会发现抓取状态里抓取成功了!

切记一定要等待至少 10 分钟后再诊断哦,不要那么猴急了!

注:因为 CloudFlare 默认是强制 HTTPS 重写的。所以国内搜索引擎里一定要记得 HTTPS 认证哦,否则也是会出现爬虫抓取错误的,好在自前年开始国内各个主流搜索引擎都已经支持 HTTPS 了

可以在 CloudFlare【安全性】事件里看到百度爬虫已经正常来访抓取了

意外的头条搜索爬虫竟然也来了

比较意外的是在 CloudFlare 后台【安全性】的事件里竟然除了百度爬虫外,还发现了头条搜索爬虫和搜狗爬虫、神马搜索爬虫竟然也都恢复了抓取,看来国内搜索引擎爬虫对 SSL 的支持支持还是很有限呀,稍微高端点儿的竟然就不支持了,草率的报个“Socket 错误”就给应付了,好坑爹呀!

 

本文转自明月登楼的博客

文章版权归原作者所有或来自互联网,未经允许请勿转载。如有侵权请联系我删除,谢谢!
THE END
分享
二维码
打赏
< <上一篇
下一篇>>
文章目录
关闭
目 录