免费网站爬取工具软件汇总
文章目录[隐藏]
在线爬取工具
在线扒站工具:https://bazhan.wang 或 https://bazhan.me 。只允许爬取单个页面。
Archivarix:https://archivarix.com/en/website-downloader-cms-converter/ 可以免费下载200个文件。
HTTrack类软件
对不懂编程的,推荐老牌的爬站工具HTTrack 。
HTTrack :https://www.httrack.com 支持Windows/Linux/OSX/Android。类似工具还有teleport ultra。
Cyotek WebCopy:https://www.cyotek.com/cyotek-webcopy
这些工具都只能处理静态页面内容,无法处理使用了Ajax动态数据展示的网站。
离线存档工具
定位于网站离线存档的工具,也可以作为爬取工具使用,功能更为强大,但需要一定技术基础。
ArchiveBox:https://archivebox.io
Kiwix:https://www.kiwix.org
Conifer:https://conifer.rhizome.org
这几个都支持Headless Chromium,因此可以爬取ajax动态数据的网站。
当然技术人员也可以基于万能的爬虫框架Scrapy 自己开发一个。
ArchiveBox的 Wiki 对各种 Web Archiving 工具及服务做了很好的总结,值得参考和挖掘:https://github.com/ArchiveBox/ArchiveBox/wiki/Web-Archiving-Community
共有 0 条评论