无头爬虫
Chrome Headless 爬虫介绍
hawk-x 是一个基于Chrome Headless
开发的高性能发散式爬虫工具。内置智能算法分析引擎,并配合高性能goroutines池,实现高效地网页的节点事件分析、流量监测分析、表单智能分析并填充、智能算法过滤重复数据等操作。
通过注入JavaScript脚本到headless浏览器中,对网页节点进行逐一分析,自动填充并提交表单、自动分析去重URL、提取带事件的节点并配合后端自动触发事件,收集符合要求的结果进行输出或保存。
配合goroutines池,实现高性能、高效率地自动分析和收集URL集合的效果。
本工具需要提前装好新版本的 chrome,否则将无法使用。
前往下载 新版本的chromium
Linux 自动化安装 chrome
wget -q https://script.install.devinsideyou.com/google-chrome
sudo chmod +x google-chrome && ./google-chrome
tip
EZ 至 1.3.3 版本已集成 Elise 爬虫。
目前支持同时使用--crawler
参数使用解析型爬虫与--crawler-headless
参数使用浏览器爬虫。
使用介绍
- 使用帮助
ez crawler -h //使用-h查看使用介绍
- 基本使用 (默认使用配置文件参数,如果提供命令行参数,将覆盖配置文件参数,使用命令行参数)
ez crawler -u https://www.target.com
- 自定义配置
ez crawler -u https://www.target.com --chrome-path ./chrome-mac/Chromium.app/Contents/MacOS/Chromium --max-crawler-count 200