Skip to main content

无头爬虫

Chrome Headless 爬虫介绍

hawk-x 是一个基于Chrome Headless开发的高性能发散式爬虫工具。内置智能算法分析引擎,并配合高性能goroutines池,实现高效地网页的节点事件分析、流量监测分析、表单智能分析并填充、智能算法过滤重复数据等操作。

通过注入JavaScript脚本到headless浏览器中,对网页节点进行逐一分析,自动填充并提交表单、自动分析去重URL、提取带事件的节点并配合后端自动触发事件,收集符合要求的结果进行输出或保存。

配合goroutines池,实现高性能、高效率地自动分析和收集URL集合的效果。

本工具需要提前装好新版本的 chrome,否则将无法使用。

前往下载 新版本的chromium

Linux 自动化安装 chrome

wget -q https://script.install.devinsideyou.com/google-chrome
sudo chmod +x google-chrome && ./google-chrome
tip

EZ 至 1.3.3 版本已集成 Elise 爬虫。

目前支持同时使用--crawler参数使用解析型爬虫与--crawler-headless参数使用浏览器爬虫。

使用介绍

  1. 使用帮助
ez crawler -h //使用-h查看使用介绍
  1. 基本使用 (默认使用配置文件参数,如果提供命令行参数,将覆盖配置文件参数,使用命令行参数)
ez crawler -u https://www.target.com 
  1. 自定义配置
ez crawler -u https://www.target.com --chrome-path ./chrome-mac/Chromium.app/Contents/MacOS/Chromium --max-crawler-count 200