简介:
enginecrawler 主要在 linux 系统上运行,用于抓取国内外主流搜索引擎返回的 url 内容。与 windows 上的搜索引擎爬虫工具相比,linux 上的选择较少。由于我的电脑是 kali linux,无法运行 windows 软件,我便自行开发了这个小工具。开发这个工具的初衷是,在为厂商进行测试时,发现了一个 web 应用程序的通用型漏洞,需要根据 url 的特征值采集大量 url 并进行批量测试。手动复制粘贴 url 非常繁琐,这时这个工具就大显身手了。
该工具利用多进程并发来提升网页抓取的效率,并且可以自定义模块添加到工具中。目前支持的搜索引擎包括:百度、谷歌、雅虎、Ecosia、Teoma、360、Hotbot。支持直接使用百度或谷歌的高级搜索语法进行搜索。谷歌搜索引擎无需访问国外网站,抓取的数据来自我搭建的谷歌镜像站。
依赖:
pip install -r requirements.txt
使用方法:
选项:
-h, –help 显示此帮助信息并退出
-r RULE, –rule RULE 引擎高级搜索规则
-p PAGE, –page PAGE 搜索引擎返回的页面数
-e ENGINES, –engines ENGINES
卡奥斯智能交互引擎
聚焦工业领域的AI搜索引擎工具
36 查看详情
指定以逗号分隔的搜索引擎列表
-o OUTPUT, –output OUTPUT
将结果保存到文本文件中
示例:python EngineCrawler.py -e baidu,yahoo -r ‘inurl:php?id=1’ -p 10 -o urls.txt
截图:
如果代码有任何不足之处,欢迎提出宝贵意见~
GitHub 项目地址:https://www.php.cn/link/eca85870ec8b6d70a888d143988d8a4b
以上就是搜索引擎爬虫工具的详细内容,更多请关注php中文网其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/742541.html
微信扫一扫
支付宝扫一扫