搜索引擎爬虫工具

简介:

enginecrawler 主要在 linux 系统上运行,用于抓取国内外主流搜索引擎返回的 url 内容。与 windows 上的搜索引擎爬虫工具相比,linux 上的选择较少。由于我的电脑是 kali linux,无法运行 windows 软件,我便自行开发了这个小工具。开发这个工具的初衷是,在为厂商进行测试时,发现了一个 web 应用程序的通用型漏洞,需要根据 url 的特征值采集大量 url 并进行批量测试。手动复制粘贴 url 非常繁琐,这时这个工具就大显身手了。

该工具利用多进程并发来提升网页抓取的效率,并且可以自定义模块添加到工具中。目前支持的搜索引擎包括:百度、谷歌、雅虎、Ecosia、Teoma、360、Hotbot。支持直接使用百度或谷歌的高级搜索语法进行搜索。谷歌搜索引擎无需访问国外网站,抓取的数据来自我搭建的谷歌镜像站。

依赖:

pip install -r requirements.txt

使用方法:

选项:

-h, –help 显示此帮助信息并退出

-r RULE, –rule RULE 引擎高级搜索规则

-p PAGE, –page PAGE 搜索引擎返回的页面数

-e ENGINES, –engines ENGINES

卡奥斯智能交互引擎 卡奥斯智能交互引擎

聚焦工业领域的AI搜索引擎工具

卡奥斯智能交互引擎 36 查看详情 卡奥斯智能交互引擎

指定以逗号分隔的搜索引擎列表

-o OUTPUT, –output OUTPUT

将结果保存到文本文件中

示例:python EngineCrawler.py -e baidu,yahoo -r ‘inurl:php?id=1’ -p 10 -o urls.txt

截图:

搜索引擎爬虫工具如果代码有任何不足之处,欢迎提出宝贵意见~

GitHub 项目地址:https://www.php.cn/link/eca85870ec8b6d70a888d143988d8a4b

以上就是搜索引擎爬虫工具的详细内容,更多请关注php中文网其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/742541.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Java字符串数据处理:条件化修改结构化字符串中的数值
上一篇 2025年11月25日 16:09:25
国内AI人工智能工具排行 十大国产AI软件评测
下一篇 2025年11月25日 16:09:25

相关推荐

发表回复

登录后才能评论
关注微信