superl-url是一款开源的,并且功能强大的关键词URL采集工具,可以根据关键词,对搜索引擎内容检索结果的网址内容进行采集。
程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~
本来几年前就写好了,没什么技术含量,没想到小伙伴的使用需求还蛮大的,不敢私藏~~
立了flag,git的star过200就一定抽时间去升级,这个flag已经实现,目前已经是4.0版本~~ 更新后就在这里发出来了。
优势介绍
1.支持多搜索引擎,很方便添加集成。(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。
2.开源,跨平台,使用python开发;
3.做了兼容性优化,同时支持python2和python3;
4.支持自动过滤重复内容,支持过滤标题中存在指定关键词的内容,支持过滤域名;
5.保存方式同时支持本地txt和mysql数据库;
6.从搜索引擎采集到的地址,是真实网站地址,不是像百度快照那样的三方地址;
7.多进程同时采集。每个搜索引擎都单独一个进程;
8.可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。
9.可自定义每页采集时间间隔,防止被屏蔽;
运行效果
使用说明
1.安装python2或者python3运行环境;
2.如果提示没有找到库,则需要安装依赖:
如果是python3,则:
pip install ConfigParser
pip install tldextract
如果是Python2,则:
pip install tldextract
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
3.根据自己的需要,修改根目录下的config.cfg配置文件。
配置文件说明
节点 | 参数 | 示例值 | 说明 |
---|---|---|---|
global | save_type | mysql | 保存类型,可选择file或者mysql,如果是file则保存为本地txt |
global | sleep_time | 1 | 每次搜索处理完一页后的等待时间,防止太频繁被搜索引擎屏蔽 |
url | url_type | realurl | 保存文件txt里面显示的url类型。realurl=真实网站地址,baseurl=原始搜索引擎地址,urlparam=带参数的真实网站地址 |
filter | filter_status | True | 是否开启过滤器,如果开启,则过滤域名和标题都不生效 |
filter | filter_domain | True | 是否过滤域名 |
filter | filter_title | True | 是否过滤标题 |
log | write_title | True | 是否显示标题 |
log | write_name | True | 是否显示搜索引擎名称 |
engine | baidu | True | 百度搜索引擎模块是否开启 |
engine | sougou | True | 搜狗模块是否开启 |
engine | so | False | 搜搜模块是否开启 (搜搜现在抓取不到了) |
pagesize | baidu_pagesize | 50 | 每页条数 |
pagesize | sougou_pagesize | 50 | 每页条数 |
pagesize | so_pagesize | 10 | 每页条数 |
mysql | host | 127.0.0.1 | 如果保存类型为Mysql,则此节点必须配置正确 |
mysql | port | 3306 | 端口 |
mysql | user | root | 用户名 |
mysql | password | root | 密码 |
mysql | database | superldb | 数据库名称 |
mysql | table | search_data | 表名称 |
file | save_pathdir | result | 如果保存类型为file,则这里设置的是保存的路径,当前为程序根目录的result文件夹 |
plugin | pr | True | 预留的插件功能,暂时不支持 |
如果保存方式为Mysql,还需要执行以下sql创建表:
CREATE TABLE `search_data` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`engine` varchar(20) NOT NULL DEFAULT '',
`keyword` varchar(100) NOT NULL DEFAULT '',
`baseurl` varchar(255) NOT NULL DEFAULT '',
`realurl` varchar(255) NOT NULL DEFAULT '',
`urlparam` varchar(255) NOT NULL DEFAULT '',
`webtitle` varchar(255) NOT NULL DEFAULT '',
`create_time` int(10) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;
项目地址:【GitHub传送门】
猜你还喜欢
- 12-09Kali Linux字典生成工具Cewl使用全指南
- 01-12开源安全情报引擎Critical Stack使用入门
- 05-02分享一款基于Pocsuite的漏洞扫描系统
- 01-04经验分享 | Burpsuite抓取非HTTP流量
- 05-02Burpsuit结合SQLMapAPI产生的批量注入插件
- 11-25工具 | 手把手教你信息收集之子域名收集器
- 12-08burpsuite_pro_v1.7.11破解版(含下载地址)
- 11-05工具分享 | Maltego4.0.11中文汉化版
- 05-30最新BurpSuite 1.7.32 破解版[注册机]下载【无后门版】
- 07-29IBM Rational AppScan 9.0.3 (含下载)
- 随机文章
-
- 三个案例看Nginx配置安全
- web安全之如何全面发现系统后台
- 获取来源IP地址的正确姿势
- 一款短小精致的SSH后门分析
- 如何使用深度学习检测XSS
- 渗透测试TIPS之删除、伪造Linux系统登录日志
- Angr:一个具有动态符号执行和静态分析的二进制分析工具
- 各种隐藏WebShell、创建、删除畸形目录、特殊文件
- 工具解析|杀毒引擎惨遭打脸,黑帽大会爆惊天免杀工具
- 浅谈Web渗透测试中的信息收集
- Python列为黑客应该学的四种编程语言之一 初学者该怎么学
- 斯诺登最新泄露文档:揭秘美国部署在澳洲的秘密监控设施“Rainfall”
- 无招胜有招: 看我如何通过劫持COM服务器绕过AMSI
- 利用Python实现DGA域名检测
- 谈谈端口探测的经验与原理
- QQ邮箱反射型xss漏洞
- Linux后门整理合集
- Struts2远程代码执行漏洞S2-052 复现与防御方案
- 浅谈PHP防注入
- [代码审计]ThinkPHP3.2.3框架实现安全数据库操作分析
- 热门文章
-
- 八年专业安全团队承接渗透入侵维护服务
- Emlog黑客站模板“Milw0rm”发布
- Stuxnet纪录片-零日 Zero.Days (2016)【中文字幕】
- SQLMAP的注入命令以及使用方法
- 白帽故事汇:网络安全战士从来不是「男生」的专利
- 编辑器漏洞手册
- web安全之如何全面发现系统后台
- 常见Web源码泄露总结
- 渗透测试培训(第五期)
- 深入理解JAVA反序列化漏洞
- cmseasy前台无需登录直接获取敏感数据的SQL注入(有POC证明)
- 网站后台登陆万能密码
- 黑麒麟2016渗透培训系列教程
- 破解emlog收费模板“Begin”
- 那些强悍的PHP一句话后门
- Android平台渗透测试套件zANTI v2.5发布(含详细说明)
- 渗透工具BackTrack与KaliLinux全套视频教程
- Python列为黑客应该学的四种编程语言之一 初学者该怎么学
- CVE-2017-11882漏洞复现和利用
- 恶意程序报告在线查询工具
文章存档
- 2021年3月(4)
- 2020年12月(4)
- 2020年11月(5)
- 2020年10月(8)
- 2020年9月(8)
- 2020年8月(20)
- 2020年7月(47)
- 2020年6月(70)
- 2020年5月(41)
- 2020年4月(21)
- 2020年3月(120)
- 2020年2月(26)
- 2019年12月(12)
- 2019年11月(13)
- 2019年10月(17)
- 2019年9月(15)
- 2019年8月(13)
- 2019年7月(15)
- 2019年6月(15)
- 2019年5月(19)
- 2019年4月(23)
- 2019年3月(19)
- 2019年2月(11)
- 2019年1月(29)
- 2018年12月(24)
- 2018年11月(56)
- 2018年10月(79)
- 2018年9月(20)
- 2018年8月(17)
- 2018年7月(16)
- 2018年6月(7)
- 2018年5月(10)
- 2018年3月(6)
- 2018年2月(2)
- 2018年1月(11)
- 2017年11月(18)
- 2017年10月(6)
- 2017年9月(8)
- 2017年8月(7)
- 2017年7月(7)
- 2017年6月(15)
- 2017年5月(30)
- 2017年4月(7)
- 2017年3月(1)
- 2017年2月(4)
- 2017年1月(1)
- 2016年12月(3)
- 2016年11月(7)
- 2016年10月(6)
- 2016年9月(6)
- 2016年8月(102)
- 2016年7月(24)
- 2013年7月(1)
- 文章标签
-