1 Star 0 Fork 0

mrque233 / supurl

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

新一代关键词URL采集系统(Supurl)

最新公告

  • supurl v1.0 已上线!于2020年中旬开始研发,在2021年6月12日上线。

系统简介

Supurl,是新一代的关键词URL采集系统。可完美突破所有搜索引擎的反爬虫机制!

可根据用户录入的关键词,自动化的使用全网主流的多个搜索引擎(包括但不限于百度、谷歌、必应、搜狗、搜搜等),获取搜索引擎的返回结果进行统一采集与处理的一款程序。采集与处理的信息包括但不限于真实URL地址、排名、标题等。

程序主要运用于网络安全相关项目,比如批量评估各类CMS系统0DAY的影响程度。以及可作为舆情监控系统的搜索引擎监控组件。

关于商业版

本系统分为多个版本,包括会员版、旗舰版。目前暂未发布免费版。

鉴于superl-url项目的使用者较多,总是有小伙伴联系我需要定制二次开发,但工作繁忙一直没时间接。为了减少二次开发成本,所以融合多个客户的所有需求,统一研发出商业版本supurl;

如需使用,可联系QQ:86717375

关于旗舰版

旗舰版是目前已经研发完成的产品,支持客户在自己的服务器独立部署!所有数据都是存储在客户自己的服务器上,仅供客户自己使用。会员面板仅仅是做API数据转发。

关于会员版

会员版目前还在开发中... 是基于云的形式进行构架,会员只需要开通账号即可。所有采集任务都是由官方服务器节点完成。由于采集比较消耗资源,任务如果多的情况下可能需要排队。

系统优势

  • 全新的构架设计,可完美突破所有搜索引擎的反爬虫机制!
  • 完美兼容支持所有搜索引擎,可多个搜索引擎并发采集;
  • 采用GO语言实现采集核心,并且稳定性与效率高;交叉编译跨平台,可完美运行在ubuntu、centos、windows、mac等系统;
  • 拥有WEB版本会员网站后台,在后台即可实现采集任务的管理与方案自定义。无需技术经验,小白也能快速上手!
  • 灵活的过滤方案自定义、重复判断模式自定义;
  • 灵活的导出功能,同时支持导出excel表格csv、json、txt等文件;
  • 强大的HTTP API推送接口功能,可实现采集结果的推送。可进行二次开发拓展,对接到自己的接口,灵活存储与自定义结果。

会员后台截图

登录页面 会员首页 任务列表页面 任务添加页面 推送方案管理页面 域名过滤方案管理页面 标题过滤方案管理页面

采集客户端运行截图

运行1 运行2 运行3

演示视频

暂无

关于HTTP推送接口说明

推送请求地址:任务中选择的推送方案的HTTP地址
推送请求方式:POST
推送请求类型:application/json
推送请求参数:

{
    "id": 1,             
    "task_id": 1,        
    "engine": "baidu",
    "keyword": "关键词",
    "url": "http://www.xxx.com/article/1.html",
    "domain": "www.xxx.com",
    "title": "网页标题",
    "weight": 1,
    "is_repeat": false,
    "code_language": "",
    "webcms": "",
    "web_server_name": "",
    "registed_at": "",
    "contact_email": "",
    "contact_name": "",
    "contact_mobile": "",
    "created_at": ""
}

注意: 会员的HTTP接口每次正常接收完数据后,需要输出字符串"success",否则会视为推送不成功。
字段名称 示例值 说明
id 1 URL结果的ID编号
task_id 1 所属任务的ID编号
engine baidu 对应的搜索引擎别名
keyword 最新漏洞 搜索的关键词
url https://www.cnvd.org.cn/webinfo/show/3096 网页完整地址
domain www.cnvd.org.cn 网页所属的域名
title 常见漏洞类型汇总 - 国家信息安全漏洞共享平台 网页的标题
weight 1 搜索引擎的排名
is_repeat false 是否属于重复过滤 true表示被过滤的,false表示没被过滤
code_language php 网站后端开发语言 暂不支持
webcms dedecms 网站使用的开源网站系统名称 暂不支持
web_server_name apache 网站使用的web服务器名称 暂不支持
registed_at 2020-10-01 网站域名的注册时间 暂不支持
contact_email 123456@qq.com 网站的联系邮箱 暂不支持
contact_name 张三 网站的联系人 暂不支持
contact_mobile 13000000000 网站的联系方式 暂不支持
created_at 2021-06-12 采集入库时间

技术实现

  • 采用Go语言作为采集客户端的开发语言,交叉编译跨平台;
  • 采用selenium实现采集基础核心;
  • 采用rabbitmq消息队列;
  • 采用内存操作算法实现结果的去重复;
  • 采用sqlite作为本地微型数据库,实现数据的入库、结果统计等;
  • 采用java作为会员端API接口的转发服务;
  • 采用vue + elementui用于会员网站系统的前端开发;

联系方式

  • 联系QQ: 86717375

  • 忘忧草安全交流2群:50246933

空文件

简介

新一代的关键词URL采集系统[商业版]。可完美突破所有搜索引擎的反爬虫机制!可根据用户录入的关键词,自动化的使用全网主流的多个搜索引擎(包括但不限于百度、谷歌、必应、搜狗、搜搜等),获取搜索引擎的返回结果进行统一采集与处理的一款程序。采集与处理的信息包括但不限于真实URL地址、排名、标题等。 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/mrque233/supurl.git
git@gitee.com:mrque233/supurl.git
mrque233
supurl
supurl
main

搜索帮助