1 Star 0 Fork 0

sunjian286 / fatratcollect

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
readme.txt 13.14 KB
一键复制 编辑 原始数据 按行查看 历史
sunjian286 提交于 2021-04-17 00:05 . fat-rat
=== 胖鼠采集(Fat Rat Collect) 微信知乎简书腾讯新闻列表分页采集, 还有自动采集、自动发布、自动标签、等多项功能。开源插件 ===
Contributors: Fat Rat
Donate link: https://www.fatrat.cn/bounty
Tags: 采集,微信公众号文章采集,知乎采集,列表采集,批量采集,分页采集,自动标签,自动采集,自动发布,seo,免费采集插件,caiji,pangshu
Requires at least: 4.6
Tested up to: 5.6
Stable tag: 2.4.3
Requires PHP: 7.1
License: GPLv2 or later
License URI: https://www.gnu.org/licenses/gpl-2.0.html
胖鼠采集(Fat Rat Collect) 是一款能够帮助你网站自动化的采集工具. 支持采集、微信、简书、知乎、自定义列表页、自定义详情页面、还有许多特色功能、 还可一键采集历史文章, 一键设置自动采集, 自动发布, 为您节省精力, 快来体验一下吧!
== Description ==
胖鼠采集(<a href="https://www.fatrat.cn" target="_blank">Fat Rat Collect</a>) 是一款能够帮助你网站自动化的采集工具. 开源作品, 支持采集所有网站列表及详情页面 它拥有微信、简书、知乎、列表、历史、详情、等多种采集方式、还有自动采集, 自动发布, 自动打标签, 等许多黑科技功能, 一次创建规则, 后续省心省力. 还有许多演示例子,一键可用。如: 微信、简书、知乎、御龙在天、寻仙、虎扑等许多例子、快去享受吧!
= 神奇之处 =
* 微信公众号文章采集 - 强大的Jquery可以处理各种版权信息, 纵享丝滑.
* 简书文章采集 - 强大的Jquery可以处理内容各种图片, 柔顺到底.
* 知乎问答采集 - 强大的Jquery可以处理各种你不想要的东西, 一键爽歪歪.
* (独家主打) 列表采集,历史采集 <a href="https://www.fatrat.cn/fatrat/260.html" target="_blank">视频文字教程</a>- 只需轻轻一点. 数不清的文章就来了.
* (独家主打) 详情页面文章采集 - 任何网站十秒搞定
* (独家主打) <a href="https://www.fatrat.cn/fatrat/260.html" target="_blank">分页爬取</a> - 历史数据, 也不放过. 一网打尽
* (胖鼠主打) 自动采集 - 一键启动不放过每一份数据.
* (胖鼠主打) 自动发布 - 您省心省力好帮手.
* (独家主打) 调试模式 - 新建规则好帮手, 采集结果好伙伴.
* (独家主打) 体验例子 - 一键体验胖鼠.
* (主打主打) 文章自动添加, <a href="https://www.fatrat.cn/fatrat/229.html" target="_blank">动态内容</a>, <a href="https://www.fatrat.cn/fatrat/220.html" target="_blank">自动标签</a>, 标签内链, 优化SEO.
* (胖鼠采集) 文章滤重 - 支持.
* (胖鼠采集) 自动特色图片 - 支持.
* (胖鼠采集) 采集图片加入媒体库 - 支持.
* (胖鼠采集) 数据处理 - 完美支持Html Jquery
* (胖鼠采集) 内容关键字过滤替换 伪原创 - 支持.
* (胖鼠采集) 自定义采集任何可见网站 - 完美支持.
* (胖鼠采集) 自定义文章图片链接类型 - 支持.
* (胖鼠采集) 内容详情页数据分页采集 - 支持.
* (胖鼠采集) 关键词随机插入, 可指定关键词或A标签关键词随机插入文章正文中 - 支持.
* (胖鼠采集) 图片本地下载, 支持使用其他插件上传(阿里云OSS、又拍云云存储, 七牛对象存储), 并可突破图片防盗链.
* (胖鼠采集) 相比其它采集器如: 火车头、神箭手、后羿、八爪鱼、以及一些伪原创采集工具, 胖鼠采集简单易用, 功能强大,是您建站的好帮手
* (重磅重磅) 胖鼠采集完全基于Wordpress, 安装即用, 开源作品
* (声明声明) 如你的PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6
* (声明声明) 胖鼠采集初衷为参考学习交流; 请大家遵纪守法. 抵制违法犯罪.
* (声明声明) 胖鼠采集开源可供您查阅代码, 或者二次开发使用供您使用, 但不可修改源码后用于商业行为.
= 胖鼠采集系统架构 =
* 系统分为五大块.
* ① 采集中心, 配置各种特色配置来采集数据.
* ② 配置中心, 为采集中心提供采集规则.
* ③ 数据桶, 数据管理中心 此模块控制采集数据.
* ④ Debugging, 此模块用于大家调试规则.
* ⑤ 胖鼠工具箱, 此模块是胖鼠特色小功能.
= 使用谨记 =
* 采集是一件极其消耗系统资源的事情,尤其是图片下载。
* 新鼠友, 可一键体验例子. 例子运行正确, 那就专心写规则吧.
* 本工具仅供学习参考, 作者不承担任何风险.
== Installation ==
安装:
1. 在插件中搜索 <strong>胖鼠采集</strong> 安装即可
2. 将插件文件上传到/wp-content/plugins/目录 即可
3. PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6
== Frequently Asked Questions ==
= 胖鼠FAQ =
采集成功, 但是没有数据? 右键检查 console 中有调试信息, 可供您参考
胖鼠采集收费吗?只有特色功能收费,列表采集、历史采集。自动采集、自动发布 等核心功能均免费
微信公众号历史采集支持吗?暂不支持
ajax页面采集支持吗?赞助可支持
图片可以下载吗? 可以, 还可设置图片路径格式
链接相对路径可以补全吗? 可以
= 关于新建配置 =
请多多使用debuggging功能
配合视频、文字教程、助您成功
= 胖鼠推荐服务环境 =
php推荐 使用php72及以上版本
推荐使用 nginx
推荐使用 mysql 5.7
推荐及时更新胖鼠采集
== Screenshots ==
1. 胖鼠强大的爬虫中心
2. 支撑胖鼠的配置中心
3. 发布文章的数据桶
4. 添加修改配置地方
5. 调试中心debugging
6. 工具箱特色小工具
== Changelog ==
= 2.4.3
* 修复关键词替换的BUG
= 2.4.2
* 修复新鼠友安装后无法保存配置Bug.
= 2.4.1
* 数据表字段长度调整
* 代码精简
= 2.4.0
* 新增关键词插入功能, 可设置一批关键词随机插入文章正文段落中.
* 修复一个分页的历史遗留bug, 可输出单页页码进行采集
* 分页采集改为一次可采集3页
* 优化了代码
= 2.3.0
* Optimization Absolute Url.
* 增加内容分页采集功能.
= 2.2.6
* Fix Auto Absolute Url Bug.
= 2.2.5
* 修复bug,提升稳定性
= 2.2.3-4
* 修复自动发布 动态内容,自动标签bug
* 优化代码,提升速度
= 2.2.1-2
* 微信采集链接优化
* 优化了软件速度
= 2.2.0
* 主题发布扩展
* 图片下载上传对接oss/云存储优化
* 去除html注释
* 文章发布优化
* 数据统计优化
* 取消特色图片激活
* 采集优化、最大超时时间10秒
* 删除规则,删除对应数据
* 等其他优化..
= 2.1.0
* 采集底层内存占用重构, 鼠友的福音
* 批量发布使用设置的发布状态
= 2.0.7
* 优化速度 .
= 2.0.6
* fix bug .
* 插件提升管理员权限使用.
= 2.0.5
* 采集图片路径优化/优化window主机附件无法查看
* 代码小版本迭代
* 数据入库优化代码,优化速度
* 批量删除细节优化
= 2.0.4
* 数据链接优化
= 2.0.3
* 优化插件速度,精简很多地方.
= 2.0.2
* 低版本数据库兼容
= 2.0.1
* 大数据量鼠优化升级步骤
= 2.0.0 = 2020-04-26
* 《胖鼠采集架构重组升级》
* 定时采集、定时发布强化
* 数据中心升级为数据桶模式、可设置数据桶对应发布分类
* 自动标签强化,标签匹配英文不区分大小写, 后续继续优化
* 动态内容强化样式。新版只在尾部添加动态内容, 后续继续优化
* 新增标签添加网站内链、5.1日前赞赏过自动标签用户免费激活
* 采集 & 调试
* 增加采集知乎问答功能
* 微信、简书、列表、详情、分页采集增加 debugging 功能
* 点击采集、异常后、按钮延时优化,避免不必要的问题
* 采集实体字符转义一些问题
* 文章重复问题优化、目前为url验重、后续增加文章标题验证重复
* 图片本地化功能加强升级
* 分页采集加强升级
* debug 全新升级 debugging
* 采集Url格式化升级
* 优化列表采集点击锚点体验
* 接口结果统一优化
* 采集数据可删除、批量管理
* 数据桶全局统计数据,所有数据一手掌握
= 1.11.1 = 2019-11-30
* delete Violations wordpress keywords
= 1.11.1 = 2019-09-19
* 简书规则升级
= 1.11.0 = 2019-09-04
* 优化了很多代码
* 增加图片不本地化选项。(采集速度超快)
* 可指定采集图片的属性。(对于某些js异步加载图片的站点很有效)
= 1.10.4 = 2019-06-12
* 优化一些地方
= 1.10.3 = 2019-05-19
* 优化 Dynamic Content 功能, 优化了取文字样式
* 优化 Auto Tags 功能, 暂时去掉了标签追加链接功能, 有bug回头解决了再加
* 数据中心弱网发布时间优化
= 1.10.2 = 2019-05-05
* 优化 Dynamic Content 功能
* 优化 Auto Tags 功能
* Auto Tags 功能 增加开关和一些优化
= 1.10.1 = 2019-05-04
* 代码优化
= 1.10.0 = 2019-05-04
* 新功能 Dynamic Content
= 1.9.0 = 2019-05-03
* 新功能 Auto Tags 文章自动打Tag or 优化一些文案
= 1.8.7 = 2019-04-30
* 修复一个紧急bug
= 1.8.6 = 2019-04-29
* 文章滤重改为强滤重
* 数据表增加一项字段
* 一次发布最大数量增加到30
= 1.8.4 = 2019-04-23
* 优化 据个别鼠要求, 采集标题 增长为120个汉字
* 优化 采集保存配置一点逻辑优化
* 文案优化
= 1.8.3 = 2019-04-15
* 优化 采集标题可能超过40个汉字长度 控制在40个字符之内
* 优化 下载图片可能会超时优化了连接时间
* 优化 一次发布很多篇, 极端情况可能图片超时问题
* 优化 发布文章个别情况可能出现报错, 捕获错误
* 优化 文章别名, 使用文章标题作为文章别名
* 新增 公告功能: 用于胖鼠紧急通知众鼠使用, 无风险。
* 新增 微信增加 作者变量{author} 公众号名字变量{name} 简书增加作者变量{author}
= 1.8.2 = 2019-04-14
* 修复了 一个不影响大局的sql错误
= 1.8.1 = 2019-04-14
* 修复 微信 简书 采集失败bug
= 1.8.0 = 2019-04-14
* 胖鼠采集全新架构
* window主机用户采集微信图片 鼠友服务器CA证书验证不通过问题
* window主机 路径 DIRECTORY_SEPARATOR 可能出现的bug
* 采集内核2.0。更快的采集速度。 (3.0规划已有。采集速度会超级超级快)
* 采集图片自动查找后缀算法优化
* 自动特色图片功能完成
* 图片加入媒体库功能
* 图片加入附件
* 发布时图片发布失败。补二次下载
= 1.7.5 = 2019-04-09
* 修复了几位鼠友用window服务器出现的图片路径乱码bug
= 1.7.4 = 2019-03-31
* 修复了简书图片bug
* 数据中心增加数据统计功能
= 1.7.3 = 2019-03-08
* 冒泡
= 1.7.2 = 2019-02-25
* 修复群里一个鼠友采集图片失败的bug.
* 升级群里鼠友采集的图片默认居中需求.
= 1.7.1 = 2019-02-15
* 胖鼠采集PHP v5.6 版本尝鲜版发布.
* 优化一些文案.
= 1.7.0 = 2019-01-25
* 定时发布 (给鼠友增加开关)
* 定时采集 (给鼠友增加开关)
* 图片可设置使用 相对/绝对 路径. 站群/单站点/CDN可能要的需求
* 微信采集自定义内容(鼠友要求可增加来源)
* 免责声明
= 1.6.3 = 2019-01-24
* 鼠友发现采集的微信视频无法播放BUG!
= 1.6.2 = 2019-01-22
* 微信 And 列表采集 图片 自动剔除多余属性 增加 Alt字段 值为title 更好的SEO!
= 1.6.1 = 2019-01-21
* 一个安全过滤误伤了鼠友. 已修复
* 版本号修正
= 1.6.0 = 2019-01-20
* Php版本验证提示
* 配置中心批量删除
* 数据中心可能出现的一个notice错误
* 数据发布,增加发布作者,文章状态.
* 数据中心作者字段优化
* 赞赏码
= 1.5.1 = 2019-01-15
* 帮助的a 标签跳转新开标签页
* 增加自动发布tag页面
* 新增加的文档的链接
* 分页采集增加默认select
* 修复自动爬去功能异常
* Css Js样式 兼容了其他插件
* 修复一个列表爬虫。由于目标站不统一。链接可能拼接错误bug
= 1.5.0 = 2019-01-13 11:16
* 优化配置中心一个 notice 错误
* 增加了数据批量删除
* 增加数据批量发布
* 文章增加发布分类
* 使用权限增加作者 编辑 管理员
= 1.4.3 = 2019-01-03 10:39
* ok 优化了详情爬虫, 增加了默认选项
* ok 增加了几个采集配置 寻仙新闻 御龙在天新闻 心理咨询师新闻 直播吧详情 虎扑详情
* ok 优化了前端错误提示
* 有个个别网站 gbk 个别乱码问题/未解决。utf-8很稳定
* 今天关闭了站群自动发布,自动发布什么时候再次开启?
= 1.4.2 = 2019-01-02
* 暂时去掉站群发布页面
* 去掉了一些默认配置规则,后续增加
* 采集url地址 代码优化
= 1.4.1 = 2019-01-01 11:05
* 增加了小提示功能.等你发现在哪里.
* 增加了简书采集
* 捕获简书新的图片src, 调整了代码
= 1.4.0 = 2018-12-30 03:09
* 跳几个小版本, 因为这次是一个架构稳定版本(稳)
* 新增自定义详情爬取
* 自动识别 img (src or data-src)
* 配置页面优化 注释优化 服务端优化
* 发布中心优化服务端 页面优化
* 爬虫中心 服务端优化 前端优化
* 前端ajax交互优化
* 数据库优化了表,增加了索引
* 优化掉了Log表
* ...
= 1.0.0 = 2018-12-20
* 胖鼠第一个版本上线了 不写了 具体的功能了 信息量有点大。大家自己安装感受一下具体功能吧。
== Upgrade Notice ==
PHP
1
https://gitee.com/sunjian286/fatratcollect.git
git@gitee.com:sunjian286/fatratcollect.git
sunjian286
fatratcollect
fatratcollect
master

搜索帮助