必看！WordPress自动采集发布插件Crawling1.0 教程来了

1年前发布

0389

WordPress自动采集发布插件：Crawling1.0【附带教程】

# 超有趣！自制 WordPress 采集插件教程来袭
## 写在前面
一直以来，写代码我常用 C++ 和 Python，PHP 只是多年前做博客时玩过几天。最近换工作等离职，实在无聊，就做了个插件玩玩。要是用着觉得不好，欢迎提建议，我一定认真采纳，努力把插件优化得更好。

开发时，我尽量让配置简单易懂，但为了保证插件灵活性，还是得了解点正则和 xpath 规则。懂这些的话，这教程超简单，一看就会；要是没接触过也别怕，看例子照抄就行。毕竟是首个版本，有些地方可能写得不够详细，欢迎大家指出。

## 下载和安装
1. 打开 [https://crawling.cn](https://crawling.cn) 下载最新版，得到 crawling_v*.tar.gz。
2. 解压压缩包，上传到 WordPress 插件目录，激活插件。

## 任务管理
一个任务就像一个爬虫，能配置多个任务，每个任务都能单独设参数。比如我设置了三个任务：
- 任务一：爬取“且听风吟”（我超爱的电影网站）全部内容，抓取间隔设为 -1，只采集一次。
- 任务二：爬取“且听风吟”前三页，已采集的不重复，只抓更新内容，每隔 24 小时采集一次。
- 任务三：爬取“阳光电影网”（电影天堂新网站）首页全部更新电影，每 24 小时采集一次。

每个任务设置如下：
1. **任务名称**：任务别名，方便记忆。
2. **入口网址**：爬虫起始地址，一般是首页或列表页。
3. **爬取间隔时间**：任务运行间隔。
4. **列表页面 url 正则/内容页面 url 正则**：爬虫进入入口网址后，需区分内容页面和翻页，所以要设这两个正则表达式。可在《正则表达式在线测试》页面测试。
5. **文章标题（xpath）/文章内容（xpath）**：进入内容页面后，用 xpath 告诉爬虫抓取内容。配置后可在《XPath 在线测试》页面测试。
6. **内容起始字符串/内容结束字符串**：过滤广告等无用内容，可通过设置字符串实现。
7. **文章图片**：可选择保存到本地或不处理。
8. **文章分类**：可选择多个分类。
9. **文章标签**：单独设置，多个标签用 | 分隔。
10. **发布方式**：可选择“立即发布”或“放入草稿箱”。

## 高级选项
1. **爬取线程数**：根据主机配置设置，独立主机可多线程，虚拟主机别设太大。
2. **抓取延时**：防止采集过快，避免被封站。

## 最后
配置好就等插件执行，想终止可在“任务管理”页面顶部切换运行状态。

本站文章原创，未经同意禁止复制盗用。若侵犯权益，可联系处理。

#php #WordPress #采集教程

解压密码: 7 天内有效

文章版权归作者所有，未经允许请勿转载。

THE END

源码网站插件

喜欢就支持一下吧

下载说明

1. 资源价格和服务说明： 我们的资源都以非常低的价格提供，无论您是永久会员还是单独购买，我们均不提供相关技术服务。

2. 失效资源处理： 如果您发现资源下载地址或链接失效，请联系我们的邮箱：mozhuf@163.com，我们将为您重新提供下载链接。

3. 用途和版权： 我们提供的所有资源仅供学习和研究使用，严禁将其用于商业用途。请尊重原作者的版权，如有侵权，请联系我们删除。

4. 资源完整性和免责声明： 我们承诺我们提供的可下载资源，不会进行负面修改（除非是修复错误或优化功能等正面改进）。然而，我们无法保证资源的准确性、安全性和完整性。用户下载后请自行斟酌使用，我们的目的是为了促进学习和交流。请注意，我们不拥有这些资源的版权，版权归合法拥有者所有，除非是本站原创或特约原创作者的作品。

5. 退款政策： 由于资源的可复制性，一旦购买，均不接受退款请求。同样，会员开通后也不提供退款。

6. 同意条款： 在购买前，请仔细阅读以上内容。购买即表示您同意上述条款。感谢您的合作和理解。