typecho配合后羿采集器，文章采集详细教程

这篇文章没有任何广告性质，因为我是真的没什么东西好写了。
（官方看见记得给钱【滑稽】）
最近同事为了业务需要氪金了这个采集器，我本着试验的心态，用它来进行文章采集，实际上手是真的相当友好，我表示非常给力。同时，在到了新工作场所之后，也终于可以憋出新的文章了。在这篇文章里我会详细的讲述后羿采集器的使用教程，以及整个采集流程的实现，其实对于typecho而言有些官方教程没有补充的注意要点，所以需要注意。
另外，采集器是收费的，87一个月，和火车头比起来其实也差不多，但是胜在真的很方便，依靠人工智能识别网站。最大的缺点是单个网站采集速度较慢，没有一些比较完善的识别比对功能。

教程开始：

第一步：采集数据

1.打开程序，登陆你的账号，找到截图所示的图片，点击新建“智能模式”。

2.填入需要采集的网址，需要注意的是，页面上需要有明确的，规律性的列表，每个列表对应的详情最好也是代码一样的，这样就可以让识别飞快搞定，不需要再自己做一些花样的设置。

就比如这个网站，看起来就是很贴切的表明了文章列表，那么就可以进行下一步填写了

自定义一个网站名称，网址就直接填入这个文章列表所在的网址即可。

3.点击立即创建，采集器就会打开你指定的网址列表，开始进行分析，在这个过程，等待就好。当分析完成的时候，一堆列表会冒出来，这时，只需要留下自己需要的数据，其它的都可以删除。

然后确认无误后，点击深入采集（因为目前仅仅是列表的数据，还没有到文章详情）

4.文章详情的页面分析完成后，依旧需要删除多余的字段，而且这个时候往往文章内容没有分析出来，这个时候也很简单，点击右下角的“添加字段”，然后右键这个新增的字段，选择“在页面中选择”，会出现一个箭头，直接根据提示选择文章内容所在的范围即可（这里一定要选择好为止）

5.文章内容拿到之后，是得去适配typecho的markdowm语法的，其实讲究的地方也不对，那就是对数据进行处理，删除掉typecho无法解析的标签。

按照上图设置完取值属性后，再次右键选择“数据处理”，点击新建，根据自己的需求，清理掉多余的代码，html的标签等等，这里要细心一点，比如替换，删除，确认输出的内容不会再有什么问题。

6.搞定完上述那些后，点击“开始采集”，根据需求设置提示（反正typecho一般是默认）

7.确认采集数据的正常，如果不对劲，就停止采集，右键任务，重新开始编辑测试。

第二步：typecho的插件安装和数据入库

1.安装官方提供的插件，点击进入，安装好之后设置自己的密码。

2.查看后羿采集器这边的数据（右键任务，点击查看数据），点击右下角的“导出数据”，在弹出的界面里面找到typecho，填写好自己在插件里看到的信息。

3.点击下一步，处理采集过来的字段和typecho数据库字段的对应关系，一般typecho顶多需要标题，分类，和内容，其它的看情况就好，注意别匹配错了(得清除数据重来)。

4.继续下一步，选择导出的方式，范围那些，点击导出。

5.最后，网站就出现了内容了，可以检查检查，不正确就删除重来，相对于其它需要手写规则，了解正则表达式的采集器而言，这个完全不需要任何技术要求。

以上就是采集的整个过程。

最后说几句

这个采集器方便是方便，不过费用比较高，而且在很多方面也存在局限性，如果是火车头那种，虽然难但是有极高的自由扩展度，而后羿采集器适合的就是没有任何编程基础的小白。这类采集器采集速度较慢，而且后台也可以很容易识别到，通过user-agent进行拦截，虽然官方也提供的功能（不过钱要更多了）

当前页面是本站的「Google AMP」版。查看和发表评论请点击：完整版 »