规则之树

typecho配合后羿采集器,文章采集详细教程

这篇文章没有任何广告性质,因为我是真的没什么东西好写了。
(官方看见记得给钱【滑稽】)
最近同事为了业务需要氪金了这个采集器,我本着试验的心态,用它来进行文章采集,实际上手是真的相当友好,我表示非常给力。同时,在到了新工作场所之后,也终于可以憋出新的文章了。在这篇文章里我会详细的讲述后羿采集器的使用教程,以及整个采集流程的实现,其实对于typecho而言有些官方教程没有补充的注意要点,所以需要注意。
另外,采集器是收费的,87一个月,和火车头比起来其实也差不多,但是胜在真的很方便,依靠人工智能识别网站。最大的缺点是单个网站采集速度较慢,没有一些比较完善的识别比对功能。

教程开始:

第一步:采集数据

1.打开程序,登陆你的账号,找到截图所示的图片,点击新建“智能模式”。

2.填入需要采集的网址,需要注意的是,页面上需要有明确的,规律性的列表,每个列表对应的详情最好也是代码一样的,这样就可以让识别飞快搞定,不需要再自己做一些花样的设置

就比如这个网站,看起来就是很贴切的表明了文章列表,那么就可以进行下一步填写了

自定义一个网站名称,网址就直接填入这个文章列表所在的网址即可。

3.点击立即创建,采集器就会打开你指定的网址列表,开始进行分析,在这个过程,等待就好。当分析完成的时候,一堆列表会冒出来,这时,只需要留下自己需要的数据,其它的都可以删除

然后确认无误后,点击深入采集(因为目前仅仅是列表的数据,还没有到文章详情)

4.文章详情的页面分析完成后,依旧需要删除多余的字段,而且这个时候往往文章内容没有分析出来,这个时候也很简单,点击右下角的“添加字段”,然后右键这个新增的字段,选择“在页面中选择”,会出现一个箭头,直接根据提示选择文章内容所在的范围即可(这里一定要选择好为止

5.文章内容拿到之后,是得去适配typecho的markdowm语法的,其实讲究的地方也不对,那就是对数据进行处理,删除掉typecho无法解析的标签。

按照上图设置完取值属性后,再次右键选择“数据处理”,点击新建,根据自己的需求,清理掉多余的代码,html的标签等等,这里要细心一点,比如替换,删除,确认输出的内容不会再有什么问题

6.搞定完上述那些后,点击“开始采集”,根据需求设置提示(反正typecho一般是默认)

7.确认采集数据的正常,如果不对劲,就停止采集,右键任务,重新开始编辑测试。

第二步:typecho的插件安装和数据入库

1.安装官方提供的插件,点击进入,安装好之后设置自己的密码。

2.查看后羿采集器这边的数据(右键任务,点击查看数据),点击右下角的“导出数据”,在弹出的界面里面找到typecho,填写好自己在插件里看到的信息。

3.点击下一步,处理采集过来的字段和typecho数据库字段的对应关系,一般typecho顶多需要标题,分类,和内容,其它的看情况就好,注意别匹配错了(得清除数据重来)。

4.继续下一步,选择导出的方式,范围那些,点击导出。

5.最后,网站就出现了内容了,可以检查检查,不正确就删除重来,相对于其它需要手写规则,了解正则表达式的采集器而言,这个完全不需要任何技术要求。

以上就是采集的整个过程。

最后说几句

这个采集器方便是方便,不过费用比较高,而且在很多方面也存在局限性,如果是火车头那种,虽然难但是有极高的自由扩展度,而后羿采集器适合的就是没有任何编程基础的小白。这类采集器采集速度较慢,而且后台也可以很容易识别到,通过user-agent进行拦截,虽然官方也提供的功能(不过钱要更多了)

规则之树版权所有,转载请注明来源,标明作者及原文链接

当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »