规则之树

杰奇linux下远程采集,最新思路及方法

这几天重新处理了杰奇cms系统在linux下如何采集的问题,虽然1.8之前的版本用后台采集勉强还行,但是相对于关关采集器来说,还是很不方便。我先尝试在再ubuntu16下安装了wine的最新官方版,但是最后还是败在了donet20需要的32位系统环境,这样来说限制太大了,对于高内存的服务器完全不合适。
然后我继续研究了samba的采集,一开始似乎没问题,但是各种端口的开放和文件目录的共享,首先一点就配置过程很繁琐,对于不是很懂linux的人来说操作太艰难,很容易完全找不到原因就失败了,其次就是对数据库远程的开放,文件目录的直接共享显得不是很安全。而且samba利用的端口是445和139,感觉很容易被黑的样子。
看起来杰奇cms在linux下的采集,没有什么简单的办法了,而且火车头的发布模板又不会写也下载不到,真是异常心累,1.8以上的杰奇版本在windows的运行真心很慢。
但是我想起之前一次无意间的尝试,就是关关采集器的系统设置,数据库和网站的文件可以不对应,通俗来讲,就是只要是杰奇的数据库结构,杰奇的目录文件,就算不是相对应的,甚至都不是同一个服务器,关关采集器都可以采集起来,把数据入库,把txt等文件存入杰奇目录。通过这个原理,我似乎想到一个还算比较简单的方法了。
我的mysql版本为5.5,关关采集器版本为10.5,杰奇版本为2.3,其它的都可以试试,应该可以成功。

本文章仅供学习研究,请勿用于侵权

目前发现了新的更简单方法,可以看这里:杰奇linux远程采集,采集器网站分离

原理就是:

**在服务器的网站的数据库开启远程,并且通过关关采集器链接,但是网站的目录填本地的一个杰奇源码的目录,这样数据会全部顺利进入服务器的数据库,txt文件则留在本地,直接上传到对应的目录就好了。
现在ftp的工具和自动备份的工具很多,解决上传的问题不难,只是稍微比正常的采集多出了这样的步骤,但是至少这样不需要进行任何复杂的配置**

要准备的工具:

xshell
flashfxp(或者其它可以实现差异同步上传的工具)

操作步骤:

1.在服务器开启mysql的远程连接权限,因为mysql不同的版本,方法都不太一样,建议百度查资料,而xshell这个工具就是为了执行这个步骤。

2.对于1.7版本的杰奇,就随便官方下载个免费版,丢在本地,目录设置个英文路径。对于1.8及以上版本,都可以用1.8版本的杰奇,直接将解压出来的文件夹丢在本地就好了,然后在关关采集器本地网站目录设置刚才丢的源码路径。比如我用了一个杰奇1.8,解压在F盘的ycc文件夹里面,我就设置为F:ycc

3.设置关关采集器的数据库连接字符串为服务器的数据库信息,当然请保证远程登录权限已经开启,否则自然是连接失败的,比如我的就是如下,这个以关关采集器里面的写法为准。

Data Source=192.168.88.6;Database=xiaoshuo;User ID=root;Password=root;port=3306;charset=gbk

4.为了保证数据采集的过程不会出问题,请确保本地的源码里面,files文件夹为users用户的完全控制权限,也就是777权限。另外可以拷贝网站configsarticlesort.php到本地的相对路径,保证采集的时候分类可以正确同步。

5.然后就可以开始采集了,只要信息正确,规则正常就可以顺利入库,后台也会显示该有的全部东西,只是所有的章节不能阅读,小说的封面也是丢失状态。因为这些文件都在本地,还需要执行上传的步骤,其实很简单,就是通过flashfxp链接服务器直接上传就好了。

6.上传不需要很频繁,因为上传文件通常都会比采集快的,可以直接设置一个计划任务的队列,然后每天定时上传就好了,并且对覆盖规则进行设置,比如做如下的设置。

7.我的设置就是,每天0:00定时上传,第二天早上起来,再加入队列,再定时到0:00,就这样反复就ok。反正频率就是根据情况控制,如果上传追不上采集,那就先把采集停止一段时间就好,反正都是自己电脑的控制。具体的操作教程百度很多,也不难,相对于配置samba和wine。没啥技术或者懒得配置的,也就这个方法比较快了。【如果有更好的文件上传同步工具,都可以试试,我暂时没找到好用的】

规则之树版权所有,已加入百度熊掌号原创保护,转载注明来源,有问题留下评论,我都会解答的。

当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »