杰奇linux下远程采集,最新思路及方法

这几天重新处理了杰奇cms系统在linux下如何采集的问题,虽然1.8之前的版本用后台采集勉强还行,但是相对于关关采集器来说,还是很不方便。我先尝试在再ubuntu16下安装了wine的最新官方版,但是最后还是败在了donet20需要的32位系统环境,这样来说限制太大了,对于高内存的服务器完全不合适。
然后我继续研究了samba的采集,一开始似乎没问题,但是各种端口的开放和文件目录的共享,首先一点就配置过程很繁琐,对于不是很懂linux的人来说操作太艰难,很容易完全找不到原因就失败了,其次就是对数据库远程的开放,文件目录的直接共享显得不是很安全。而且samba利用的端口是445和139,感觉很容易被黑的样子。
看起来杰奇cms在linux下的采集,没有什么简单的办法了,而且火车头的发布模板又不会写也下载不到,真是异常心累,1.8以上的杰奇版本在windows的运行真心很慢。
但是我想起之前一次无意间的尝试,就是关关采集器的系统设置,数据库和网站的文件可以不对应,通俗来讲,就是只要是杰奇的数据库结构,杰奇的目录文件,就算不是相对应的,甚至都不是同一个服务器,关关采集器都可以采集起来,把数据入库,把txt等文件存入杰奇目录。通过这个原理,我似乎想到一个还算比较简单的方法了。
我的mysql版本为5.5,关关采集器版本为10.5,杰奇版本为2.3,其它的都可以试试,应该可以成功。

本文章仅供学习研究,请勿用于侵权

目前发现了新的更简单方法,可以看这里:杰奇linux远程采集,采集器网站分离

原理就是:

**在服务器的网站的数据库开启远程,并且通过关关采集器链接,但是网站的目录填本地的一个杰奇源码的目录,这样数据会全部顺利进入服务器的数据库,txt文件则留在本地,直接上传到对应的目录就好了。
现在ftp的工具和自动备份的工具很多,解决上传的问题不难,只是稍微比正常的采集多出了这样的步骤,但是至少这样不需要进行任何复杂的配置**

要准备的工具:

xshell
flashfxp(或者其它可以实现差异同步上传的工具)

操作步骤:

1.在服务器开启mysql的远程连接权限,因为mysql不同的版本,方法都不太一样,建议百度查资料,而xshell这个工具就是为了执行这个步骤。

2.对于1.7版本的杰奇,就随便官方下载个免费版,丢在本地,目录设置个英文路径。对于1.8及以上版本,都可以用1.8版本的杰奇,直接将解压出来的文件夹丢在本地就好了,然后在关关采集器本地网站目录设置刚才丢的源码路径。比如我用了一个杰奇1.8,解压在F盘的ycc文件夹里面,我就设置为F:ycc
1.png

3.设置关关采集器的数据库连接字符串为服务器的数据库信息,当然请保证远程登录权限已经开启,否则自然是连接失败的,比如我的就是如下,这个以关关采集器里面的写法为准。

Data Source=192.168.88.6;Database=xiaoshuo;User ID=root;Password=root;port=3306;charset=gbk

4.为了保证数据采集的过程不会出问题,请确保本地的源码里面,files文件夹为users用户的完全控制权限,也就是777权限。另外可以拷贝网站configsarticlesort.php到本地的相对路径,保证采集的时候分类可以正确同步。
2.png

5.然后就可以开始采集了,只要信息正确,规则正常就可以顺利入库,后台也会显示该有的全部东西,只是所有的章节不能阅读,小说的封面也是丢失状态。因为这些文件都在本地,还需要执行上传的步骤,其实很简单,就是通过flashfxp链接服务器直接上传就好了。
3.png

6.上传不需要很频繁,因为上传文件通常都会比采集快的,可以直接设置一个计划任务的队列,然后每天定时上传就好了,并且对覆盖规则进行设置,比如做如下的设置。
4.png
5.png

7.我的设置就是,每天0:00定时上传,第二天早上起来,再加入队列,再定时到0:00,就这样反复就ok。反正频率就是根据情况控制,如果上传追不上采集,那就先把采集停止一段时间就好,反正都是自己电脑的控制。具体的操作教程百度很多,也不难,相对于配置samba和wine。没啥技术或者懒得配置的,也就这个方法比较快了。【如果有更好的文件上传同步工具,都可以试试,我暂时没找到好用的】
6.jpg

规则之树版权所有,已加入百度熊掌号原创保护,转载注明来源,有问题留下评论,我都会解答的。

您的大名:
万水千山总是情,给个打赏行不行。 打赏
原创文章,作者:不暇,如若转载,请注明出处:https://www.ruletree.club/archives/599/
Ubuntu系统实现windows远程登录
« 上一篇 03-19
杰奇原创文学系统2.3初始版,分享及基本教程
下一篇 » 03-23

发表评论

已有 16 条评论

  1. 12345Lv.1 说道:

    看看看

  2. liulshaoVLv.1 说道:

    楼主是不是可以直接使用宝塔的 相关目录挂载功能。。直接挂载到相关的目录 比如在本地创建一个ftp的权限
    在linux服务器宝塔的系统有挂载 相关目录 ,,,直接将files目录同步即可吧。。这样 下载到本地的内容其实都在 域名访问目录下

    1. 不暇VLv.6 说道:

      理论上是可以,得尝试下

  3. zLv.1 说道:

    个人使用的方法是samba指定IP可以访问,然后开四台KVM机器,DD成win,然后同时远程采,四条规则划分区给四个机器用,总速度大概是1000-1500本一天的样子

    不过最近发现日志大量出现121报错,大意就是判定章节为空,跳过了这个章节,导致一些书的有些章节没采集到

    最开始以为是多端采集的问题,但是试了一台机器单独采集,还是会有这个错误,目前一直无头绪

    1. 不暇VLv.6 说道:

      你看看是不是源站做了防采集,我之前弄一个站点也出现类似的情况,就是在一段时间范围类请求次数过多,源站就直接拦截了。

      1. zLv.1 说道:

        好像不是防采集,因为出现的时间不固定,所有规则都会出现,但是不会让采集中断

        不知道跟采集服务器都在美西有没有关系

        如果有可以设定采到空章节,停止2秒,循环再踩才这样的设置就好了

        1. 不暇VLv.6 说道:

          那我就不知道了

  4. 骚年Lv.1 说道:

    我也想linux 弄个关关远程发布..... 不会..

    1. 不暇VLv.6 说道:

      可以先自己电脑搭建虚拟机折腾

  5. nylLv.1 说道:

    linux 文件数限制怎么解决?

    1. 不暇VLv.6 说道:

      网上给出的教程很多啊,只要会修改配置,就行了。

      1. 先昂Lv.1 说道:

        采集之后上传了不能阅读,是不是我哪里弄错了,博主的能行吗

        1. 不暇VLv.6 说道:

          这是完全可行的,已经验证了很多次,出现这个情况你要检查程序的配置,文件夹权限等

  6. mindLv.1 说道:

    个人认为最完美的是Linux安装kvm 虚拟一个win 然后samba映射一下 完美解决问题

    1. 不暇VLv.6 说道:

      然而这些步骤,很多人都不会

      1. 某天Lv.1 说道:

        博主,有空出这样教程,相信很多人都需要

作者信息

热门文章

标签TAG

热评文章