其实我今天是推荐一下易读小说系统,这是一个java编写的web程序,功能模块和文件目录结构基本参照杰奇。值得在意的是官方有一个配套的采集器脚本,也是java编写,也正因为如此,这个脚本在linux下也可以正常运行。我在本地以jieqi1.8作为程序,并且进行安装搭建,最后配置了jdk1.6,随后采集器基本正常采集。不过也出现了封面图片采集了但不显示,以及目录结构文件没有自动生成的问题,但这是我第一次使用可能什么地方没有配置正确。
这套可以在linux下运行的采集器脚本,叫做易大师采集器,兼容关关采集器规则,且windows和linux下都可以运行,运行的条件就是java环境,采集的速度还比较快。但是官方没有详细的使用教程,一开始接触真的会懵逼好半天,今天下午尝试安装运行了,那么就将教程整理一下。
易读小说系统官网为:www.51yd.org
我测试的系统为:CentOS6.5
详细教程:
1.首先需要准备工具,jdk1.6和采集器脚本,我已经整理好了,脚本里面我还丢了一个采集规则
下载地址:点击进入
密码:nusj
2.安装jdk1.6(官方是这个版本)
在linux服务器进入jdk-6u45-linux-x64-rpm.bin这个文件所在目录后,运行以下命令:
chmod +x jdk-6u45-linux-x64-rpm.bin
./jdk-6u45-linux-x64-rpm.bin
全部执行完成后,检测是否安装成功,运行如下命令:
java -version
正确的提示为:
java version "1.6.0_45"
Java(TM) SE Runtime Environment (build 1.6.0_45-b06)
Java HotSpot(TM) 64-Bit Server VM (build 20.45-b01, mixed mode)
3.修改采集器配置文件,大概注解我会说明
category.ini 分类对应文件
collect.ini 采集生成设置文件
jdbc.properties 数据库连接文件
run.ini 采集规则运行文件
site.ini 网站全局信息配置文库
其中采集规则是放在rules这个目录里面
4.最后直接在采集器的目录,运行:
sh start.sh
这个时候,只要网站是正常安装的,信息没有错误之后,就开始正常采集了,不过值得注意的是,在全命令指令的linux系统,在安装运行之前,最好安装screen,并且新建窗口,否则可能你关闭连接,采集进程就停止了,具体指令就以下两条:
yum install screen
screen -S cj
当然有些系统自带这个软件。
最后,这是我采集时候的截图:
规则之树版权所有,已加入百度原创保护,转载注明来源