最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

java opendht_GitHub - DHT-openyouseed-spider-saver-public: DHT磁力爬虫入库程序,将爬取到的数据保存至Mongo、ES或者Mysql...

业界 admin 0浏览 0评论

Youseed磁力爬虫入库程序

此程序使用Java编写,负责将rabbitMQ消息队列中的数据保存至数据库或者搜索引擎。

注意:此程序是上图右侧方框“保存磁力数据”的部分。

此程序仅用作技术学习和研究

功能

读取消息队列,将爬虫抓取到的数据保存至:

Youseed Mongodb数据库;

Youseed Elasticsearch搜索引擎;

“纸上烤鱼磁力搜索引擎”数据库

注意:此爬虫程序主要负责保存数据,需要配合“dht_spider.py”,或者“dht_spider_zsky.py”爬虫程序使用。

程序特点

兼容性:支持Mongodb、Mysql和Elasticsearch搜索引擎;

实时和定时:支持Elasticsearch中新资源的实时索引,支持旧资源的定时更新;

支持不良资源鉴定:依据spam.txt中的关键字鉴别不良资源,并予以标记

硬件要求

内存:约200M

软件要求

需要安装以下软件:

jdk运行环境

安装(以centos7为例)

安装JDK

yum install java-1.8.0-openjdk.x86_64

下载程序

将编译好的jar包spider-saver-public-1.0.0.jar和配置文件youseed-spider-saver.yml下载至本地。

修改配置

编辑文件youseed-spider-saver.yml,修改连接配置:

#MongoDB连接配置

mongo:

url: 127.0.0.1

port: 27017

db: seed

admindb:

user:

psw:

#ES搜索引擎连接配置

es:

url: 127.0.0.1

port: 9300

#mysql连接配置(for 纸上烤鱼)

mysql:

url: jdbc:mysql://localhost:3306/zsky?useUnicode=true&characterEncoding=utf-8&serverTimezone=GMT%2B8

user: root

psw:

运行

控制台运行

使用如下命令在控制台运行入库程序(注意--config的值必须是绝对路径):

java -jar -Xms50m -Xmx128m /opt/spider/app/youseed-spider-saver-public-1.0.0.jar --config=/opt/spider/app/youseed-spider-saver.yml

程序会输出可选命令:

m: 写入/更新Mongodb

m1: |-------写入新资源到Mongo

m2: |-------更新Mongo

m3: |-------写入统计到Mongo

es: 写入/更新ES(根据esUpdateTime设置,自动选择实时或定时更新)

es1: |-------写入新资源到ES

es2: |-------更新ES(常驻内存并实时更新)

es3: |-------更新ES(更新完毕当前批次后关闭)

zsky: 写入/更新纸上烤鱼(zsky)

zsky1: |-------写入新资源到Mysql

zsky2: |-------更新Mysql

zsky3: |-------写入统计到Mysql

请选择一项操作(输入编号后回车):

接下来输入zsky保存到“纸上烤鱼”数据库

后台运行

输入如下命令,后台启动“纸上烤鱼”入库

nohup java -jar -Xms50m -Xmx128m /opt/spider/app/youseed-spider-saver-public-1.0.0.jar --config=/opt/spider/app/youseed-spider-saver.yml zsky > /opt/spider/logs/spider-saver-mongo.log 2>&1 &

Youseed磁力爬虫入库程序

此程序使用Java编写,负责将rabbitMQ消息队列中的数据保存至数据库或者搜索引擎。

注意:此程序是上图右侧方框“保存磁力数据”的部分。

此程序仅用作技术学习和研究

功能

读取消息队列,将爬虫抓取到的数据保存至:

Youseed Mongodb数据库;

Youseed Elasticsearch搜索引擎;

“纸上烤鱼磁力搜索引擎”数据库

注意:此爬虫程序主要负责保存数据,需要配合“dht_spider.py”,或者“dht_spider_zsky.py”爬虫程序使用。

程序特点

兼容性:支持Mongodb、Mysql和Elasticsearch搜索引擎;

实时和定时:支持Elasticsearch中新资源的实时索引,支持旧资源的定时更新;

支持不良资源鉴定:依据spam.txt中的关键字鉴别不良资源,并予以标记

硬件要求

内存:约200M

软件要求

需要安装以下软件:

jdk运行环境

安装(以centos7为例)

安装JDK

yum install java-1.8.0-openjdk.x86_64

下载程序

将编译好的jar包spider-saver-public-1.0.0.jar和配置文件youseed-spider-saver.yml下载至本地。

修改配置

编辑文件youseed-spider-saver.yml,修改连接配置:

#MongoDB连接配置

mongo:

url: 127.0.0.1

port: 27017

db: seed

admindb:

user:

psw:

#ES搜索引擎连接配置

es:

url: 127.0.0.1

port: 9300

#mysql连接配置(for 纸上烤鱼)

mysql:

url: jdbc:mysql://localhost:3306/zsky?useUnicode=true&characterEncoding=utf-8&serverTimezone=GMT%2B8

user: root

psw:

运行

控制台运行

使用如下命令在控制台运行入库程序(注意--config的值必须是绝对路径):

java -jar -Xms50m -Xmx128m /opt/spider/app/youseed-spider-saver-public-1.0.0.jar --config=/opt/spider/app/youseed-spider-saver.yml

程序会输出可选命令:

m: 写入/更新Mongodb

m1: |-------写入新资源到Mongo

m2: |-------更新Mongo

m3: |-------写入统计到Mongo

es: 写入/更新ES(根据esUpdateTime设置,自动选择实时或定时更新)

es1: |-------写入新资源到ES

es2: |-------更新ES(常驻内存并实时更新)

es3: |-------更新ES(更新完毕当前批次后关闭)

zsky: 写入/更新纸上烤鱼(zsky)

zsky1: |-------写入新资源到Mysql

zsky2: |-------更新Mysql

zsky3: |-------写入统计到Mysql

请选择一项操作(输入编号后回车):

接下来输入zsky保存到“纸上烤鱼”数据库

后台运行

输入如下命令,后台启动“纸上烤鱼”入库

nohup java -jar -Xms50m -Xmx128m /opt/spider/app/youseed-spider-saver-public-1.0.0.jar --config=/opt/spider/app/youseed-spider-saver.yml zsky > /opt/spider/logs/spider-saver-mongo.log 2>&1 &

发布评论

评论列表 (0)

  1. 暂无评论