仓库 - 764903157 (qq764903157)

2

1

0

764903157/trino

Java

https://github.com/trinodb/trino.git

最近更新: 2年多前

1

0

0

764903157/distribute_crawler

使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现，它包含一个针对http://www.woaidu.org/ 网站的spider，将其网站的书名，作者，书籍封面图片，书籍概要，原始网址链接，书籍下载信息和书籍爬取到本地：分布式使用redis实现，redis中存储了工程的request，stats信息，能够对各个机器上的爬虫实现集中管理，这样可以解决爬虫的性能瓶颈，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善。底层存储实现了两种方式：将书名，作者，书籍封面图片文件系统路径，书籍概要，原始网址链接，书籍下载信息，书籍文件系统路径保存到mongodb 中，此时mongodb使用单个服务器,对图片采用图片的url的hash值作为文件名进行存储，同时可以定制生成各种大小尺寸的缩略图，对文件动态获得

最近更新: 3年多前

1

0

1

764903157/SinaSpider

Sina_Spider1: 《新浪微博爬虫分享（一天可抓取 1300 万条数据）》 Sina_Spider2: 《新浪微博分布式爬虫分享》 Sina_Spider3: 《新浪微博爬虫分享（2016年12月01日更新）》 Sina_Spider1为单机版本。 Sina_Spider2在Sina_Spider1的基础上基于scrapy_redis模块实现分布式。 Sina_Spider3增加了Cookie池的维护，优化了种子队列和去重队列。

最近更新: 3年多前

1

1

0

764903157/bilibili-user

Bilibili用户爬虫知乎专栏地址：https://zhuanlan.zhihu.com/p/24434456 本文所使用的数据可视化为 infogr.am 该爬虫仅供学习使用

最近更新: 3年多前

1

0

0

764903157/zhihu_spider

此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo，下载这些数据感觉也没什么用，就当为大家学习scrapy提供一个例子吧。

最近更新: 3年多前

1

0

0

764903157/DouBanSpider

最近更新: 3年多前

1

1

0

764903157/WechatSogou

基于搜狗微信搜索的微信公众号爬虫接口

最近更新: 3年多前

2 1 0 764903157/trino Java

1 0 0 764903157/distribute_crawler

1 0 1 764903157/SinaSpider

1 1 0 764903157/bilibili-user

1 0 0 764903157/zhihu_spider

1 0 0 764903157/DouBanSpider

1 1 0 764903157/WechatSogou

2

1

0

764903157/trino

Java

1

0

0

764903157/distribute_crawler

1

0

1

764903157/SinaSpider

1

1

0

764903157/bilibili-user

1

0

0

764903157/zhihu_spider

1

0

0

764903157/DouBanSpider

1

1

0

764903157/WechatSogou