代码拉取完成,页面将自动刷新
# GSpider
**GSpider**是一款java垂直爬虫,使用非常简单。以下是介绍:
- **爬取网页** :采用*Jsoup*爬取网页;
- **设置任务** :新建java类继承*iTask*接口即可;
- **配置选项** :可配置线程数;
----------
[TOC]
## 使用方法
### 简单参考
接下来以爬取*知乎* 为例,没有配置爬取任务,默认获取网页的*title*。
在init方法后,在Console中可以输入start命令开始爬取。爬取过程中可以输入look命令查看当前线程的一些情况。 同样,也可以输入add命令添加爬取源。最后如果想停止爬虫则可以输入stop命令停止爬取。
#### 代码
``` java
GSpider nst = new GSpider();
Pattern p = Pattern.compile("http://www.zhihu.com/question/[0-9]+");
nst.setRegex(p);
nst.addWebUrl("http://www.zhihu.com/explore");
nst.init();
nst.check();
nst.initControl();
```
### 复杂参考
接下来继续以以爬取*知乎* 为例。
新建一个Zhihu类,继承iTask接口。在dispose方法中对Document对象html进行一些操作。
在main方法中开启爬虫。
#### 代码
``` java
package GSpider.examples;
import java.util.regex.Pattern;
import org.apache.log4j.Logger;
import org.jsoup.nodes.Document;
import GSpider.GSpider;
import GSpider.core.iTask;
public class Zhihu implements iFindDestination{
public Logger log = Logger.getLogger(this.getClass());
public Zhihu() {
log.warn("hello zhihu");
}
@Override
public void dispose(Document html,String webUrl) {
System.out.println(html.title());
}
public static void main(String[] args) {
new GSpider().setTaskExecutorNum(5).setRegex(Pattern.compile("http://www.zhihu.com/question/[0-9]+")).addWebUrl("http://www.zhihu.com/explore").init().check().initControl();
}
}
```
## 关于
**GSpdier** 参考了网上一些大牛的思想,本人是一名学生,感谢那些网上的布道者,这是一个最初的版本,以后会跟进。
## 反馈与建议
- 微博:[@gavin要加油](http://weibo.com/wildfireg13)
- 邮箱:<zhang159916@gmail.com>
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。