代码拉取完成,页面将自动刷新
同步操作将从 神箭手云爬虫/crawler_samples 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
//使用javascript编写的爬虫源码,用于爬取豌豆荚游戏排行榜(http://www.wandoujia.com/top/game)上的游戏信息。
//代码粘贴到神箭手云爬虫平台上就可以直接跑了,不需要安装编译环境。要爬取其他网站,//可以更改源码即可。
//代码执行步骤:
//1、打开浏览器,输入并打开神箭手官网:http://www.shenjianshou.cn。
//2、登录进入后台。
//3、点击后台的“爬虫模板编写”->“新建爬虫模板”。
//4、将代码拷贝到模板脚本里,点击“保存”。
//5、点击“我的任务”->“创建爬虫任务”。
//6、选择刚编写的模板后保存,跳转到任务页面后点击启动,等一段时间后爬取的结果就会显示在任务页面。
var configs = {
domains: ["apps.wandoujia.com"],
scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"],
contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"],
helperUrlRegexes: ["http://apps\\.wandoujia\\.com/api/v1/apps\\?type=weeklytopgame&max=12&start=\\d+"],//可留空
fields: [
{
// 第一个抽取项
name: "title",
selector: "//span[contains(@class,'title')]",
required: true //是否不能为空
},
{
// 第二个抽取项
name: "download",
selector: "//i[@itemprop='interactionCount']",
required: false //是否不能为空
},
{
//第三个抽取项
name:"thumb",
selector:"//div[contains(@class,'app-icon')]/img[@itemprop='image']/@src",
}
]
};
configs.onProcessHelperUrl = function(url, content, site) {
var jarr = JSON.parse(content);
//发现内容页
for (var i = 0, n = jarr.length; i < n; i++) {
var new_url = "http://www.wandoujia.com/apps/"+jarr[i].packageName;
site.addUrl(new_url);
}
var currentStart = parseInt(url.substring(url.indexOf("&start=") + 7));
var start = currentStart+12;
if(start < 100){
site.addUrl("http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start="+start);
}
return true;
}
var crawler = new Crawler(configs);
crawler.start();
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。