加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
本项目主要是使用nutch对知乎进行分布式爬取,同时使用elasticsearch作为搜索引擎,实现了类似于百度搜索的功能。


1.在本项目中用到了nutch来做分布式爬虫的相关工作,搭建的环境为nutch2.2.1+hadoop1.2.1+mysql+elasticsearch1.5.2
2.使用selenium来解决模拟登录问题
3.将mysql搭建在aws的RDS之上
4.使用aws的elasticsearch+EBS来完成搜索引擎部分的功能搭建
5.搜索WEB工程部署在另一个亚马逊账号上,地址为http://115.28.102.25:8080/nutch_es-web/,可能需要翻墙
6.nutch和hadoop主要是运行在三台 t2.micro ec2
7.详细配置请见Wiki

空文件

简介

nutch和elasticsearch,结合aws服务,将对知乎进行爬取,并提供搜索,分析等服务 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化