nutch_elasticsearch: nutch和elasticsearch，结合aws服务，将对知乎进行爬取，并提供搜索，分析等服务 - 木兰确实

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

last modify 19c1907

Nutch-2.2.1/src/java/org/apache/nutch

Hadoop集群的搭建（Hadoop2.6.3版本与1.2.1版本）

配置nutch和AWS_ES

配置nutch和mysql

Loading...

README

本项目主要是使用nutch对知乎进行分布式爬取，同时使用elasticsearch作为搜索引擎，实现了类似于百度搜索的功能。


1.在本项目中用到了nutch来做分布式爬虫的相关工作，搭建的环境为nutch2.2.1+hadoop1.2.1+mysql+elasticsearch1.5.2
2.使用selenium来解决模拟登录问题
3.将mysql搭建在aws的RDS之上
4.使用aws的elasticsearch+EBS来完成搜索引擎部分的功能搭建
5.搜索WEB工程部署在另一个亚马逊账号上，地址为http://115.28.102.25:8080/nutch_es-web/，可能需要翻墙
6.nutch和hadoop主要是运行在三台 t2.micro ec2
7.详细配置请见Wiki

nutch和elasticsearch，结合aws服务，将对知乎进行爬取，并提供搜索，分析等服务

Java

取消

暂无发行版

马建仓 AI 助手

尝试更多

代码解读

代码找茬

代码优化