加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
此项目意在学习以下技术:
    1.mapreduce
    2.hive的函数
    3.hbase项目开发
    4.pig
    5.zokeeper
    6.hadoop生态圈技术

这部分内容会有很多对架构细节的理解以及项目中的使用技巧性的内容。

2014年12月19日 星期五 搜狐
	1.看书可以丰富理论基础,但是在应用上一定要跟上。要会利用hadoop源码包中的test文件,这些文件都是很好的案例
	2.周末仔细看看关于序列化,比对等方面的东西

MR过程:InputSplit->RecordReader->map->partition->sort->combine->sort->reduce
InputSplit获取一个map块的数据
RecordReader遍历每一行数据
map处理行数据,在内存中形成一个环,当环满时,刷新到磁盘形成spill,是排好序的
多个spill会合并,在合并中会有排序和combine过程,形成n个reduce数量的堆
每个reduce回去指定的堆中拉去数据
每个reduce在本地会排序,分组等操作

空文件

简介

关于mapreduce,udf等hadoop生态圈的内容; 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化