Hadoop: 关于mapreduce，udf等hadoop生态圈的内容;

此项目意在学习以下技术：
    1.mapreduce
    2.hive的函数
    3.hbase项目开发
    4.pig
    5.zokeeper
    6.hadoop生态圈技术

这部分内容会有很多对架构细节的理解以及项目中的使用技巧性的内容。

2014年12月19日 星期五 搜狐
	1.看书可以丰富理论基础，但是在应用上一定要跟上。要会利用hadoop源码包中的test文件，这些文件都是很好的案例
	2.周末仔细看看关于序列化，比对等方面的东西

MR过程：InputSplit->RecordReader->map->partition->sort->combine->sort->reduce
InputSplit获取一个map块的数据
RecordReader遍历每一行数据
map处理行数据，在内存中形成一个环，当环满时，刷新到磁盘形成spill，是排好序的
多个spill会合并，在合并中会有排序和combine过程，形成n个reduce数量的堆
每个reduce回去指定的堆中拉去数据
每个reduce在本地会排序，分组等操作

Joseph_Yong/Hadoop

简介

发行版

贡献者

近期动态