`

hadoop作业的优化常用手段

阅读更多
在mapreduce应用机制全部完成后,常面临一个常见问题“作业运行太慢”,此时我们需要通过一下几个方面进行调优,一边提升作业运行速度

(1)通过jobtracker的web界面可以查看到本次作业使用的mapper数量,查看每个mapper的平均运行时间,如果mapper运行时间过短(如每个mapper运行10多秒),此时苗明mapper没有得到良好的利用,我们需要减少mapper的数量,使每个maper运行更长的时间。mapper的运行时间取决于mapper输入数据的格式,因此我们可以调整mapper的输入格式。

(2)通过Jobtracker的web界面查看本次作业的reducer数量,集群中的reducer数量应该略小于reducer的任务槽数,使reducer能够在同一个周期完成任务,避免因动态管理产生一个reducer处理俩个任务的情况。

(3)combiner使用是否合理,充分利用combiner可以减少shuffle传输的数据量,网络传输减少了,作业运行速度自然就快了,但combiner要谨慎使用,视情况而定,取平均值得作业尽量不要使用combiner了,会产生较大偏差。

(4)与3类似,还有一种减少网络传输的方式,对map的输出进行压缩,压缩后的数据量减小,同样减轻了网络传输的压力

(5)为了作业排序更合理,可以自定义序列,自定义comparator,但需要注意的是必须确保已实现RawComparator

(6)最后可以调整shuffle,可以调整一些内存管理的参数,以弥补性能的不足

写的比较粗糙,有时间将其中一些细节会补齐。
2
1
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics