hadoop作业的优化常用手段 -

微笑丶

浏览: 32026 次
性别:
来自: 西安

最近访客更多访客>>

wc589521

yonghong

hjjhjj201

crane.ding

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop作业的优化常用手段

博客分类：

HaDoop学习笔记
自学记录

mapreduce作业调优手段

在mapreduce应用机制全部完成后，常面临一个常见问题“作业运行太慢”，此时我们需要通过一下几个方面进行调优，一边提升作业运行速度

（1）通过jobtracker的web界面可以查看到本次作业使用的mapper数量，查看每个mapper的平均运行时间，如果mapper运行时间过短（如每个mapper运行10多秒），此时苗明mapper没有得到良好的利用，我们需要减少mapper的数量，使每个maper运行更长的时间。mapper的运行时间取决于mapper输入数据的格式，因此我们可以调整mapper的输入格式。

（2）通过Jobtracker的web界面查看本次作业的reducer数量，集群中的reducer数量应该略小于reducer的任务槽数，使reducer能够在同一个周期完成任务，避免因动态管理产生一个reducer处理俩个任务的情况。

（3）combiner使用是否合理，充分利用combiner可以减少shuffle传输的数据量，网络传输减少了，作业运行速度自然就快了，但combiner要谨慎使用，视情况而定，取平均值得作业尽量不要使用combiner了，会产生较大偏差。

（4）与3类似，还有一种减少网络传输的方式，对map的输出进行压缩，压缩后的数据量减小，同样减轻了网络传输的压力

（5）为了作业排序更合理，可以自定义序列，自定义comparator，但需要注意的是必须确保已实现RawComparator

（6）最后可以调整shuffle，可以调整一些内存管理的参数，以弥补性能的不足

写的比较粗糙，有时间将其中一些细节会补齐。

2
顶

1
踩

分享到：

MapReduce 从作业、任务（task）、管理员角 ... | oracle中修改有数据的表的字段类型

2015-10-13 23:38
浏览 779
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop作业的优化常用手段

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop作业的优化常用手段

评论

发表评论

相关推荐

java.sql.SQLException: 无效的列索引

32位hadoop编译实现与64位操作系统兼容

shell中的tput命令讲解

hive建的表丢了？其实它一直在

linux的bc计算器

pctfree和pctused

物化视图

oracle的高水位问题处理方式

set feedback

hive 的CLI使用手册

面试经验总结

R语言与hadoop之间的千万柔情

MapReduce 从作业、任务（task）、管理员角度调优

oracle中修改有数据的表的字段类型

初始化参数设置—processes与session

ORACLE并行度

Hadoop_Avro数据类型与模式

hadoop_AVRO数据序列化系统_简介

最近访客更多访客>>