`
923723914
  • 浏览: 637433 次
文章分类
社区版块
存档分类
最新评论

hadoop 异常 reduce长时间卡住停滞不前的问题

 
阅读更多

单个节点的命名问题也会导致这个问题,具体解决办法:

http://blog.csdn.net/lxpbs8851/article/details/11820601

磁盘损坏的解决办法:

起因:

datanode的磁盘挂掉了2个

昨天的任务跑完了之后,检查了下dfsadmin -report

监测到集群之中有个节点的 Configured Capacity 比其它的节点少了差不多2个磁盘的容量;

然后去检查了下这个节点 发现确实有2个磁盘出了问题。

于是。重启 换磁盘 ,重新启动了节点。

然后在此节点上 执行了balancer

问题出现了:

早上到公司,发现 基本上所有的任务全部都hold了,平时只需要2分钟跑完的任务,一直堵在那边。

后台执行任务,发现了一个奇怪的现象,有些任务能够顺利的进行,而另外大部分的任务执行的时候 出现

map能达到100% 但是reduce基本上执行到30% 或者32% 的时候会卡住 等上半个小时也不会前进。

临时的解决办法:

查询了下 昨天新增的节点,由于最近才接触到这个集群,发现这个节点的数据已经有大半年没有更新了,意思就是死了大半年了、

于是果断的 干掉了这个节点。

重新执行 被堵住的任务,任务终于能够顺利的进行了。

更加详细的原因,还需要时间去查证。

原因找到了:

是因为这个datanode上面的多个磁盘都坏掉了。

处理过程:

http://blog.csdn.net/lxpbs8851/article/details/17503805

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics