Hadoop cdh4.2.0配置 ShortCircuitRead

Hadoop在读数据时提供了一种优化:如果读的block文件在本地时,hdfs的client会直接读本地data.dir内的block文件,而不是从datanode的网络端口读取。这个优化在mapreduce时会对性能有很大的提升,因为一般来说mapper都会和读取数据在一台server上。

ShortCircuitRead功能在chd4.1.0上有bug,除了hdfs用户其他用户比如hbase,yarn都不能采用ShortCircuitRead。在cdh4.2.0上修复了此bug,因此我们能够在此版本上enable这个功能。

步骤:

1.在hadoop的配置文件hdfs-site.xml中添加以下配置项:

<property>
    <name>dfs.client.read.shortcircuit</name>
    <value>true</value>
</property>

2.如果非hbase、mapreduce程序需要在启动参数中加入native配置,hbase和mapreduce因为在启动时会加载hadoop的native库所以不需要此配置:

-DJava.library.path=/usr/lib/hadoop/lib/native"

在配置好后开启debuglog读文件,如果正好读取的block在本地就可以看到对应的log了:

The short-circuit local reads feature is enabled.

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/f3227322767447f782e9b5f6b019f2cb.html