Hadoop在读数据时提供了一种优化:如果读的block文件在本地时,hdfs的client会直接读本地data.dir内的block文件,而不是从datanode的网络端口读取。这个优化在mapreduce时会对性能有很大的提升,因为一般来说mapper都会和读取数据在一台server上。
ShortCircuitRead功能在chd4.1.0上有bug,除了hdfs用户其他用户比如hbase,yarn都不能采用ShortCircuitRead。在cdh4.2.0上修复了此bug,因此我们能够在此版本上enable这个功能。
步骤:
1.在hadoop的配置文件hdfs-site.xml中添加以下配置项:
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
2.如果非hbase、mapreduce程序需要在启动参数中加入native配置,hbase和mapreduce因为在启动时会加载hadoop的native库所以不需要此配置:
-DJava.library.path=/usr/lib/hadoop/lib/native"
在配置好后开启debuglog读文件,如果正好读取的block在本地就可以看到对应的log了:
The short-circuit local reads feature is enabled.