在eclipse下通过插件开发运行mapreduce程序。
1.安装eclipse3.6.2
2.下载修改过的Hadoop-0.20.203-plugins.jar插件,
hadoop-0.20.203\contrib\eclipse-plugin\也有一个对应的开发插件,但笔者经过验证此插件基本不能用,需要自己手动修改。修改的连接教程:
下载在Linux公社的1号FTP服务器里,下载地址:
FTP地址:ftp://www.linuxidc.com
用户名:
密码:
在 2012年LinuxIDC.com\12月\Hadoop环境安装配置
hadoop-eclipse-plugin-0.20.203.0 插件无法连接 问题,重新布到eclipse/plugin后启动eclipse需要 -clean一下
3.将上述插件放到eclipse的plugins目录中,重启eclipse则会出现蓝色的小象图标,然后再eclipse中的首选项配置中,将所使用的hadoop路径加进来,版本要与集群中的版本一致,
否则运行多个版本的hadoop时会导致错误。
4.切换到map/reduce透视图
5.通过show views将新建一个hadoop location地址,在输入界面中
6.
配置如下:输入的参数要与你的集群中配置文件core-site.xml hdfs.xml map-red.xml文件中的一致。
7.查看是否连接到集群中
8.新建一个map/reduce项目,将源码文件中自带的wordcount.java程序加入,然后在运行参数配置中给出hdfs的路径
比如: hdfs://namenode:9000/test.txt hdfs://namenode:9000/oddd 运行即可,然后刷新左边的dfs location即可看到相应的运行结果。
9.windows下和Ubuntu下的eclipse连接基本相同不过要注意一点就是hadoop-0.20.203版本中进行了优化,所以如果windows系统的用户名如果与hadoop集群的用户名不一致可能会出现文件访问权限的问题,所以要修改windows系统的用户名与集群保持一致。
10.关于mahout的运行基本与wordcount运行的过程基本一致,下载mahout的源代码或者直接调用对应jar包,在集群中运行就行了。
至此通过eclipse插件连接集群运行map/reduce程序基本完成。