`
minglaihan
  • 浏览: 15919 次
  • 性别: Icon_minigender_1
  • 来自: 天津
文章分类
社区版块
存档分类
最新评论

在eclipse下编写简单mapreduce程序

 
阅读更多

转载请注明:http://hanlaiming.freetzi.com/?p=117

前两天搭建好了hadoop环境,昨天完成了hadoop的eclipse插件编译,所以今天测试一下一些简单的mapreduce程序如何在eclipse上运行。

首先说明我的实验环境:

ubuntu版本12.04,hadoop版本1.2.1,java版本1.7.0_45,eclipse版本4.2Juno

然后开始准备第一个也是最简单的测试,已然是wordcount,我是参考的这篇文章http://phz50.iteye.com/blog/932373

下面是我的总结:

1,准备好测试文件,提前上传到hdfs目录所在的文件夹下,比如我的是input。在eclipse中新建项目,选择Mapreduce Project,命名为WordCount,然后导入hadoop中自带的WordCount.java,找不到可以搜索,然后右击WordCount.java,选择Run as——Run Configurations,在里面的java application处右键选择New,然后在Arguments处添加你的hadoop目录所在的输入和输出文件夹参数,比如,我的是:

hdfs://minglaihan:9000/user/hadoop/input hdfs://minglaihan:9000/user/hadoop/output

这个是表示,你的第一个参数是输入目录,第二个参数是输出目录,然后点击Run,就Ok了,Hdfs的系统要不断手动刷新,这一点要注意。

2,简单的wordcount仅仅是让我们知道eclipse下怎样运行,接下来开始学习数据去重DataDeduction,主要运行步骤和前面类似,这里主要分析一下我在网上找到的代码为什么不能顺利在我的hadoop上运行。

网上大部分提供的代码都是一个版本,参考http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html,但是总提示我ClassNotFound Map的错误,我后来看了一下最近买的一本书,修改了一下代码,最后成功运行。主要的改动有去掉这两行即可,具体原因可能是在参数里设定了就不用在函数中说明吧,反而会让系统判定缺失一些数据。

conf.set("mapred.job.tracker","192.168.1.2:9001");String[] ioArgs=newString[]{"dedup_in","dedup_out"};

3,然后是数据排序,这个测试研究了挺长时间,但是和最终结果还是有点偏差,所以等研究明白再做更新,ok~~

分享到:
评论

相关推荐

    window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包

    window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包

    实验项目 MapReduce 编程

    MapReduceExample 下建立新包 com.xijing.mapreduce,模仿内置的 WordCount 示例,自己编写一个 WordCount 程序,最后打包成 JAR 形式并在 Hadoop 集群上运行该 MR-App,查看运行结果。 4 分别在自编 MapReduce 程序...

    大数据技术开发环境搭建.docx

    不用Hadoop-Eclipse-Plugin编写MapReduce程序 54 Hadoop集群安装配置教程 56 HBase安装 56 HBase伪分布式配置 57 HBase Shell编程实践 60 HBase JAVA API编程实践 64 安装MySQL 68 Hive安装 70 Redis安装和...

    在Windows上使用eclipse编写Hadoop应用程序

    hadoop 云计算 mdfs mapreduce

    1. 搜狗日志查询分析; 2. 运营商关于用户基站停留数据统计; 3. 根据气象数据中心的数据进行温度统计; Hadoop

    编写MapReduce程序实现数据清洗,去掉不满足长度为6,并保证输出数据以 ','分割 将清洗后的数据导入Hive 使用SQL查询搜索结果排名第2点,点击次序排在第1的数据 实验步骤: 思路:用MapReduce做数据清洗,用Hive来...

    hadoop-eclipse-plugin-2.2.0.jar

    在eclipse中集成hadoop2控件,能够方便编写mapreduce等程序。在hadoop-2.3.0上运行成功

    云计算技术实验报告七MapReduce数据统计

    Linux,eclipse 本实验要求通过MapReduce程序实现数据统计,具体要求如下: 假设有一份简单的“个人通讯记录”的...1)编写一个MapReduce程序,统计拨打同一被叫号码的总时长。 2)找出平均通话时间最长的被叫号码。

    hadoop-eclipse-plugin-2.0.0-mr1-cdh4.4.0.jar 插件

    CDH最新版本CDH4.4版本,Mapreduce1插件,用于hadoop的开发!便于Mapreduce程序的编写和开发! 基于Linux下eclipse-jee-juno-SR2-linux-gtk-x86_64编译。

    基于Hadoop下MapReduce框架实现的的并行C4.5算法.zip

    * 程序利用Eclipse EE在Hadoop平台下,使用Map/Reduce编程框架,将传统的C4.5决策树算法并行化; * 该部分属于本科毕业设计中,并行随机森林算法的核心部分; * Hadoop的搭建主要参考给力星的博客( ...

    Hadoop开发者第一期入门专刊

    19 在Windows 上使用eclipse 编写Hadoop 应用程序 24 在Windows 中使用Cygwin 安装HBase 28 Nutch 与Hadoop 的整合与部署 31 在Windows eclipse 上单步调试Hive 教程 38 Hive 应用介绍 42 Hive 执行计划解析 50 ...

    hadoop-CDH4.3-eclipse-plugin插件

    CDH最新版本mapreduce1插件,用于hadoop的开发!便于mapreduce程序的编写和开发!

    Hadoop从入门到上手企业开发

    051 复习MapReduce编写模型和【八股文】方式编写MapReduce 052 完成MyWordCount程序编写 053 打包运行MyWordCount程序并监控Job运行 054 优化MyWordCount程序和讲解GenericOptionsParser 055 安装Hadoop Eclipse插件...

    Hadoop开发者入门 pdf

    1 Hadoop介绍 2 Hadoop在国内应用情况 ...19 在Windows上使用eclipse编写Hadoop应用程序 24 在Windows中使用Cygwin安装HBase 28 Nutch 与Hadoop的整合与部署 31 在Windows eclipse上单步调试Hive教程 38 Hive应用介绍

    markov-gen:马尔可夫链生成器用Java编写的句子生成器

    我在编写软件时使用 Eclipse,但您可以直接使用 javac -classpath lib/*.jar:.:bin/ src/*.java -d bin/ 我已经包含了一个不错的脚本供您使用,如果您愿意的话,可以运行该项目。 ./run.sh可以解决问题。 感觉软件...

    INFSCI2711_Homework3

    编写一个 Hadoop MapReduce 程序,输出以每个字母开头的单词数。 这意味着对于每个字母,我们要计算以该字母开头的单词总数。 在您的实现中忽略字母大小写,即,将所有单词视为小写。 您可以忽略所有非字母字符。 ...

    2017最新大数据架构师精英课程

    2_java引入ide-eclipse 3_java基础知识-循环-类型转换 4_循环-函数-数组-重载 5_多为数组-冒泡-折半-选择排序 6_oop-封装-继承-static-final-private 7_多态-接口-异常体系 8_适配器/ k% N! Y7 j/ |- c) O5 M' V6 S ...

Global site tag (gtag.js) - Google Analytics