文件名称:MapReduce_BankData:通达信数据 MapReduce计算开盘收盘平均值
文件大小:852KB
文件格式:ZIP
更新时间:2024-06-05 15:42:53
Java
MapReduce_BankData 步骤 先运行Clean_Zh.java,在本地处理中文的问题。 使用命令行将已处理的文件传到HDFS(这一步没写在代码里,偷了个懒) 再运行Main.java 通达信数据原始数据 原始数据第二行的中文 和最后268行的中文,采用的GB2312编码,程序运行时产生乱码,导致不明BUG,其BUG造成的乱码,使行号数不对,且乱码无法参与代码的逻辑运算, 这个错十分的坑,故将中文删除。问题解决 删掉中文后,运行结果 中文乱码处理(问题解决) 不管是转utf8还是gb2312都是对文件的操作!但是在mapreduce机制里,他对文件的操作是自动完成的,我们用户接触到的已经是文件中每一行的具体内容了。这个时候由于原始文件的编码问题,每一行涉及中文的已经是乱码了,此时对这个乱码不管怎么转始终是乱码。 所以,因为我们无法在mapreduce的文件层面进行操作,那就只有