hadoop知识点总结

时间:2022-04-25 09:43:17

(一)、hadoop的内置数据类型都实现了writablecompareable,以便序列化和网络传输及文件存储

hadoop知识点总结

a自定义数据类型作为输入

1.实现writable接口

2.如果给数据需要比较大小时,实现writablecompareable接口

hadoop知识点总结

b数据输入格式和recordreader

hadoop知识点总结

数据输入格式(inputformat)用于描述maoreduce作业中的数据输入规范,mapreduce依靠数据输入规范完成数据文件的输入分块(inputsplit),从输入分块中将数据记录逐一读出,并转换为map过程中的输入键值对

hadoop知识点总结

自定义输入格式:https://blog.csdn.net/young_so_nice/article/details/51307213

https://blog.csdn.net/bbaiggey/article/details/53324218

流程: 1.自定义XXinputformat继承FileTextFormat,在createRecordReader方法里面返回自定义的XXRecordreader

    2.自定义XXRecordreader继承RecordReader,在setkeyvalue和nextkeyvalue实现自身需求

    3.在main函数的运行中指定输入格式:job.setInputFormatClass(XXinputformat.class)