1. FileInputFormat中的默认切片机制(1)简单切片以匹配文件内容长度(2)默认切片大小为块大小(本地模块大小32M,yarn mode ) 例如,要处理的数据有两个文件。 file1.txt 330M file2.txt 10M通过FileInputFormat的切片机制进行运算后,形成的切片信息由、 file1. txt.split1--0到128 file1. txt.split2--128到256 file1. txt.split3--256到330 file2. txt.split fileinpppinp
切片主要通过这些值进行运算
MapReduce.input.fileinputformat.split.minsize=1缺省值为1
MapReduce.input.fileinputformat.split.maxsize=long.maxvalue缺省值long.max value
因此,缺省情况下切片大小=块大小。
maxsize (切片最大值) )
如果参数小于blocksize,切片会变小,与设定的参数值相同。
minsize (片最小值) )。
如果参数大于块大小,则切片可以大于块大小。
3 .根据获取切片信息的API //文件类型获取切片信息的filesplitinputsplit=(filesplit ) context.getInputSplit ); //片的文件名String name=inputSplit.getPath ().getName );