1 .切片机制
切片尺寸。 默认值与block(128m )大小相同
对每个文件分别进行切片,而不考虑整个数据集
根据文件内容的长度轻松切片
2 .源代码计算公式可以调整切片的大小。 (默认值等于block ) 128m (大小) computesplitsize (math.max (minsize,math.min ) maxsize,blocksize () ) ) )
MapReduce.input.fileinputformat.split.minsize=1(缺省为1 )
MapReduce.input.fileinputformat.split.maxsize=long.max value (long最大值) ) ) ) ) ) ) ) )。
每次切片时,都需要确定切完的剩馀部分是否大于块的1.1倍。 1.1倍以下时分割切片,大时分割为2个。
切片的大小更改如下:
如果“maxsize (切片最大值)”参数小于blockSize,则切片会变小,等于设置的此参数的值。
通过使“minsize (切片最小值)”参数大于块大小,可以使切片大于块大小。
获取切片信息API
获取//切片的文件名
String name=inputSplit.getPath ().getName );
//从文件类型获取切片信息
filesplitinputsplit=(filesplit ) context.getInputSplit (;