首页 > 编程知识 正文

切片文件使用方法(切片保存快捷键)

时间:2023-05-04 17:32:46 阅读:68684 作者:4244

1、映射任务并行度的确定机制

job的映射阶段的并行度由客户端提交job时确定

客户端规划对映射阶段并行度的基本逻辑如下:

将处理对象数据按逻辑切片、即特定的切片大小在逻辑上分割为多个分割,并对各分割分配mapTask并行实例处理

此逻辑和创建的切片规划描述文件是通过FileInputFormat实现类的getSplits )方法完成的,如下图所示。

2、切片是在InputFormat类中定义的getSplit ) )方法

3、FileInputFormat中的默认切片机制:

)1)简单地按照文件的内容长度进行切片

)2)切片大小,默认值等于块大小

)3)不考虑整个数据集,对每个文件分别进行切片

例如,要处理的数据有两个文件。

file1.txt 320M

file2.txt 10M

经过FileInputFormat的切片机制运算,形成的切片信息如下。

file1. txt.split1----0至128

file1. txt.split2----128至256

file1. txt.split3----256至320

file2. txt.split1----0至10m

4、FileInputFormat中切片大小的参数配置

通过分析源代码,在FileInputFormat中,计算片大小的逻辑: math.max(minsize,math.min ) maxsize,blockSize )片主要是这些值

minsize :默认值: 1

配置参数: MapReduce.input.fileinputformat.split.minsize

maxsize :默认值: Long.MAXValue

配置参数: MapReduce.input.fileinputformat.split.maxsize

blockSize:HADOOP 2.X后,HDFS的默认blocksize为128M

因此,http://www.Sina.com/http://www.Sina.com /

最大切片值:

如果参数小于blocksize,切片会变小,与设置的参数值相同

minsize (切片最小值) :

如果参数大于块大小,则切片可以大于块大小

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。