首页 > 编程知识 正文

随机森林回归预测例子,秘密森林第二季回归

时间:2023-05-05 10:58:40 阅读:153189 作者:2038

受美国“页岩气革命”的影响,页岩气勘探备受关注(

目前,利用测井曲线预测TOC的方法有4种。 利用密度曲线(DEN )预测TOC,利用u含量曲线(u )预测TOC等(r法、CARBOLOG法等) )。

单元拟合方法的优点是建模方法简单,但从信息论的角度来看,单元拟合使用的地层信息过少(仅使用有地层的地层响应特性与TOC建立关系),在该曲线测量效果差或储层TOC低的情况下采用多元拟合方法建立的模型为非理论模型,只能确定响应值与TOC的正负相关性,这种线性或非线性约束存在不合理性,建立的模型不可靠。 第二种方法从理论上看,对储层成熟度有要求,对过成熟页岩效果不理想。 利用非正规井预测TOC的方法确实可以在一定程度上提高TOC的预测精度,但即使存在价格高、效果好的模型也难以推广。

机器学习算法通过学习样本,可以自动确定各井的响应值和TOC的综合关系。 最大的优点是可以很好地利用大量地层信息综合预测TOC,模型稳定,精度不会因某曲线畸变而大幅下降。 虽然不同的算法效果不同,但针对机器学习算法的特征函数能力是研究的关键这一观点,作者提出了基于随机森林回归算法预测TOC的模型,比现有的机器学习预测TOC算法具有更强的泛化能力和稳定性通过对实际资料的处理,预测该模型的TOC比其他算法精度更高、更可靠。 该模型可以有效提高TOC预测的精度和可靠性,对页岩气的勘探开发大有裨益。

1总有机碳含量与测井响应关系的研究

机器学习方法的精度很大程度上依赖于模型的输入,这是因为测井曲线与TOC的关联度不同,如果曲线与TOC的关联度较弱或关系过于复杂,在样本不足的情况下,会使算法学习到错误的函数关系,从而产生过补偿利用焦石坝地区2口井(a,b ) 237口龙马溪组-五峰组页岩样资料,研究TOC与测井响应值的关系。 焦石坝地区是典型的海相页岩储层,岩性以暗色页岩为主,岩石类型丰富,常见的有含放射虫炭质笔石页岩、炭质笔石页岩、含骨针放射虫笔石页岩、含碳粉砂泥岩、炭质笔石页岩及含粉砂泥岩。 主要沉积相为深水陆棚亚相和浅水陆棚亚相沉积的滨外陆棚相; 页岩矿物成分主要含有石英、长石、方解石、白云石、黄铁矿和粘土等矿物; 页岩有机碳含量总体较高,原始烃潜力巨大,有机质类型主要为型,为过成熟演化阶段,以干气生成为主; 页岩现场瓦斯含量检测总瓦斯含量高,吸附瓦斯量大; 页岩储集空间以孔隙为主,主要为低-中孔、特低渗-低渗储层。 对应的TOC和各井曲线的响应值的相关关系如表所示

表1

表1焦石坝区两口井TOC与各井曲线响应值的相关性

table1correlationbetweentocandloggingresponseoftwologgingwellsinthejiaoshibaarea

R2

TOC

交流电源

CNL

GR

K

KTH

PE

RD

RS

TH

欧陆

TOC

1.00

交流电源

0.01

1.00

CNL

0.55

0.14

1.00

GR

0.32

0.11

0.17

1.00

K

0.29

0.08

0.06

0.01

1.00

KTH

0.46

0.10

0.24

0.03

0.83

1.00

PE

0.50

0.06

0.39

0.02

0.31

0.46

1.00

RD

0.04

0.06

0.15

0.15

0.22

0.09

0.06

1.00

RS

0.05

0.05

0.17

0.15

0.21

0.08

0.05

1.00

1.00

TH

0.47

0.08

0.47

0.05

0.35

0.74

0.41

0.02

0.02

1.00

欧陆

0.63

0.00

0.35

0.61

0.35

0.53

>

0.28

0.06

0.06

0.51

1.00

DEN

0.81

0.01

0.59

0.21

0.27

0.43

0.37

0.04

0.04

0.46

0.59

1.00

表 1 焦石坝地区2口井的TOC与各测井曲线响应值相关性

Table 1 Correlation between TOC and logging response of two logging wells in the Jiaoshiba area

图 1

图 1 建模曲线与TOC相关性关系图

Fig.1 Relationship between modeling curves and TOC

如3以下,富含干酪根的储集层密度会有明显的下降,对应TOC的值则变大。但是也可以看出,在TOC含量较低的储集层,干酪根的响应明显的被地层中其他信息所压制,密度与TOC的关系变差。由于干酪根中含有放射性的元素U,所以U曲线及GR曲线也与TOC具有一定相关性,相应的,由自然伽马能谱测井的反演方法可知,TH曲线应与TOC存在负相关关系。通过前人研究可知,石英与TOC为负相关关系,而PE曲线与石英为正相关关系,故PE曲线与TOC呈负相关关系。从相关性分析可知,有些曲线与TOC相关性较为间接,这也是他们相关性差的原因,但是这种间接的相关性能够对TOC的预测提供更多的信息,产生约束,提高TOC的预测精度。这也是本文认为利用机器学习算法预测TOC方法具有研究价值的关键。同时可从

2 随机森林回归方法

随机森林是2001年所提出的一种机器学习算法,以决策树为基学习器,通过将若干个建立好的模型所得到的结果进行综合得到一个模型,而最后的预测结果由所有模型的预测结果平均而得。随机森林算法具有分类和回归两种情况,若用于分类,则决策树使用分类树(一般使用C4.5),若用于回归,则决策树使用回归树(一般使用CART,

图 2

图 2 随机森林算法训练流程

Fig.2 Random forest algorithm training process

(1) 抽样:从训练数据集S中,通过有放回的Boostrasp抽样,生成K组数据集,每组数据集分为被抽中数据与未被抽中数据(被称作袋外数据)2种,每组数据集会通过训练产生一个决策树。

(2) 生长:通过训练数据对每个决策树进行训练。在每次分节点时,从M个属性中(及M个不同测井的测井响应值)随机选取m个特征(推荐m=log2d),依据Gini指标选取最优特征进行分支充分生长,直到无法再生长为止,不进行剪枝。

(3) 利用袋外数据检验模型的精度,由于袋外数据未参与建模,其能一定程度上检验模型效果与泛化能力。通过袋外数据的预测误差,确定算法中最佳决策树数目重新进行建模。

(4) 利用确定的模型对新数据集进行预测,所有决策树的预测结果的平均即为最终的输出结果。

随机森林的最大优势是每个决策树均利用所有样本中的一部分,并只抽取其中一部分属性进行建模。这种做法能极大的提高模型的多样性,最小化了各棵决策树的相关性。依照集成学习理论来说,基学习器的多样性越强,其泛化能力就越高。

3 基于随机森林算法的储集层TOC含量计算模型

为了建立较为可靠的模型以验证模型对于TOC预测问题的适应程度,需要对模型的参数进行确定。对于随机森林来说,最重要参数即是决策树的个数,较少的决策树个数会使得模型的效果无法完全发挥,而较多的决策树个数不仅会使模型的训练与预测速度降低,还会使模型产生过拟合的隐患。将237个样本随机分成5组,其中37个样本作为预测样本,另外200个样本平均分为4组,每组50个样本,以便于进行交叉验证,确定最佳决策树的个数(

图 3

图 3 各分组样本TOC分布

Fig.3 TOC distribution of each sample

图 4

图 4 随机森林迭代次数与均方误差的关系

Fig.4 The relationship between random forest iteration times and mean square error

利用上述200块岩芯数据组成的样本集对模型进行建模,其中决策树颗数设置为500,利用袋外误差去评价模型是否充分学习到数据输入与输出之间的关系。对应的迭代次数与袋外误差的关系见

图 5

图 5 随机森林迭代次数与袋外均方误差的关系

Fig.5 Relationship between random forest iteration times and out-of-bag error

图 6

图 6 建模样本精度关系图

Fig.6 Plots between modeling and analyzed results

图 7

图 7 预测样本精度关系图

Fig.7 Plots between predicting and analyzed results

4 实例分析

利用已建立好的模型预测A、B井储集层TOC曲线,以确定模型对整口井的预测效果。同时,利用之前具有200个样本的训练样本建立DEN曲线单元拟合模型与CART回归树模型。上述模型对A、B井的预测结果见

表 2

表 2 A、B井各算法预测精度对比表

Table 2 Comparison of accuracy of A, B well algorithm

一元

CART

回归树

随机森林

随机森林

(无自然伽马曲线)

jddhj/p>

0.41

0.39

0.26

0.29

B井

0.46

0.42

0.32

0.37

表 2 A、B井各算法预测精度对比表

Table 2 Comparison of accuracy of A, B well algorithm

5 结论

(1) 通过对各条测井曲线响应值与TOC的相关性分析可知,对于TOC预测问题来说,密度、铀含量、钍含量、光电吸收截面指数及自然伽马曲线与TOC关系较好,且其响应范围不会受到井位分布的影响。

(2) 通过对随机森林算法的交叉验证可知,针对TOC问题,当决策树个数为500个时,可对输入曲线与输出TOC的响应关系做到完全学习,对应的输出应较为可靠。

(3) 通过对实例进行分析,发现该算法对TOC的预测效果较好,预测得到的TOC曲线较为平滑,精度较高。该算法可有效提高TOC的预测精度,为页岩气储集层评价提供帮助。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。