基础医学(计算机数学基础答案)

导游词

因果性在相关性的基础上进一步发展：相关性可以通过观察到的变量联合分布来描述，但因果性分析需要了解数据的生成机制，或者条件变化时变量分布的变化。 2021年1月2日，整理了集智俱乐部学术年会上迷你美女老师的分享。

迷你美女老师是北京大学讲座教授、北京大学北京国际数学研究中心生物统计与信息研究办公室主任、北京大学国家药品器械监督管理科学研究院副院长，研究方向是缺损数据、因果估计分析、大数据分析、半参数模型、医学检验卫生经济、卫生服务领域发展的新统计方法。

因果推测的数学基础新药在特定人群中有效吗？犯罪率的变化是政策引起的吗？能从公立学校改为私立学校提高学习成绩吗？这些都是因果估计的问题。事实上，光靠数据是不能回答上述问题的。在许多情况下，数据生成机制对观测者来说是未知的，因此只能观察相关性。因果性在相关性的基础上进一步发展：相关性可以通过观察到的变量联合分布来描述，但因果性分析需要了解数据的生成机制，或者条件变化时变量分布的变化。

如何用数学语言表达进行因果分析呢？ Rubin因果模型包含(u，k，y，z )四个部分。其中，u是个体，k是可能的处理集合，y是KU到实数的映射，z是u到k的映射，表示个体实际受到的处理。个体u在处理t中的潜在结果记为yt(u )。对个体u来说，处理t相对于处理c的作用为yt[u]-YC[u]；对整个人群来说，平均因果关系是e[yt[u]-YC[u]]。因果估计的基本问题是，这两个潜在结果Yt(u和Yc(u不能同时观测，因此我们必须依赖额外的假设和条件才能识别因果作用)。

统计学家Fisher提出了随机化的概念。在随机化实验中，只要每个个体被随机分配给两个处理方案中的任意一个，就能够识别平均因果关系。在随机化实验中，潜在结果可以转化为观测结果，即e[yt[u]=e[y[u]|z=t]，因此平均因果作用可以用观测数据估计。

但实际上，随机化条件可能被破坏。例如，

(1)不依从性)患者未按照原安排的治疗方案进行治疗；

)2)数据缺失)未观察到结局(结局有定义)；

)3)死亡阻断)收集到结局前患者死亡(结局没有定义)。

第[1]个个体在非标准条件下的因果估计相关性，用ymdhy表示随机分配的处理计划，di(ymdhy )表示个体I是否依赖于分配(实际接受的处理)，yi ) ymdhy、di(ymdhy ) 在处理效果稳定假说(SUTVA ) ——个体间无干扰——中，z对y的个体因果作用为yi(1，di )1)-yi (0，di ) )，z对y的平均因果作用)意向治疗作用为e(yi(1，di )

首先，将小组分为四层。依赖组c(di(z )、永远服药组a ) ) di (z )=1)、非服药组n (di )=0)、非依赖组d (di ) z )=1-z )。只有c组和d组包含两种处理方案的结局数据，所以只能在这两组中定义因果作用。以c组为例，考虑顺应性组平均因果作用cace=e [ yi (1，1 )-yi ) 0，0 ]。所观察到的数据是分配方案ymdhy、实际接受的处理di=di(ymdhy )、结果di=di(ymdhy )。需要假设如下。

(1)可以忽略的假设，即两种潜在结果和分配方案是独立的；

)2)单调性假设，即di(1) di(1)，不存在d组；

(3) a组和d组排他约束假设，即a组和d组两个潜在结果相等。

用实际的例子来说明伴随不遵从性的因果关系的推测吧。为了研究流感疫苗的作用，实施了激励试验。在此，分配了鼓励和不鼓励疫苗的方案，但被奖励的人可能不打疫苗，不被奖励的人也可能打疫苗。传统意向治疗分析存在问题。因为这种做法得到的作用是鼓励打疫苗，而不是实际打疫苗。使用道具变量对人群进行分层后，只有推测顺应性群的因果作用，才能表现出打疫苗的真正作用。

迷你美女和他的同事在随机临床试验中解决了非顺应性和有不可忽视结局时研究参数的可识别性问题，提出了针对非顺应性的贝叶斯分析方法，在不同类型的完全不可忽视的缺失数据下，即缺失机制依赖于结局在满足一定条件时，感兴趣的因果参数是可识别的，同时推导了参数的最大似然估计和矩估计，并分析了它们在有限样本中的性质。

非标准条件下的因果推断之死亡截断[2,3]

和非依从性类似，死亡截断也会破坏经典的因果分析假设。在临床试验中，一些个体可能在收集到结局之前就发生死亡，这一现象被称为死亡截断。需要特别强调的是，死亡截断与缺失数据是两个完全不同的问题：前者的结局没有定义，而后者的结局有定义、只不过是未被观察到罢了。

用ymdhy表示第i个个体被随机分配的处理方案（假设个体依从于分配方案），Si(ymdhy)表示个体i的潜在存活状态（1表示存活，0表示死亡），Yi(ymdhy)表示潜在结果（如果Si(ymdhy)=1），用Xi表示协变量。仍然利用主层分析的方法，把人群分为四层，用G表示：永远存活组LL（Si(z)=1）、永远死亡组DD（Si(z)=1）、有益组LD（Si(z)=z）、有害组DL（Si(z)=1-z）。只有永远存活的LL组，其因果参数是有意义的，因为对于其他组来说，两个潜在结果至少有一个是无定义的。因此，我们关心永远存活组的平均因果作用SACE=E[Yi(1)-Yi(0)|G=LL]。

类似地，为了识别存活组平均因果作用，需要做出额外的假设：关于S和Y的可忽略性假设、单调性假设、排他性约束假设、替代相关性假设。通过工具变量对人群分层，进而使用参数模型估计出存活组的因果作用。在单调性假设下，有害组DL组被排除了。如果要放宽单调性假设，可将其替换为随机单调性假设，也就是允许DL组的存在，但需要事先给定Si(1)、Si(0)和LL组之间的概率关系。

迷你的美女和他的同事在国际上率先提出了用于超过三个组别且存在死亡截断的多处理随机临床试验的统计方法。此外，迷你的美女和他的同事还发展了新的推断方法来检验总体治疗效果，并且证明了该方法在大样本下的收敛性，完善了大样本下该方法的统计理论。迷你的美女和他的同事还提出了适用于结果是二分类和连续型变量的情形下，在非参数和半参数模型中识别感兴趣因果参数SACE的方法。证明了SACE在部分正则假设下可识别的数学性质，同时提出当违背部分假设时，减少估计偏差的统计方法和理论。

中介分析[4]

在一些问题中，干预和结局之间可能存在中介。用T表示治疗方案，M表示中介，Y表示结局。这时，从T到Y存在两条路径：一条是从T直接到Y，称为直接因果作用；另一条是从T经过M再到Y，称为间接因果作用。

例如，在关于大学生酗酒的研究中，受试者被随机分配到三种方案T之一：放松（对照）、酒精扫描+干预、酒精扫描+干预+情绪控制技术，中介M是情绪控制能力，结局Y是3个月后的抑郁得分。经典的中介分析方法需要很强的序列可忽略行假设，要求中介和结局之间不能存在混杂。迷你的美女和合作者放宽了序列可忽略性假设，提出的新方法允许中介和结局之间存在混杂，并且允许存在缺失数据。

个性化治疗[5,6]

个性化治疗（或精准医疗）与因果推断有着密切的关系。精准医疗旨在根据患者的特征，选择恰当的治疗方案，达到治疗收益的最大化。但是，同一位患者一次只能接受一种治疗，我们无法同时观察到患者接受不同治疗的结果。用因果推断的语言说，设X表示患者的协变量，Z为治疗方案，可以取Z=0或1，用Y(z)表示患者接受治疗z后的潜在结果。精准医疗却需要根据协变量特异因果作用E[Y(1)-Y(0)|X]选择相应的治疗方案。具体而言，假设潜在结果数值越大表示患者收益越大，那么如果上面的协变量特异因果作用大于0，就选择Z=1，否则选择Z=0。这样，我们可以从理论上把精准医疗转化为因果推断问题。

给定潜在结果的单指标模型，在一些假设下就可以识别出协变量特异因果作用。比如，当我们比较中药和西药的疗效时，可能会发现当生物标志物在一定范围内(c1<X<c2)时，中药治疗比西药治疗更有效，否则西药治疗更有效。这样，我们能画出一条曲线，用于描述中药相对于西药的因果作用随生物标志物变化的情形，即协变量特异因果作用曲线，这条曲线在临床应用中为研究者提供了很大便利。

在最优个性化治疗规则的因果作用估计方面，迷你的美女和他的同事首次提出使用生物标志物调整效应曲线（BATE）、协变量特征的治疗效果曲线（CSTE）来表示给定生物标志物水平下的条件平均处理效应，并为每个病人选择最优治疗方案，同时严格证明了新提出统计方法的数学性质。针对治疗结果为二分类变量时，迷你的美女和他的同事提出采用B样条方法估计CSTE 曲线，采用Hotelling tube方法估计CSTE曲线置信带的新统计方法及理论，定义并推导出二值响应变量数据的CSTE曲线可表示为优势比的对数，同时利用B样条方法估计广义变系数模型的系数，并推导出该方法的大样本数学性质。

迷你的美女 | 讲者

平淡的蚂蚁 | 整理

勤劳的中心 | 编辑

商务合作及投稿转载｜swarma@swarma.org◆ ◆ ◆

搜索公众号：集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!