nosuchpartition，affine subspace

Protein Secondary Structure Prediction Based on Data Partition and Semi-Random Subspace Method Abstract

蛋白质二级结构预测是生物信息学中最重要和最具挑战性的问题之一。机器学习技术已被应用于解决该问题，并在该研究领域取得了实质性成功。然而，在理论极限方面仍有改进的空间。在本文中，我们提出了一种基于数据分区和半随机子空间方法（PSRSM）的蛋白质二级结构预测方法。数据分区是我们方法的重要策略。首先，基于蛋白质序列的长度将蛋白质训练数据集划分为若干子集。然后，我们在半随机子空间方法生成的子空间数据上训练基本分类器，并通过多数投票规则将基本分类器组合到每个子集上的集合分类器中。在不同子集上训练多个分类器。根据蛋白质序列长度，这些不同的分类器用于预测不同蛋白质的二级结构。实验在25PDB，CB513，CASP10，CASP11，CASP12和T100数据集上进行，分别达到86.38％，84.53％，85.51％，85.89％，85.55％和85.09％的良好性能。实验结果表明，我们的方法优于其他最先进的方法。

Introduction

蛋白质在几乎所有生物过程中都起着关键作用;他们是生活的基础。例如，它们参与维持细胞的结构完整性，小分子的运输和储存，催化，调节，信号传导和免疫系统。自然界中有20种不同的氨基酸形成蛋白质【1】。蛋白质的氨基酸依次与一个氨基酸的羧基连接，与下一个氨基酸的氨基形成肽键。蛋白质结构对于理解蛋白质功能至关重要。为了在分子水平上识别蛋白质的蛋白质功能，有时需要确定它们的3D结构。准确可靠地预测蛋白质序列的结构是计算生物学中最具挑战性的任务之一【2】。蛋白质二级结构预测为三级结构预测提供了重要的第一步，并提供了有关蛋白质活性，关系和功能的信息。

蛋白质二级结构是指局部构象蛋白质的多肽骨架。存在两种规则的二级结构状态，α-螺旋（H）和β-链（E），以及一种不规则的二级结构类型，即线圈区域（C）。 Sander开发了二级结构分配方法蛋白质二级结构词典（DSSP）3，根据氢键模式自动将二级结构分为八个状态（H，E，B，T，S，L，G和I）。这八种状态通常进一步简化为螺旋，片状和线圈三种状态。最广泛使用的惯例是螺旋被指定为G，H和I;表B和E;所有其他状态都被指定为线圈。最常见的是，二级结构预测问题的公式如下：给定具有氨基酸的蛋白质序列，预测每个氨基酸是否在α-螺旋（H），β-链（E）或线圈区域（C）中。蛋白质二级结构预测通常通过Q3准确度来评估，Q3准确度测量三态二级结构的残基百分比以确定它们是否已被正确预测。

蛋白质二级结构预测开始于1951年，当时Pauling和Corey预测蛋白质多肽骨架的螺旋和片状构象，甚至在确定第一个蛋白质结构之前2。已经开发了许多统计方法和机器学习方法来预测二级结构。预测蛋白质二级结构的第一种方法之一，使用统计和启发式规则的组合4,5。 GOR6方法在信息理论框架内形式化二级结构预测问题。基于PSIBLAST8的位置特异性评分矩阵（PSSM）7反映了进化信息，并且在蛋白质二级结构预测方面取得了最显着的改进。已经开发了许多机器学习方法来预测蛋白质二级结构，并且通过利用进化信息以及关于氨基酸子序列的统计信息9表现出良好的性能。例如，许多神经网络（NN）10,11,12,13,14方法，隐马尔可夫模型（HMM）15,16,17，支持向量机（SVM）18,19,20,21和K-最近邻居22取得了巨大的成功，Q3的准确率达到了80％。多年来，预测准确性一直在不断提高，特别是通过使用杂交或集合方法，并以从多个同源序列的比对中提取的谱的形式整合进化信息23。最近，有几篇论文使用深度学习网络24,25,26,27,28来预测蛋白质二级结构并取得了很好的成功。不依赖于结构模板的最高Q3精度现在为82-84％3。 DeepCNF27是条件神经域（CNF）的深度学习扩展，它集成了条件随机场和浅层神经网络。 DeepCNF的整体性能明显优于其他最先进的方法，打破了长达80％的准确性。最近，SPIDER3通过使用长期短期记忆双向递归神经网络捕获非局部相互作用，改善了蛋白质二级结构的预测29。在论文30中，提出了一种新的深度初始 - 内部 - 初始网络，称为MUFOLD-SS，用于蛋白质二级结构预测。与DeepCNF相比，SPIDER3和MUFOLD-SS实现了更好的性能。

在本文中，我们提出了一种用于蛋白质二级结构预测的数据分区和半随机子空间方法（PSRSM）。第一步是根据蛋白质序列的长度将蛋白质训练数据集分成几个子集。第二步是通过半随机子空间方法生成子空间，在子空间上训练基本分类器，然后在每个子集上通过多数投票规则将它们组合。图1展示了我们的PSRSM实验框架。

图1. PSRSM框架。训练数据D被划分为k个子集D1，D2，...，Di，... Dk，并且Sij是子集Di的第j个子空间数据; Cij是在Sij训练的基础分类

我们方法的关键步骤是根据蛋白质的长度将训练数据集分成几个子集。蛋白质序列的长度是蛋白质序列中的氨基酸（AAs）的数量。然后我们在使用半随机子空间方法生成的子空间数据上并行训练基本分类器，并将它们组合在每个子集上。在传统的随机子空间方法中，通过对原始高维空间的随机采样来生成低维子空间。为了获得整体的良好性能，本文提出了一种用于蛋白质二级结构预测的半随机子空间方法。该方法确保了基本分类器尽可能准确和多样化。我们使用支持向量机（SVM）作为基本分类器。支持向量机是用于分类，回归和其他学习任务的流行的机器学习方法。与其他机器学习方法相比，SVM具有高性能，缺少局部最小值以及处理多维数据集的能力，其中数据元素之间存在复杂的关系。支持向量机（SVM）在蛋白质二级结构预测方面取得了巨大成功。
实验结果表明，PSRSM的整体性能优于目前最先进的方法。

Results Datasets

我们使用了6个公开可用的数据集(1)ASTRAL31， (2) CullPDB32， (3) CASP1033， (4) CASP1134， (5) CASP1235， (6) CB51336， (7) 25PDB37(8)一个内部开发的数据集T100。ASTRAL, ASTRAL + CullPDB和T100数据集可从补充文件获得。

在本研究中，我们将ASTRAL数据集和CullPDB数据集结合为我们的训练数据集，即，ASTRAL+ CullPDB数据集。CullPDB数据集的选择是基于25%的标识截断率、3埃的分辨率截断率和0.25的r因子截断率。CullPDB数据集中有12,288个蛋白质。ASTRAL dataset中有6892个蛋白质，序列标识小于25%。我们的训练数据集ASTRAL + CullPDB有15696个蛋白质;我们去掉了所有复制的蛋白质。

使用公开的数据集CASP10、CASP11、CASP12、CB513和25PDB来评估我们的方法，并使用SPINE-X38、JPRED39、PSIPRED40和DeepCNF进行比较。根据晶体结构的有效性，选取CASP10数据集的蛋白99个，CASP11数据集的蛋白81个，CASP12数据集的蛋白19个。CB513数据集有513个蛋白质序列。任何两种CB513蛋白之间的序列同一性小于25%。25个pdb数据集选择序列相似性较低的不超过25%,有1673个蛋白质,包括443 all-α443 all-β346 441α/β和α+β。请注意，这些数据集中的蛋白质数量可能与其他发表论文中报道的不同，因为我们只使用了在线可用的(http://www.rcsb.org/)或PSSM程序。

另外，我们在http://www.rcsb.org/上随机下载了2018年1月1日之后发布的100种新蛋白质(T100)。该数据集(T100)包含100个序列长度在18到1460之间的蛋白质。我们使用T100测试PSRSM和deepCNF，使用我们的在线服务器和他们的在线服务器raptorx属性，在二级结构预测中排名第一。

因为T100数据集是在2018年之后发布的，所以我们的训练数据集没有重复的蛋白质。我们所有的训练数据集都是在2017年2月之前收集的。

根据蛋白质长度而不是随机分区训练数据集的原因

我们的训练数据是ASTRAL + CullPDB数据集，其中包含15,696种蛋白质和3,863,231种氨基酸（AAs）。由于在如此大的数据集上训练支持向量机是一个非常缓慢的过程，我们方法的第一步是将训练数据划分为几个不同的子集并并行训练SVM。如果我们随机划分训练数据，它只会减少计算时间，但不会提高预测精度41。蛋白质序列的长度是蛋白质序列中氨基酸的数量。蛋白质长度是蛋白质的重要特征，因为它影响蛋白质结构。例如，短序列'VVDALVR'在六种蛋白质中形成'EEEEEE'：1by5_A，1qfg_A，1qff_A，1fcp_A，1fi1_A和2fcp_A。它们的长度分别为714,725,725,705,707和723。同时'VVDALVR'在一个蛋白质（3vtz_A）中形成'HHHHHH'，其长度为269.该数据可以在prodata.swmed.edu/chseq.42下载。相同的氨基酸序列在不同长度的蛋白质中具有不同类型的二级结构;这是因为蛋白质长度会影响蛋白质的局部和长程相互作用。基于上述考虑，我们根据蛋白质长度将训练数据集划分为训练数据中的蛋白质簇。

为了验证我们的数据分区策略的有效性，我们进行了另一个实验。我们随机地随机生成ASTRAL + CullPDB数据集的子集，而不是根据蛋白质长度，并在子集上类似地训练SVM基本分类器。然后我们将它们组合成一个整体（Classifier_C）。我们将Classifier_C与我们的PSRSM1进行了比较，表4显示PSRSM1的性能与CB513数据集上的Classifier_C非常相似，但在蛋白长度为L∈[1,100]的子集上表现更好。两个分类器之间的主要区别是训练集。 PSRSM1的所有训练蛋白都是短蛋白，它们具有相似的蛋白长度，所有长度都属于区间[1,100]; 相反，Classfier_C训练数据的长度是随机分布的。

表5显示了基于6个PSRSM的具有不同长度的T100数据集的性能。使用相应的PSRSM，6个不同长度的蛋白质亚群分别达到79.84％，84.58％，87.59％，87.51％，83.24％和83.93％的最佳表现。

Methods

对训练数据进行分区

我们根据蛋白质序列长度将训练数据划分为k个不同的子集。设X表示蛋白质序列，L表示X的长度。设定间隔（0，∞）的k-1分区点。令r0 = 0，rk =∞，并且r1，...，r2和rk-1表示满足r0 <r1 <... <rk-1 <rk的分区点。这些分区点将间隔（0，∞）划分为k个间隔而没有交叉。 Let

设D表示训练数据ASTRAL + CullPDB。子集D1，D2，...，Dk-1和Dk定义如下：

表7显示了中的蛋白质和氨基酸的数量