Python BioPython 模块

我们大多数人在与其他编程语言进行比较时，都会想到为什么 Python 会发展得如此之快？是的，Python 确实在很短的时间内就出名了，现在我们可以看到 Python 在各个领域的应用。是的，每个领域都意味着每个可以看到技术的领域。Python 编程语言不仅仅局限于编程或开发目的，现在我们也可以看到它在医疗、商业、国防、电子商务等各个领域的应用。Python 的巨大发展和影响力背后的主要原因是它的简单性，以及随之而来的大量库。许多领域正因为使用了 Python 而达到成功和发展的新高度。

如果我们再看一下我们提到的领域的名称，我们会发现我们也提到了医学领域。现在，我们中的许多人会认为 Python 如何在医疗领域有所帮助。这个问题的答案不仅仅限于医院或诊所使用的医疗设备，Python 还被用于其他各种医学领域。可以看到 Python 的一个重要医学领域是生物信息学，在这里我们不必混淆遗传学(也就是生物技术)和生物信息学。

注:生物信息学是一个跨学科领域，包括生物学和各种其他领域的研究，如计算机科学、数学、物理等。

在 Python 中，我们有一个非常著名的模块，Biopython，用于生物信息学，随着许多科学家现在使用这个模块进行研究，这个模块的使用正在迅速增加。在本教程中，我们将学习这个 Biopython 模块，并了解一些相关知识。我们还将通过一个例子了解它的安装以及它如何用于生物信息学的研究工作。

BioPython 模块

在 Python 甚至大多数编程语言中，Biopython 不仅是最受欢迎的，也是最大的生物信息学包。Biopython 模块包含许多不同的子包，用于执行常见的生物信息学任务。Biopython 模块主要用 python 编写，但也包含 C 代码，是 Chang 和 Chapman 开发的。Biopython 包中的 C 代码用于优化模块的复杂计算部分。Biopython 可以在多种操作系统上运行，如视窗、Linux、UNIX、苹果 OS X 等。

在我们开始学习 BioPython 模块之前，我们必须对生物信息学术语有一个基本的概念，如脱氧核糖核酸、核糖核酸、蛋白质序列、基因组序列等。否则就不容易理解这个模块的工作原理和功能。除了生物信息学的基本术语之外，我们应该确保我们的系统中存在最新版本的 Python，并且我们熟悉 pip 安装程序。

生物艺术模块:简介

Biopython 模块是不同 python 模块的集合，它提供了许多不同的功能来处理各种遗传结构，如 DNA、RNA 和蛋白质序列操作。我们在这里提到的蛋白质序列操作可以是在蛋白质序列中寻找基序，反向互补一个 DNA 序列等。在 Biopython 模块中，我们提供了很多解析器，在这些解析器的帮助下，我们可以读取 SwissPort、GenBank、FASTA 等所有主要的遗传数据库。这些解析器在阅读主要的包装器/接口时也非常有帮助，这对于运行其他流行的生物信息学工具/软件如 Entrez、NCBI BLASTN 等非常有帮助。在 Biopython 模块的帮助下，我们可以使用 python 程序在 Python 环境中完成所有这些工作。

生物艺术模块:特点

到目前为止，我们肯定已经知道生物密码模块有多重要，以及它对所有与生物信息学领域相关的人有多有帮助。现在，我们将讨论 BioPython 模块提供的功能，以及它以哪些功能而闻名。以下是 BioPython 模块的显著特征列表:

Biopython 模块具有易于学习、易于移植和非常清晰的语法。
Biopython 模块为我们提供了处理蛋白质序列格式的选项。
Biopython 模块为我们提供了各种工具，通过这些工具，我们可以管理不同类型的蛋白质结构。
BioPython 模块是面向对象的，解释和交互与 python 相同。
Biopython 模块为我们提供了许多本地生物信息学服务，包括 Clustalw、Blast、浮雕等。
BioPython 模块支持各种生物信息学文件格式，如 SCOP、FASTA、Medline 或 PubMed、PDB、ExPaSY 相关格式和 GenBank。
通过 Biopython 模块，我们可以访问各种在线服务和数据库，如 NCBI 服务，包括 PubMed、Blast、Entrez 等。，以及像 Prosite 和 SwissPort 这样的 ExPaSY 服务。
BioPython 模块还为我们提供了 BioSQL 的选项，这是一组标准的 SQL 表，我们可以使用它们来存储序列以及特性和注释。

我们现在已经看到了 Biopython 模块的所有显著特征，现在我们可以理解这个模块对于生物信息学领域所做的所有工作有多有用。

生物艺术模块:目标

众所周知，BioPython 模块是生物信息学领域所有野外工作和研究工作的最佳 python 包，但是这个包的构建应该有一些目标。如果我们泛泛而谈，BioPython 模块的构建目标是通过 python 语言提供对生物信息学工作所需的所有数据和工具的标准但简单且广泛的访问。但这不是构建这个模块的唯一目标；还有其他主要目标。我们将讨论构建 Biopython 模块的所有这些主要目标，并在本节中列出它们。

以下是构建 Biopython 模块的所有主要或特定目标的列表:

Biopython 模块是为帮助进行基因组数据分析而构建的。
BioPython 模块的构建目标是提供高质量且可重用的脚本和模块。
构建 BioPython 模块的目标之一是提供对所有生物信息学资源的标准化访问。
BioPython 模块也是以快速数组操作为目标构建的，它可以用于 PDB、马尔可夫模型、朴素贝叶斯和集群代码。

因此，这些都是 BioPython 模块作为生物信息学软件包在 python 中构建和引入的具体和主要目标。

BioPython 模块:优势

我们现在已经看到了 Biopython 模块的特性，以及它如何对所有与生物信息学领域相关的人非常有帮助。我们可以很容易地描述这个模块的一些优点，但是仍然有一些我们无法用列出的特性或目标来猜测的优点。因此，在这一节中，我们将看到 Biopython 模块的所有优点，以及它在许多方面的帮助。

以下是将 Biopython 模块用于所有与生物信息学相关的研究和工作的一些优势:

Biopython 模块为我们提供了在聚类过程中使用的不同微阵列数据类型。
Biopython 模块还为医疗应用中使用的所有类型的期刊数据提供支持。
Biopython 模块为我们提供了清除基于烹饪书风格的文档的选项。
Biopython 模块在读取和写入树形视图类型的不同文件时也非常有用。
BioPython 模块非常有帮助，因为它通过提供各种子模块来支持解析器开发，这些子模块可以用来将生物信息学文件解析成序列加特征的通用类或特定格式的记录对象。
Biopython 模块还支持用于 PDB 表示、分析和解析的结构数据。
Biopython 模块还为各种生物信息学数据库提供支持，如 BioSQL 数据库(一个在所有生物信息学项目中被广泛用作标准数据库的数据库)。

这是我们在使用 BioPython 模块时拥有的所有优势的列表，它还描述了这个模块如何对与生物信息学领域相关的每个人都非常有帮助和有用。

BioPython 模块:安装

现在，我们将了解它的实现及其在 Python 程序中的功能。我们必须首先在我们的系统中安装 Biopython 模块，然后只有我们能够在 python 程序中导入和使用该模块的功能。因此，我们将在这里了解 Biopython 模块在我们系统中的安装过程，我们还将检查我们设备中安装的 python 的兼容性。这是因为 2.5 以上的 python 版本支持 bioython Module，2.5 以下版本的 Python 不支持 bioython Module 的安装和导入。这就是为什么首先我们应该确保安装在我们系统中的 Python 具有更高的要求或最新版本。

现在，如果我们不知道系统中安装的 Python 版本，并且想要检查它，那么我们可以在命令提示符终端中使用以下命令:


python --version

当我们按回车键时，将显示我们系统中安装的 Python 版本，正如我们在输出图像中看到的那样。

在显示的版本中，我们可以看到系统中安装的 Python 版本高于所需版本。但是，如果我们系统中的 Python 版本不等于或高于所需版本，即 Python 2.5 版本，那么我们应该首先更新它，然后只有我们才能继续安装部分。

注意:有许多其他方法可以检查我们系统中安装的 Python 版本，但是我们更喜欢使用这种方法，因为这是最简单的方法。

现在，在检查了我们系统中安装的 Python 版本后，我们将期待安装 Biopython 模块，我们将使用 pip 安装程序来安装该模块。我们将使用命令提示符终端中的以下 pip 安装程序命令在我们的系统中安装 Biopython 模块:


pip install biopython

当我们写完命令后按回车键时，pip 安装程序将开始在我们的系统中安装 Biopython 模块。

BioPython 模块现在已经成功安装在我们的系统中，现在我们可以将其导入到 python 程序中使用其功能并学习其实现。

BioPython 模块:实施

为了了解 Biopython 模块是如何工作的，以及它如何帮助解析生物信息学文件，我们首先要创建一个样本 fasta 文件(这里的“FASTA”指的是源自生物信息学软件的文件格式序列)。在 FASTA 文件格式中，文件中的序列是一个接一个排列的，文件中出现的每个序列都会有自己的 ID、名称、描述和实际序列数据。

我们首先要打开系统中的记事本，在里面写下以下内容:

现在，我们必须保存这个名为“SampleFile1.fasta”的记事本文件，并且我们必须将它保存在安装 Python 的同一个目录中，这样我们就不必在打开文件时写入整个目录。现在，我们将在 python 程序中使用 BioPython 模块，并通过解析我们创建的示例 fasta 文件来学习它的实现。

看看下面的 Python 程序，我们已经使用 Biopython 模块的函数解析了示例 fasta 文件:


# Importing required functions from BioPython 模块
from Bio.SeqIO import parse
from Bio.SeqRecord import SeqRecord 
from Bio.Seq import Seq 

# Open the sample FASTA file we have created
sampleFile = open("SampleFile1.fasta") 

# Parsing the file in the Python program
parseRecords = parse(sampleFile, "fasta")

# Using for loop to printing attributes of files
for record in parseRecords:
    # Printing multiple attributes of the file
    print("Id of FASTA File: %s" % record.id) 
    print("Name of FASTA File: %s" % record.name) 
    print("Description of FASTA File: %s" % record.description) 
    print("Annotations in FASTA File: %s" % record.annotations) 
    print("Sequence Data in FASTA File: %s" % record.seq)

输出:

Id of FASTA File: sampleFile|P2426|FMS1_ECOLI
Name of FASTA File: sampleFile|P2426|FMS1_ECOLI
Description of FASTA File: sampleFile|P2426|FMS1_ECOLI CS1 is a fimbrial subunit of the precursor (Have CS1 pilin)
Annotations in FASTA File: {}
Sequence Data in FASTA File: MKLKKTIGADALATLFATMGASAVEKTISVTASVDMTVDLLQSDGSALPNSVALTYSPAVNNFEAHTINTVVQTNDSDKGVVVKLSAMPVLSNVLNPTLQIPVSVNFAGKPLSTTGITIDSNDLNFASSGVNKVSMTQKLSIHADATRVTGGALTAGQYQGLVSIILTKSTTTTTTTKGT

Id of FASTA File: sampleFile|P2631|FMS3_ECOLI
Name of FASTA File: sampleFile|P2631|FMS3_ECOLI
Description of FASTA File: sampleFile|P2631|FMS3_ECOLI CS3 is a fimbrial subunit of the precursor (Have CS3 pilin)
Annotations in FASTA File: {}
Sequence Data in FASTA File: MLKIKYLLIGLSKSAMSSYSLAAAGPTLTKELALTVLSPAALDATWAPQDNLTLSNTGVSNTLVGVLTLSNTSIDTVSIANTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDKNAGNTIVKTTNGSPLPTNLPLKFITTEGNEHLVSGNYRANITITSTIKGGGTKKGTTDKK

说明:

我们首先在程序中导入了 Biopython 模块的不同工具，比如 parse、SeqRecord 和 Seq，使用了‘from’关键字。然后，我们使用 open()函数打开了在程序中创建的示例 fasta 文件。之后，我们对初始化的变量使用了 parse()函数来打开样本文件，即 sample file。然后，我们遍历 parseRecords 变量(文件解析的初始化变量)来打印文件的不同属性。

我们展示了 BioPython 模块的下列属性及其各自的功能:

我们用 record.id 打印了文件中的 id，
我们使用 record.name 在文件中打印了序列的名称，
我们使用 record.description 打印文件中存在的序列描述，
我们使用 record.annotations 来打印序列的注释，
最后，我们使用 record.seq 打印样本文件中的序列。

正如我们在输出中看到的，样本 fasta 文件的所有属性都被成功打印，这些属性首先为第一个序列打印，然后为第二个序列打印。

这是一个示例文件示例，展示了我们如何在生物信息学工作中使用 BioPython 模块，以及它如何使用 python 程序帮助解析生物信息学软件文件。