首页 > 编程知识 正文

Python 安装教程,pymol详细安装教程

时间:2023-05-06 13:24:45 阅读:41068 作者:731

Spark之前已经告诉了大家很多。 Python这几天也整理了很多自己的见解。 今天我要告诉大家下一个新的东西。 PySpark从名字上可以看出与前面两者有很大的关系。 那么,PySpark到底是什么? 之前说的Spark和Python有什么不同呢? 我今天和大家简单谈谈。

回忆下Spark的简介

Spark是一种通用的大数据计算框架,是基于RDD (灵活的分布式数据集)的计算模型。 那到底是什么? 很多人可能还不太了解,一般来说,可以分散处理大量的数据。 分割大量数据,分别计算,然后合并计算结果。

PySpark配置文件Spark是用Scala编程语言编写的。 为了在Spark上支持Python,Apache Spark社区推出了工具PySpark。 使用PySpark,还可以使用Python编程语言的RDD。 多亏了Py4j这个库,他们才能实现这个目标。

简而言之

在python驱动程序端,SparkContext使用Py4J启动JVM并生成JavaSparkContext。 Py4J仅用于驱动程序端,用于本地python与Java spark上下文对象的通信。 大量数据的传输使用了另一种机制。

python中的RDD转换映射到java环境中的PythonRDD。 在远程worker计算机上,PythonRDD对象通过启动几个子进程并通过pipes与这些子进程进行通信来发送用户代码和数据。

PySpark是Spark向Python开发人员提供的API,依赖于Py4J。

PySpark使用的类py spark.sparkcontextpyspark.spark context类提供了APP应用程序与spark交互的主要入口点,并表示APP应用程序与spark群集之间的连接。 基于此连接,APP应用程序可以在此群集上存储RDD和广播变量(

名为PySpark.RDD的类提供了pyspark操作RDD的基本方法。

first ) )是pyspark.RDD类提供的方法,它返回RDD的第一个元素。

aggregate ()方法使用给定的联接函数和中性“零值”来聚合每个分区的元素,然后聚合所有分区的结果。

cache ) )使用默认存储级别(MEMORY_ONLY )来持久化此RDD。

collect ()返回包含此RDD中所有元素的列表。

pySpark.Accumulator是仅允许添加的共享变量,spark任务只能添加值。

pyspark.Broadcast Spark有两个共享变量:广播变量和累加器,pyspark.Broadcast类提供了处理广播变量的方法。

py spark.accumulatorpyspark.accumulator提供如何操作累加器变量。

累加器是仅通过相关操作进行累积的变量,因此可以并行高效地支持。

pyspark安装linu系统Anaconda3安装(1) python本身缺少numpy、matplotlib、scipy、scikit-learn…等一系列软件包du,这些软件包

开源Python包管理器(Anaconda )是一个Python发行版,包含180多个科学包(如conda和Python )及其依赖关系。 它包含大量的包,使用anaconda,您不再需要安装其他必需的包。

anaconda https://www.anaconda.com/distribution /这里以Anaconda3-5.1.0-Linux-x86_64.sh为例。 下载后,将其拖到Linux系统根目录下

在事先安装spark环境变量之前,我已经介绍了spark的具体安装教程,但这里不做概述。 pyspark依赖于spark,因此必须首先安装spark。 否则,请避免安装pyspark。 安装spark后,开始配置环境变量。

VI/etc/profileexportspark _ home=/opt/soft/spark 234 #我的spark安装的目录exports park _ conf _ dir=$ spark _ dir

source/etc/profile 3358 www.Sina.com /

使用yum安装bzip2。 如果没有bzip2,Anaconda安装将失败

yum install -y bzip2安装Anaconda3-5.1.0-Linux-x86_64

bash anaconda3-5.1.0- Linux-x86 _ 64.sh

在提示下输入ENTER,然后继续按回车,或在提示下输入yes。 只有最后一个提示安装Microsoft VS

Code时回答no,这样就开始安装了。

安装完以后默认会在/root/anaconda3下。
你也可以自己找目录放,如下图所示:

输入ENTER就会自己帮你放到/root/anaconda3,也可以自己输入存放的目录。

生成jupyter配置文件

(我生成的文件是root用户路径下/root/.jupyter/jupyter_notebook_config.py)

进入你的用户根目录,生成配置文件

cd ~ #或者cd /root#输入命令生成配置文件./jupyter notebook --generate-config 生成Jupyter登录密码

输入命令

ipython

会出现提示语 In [1],输入命令

from notebook.auth import passwd

出现提示语 In [2],输入命令

passwd()

要求输入密码

1234

输入完密码后会出现密钥:生成一个’sha1:xxxxx’ ,用记事本 粘贴单引号里面的内容 .先保存好。

配置jupyter_notebook_config.py文件

允许从外部访问 Jupyter

cd /root/.jupytervi jupyter_notebook_config.pyc.NotebookApp.allow_root=Truec.NotebookApp.ip='*'c.NotebookApp.open_browser=False#刚才生成的密钥,粘贴过来放到单引号里面c.NotebookApp.password=u'sha1:a7bd0a5fa349:d818d9bc31ee70715eff7b1705ebfb047cd38b72' c.NotebookApp.port=7070

加入anaconda环境变量 并激活 vi /etc/profileexport ANACONDA_HOME=/root/anaconda3 #anaconda3安装目录,前面提到过export PATH=$PATH:$ANACONDA_HOME/sxdnhtexport PYSPARK_DRIVER_PYTHON=jupyter-notebookexport PYSPARK_DRIVER_PYTHON_OPTS="--ip=0.0.0.0 --port=8888"

激活配置

source /etc/profile 执行命令启动pyspark

如果要环境加入pyspark 就直接执行命令

pyspark

如果只需要普通python环境 就输入命令

jupyter notebook --allow-root

输入完成后,会有个端口提示,那就是要进入jupyter浏览器的端口,前提是要先启动spark,在这里我就不多说了

通过浏览器打开 Jupyter

如上图提示,端口号是8889,那么我民就去输入网址自己的主机IP和这个端口就可以进入jupyter

如上图所示,输入地址后会有个提示,要求输入密码,这是输入你的密码就可以登录了

注意:

有时会启动不了pyspark,会报错没有执行权限,这时就需要更改权限了。

cd /root/anaconda3/sharechmod +777 jupyter

这时就可以启动了!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。