首页 > 编程知识 正文

namenode负责管理所有datanode,dbfs文件是如何生成的

时间:2023-05-05 08:56:19 阅读:163987 作者:2264

Databricks文件系统(DBFS,Databricks File System )是挂载在Azure Databricks工作区上的分布式文件系统,可以在Azure Databricks群集中使用。 存储对象是具有特定格式的文件,不同格式的读取和写入机制不同。

BFS是一种基于可扩展对象存储的抽象,可以根据用户需求动态增加或减少存储容量使用量。 加载到Azure Databricks中的DBFS具有以下优点:

装载(装载)存储对象,以便在没有凭据的情况下无缝访问数据。 它使用目录和文件语义与对象存储进行交互,而不是存储URL。 由于将文件存储在对象存储中,因此退出群集后不会丢失任何数据。 Azure Databricks是一个分布式计算系统,Cluster提供CPU、内存、网络等计算资源,DBFS是Azure Databricks的重要基础架构之一,用于存储数据和文件

第一,DBFS根DBFS的缺省存储位置称为DBFS根(root ),以下DBFS根位置包含多种类型的数据:

/FileStore :用于学习导入的数据文件、生成的图形和上载的库/databricks-datasets:spark或测试算法的样例公共数据集。 /databricks-results :通过下载查询的完整结果生成的文件。 /tmp :用于存储临时数据的目录/用户:用于存储每个用户的文件的/mnt :缺省情况下不可见。 在DBFS中挂载(mount )的文件中,写入挂载点路径(/mnt )的数据被存储在DBFS根目录之外。 在新工作区中,DBFS根包含以下缺省文件夹:

DBFS根还包含不可见且不能直接访问的数据,如装载点元数据(mount point metadata )和凭据(credentials )以及某些类型的日志。

DBFS有两个特殊的根位置: FileStore和Azure Databricks Dataset。

FileStore是用于存储文件的存储空间,可以存储csv、parquet、orc、delta等各种格式的文件。 Dataset是一个允许用户测试算法和Spark的示例数据集。 要访问DBFS,通常使用pysaprk.sql模块、dbutils和SQL。 第二,使用pyspark.sql模块访问DBFS,并在使用pyspark.sql模块时通过相对路径'/temp/file '引用parquet文件。 以下示例将parquet文件foo写入DBFS/tmp目录。

# df.write.format (parquet.save ) )/tmp/foo ),mode=(overwrite ) ) df.write.parquet )/tmp/foo )。

#df=spark.read.format(parquet ).load )/tmp/foo ) (df=spark.read.parquet )/tmp/foo )中的三个

select * from delta.`/tmp/delta _ file ` select * from parquet.`/tmp/parquet _ file `文件的格式与扩展的命令不同文件的路径不是用单引号括起来的,而是用`` 实现的。

第四,通过使用dbutils访问DBFS dbutils.fs,可以提供与访问DBFS中的文件的文件系统类似的命令。 本节提供了有关如何使用dbutils.fs命令向DBFS写入和读取文件的几个示例。

1,查看DBFS的目录

在python环境中,可以在dbutils.fs中查看路径下的文件。

display (dbutils.fs.ls (dbfs :/foobar ) )2,读写数据

向DBFS根写入和读取文件的过程就像是本地文件系统一样。

# create folder dbutils.fs.mkdirs (/foobar/) (writedatadbutils.fs.put )/foobar/baz.txt )、' Hello、woobar

dbutils.fs.help () dbutils.fs主要包含两个模块:操作文件fsutils和安装文件mount

futils http://www.Sina.com/- copiesafileordirectory, possiblyacrossfilesystems 3358 www.Sina.com/- returnsuptothefirst ' maxbytes ' bytesofthegivenfileasastringencodinutf-redinutf - liststhecontentsofadirectory http://www.Sina.com/- createsthegivendirectoryifitdoesnotexist, alsocreatinganynecessaryparentdirectories 3358 www.Sina.com/- movesafileordirectory,possiblyacrossfilesystems 3358 ww.sinaled

mount 3358 www.Sina.com/- mountsthegivensourcedirectoryintodbfsatthegivenmountpoint 3358 www.Sina.com/- displaysinformationaboutwhatismountedwithindbfs http://www.Sina.com/- forcesallmachinesinthisclustertorefreshtheirmountcaation ensuringtheyreceivethemostrecentinformation 3358 ww.Sina.com//

参考文档:

数据积木文件系统(DBFS ) )。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。