复制到维基百科: https://zh.Wikipedia.org/wiki/shape文件。 确实,我很容易忘记数据格式的细节,所以我复制它以便以后可以根据需要检查陷阱。
另一方面,简介Esrishapefile(shp )或简称shapefile是由美国环境系统研究所公司(ESRI )开发的空间数据的开放格式。 目前,这种文件格式已成为地理信息软件业的开放标准,表明了ESRI公司在世界地理信息系统市场的重要性。 Shapefile还是一种重要的交换格式,允许ESRI与其他公司的产品之间进行数据互操作。
Shapefile文件用于描述几何图形对象:点、多段线和多边形。 例如,Shapefile文件可以存储空间对象(如井、河或湖)的几何位置。 shp文件不仅可以存储几何图形的位置,还可以存储这些空间对象的特性,例如河流的名称和城市温度。
二.概要Shapefile是矢量图形格式,可以保存图形的位置和相关属性。 但是,此格式不能保存地理数据的拓扑信息。 Shapefile在90年代初ArcView GIS的第二个版本中首次应用。 现在,很多自由的程序和商业程序都可以读取Shapefile。
“Shapefile”是一种相对原始的矢量数据存储方式,它只能存储几何体的位置数据,而不能在一个文件中同时存储这些几何体的属性数据。 因此,Shapefile还必须包含二维表,用于存储Shapefile中每个几何体的属性信息。 “Shapefile”中的许多几何体表示复杂的地理位置,并提供强大、准确的计算能力。
Shapefile文件是一种保存文件的方法,实际上由多个文件组成。 其中,要构成一个形状文件,需要“. shp”、“. shx”、“. dbf”这三个文件。 表示相同数据的一组文件必须具有相同的文件名前缀。 例如,要保存有关湖泊的几何图形和属性数据,需要三个文件: lake.shp、lake.shx和lake.dbf。 其中,“真正的”Shapefile的后缀是shp,但只有这个文件数据是不完整的,必须附加其他两个才能构成完整的地理数据集。 除了这三个必需文件外,还有八个选项文件。 使用它们可以提高空间数据的表现力。 所有文件名都必须符合ms dos 8.3文件名标准(8个文件前缀、3个文件扩展名,例如shapefil.shp ),并与一些旧的APP应用程序兼容,但当前许多新程序都是长文件此外,所有文件都必须位于同一目录中。
必填文件:
. shp —图形格式。 保存元素的几何图元。
. shx —图形索引格式。 几何位置索引。 记录shp文件中每个几何图形的位置,以提高向前或向后搜索单个几何图形的效率。
. dbf —属性数据格式。 以dBase III数据表格式保存每个几何形状的属性数据。
其他选项文件:
. prj —一种用于存储地理坐标系和投影信息的框架投影表达式,是用于存储焊接知识文本投影描述符的高选择高山文件。
. sbn and .sbx —几何图形的空间索引
. fbn and .fbx —只读形状文件中几何体的空间索引
. ain and .aih —列表中活动字段的属性索引。
. ixs -可读写shape file文件的地理代码索引
. mxs -可读写形状文件文件的地理代码索引(ODB格式)
. atx — .dbf文件的属性索引。 文件名的格式为shape file.column name.atx (ArcGIS 8或更高版本) )
. shp.xml —以XML格式保存元数据。
>.cpg — 用于描述.dbf文件的代码页,指明其使用的字符编码。在每个.shp, .shx与.dbf文件之中,图形在每个文件的排序是一致的。也就是说,.shp的第一条记录与.shx及.dbf之中的第一条记录相对应,如此类推。此外,在.shp与.shx之中,有许多字段的字节序是不一样的。因此用户在编写读取这些文件格式的程序时,必须十分小心地处理不同文件的不同字节序。
Shapefile通常以X与Y的方式来处理地理坐标,一般X对应经度,Y对应纬度,用户必须注意X,Y的顺序。
三、Shapefile图形格式 (.shp)Shapefile格式的主文件包含了地理参照数据。该文件由一个定长的文件头和一个或若干个变长的记录数据组成。每一条变长数据记录包含一个记录头和一些记录内容。详细的数据存储格式由Esri Shapefile技术描述提供。注意,虽然Shapefile文件的后缀名与AutoCAD的图形字体源格式它们的文件后缀名相同的,都是.shp ,请不要把它们混淆。
主文件头包含17个字段,共100个字节,其中包含九个4字节(32位有符号整数,int32)整数字段,紧接着是八个8字节(双精度浮点数)有符号浮点数字段。
然后这个文件包含不定数目的变长数据记录,每个数据记录以一个8字节记录头开始:
在记录头的后面就是实际的记录:
变长记录的内容由图形的类型决定。Shapefile支持以下的图形类型:
在普通的使用中,Shapefile通常包含点、折线与多边形。带有Z坐标的形状是三维的。带有M坐标的形状是包含一个用户指定的测量值,该测量值定义在每一个点坐标之上。三维的Shapefile十分罕见。此外,实际应用中通常,Shapefile的M测量值这个功能已经被其他功能更加强大和稳健的数据库取代,Shapefile一般只负责几何数据。
四、Shapefile图形索引格式(.shx)
Shapefile的文件索引包含与.shp文件相同的100个字节的文件头,然后跟随着不定数目的8字节定长记录,每个记录都有两个字段。
因为这个图形索引每个数据项都是定长的,因此程序只要在这个图形索引中向前或向后遍历,读取索引中所记录的记录位移与记录长度,程序就可以很快地向前或向后遍历整个Shapefile,在.shp文件中找到任意一个几何体的正确位置。
五、Shapefile属性格式(.dbf)
每个图形的属性数据存储在dBase格式的数据表之中。属性数据也可以存储在另一种开放的数据表格式xBase格式之中。在开源Shapefile函数库Shapefile C library[2]中就是这样存储。
六、Shapefile投帧式(.prj)
.prj文件中的信息包含了.shp文件中几何数据所使用的经纬度坐标系统。尽管这个文件不是必须的,一般使用都会提供它,这样用户就无需猜测所给的坐标的经纬度系统。ArcGIS Desktop 9及以后的版本使用well-known text格式来生成坐标系统描述信息。以前的ArcGIS版本和某些第三方软件通常生成如下的这种格式:
老的投影文件格式样例:
Projection UTM
Zunits NO
Units METERS
Spheroid CLARKE1866
Xshift 0.0000000000
Yshift -4000000.0000000000
Parameters
-108 0 0.000 /* longitude
36 0 0.000 /* latitude
新的WKT格式样例:
GEOGCS["GCS_North_American_1927",DATUM["D_North_American_1927",SPHEROID["Clarke_1866",6378206.4,294.9786982]],PRIMEM["Greenwich",0],UNIT["Degree",0.0174532925199433]]
.prj文件中包含以下信息:
经纬度坐标系统或地图投影的名称
测量基准
椭球体参数
本初子午线
所使用的单位
用于定义地图投影的参数,例如:
纬度原点
缩放比例
中央经线
北伪偏移
东伪偏移
标准纬线
七、Shapefile空间索引格式(.sbn)这是一个二进制的空间索引文件,仅仅可以应用在ESRI的软件之中。其文件格式没有公开的文档,其他厂商也没有实现这个文件。.sbn并不是必须的,因为.shp文件之中已经包含了所有的解析空间数据所需的信息。
八、限制 1.Shapefile与拓扑
Shapefile无法存储拓扑信息。在ESRI的文件格式中,ArcInfo 的Coverage、以及Personal/File/Enterprise地理数据库,能够保存地理要素的拓扑信息。
2.空间表达
在shapefile文件之中,所有的折线与多边形都是用点来定义,点与点之间采用线性插值,也就是说点与点之间都是用线段相连。在数据采集时,点与点之间的距离决定了该文件所使用的比例。当图形放大超过一定比例的时候,图形就会呈现出锯齿。要使图形看上去更加平滑,那么就必须使用更多的点,这样就会消耗更大的存储空间。在这种情况下,样条函数可以很精确地表达不同形状的曲线而且占据相对更少的空间,但是目前shapefile并不支持样条曲线。
3.数据存储量
.shp文件或.dbf文件最大的体积不能够超过2 GB(或231位)。也就是说,一个shapefile最多只能够存储七千万个点坐标。文件所能够存储的几何体的数目取决于单个要素所使用的顶点的数目。
属性数据库格式所使用的.dbf文件基于一个比较古老的dBase标准。这种数据库格式天生有许多限制,例如:
无法存储空值。这对于数量数据来说是一个严重的问题,因为空值通常都用0来代替,这样会歪曲很多统计表达的结果。
对字段名或存储值中的Unicode支持不理想。
字段名最多只能够有10个字符。
最多只能够有255个字段。
只支持以下的数据类型:浮点类型(13字节存储空间),整数(4或9字节存储空间),日期(不能够存储时间,8字节存储空间)和高挑的高山(最大254字节存储空间)
浮点数有可能包含舍入错误,因为它们以高挑的高山的形式保存。
4、混合几何类型由于在每一条几何记录中都有该记录的几何类型,所以理论上一个shapefile是可以存储混合的几何类型。但实际上规范中指出在同一shapefile之中所有非空的几何体都必须是同一类型。因此shapefile被限制为仅仅可以混合存储空几何体和另一单一几何体,该几何体的类型必须与文件头中定义的类型一致。例如,一个shapefile文件不可能同时包含折线与多边形数据,所以,在实际的地理事物描述中,井(点类型)、河(折线类型)与湖(多边形类型)必须分开存储在三个不同的文件之中。
九、总结
重点记住shp、shx、dbf、prj都存储的是什么,其他的也不常用。
这个介绍里,好像少了一点点东西,shpfile的索引编码不是固定的,既每次在软件中打开的时候,FID都是变化的,举例来说,假设我有一个省边界文件province.shp,第一次在QGIS中打开,辽宁省的FID是1,再重新打开一下,辽宁省的FID可能就是2了,文件的FID,既feature id是不固定的,所以,要做数据标识,得拿其他字段来做,或者干脆新建一个字段id做索引。
Shpfile应该是最常用的地理信息数据格式文件,了解它的格式说明还是很有必要的。