从HTML表读取数据
网页上的表或列表是常见的数据类型。 例如,以维基百科世界各国的人口为例,为http://en.Wikipedia.org/wiki/list _ of _ countries _ by _ population。 网络图表方便人的理解,但机器的理解并不容易。 复制&; 可以使用粘贴方法将数据复制到电子表格中,但这种方法很复杂。 通过使用函数read.csv (和read.table )。 如果网页格式易于使用,请使用XML包中的readHTMLTable ()函数。 “http://en.Wikipedia.org/wiki/list _ of _ countries _ by _ population”页面上的数据是一种使用readHTMLTable函数的方法。
=====================================
加载XML包
是库(XML )
#确定网址,根据网址分析网页表单
欧陆
' http://en.Wikipedia.org/wiki/list _ of _ countries _ by _ population '
tbls
=====================================
这个页面包含多个表,所以需要确认哪个表是我们需要的人口分布表。 通过识别表的行数来确定所需的表。
=====================================
# s应用(x,FUN ) ) )。
计数tbls中每个表的行数
观察,表1是我们需要的表
s应用(tbls,nrow ) )。
$`NULL '
[1] 247
$`NULL '
[1] 1
$`NULL '
空值
$`NULL '
[1] 18
$`NULL '
[1] 16
读取第#页u的第一个表
pop
2、在硬盘上保存数据
#存储pop是CSV文档
#write.CSV(x,file=' ' )
write.CSV(pop,file='d:/pop.csv ' ) )
=====================================
另存为简单文本:
wite.table(x,file='*.txt ' ) )。
拆分并保存逗号文本:
write.CSV(x,file='*.csv ' ) )
另存为r格式的文件:
save(x,file='*.Rdata ' ) ) ) ) ) ) ) ) ) )。