Python官方文档中文版,从源代码里下载百度文库文档

" "

26/05/14修正。清除不需要的东西。

" " "

主要是关于这个http://wenku.baIDu.com/play/文档id？ pn=页数

我不知道别人是怎么找到的。总之我抓了很久包，没找到这句话。

(因为要处理什么，所以，没有放进度条。=。=需要的东西可以自己添加。）

运行后，将在当前目录下生成wenKuDownload及其子目录img和swf。 swf保存下载的文档，img保存转换后的图像文档。 (能力不够，没写这个。如果需要，请找到swf2pdf，然后将这些swf文件合并为单个pdf文件。）

要运行这些代码你需要Python3。。。。Python2.x应该会出错。。

主文件。。。

# coding=utf-8导入re；导入urllib； import urllib.request； header={ ' user-agent ' : ' Mozilla/5.0 (windows nt 6.1； WOW64 ) appleWebKit/537.36(khtml，like Gecko ) chrome/32.0.1700.107 ubrowser/1.0.370.1388 safari/537.36 ' URL _ bdwk=' http://wenku.Baidu.com/view/{0}.html '； classbdwkdownloader : def _ init _ _ (self ) : pass； defgettotalpages(self，id ) :returnint(re.compile ) r'totalpagenum's*:s*'(d ) '.findagenum forIinrange(0，num ) : request=urllib.request.request ) URL _ getbdwkdoc.format (id，i 1 )，headers=header doc file=open(({0}{1}.{2} ).format ) dir，I，' swf ' )，' wb ' )； file.write(data[106:]； file.close (； def main (: downloader=bdwkdownloader )； downloader.download (ef13d 84 e a6 c 30 c 2259019 e 5b )； if(_name_=='__main__ ' ) : main )；