首页 > 编程知识 正文

数据挖掘应用实例,数据挖掘公开数据集

时间:2023-05-04 17:57:52 阅读:56205 作者:4084

1开源数据集1.1部分开源数据集和1.2数据搜索网站介绍2web爬虫2.1 BeautifulSoup2.1.1示例部分代码2.2伪浏览器注册2.2.1配置2.2.2示例部分代码2.2

1开源数据集1.1部分开源数据集和介绍

1 ) GLUE )数据集的具体介绍请参考博客

2 )腾讯AI Lab开源大规模高质量中文单词向量数据:数据下载地址

3 ) nltk _ data :介绍nltk公司

4 )其他机器学习数据集和框架的附属数据可参考博客ML -数据集(Datasets )

1.2数据搜索网站上的照片是斯坦福大学实用的机器学习课程,点击此幻灯片即可访问相应的链接

另外,根据需要,一些宏观数据可以通过国家统计局收集

2网络爬虫2.1 BeautifulSoup 2.1.1代码示例1 )

URL=' ' request=urllib.request.request (headers=header (response=urllib.request.urlopen ) request ) html=reader

html=urllib2. urlopen (https://en.Wikipedia.org/wiki/' article URL ).read ) bs obj=beautiful soup (html ) taps! () (*$ ' ) ) 2.2模拟浏览器登录2.2.1chromedriver的配置下载和版本号可在设置中找到

将ChromeDriver.exe置于Chrome的根目录中,并将该目录添加到环境变量中

(注意:虽然在以前的笔记中提到过,但您也可以将下载的驱动程序放在python安装目录的lib目录中。)

补充

1 )火狐浏览器驱动下载

2 ) opera浏览器驱动程序

2.2.2例部分代码# 的Xpath与URL=' ' driver=web driver.chrome (c : (程序文件(x86 ) Google ) chrome ) applicaatable )匹配T, TV_text ) : result _=PD.data frame (while )1) : for i in range(7)7) : day=driver.find _ element _ bbbb _XPath )/*[@id='liveepg'] ).textinnning imfor]],columns=['channel ',' TV ',' date ',' detail'] ) ignore _ index=true (try : next _ week=driver.find _ element _ by _ XPath ('/* [ @ id=' upweek ' ] ) ) net

1 ) val_.click ) )这有时会报告错误,并可替换为

driver.execute _ script (arguments [0].click ); ',val_ )2)关闭选项卡切换

#以下代码参照源[7] all handles=driver.window _ handles #获取所有页面的句柄,并作为一个序列访问driver.switch _ to.window ()

2.3 re正则表达式2.3.1正则表达式中的每个正则表达式都对应(PS :以前保存的图像、源不再未知、入侵删除) )。

补充:

中文对应正则表达式: [u4e00-u9fa5]

2.3.2一般函数1 ) re.compile相当于将正则表达式代入某个参数

regex=re.compile((((u4e00-() u9fa5) )2) re.sub的替换

ATA['txt'][I]=re.sub(regex,',data['txt'][i] )3) re.search

re.search (().CSV ),f ) )前一参数为范式,后一参数为变量4 ) re.findall

defgeturl(html ) : reg=r '?href|HREF (? () )?http://? .pdf('URL_re=re.compile(reg ) URL_lst=re.findall ) URL_re,html ) return URL _ lst 2.4字段夹点)早期

我建议你看看up和精明的金毛AI。 这位老师给中国学生录制了斯坦福大学课程的中文版。 链接到参考[1]。

[1]精明的金毛AI和

[2]上金爬虫课

[3]GLUE

[4]斯坦福大学实用机器学习课程主页

[5]selenium安装和chrome驱动程序安装

[6]在窗口中配置ChromeDriver (简单四个步骤即可完成) ) ) ) ) ) ) ) )。

[7]关闭python实现浏览器选项卡

[8]selenium上的chrome options headless (不显示页面的界面,即在后台运行) ) ) ) ) ) ) ) ) )。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。