首页 > 编程知识 正文

时间序列 数据挖掘,时间序列数据集免费

时间:2023-05-04 08:47:01 阅读:271057 作者:4856

关注微信公众号“时序人”获取更好的阅读体验

时间序列学术前沿 NeurIPS 2020 | 时间序列相关论文一览ICML 2020 | 时间序列相关论文一览KDD 2020 | 时间序列相关论文一览智能运维 | 故障诊断与根因分析论文一览WWW 2020 | 通过多源时间序列诊断微服务故障根因WWW 2020 | 多源时序数据驱动用于窃电行为识别AAAI 2020 | 时序转化为图用于可解释可推理的异常检测KDD 2018 | 小波分解网络用于可解释的时间序列分析RRCF: 基于数据流的时序实时异常检测

数据是驱动科技发展的源泉,我们平常科研中也常常需要在各种开源数据上验证自己模型的效果。时间序列目前可以使用的开源数据集有哪些呢?本期为大家做一次梳理。

UCR Time Series

UCR时间序列数据集是时序领域的“Imagnet”,涵盖医疗/电力/地理 等诸多领域,目前全量数据有128种。涉及时间序列预测,回归,聚类等诸多任务,可以说是发Paper必跑数据集,由加州大学河滨分校计算机系的教授 Eamonn Keogh 所在的课题组维护

http://www.cs.ucr.edu/~eamonn/time_series_data/

FigShare


这是一个研究成果共享平台,这里向全世界开放免费的研究成果及科学数据。

https://figshare.com/

Awesome Public Datasets


该项目提供了一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。

https://github.com/awesomedata/awesome-public-datasets

服务监控数据集


该数据集是由人工神经网络公司Numenta所提供的,包含互联网服务场景下的各种流式数据与评测脚本。 NAB是用于评估数据流实时应用中异常检测算法的新颖基准,它由50多个带有标签的真实世界和人工时间序列数据文件以及为实时应用程序设计的新颖评分机制组成。

https://github.com/numenta/NAB

音乐数据库


这是数据集包含了海量的公开音乐数据库,适用于包含音乐推荐、分类在内的各种任务

http://millionsongdataset.com/

国家经济数据

国家统计局经常会统计涉及经济民生等多个方面的指标,提供了非常丰富的开源时间序列数据。这里简单为大家列举一些可以获取这些数据的渠道:

国家数据


数据来源中华人民共和国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面。

https://data.stats.gov.cn/

CEIC


涵盖超过195个国家400多万个时间序列的数据源,最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。

https://www.ceicdata.com/zh-美满的小蝴蝶

万得


被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

https://www.wind.com.cn/

中国统计信息网

国家统计局的官方网站,汇集了全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

http://www.tjcn.org/

政府开放数据 北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。(https://data.beijing.gov.cn/)深圳市政府数据开放平台:交通、文娱、就业、基础设施等数据。(https://opendata.sz.gov.cn/)上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。(https://data.sh.gov.cn/)贵州省政府数据开放平台:贵州省在政务数据开放方面做的确实不错。(http://data.guizhou.gov.cn/)Data.Gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。(https://www.data.gov/) 数据竞赛网站

除了上面整理的常用的开源时间序列数据以外,如果我们想获取针对特定任务的时间序列数据,我们常常可以通过各种竞赛平台获取数据。这些数据集通常干净且科研性非常高。包括:

DataCastle:专业的数据科学竞赛平台(https://js.dclab.run/v2/index.html)Kaggle:全球最大的数据竞赛平台(https://www.kaggle.com/)天池:阿里旗下数据科学竞赛平台(https://tianchi.aliyun.com/)Datafountain:CCF制定大数据竞赛平台(https://www.datafountain.cn/)

更多原创内容与系列分享,欢迎关注微信公众号“时序人”获取。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。