首页 > 编程知识 正文

资源,数据资源目录下载

时间:2023-05-03 17:47:24 阅读:174817 作者:2002

世界网站的资源数据收集很闲,自己也想共享不知道在哪里什么时候收集的网站。

世界这么大,大家多去看看吧。

关于vpn我自己找了。

可以使用谷歌浏览器插件和Baacloud。 只要有心,vpn很容易找。

向清蒸的八宝粥致敬:

数据获取来源:

数据中心

这是一个让大家保管数据共享数据的网站。 里面有很多高质量的数据。

社交网络分析数据集

这是AMiner共享的数据集,包含Twitter用户兴趣关系、微博用户兴趣关系、专利关系、Epinions等非常丰富的平台社交关系数据。 这个平台是清华大学的潇洒西牛老师们创办的。

中文数据集

这是Github上的一个项目,收集了各种中文数据集,包括各种微博、新闻等文本数据集。 这里面还有Sogou的新闻数据。

汉语词汇小数据集

这是Github上一个项目,是中文词汇的小数据。 包括中文人名大全及金庸小说、三国演义及红楼梦人物姓名、成语大全、全国分区和城乡分区代码(2015 )、中国省市邮政编码大全等。

Taiga orpus

该网站收集了许多NLP经典任务的数据集,包括语义建模、关键字提取数据集、文本生成数据集、实体识别数据集等。

ylp注释数据集

这是Yelp官方发布的商户评论的最新数据集,包括商家信息、评论信息、用户数据和登录信息,同时提供JSON和SQL格式。 有470万条评论、15万6000加商户信息、20万图片信息、12个城市地区。

人工智能公共数据集

今天,建立人工智能和机器学习系统非常简单,包括TensorFlow、Torch、Spark等无处不在的开源工具,以及AWS、Google Cloud和其他云平台等强大的计算机但是很多人都忘记了,创造强大的AI最难的不是AI本身或算法,而是数据收集和标记的问题。 Berkeley Labs的Luke de Oliveira收集了开源数据列表,让我们在AI的世界里生活得更好。 包括图像识别、自然语言处理、会话识别、推荐系统等数据集。

The Yahoo Webscope Program

Yahoowebscope程序是一个有趣的科学有用的数据库参考库,供学者和其他科学家用于非商业目的。 的所有数据集都经过审核,以符合雅虎数据保护标准,包括严格的隐私控制。 我们有很多数据集。 我们很高兴和你分享。 雅虎很高兴将这些数据集提供给推动网络科学知识和理解状态的研究人员。 数据集仅适用于同意数据共享协议的教授和大学研究人员的学术使用。 包括广告、营销数据、计算机系统数据、竞赛数据等。

awesome公共数据库

此公共数据源列表是从博客、答案和用户响应中收集和组织的。 以下数据大部分是免费的,但也有不是。 它包含许多数据集,包括农业、健康、地理、软件和体育。

我的个人项目

myPersonality是一个受欢迎的Facebook APP应用程序,让用户可以进行真正的心理测试,并记录自己的心理和Facebook个人资料。 目前,我们的数据库包含600多万个测试结果和400多万个Facebook个人资料。 我们的受访者来自不同的年龄段、背景和文化。 他们想诚实慎重地回答。 因为他们参加的唯一满足是对他们结果的反馈。 这里为注册的合作者提供各种各样的数据,包括心理测试测试得分、用户的Facebook个人资料记录、测试项目的等级数据、其他信息等。 用户喜欢的记录。 有关可用数据的详细信息,请参见“数据库下载”部分。 为了让你的生活更轻松,我们会预处理大部分数据。 计算分数、重新编码变量、删除无效记录、匿名化结果等。 请注意,并非所有已记录(或可记录)的变量当前都可用。 可以知道是否需要添加特定的内容。

中国同盟

中国萌是一家通过众包方式获取微博数据的合作组织,通过贡献和共享你获取的部分数据可以交换更多的数据。 最终达到双赢的目的。 萌有大量的微博数据。

数据堂

数据堂得到国家科技部的大力支持,与国内外知名科研机构、高等院校、研发企业合作,积累了丰富的科研数据资源,通过统一平台提供服务,实现了科研机构、企业、高校和个人之间充分的数据共享。 通过这个平台,更多的科研人员进一步挖掘和利用这些科研数据的价值,促进了我国科研水平的提高,进一步提升了政府财政投入科研活动的价值,参与的各类科研组织、研发企业迅速提升了学术影响力和社会影响力。 )这个破网站好久没更新了,也不知道是什么意思,有什么想法,上了新三板就完了吗? 头晕)

sanfordlargenetworkdatasetcollection

这是由Stanford大学创建的关于社交网络的数据集收集仓库,其中包含许多与社交网络相关的数据集。 推特、脸书等用户及其社会关系。

ucirvinemachinelearningrepository

目前维护着295个数据集

为机器学习社区的服务。 您可以通过我们的可搜索界面查看所有数据集。 我们的旧网站仍然可用,对于那些喜欢旧格式的用户。 有关存储库的一般概述,请访问我们的关于页面。 有关在出版物中引用数据集的信息,请阅读我们的引文政策。 如果您希望捐赠数据,请参阅我们的捐赠政策。 对于任何其他问题,请随时联系知识库馆员。 我们还为Repository建立了一个镜像站点。

世界最大的社会科学文献网站 可以找到大量的数据集
ICPSR确保受访者在公共使用版本的数据集内保密。 绝大多数ICPSR数据是公用文件,没有访问限制。 有时采取保护措施降低披露风险将大大降低数据的研究潜力。 在这些情况下,ICPSR通过对访问它们的严格要求提供对保留机密数据的受限使用版本的访问。

webhose.io
该网站提供了很多免费的高质量的文本数据集。主要包括不同语言版本的新闻列表,有按照不同情感倾向分类的、有按照语言分类的、不同类别的。

最后给大家推荐些相对客观的信息来源:作为参考,做个独立思考的人
在人人都可以是媒体的年代,真实准确的信息已成为稀缺资源。我们如何才能找到可靠的新闻?打击假新闻的网站WikiTribune近日公布了一份全球值得信赖媒体名单,其中包括传统媒体、通讯社、数字媒体和独立调查机构。
WikiTribune
是由维基百科创始人之一的呆萌的大侠威尔士以众筹的方式创办的网站,旨在联合专业记者和志愿共同打击假新闻。近日,网站编辑公布了几组内部常用的可靠新闻源,希望帮助用户及媒体人找到准确、客观的内容。报道这些新闻的媒体大多具有透明度高、规模大的特点,即使没有经过事实核查下,其可信度仍有较高保障。
传统媒体类
《纽约时报》(New York Times)
擅长报道国际事务,以良好的公信力和权威性著称,在全球影响力巨大。
https://www.nytimes.com
《华盛顿邮报》(Washington Post)
擅长报道美国国内政治动态,因揭露过“水门事件”,在国际上颇有威望。
https://www.washingtonpost.com
《金融时报》(The Financial Times)
世界最著名的财经媒体之一,创刊于英国,以提供全球性的商业信息、经济分析和评论著称。
https://www.ft.com/
《华尔街日报》(Wall Street Journal)
美国高端报纸,其读者群的平均家庭年收入是15万美金。内容以财经报道为主,其报道内容对国际经济活动有着重要的影响。
https://www.wsj.com/
《经济学人》(The Economist)
英国著名的政治商业杂志,文章风格幽默又不失严肃,立场鲜明。
https://www.economist.com/
《纽约客》(The New Yorker)
美国知识、文艺类综合杂志,以非虚构作品为主。除了报道政治、国际事务、科技、艺术新闻外,还会刊登一些文学作品。
https://www.newyorker.com/
《卫报》(The Guardian)
英国全国性综合报纸,以严肃、可信、独立著称,读者多是知识分子和年轻人。
https://www.theguardian.com/
《泰晤士报》(The Times)
英国全国性综合报纸,对世界的政治、经济、文化影响较大。
https://www.thetimes.co.uk/
BBC新闻(BBC News)
英国广播公司旗下负责播报新闻节目的一个部门,关注英国和世界各地的新闻报道。
http://www.bbc.com/news
《财新周刊》
隶属于财新传媒,被《纽约时报》誉为中国大陆最权威的商业刊物之一,经常独家发布重大政经新闻。
http://weekly.caixin.com/
《南华早报》(South China Morning Post)
创办于1903年,前身是《南清早报》。1971年在香港上市,2016年被阿里巴巴收购,网络版随后不再收费。
http://www.scmp.com/frontpage/international
通讯社类
路透社(Reuters)
世界前三大的多媒体新闻通讯社,提供各类新闻和金融数据给报刊、电视台等媒体,并向来以迅速和准确享誉国际。
https://uk.reuters.com/
美联社(Associated Press)
美联社是美国乃至世界最大的通讯社,是由各成员单位联合组成的合作型通讯社。其发布的内容可信度高、速度快。
https://www.ap.org/en-us/
彭博社(Bloomberg News)
成立于1981年,其所属公司美国彭博资讯公司是全球最大的财经资讯公司。彭博社在全球拥有超过146家的新闻分社,2300多名新闻编辑和记者。
https://www.bloomberg.com/
数字媒体及独立调查机构
Axios
美国新媒体创业公司,成立于2017年,为用户提供可靠的新闻及权威分析。
https://www.axios.com/
Quartz
新兴数字化媒体,成立于2010年,为用户提供鲜活的商业资讯的同时,也提供全球视野的智能化新闻。
https://qz.com/
ProPublica
非营利性新闻机构,致力于与公共利益有关的调查性报道。他们的记者常常与《纽约时报》、《洛杉矶时报》、美国有线电视新闻网等新闻机构进行合作,合作作品曾多次获普利策新闻奖。
https://www.propublica.org/
BuzzFeed Investigations
BuzzFeed是一家数字媒体公司,为全球数以亿计的人提供新闻和娱乐,BuzzFeed Investigations则是其中的一个团队,由来自全球的调查记者组成。
https://www.buzzfeed.com/investigations
McClatchyDC
McClatchy是美国上市的出版公司,在美国14个州经营29份日报,曾收购美国第二大报业公司jwdsh Ridder。McClatchy的记者曾先后9次获得普利策奖,McClatchyDC为该公司一家新闻机构,主要致力于美国的政治新闻报道。
http://www.mcclatchydc.com/
Politico
美国政治新闻网站,在2008年美国大选中因大量的分析和精彩的评论一举成名。Politico美国网站的访问量每月可达2600万人次,欧洲网站的访问量也达150万人次。此外,他们还出版印刷报纸,发行量达32000份。
https://www.politico.com/
Bureau of Investigative Journalism
位于伦敦的非盈利媒体机构,专门出品深度调查新闻,不受外力胁迫。
https://www.thebureauinvestigates.com/
The Intercept
得到First Look Media资助的新闻网站,创办之初曾刊发过斯诺登泄露的文件,揭露了美国国家安全局的高级机密。
https://theintercept.com/
Revealnews
美国第一家非赢利性新闻组织,专注于调查性报道。其内容经常涉及与政府相关的欺诈、环境恶化、公共安全等题材。
https://www.revealnews.org/

最后,尽管这些媒体的可信度较高,但读者在浏览新闻时要注意这些新闻是否是为第一手消息,同时,也要注意他们是否存在扭曲事实的做法。不论是媒体人还是读者,增强自身的媒介素养才能辨明真假,获得最真实、有效的新闻源。

LibSVM数据
LibSVM数据格式是一种数据表示方式,是一种稀疏矩阵格式。这里列举了很多分类、聚类等任务的数据,都是以LibSVM格式存储的。

微软公开数据
微软研究院公开数据,包含计算机、生物等领域

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。