首页 > 编程知识 正文

cora英文发音,qualitative data例子

时间:2023-05-03 17:04:54 阅读:10443 作者:3335

Cora数据集(引文网络)由机器学习论文组成,是近年来图形深度学习中常用的数据集。 该数据集共有2708个采样点,每个采样点为一篇科学论文,所有采样点分为8个类别,每个类别如下

1 )案例库2 )遗传算法3 )神经网络4 )概率方法; 5 )强化学习6 )规则学习7 )理论

各论文用1433维单词向量表示,因此每个样本点具有1433个特征。 单词向量的每个元素对应一个单词,该元素只有两个值: 0或1。 取0表示论文中没有与该要素对应的词,取1表示论文中有。 所有的词都来源于1433个词的词典。

每篇论文至少引用了一篇其他论文,或被其他论文引用。 也就是说,采样点之间存在联系,任何采样点都与其他采样点完全没有联系。 如果把样本点看作图中的点,这是连接起来的图,不存在孤立点。

文件格式:下载的压缩包有三个文件: cora.cites、cora.content和README。

自述是数据集的介绍;cora.content是所有论文的专有信息; cora.cites是论文间的引用记录。

1.cora.content共有2708行,每一行代表一个样本点,即论文。 每一行由三个部分组成,分别是论文的编号,例如31336; 论文的词向量,1433位二进制论文的类别,如Neural_Networks。

2.cora.cites为5429行,每行有两个论文号,第一号论文先写,第二号论文引用第一号论文。

CiteSeer数据集(引文网络)中,论文分为Agents、AI )人工智能、DB )数据库、IR )信息检索)、ML )机器语言)、HCI六类。

总共包含3312篇论文,记录了论文之间的引用或引用的信息。 除去禁止使用的词和文件中出现频率不足10次的词,整理了3703个唯一词。

CiteSeer数据集包含两个文件:content文件和. cites文件。

. content文件描述论文信息的格式为paper _ id word _ attributes class _ label; 每行的第一个条目(paper_ID )是每篇论文的唯一编号id,后续条目(word_attributes )包含3703个二进制代码,术语表中的每个单词是否存在于论文中(用1表示)

. cites文件记述了论文间的引用信息,格式如下。 每行数据包含两个论文的代码ID,第一个条目(ID of cited paper )表示被引用论文的编号,第二个条目(ID of citing paper )表示被引用论文的编号。

PubMed数据集(引文网络)包含来自Pubmed数据库的19717份糖尿病科学出版物,分为三类:

Diabetes Mellitus,Experimental

Diabetes Mellitus Type 1

Diabetes Mellitus Type 2

引文网络由44338个链接组成。 数据集中的每个出版物都是使用词典中的TF/IDF加权单词向量编写的,该向量由500个唯一单词组成。

数据集包含以下三个文件:

PubMed-diabetes.node.paper.tab

内容说明如下。 paper_id label=

每行数据的第一个条目(paper_ID )是每篇论文的唯一编号id,第二个条目是“label=”,“”表示该论文的所属类别,包含随后的500个浮点数TF_IDF值,格式为

PubMed-diabetes.graph.PubMed.tab

没用的文件,不要在意

PubMed-diabetes.directed.cites.tab

paper:* | paper:*

每行数据的第一个条目还不知道什么意思。 第二个条目的数据和表示被引用论文的ID,第三个条目的数据表示引用论文的ID。

PPI(生化结构)网络是蛋白质相互作用(Protein-Protein Interaction,PPI )网络的简称,在GCN中主要用于节点分类任务

PPI是两种或多种蛋白质结合的过程,通常旨在执行生化功能。 一般来说,如果两个蛋白质共同参与一个生命过程或共同完成某一功能,则认为这两个蛋白质之间存在相互作用。 多个蛋白质之间复杂的相互作用关系可以用PPI网络描述。

PPI数据集共24个,每个图对应不同人体组织,平均每个节点2371个,共有56944个节点818716条边,每个节点的特征长度为50,其中包括位置基因集、基本序集和免疫学特征基因本体为label (共121个),label不是one-hot编码。

valid_feats.npy文件存储节点的特性。 shape是(56944,50 )节点数,特性维),值为0或1,1的数量很少见

ppi-class_map.json是节点的label文件,shape是(121,56944 ),每个节点的label是121维

ppi-G.json文件是节点和链接的描述信息,其中节点: " test " : true、" id " :56708和" val " 3360 false }表示节点id为56708的节点为test集" target " 3360372 }、{ " source " :和" target " 33601101 }表示在节点id为0的节点和1101的节点之间存在链路。

ppi-walks.txt文件中是链接信息

ppi-id_map.json文件是节点id信息

BlogCatalog数据集(社交网络)中的节点数为10312,边数为333983,级别维为39,数据集包含两个文件。

Nodes.csv :将用户信息另存为词典,但只包含节点id。

Edges.csv :通过保存博客社交网络(如朋友)来构建构图。

Yelp数据集是一个酒店管理相关数据集,有668 w条评论、19 w商业设施、20w张照片和10个城市区域,其中包含:个工作日、是否停车、可用性和环境

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。