cora英文发音,qualitative data例子

Cora数据集(引文网络)由机器学习论文组成，是近年来图形深度学习中常用的数据集。该数据集共有2708个采样点，每个采样点为一篇科学论文，所有采样点分为8个类别，每个类别如下

1 )案例库2 )遗传算法3 )神经网络4 )概率方法； 5 )强化学习6 )规则学习7 )理论

各论文用1433维单词向量表示，因此每个样本点具有1433个特征。单词向量的每个元素对应一个单词，该元素只有两个值： 0或1。取0表示论文中没有与该要素对应的词，取1表示论文中有。所有的词都来源于1433个词的词典。

每篇论文至少引用了一篇其他论文，或被其他论文引用。也就是说，采样点之间存在联系，任何采样点都与其他采样点完全没有联系。如果把样本点看作图中的点，这是连接起来的图，不存在孤立点。

文件格式：下载的压缩包有三个文件： cora.cites、cora.content和README。

自述是数据集的介绍；cora.content是所有论文的专有信息； cora.cites是论文间的引用记录。

1.cora.content共有2708行，每一行代表一个样本点，即论文。每一行由三个部分组成，分别是论文的编号，例如31336；论文的词向量，1433位二进制论文的类别，如Neural_Networks。

2.cora.cites为5429行，每行有两个论文号，第一号论文先写，第二号论文引用第一号论文。

在CiteSeer数据集(引文网络)中，论文分为Agents、AI )人工智能、DB )数据库、IR )信息检索)、ML )机器语言)、HCI六类。

总共包含3312篇论文，记录了论文之间的引用或引用的信息。除去禁止使用的词和文件中出现频率不足10次的词，整理了3703个唯一词。

CiteSeer数据集包含两个文件：content文件和. cites文件。

. content文件描述论文信息的格式为paper _ id word _ attributes class _ label；每行的第一个条目(paper_ID )是每篇论文的唯一编号id，后续条目(word_attributes )包含3703个二进制代码，术语表中的每个单词是否存在于论文中(用1表示)

. cites文件记述了论文间的引用信息，格式如下。每行数据包含两个论文的代码ID，第一个条目(ID of cited paper )表示被引用论文的编号，第二个条目(ID of citing paper )表示被引用论文的编号。

PubMed数据集(引文网络)包含来自Pubmed数据库的19717份糖尿病科学出版物，分为三类：

Diabetes Mellitus，Experimental

Diabetes Mellitus Type 1

Diabetes Mellitus Type 2

引文网络由44338个链接组成。数据集中的每个出版物都是使用词典中的TF/IDF加权单词向量编写的，该向量由500个唯一单词组成。

数据集包含以下三个文件：

PubMed-diabetes.node.paper.tab

内容说明如下。 paper_id label=

每行数据的第一个条目(paper_ID )是每篇论文的唯一编号id，第二个条目是“label=”，“”表示该论文的所属类别，包含随后的500个浮点数TF_IDF值，格式为

PubMed-diabetes.graph.PubMed.tab

没用的文件，不要在意

PubMed-diabetes.directed.cites.tab

paper:* | paper:*

每行数据的第一个条目还不知道什么意思。第二个条目的数据和表示被引用论文的ID，第三个条目的数据表示引用论文的ID。

PPI(生化结构)网络是蛋白质相互作用(Protein-Protein Interaction，PPI )网络的简称，在GCN中主要用于节点分类任务

PPI是两种或多种蛋白质结合的过程，通常旨在执行生化功能。一般来说，如果两个蛋白质共同参与一个生命过程或共同完成某一功能，则认为这两个蛋白质之间存在相互作用。多个蛋白质之间复杂的相互作用关系可以用PPI网络描述。

PPI数据集共24个，每个图对应不同人体组织，平均每个节点2371个，共有56944个节点818716条边，每个节点的特征长度为50，其中包括位置基因集、基本序集和免疫学特征基因本体为label (共121个)，label不是one-hot编码。

valid_feats.npy文件存储节点的特性。 shape是(56944，50 )节点数，特性维)，值为0或1，1的数量很少见

ppi-class_map.json是节点的label文件，shape是(121，56944 )，每个节点的label是121维

ppi-G.json文件是节点和链接的描述信息，其中节点： " test " : true、" id " :56708和" val " 3360 false }表示节点id为56708的节点为test集" target " 3360372 }、{ " source " :和" target " 33601101 }表示在节点id为0的节点和1101的节点之间存在链路。

ppi-walks.txt文件中是链接信息

ppi-id_map.json文件是节点id信息

BlogCatalog数据集(社交网络)中的节点数为10312，边数为333983，级别维为39，数据集包含两个文件。

Nodes.csv :将用户信息另存为词典，但只包含节点id。

Edges.csv :通过保存博客社交网络(如朋友)来构建构图。

Yelp数据集是一个酒店管理相关数据集，有668 w条评论、19 w商业设施、20w张照片和10个城市区域，其中包含：个工作日、是否停车、可用性和环境