知识图谱的主要流程,会计概述重点知识

知识图谱核心技术(一)知识图谱概述前言：知识图谱作为一个新的研究领域，极大地推动了人工智能的智能化发展。传统意义上的人工智能大多以数据驱动为核心，但离智能化还有一定差距。知识图谱作为以知识为中心的核心，赋予人工智能应用知识的力量，使计算机具有推理力、解释力。博主经过多年的研究，结合自己的论文阅读和科研经验，以复旦大学知识工厂团队撰写的《知识图谱概念与技术（肖仰华）》为理论支撑，撰写了《知识图谱核心技术》博客文章。

一、知识图谱概念知识图谱最初是谷歌公司智能检索的产品名称，由谷歌于2012年提出，随着知识图谱的发展，逐渐成为研究领域和工程。由此，知识图谱的概念可以分为狭义和广义两个层次：

狭义上，知识地图是知识表示，本质上是大规模语义网络；在广义层面上，知识地图是工程技术的总称，在新兴的学科或研究领域1.1狭义知识地图概念知识地图狭义层面上，其本质是大规模的http://www.Sina 或者是包含3358www.Sina.com的地图数据结构，因此，经过科学家们的研究和总结，知识地图是用图的结构描述结构化知识的表现方式，其基本要素由节点和边构成。

语义网络:在哲学中，是指可以独立于实体存在的一切属性的基础和万物的本质。实体是属性存在的基础，是相互独立的客观存在。在计算机领域，可以认为实体是可以明确指定的人、物等。例如，“北京”可以是一个实体。现阶段的实体基本可以分为人名、地名、机构名称、时间、数字等；概念：概念属于抽象在实体之上的范畴，可以理解为一种实体的总称。例如，实体的“北京”、“纽约”都可以统称为概念的“首都”。因此，概念不能指具体的客观存在，但可以指某种东西；属性和值：每个实体都有属性和值。当然，实体也可以用作另一个实体的属性。例如与实体"中国"属性"首都"对应的值为"北京"；关系与属性：关系用于建立实体与实体、实体与概念以及概念与概念之间的语义逻辑关系。以下总结了实体、概念和值的组合实体（Entity）。语义关系可以是预定义的关系，也可以是自由文本描述。例如，实体“Obama”和“US”的关系可以是“president” 概念（Concept）以及:属性关系，而关系可以是特殊属性。例如，实体“中国”和“北京”的关系可以是属性“首都”、“平静的白天”属性“北京”:通常包括包含和包含的关系，即subclassOf实体:由于概念是实体的一种总称，类比面向对象编程思想，概念相当于类，实体相当于类实例化的一个对象，所以实体与概念的关系是实例化的例如，实体“北京”是概念“首都”的一个实例。

知识地图的基本单位是三元组(Triple )，也称为事实)，是描述结构化知识的基本组成部分。对于实体和实体之间构成的三维组，通常可以表示为(h、r、t ) (h、r、t ) )，其中h、r、t h、r、t分别表示头实体、关系、尾实体；对于概念和概念或概念和实体，(s，p，o ) ) ) s，p，o ) ) s，p，o ) )。在此，s、p
, o s,p,o s,p,o 分别代表主语、谓语和宾语。
1.2 知识图谱与语义网的区别
知识图谱的本质是语义网，但又区别于传统的语义网络，其相比语义网络的优势可以体现在如下几个方面：
规模巨大：知识图谱的规模巨大，是大规模的语义网，其涵盖的概念、实体以及关系数量是大规模的；语义丰富：知识图谱中的语义关系丰富，建模方式多样；高质量：多样化大规模的知识图谱涵盖的知识具有一定的准确性，其可以依赖于专家、众包，或启发式的海量数据统计等方法来对知识进行质量保证；结构友好：知识图谱的基本单位是三元组，可以保存为资源描述框架（Resource Description Framework，RDF），或采用关系型或图形数据库存储，其次其可以高效的转化为计算机可读数据，并实现计算与推理；
知识图谱也有一些不足之处，相比语义网络体现在：
模式的缺失：知识图谱通常在一个预先设置的模式下完成，例如对于属性“身高”会预先设置值域，但现实中无法保证所有人的身高一定不会不在值域范围内；不完整性：知识图谱通常限制于封闭世界，而可能造成知识的不完整，不全面问题；构建的条件：目前构建知识图谱分为自上而下的人工构建和自下而上的自动构建。前者精度高但过度依赖于专家和人工标注，且很难实现大规模；后者则精度会下降，且依赖于海量数据，对小样本少量数据的自动构建更加困难。 1.3 知识图谱与本体的区别
本体源于哲学的本体论，其侧重于对客观事物的规定和刻画。例如我们要构建一个汽车领域的知识图谱（参考博客：汽车知识图谱），那么“汽车”可以作为一个概念，其具体的实例实体可以有“特斯拉”、“奥迪”等等。因此我们可以为概念“汽车”定义一个本体，其包含定义好的属性“车型”、“年限”、“排量”等，以及与之相连的一些其他实体和关系。在给定一个具体的实例“特斯拉”时，则可以依据事先定义的本体来分别从海量数据中，或通过专家来获取相应的值。

因此，计算机领域内的本体侧重表达认知的概念框架，表达概念之间的语义关系，伴随着刻画概念的公理系统。本体可以理解为一种语义网络的预先定义的框架或模式，依据事先定义的框架和模式而为具体实例化的实体构建相关的结构化知识。换句话说，本体相当于程序设计语言中的接口，已经实现实现了各个接口之间的继承等关系，而相应的类与类之间的关系都需要以实现定义的接口为基础。
1.4 广义的知识图谱概念
广义上，知识图谱是属于一种新兴的学科或研究领域，是一种工程。例如在基于深度学习的知识图谱综述中，知识图谱视为一种工程，其包含数据获取、信息抽取、知识融合和知识加工等几个流水线步骤。知识图谱也隶属于知识工程，其从属关系由小到大可以表达为：

知识图谱 < 知识表示 < 知识工程 < 人工智能知识图谱<知识表示<知识工程<人工智能知识图谱<知识表示<知识工程<人工智能

知识工程源于符号主义，传统的知识工程主要依赖于专家与人工规则，其基本流程可以表示为下图：

二、知识图谱的价值
知识图谱带来的价值和意义可以总结为：
机器认知能力的核心是“理解”和“解释”，知识图谱可以促进机器的认知；知识图谱可以引入大规模、语义丰富、结构友好和高质量的背景知识；知识图谱带来更强的解释性，更像人类一样利用概念、属性、关系去解释现象和事实；知识图谱可以起到增强作用：包括数据增强、语义增强等，引入外部知识库可以提升模型的综合性能；知识图谱在包括智能搜索、问答系统、推荐系统等工业领域内有巨大的应用价值；三、知识图谱的分类
从知识的角度来分类，可以分为：
事实知识（Fact Knowledge）：其表示关于某个特定实体的基本事实，主要以DBpedia、Freebase等为主；概念知识（Taxonomy Knowledge）：表达概念与概念之间的知识（例如subclassOf）和实体与概念之间的知识（isA），典型的知识库有YaGo；词汇知识（Lexical Knowledge）：包括实体与词汇以及词汇与词汇之间的关系，通常是一种描述语法、词法方面的知识库，例如WordNet；常识知识（世界知识）（Commonsense Knowledge）：是一些广为人知但很少被提及的知识，比如人类是动物，鸟会飞等，典型的知识库有Cyc、ConceptNet
从领域特性角度来分类，可以分为：
领域知识图谱（Domain KG）：即特定行业或领域的知识，表达的知识内容更为具体；通识知识图谱（General KG）：通常涵盖范围没有限制，但包含的深度和粒度较为粗浅；