知识图谱的由来
知识图谱概念是google在2012年提出的,当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。
维基百科比较专业的介绍如下:
知识图谱,也称为科学知识图谱,它通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。科学知识图谱已经历了从二维图表、三维构型(3DCN)、多维尺度图谱(MDSM)、社会网络分析图谱(SNAM)、自组织映射图谱(SOM)、寻径网络图谱(PFNET)等几个发展阶段。
结合网络资料和自己的理解通俗描述如下:
通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱基于数据源提供了从“关系”的角度去分析问题的能力。知识图谱在国内属于一个相对新兴的概念,目前国内paper都比较有限,应用方主要集中在BAT这类手握海量数据的企业。
知识图谱的应用价值
知识图谱最大的优势是在于对数据的描述能力非常强大,各种机器学习算法虽然在预测能力上不错,但是在描述能力上非常弱,知识图谱刚好填补了这部分空缺。从技术业务的角度来说,知识图谱应用的价值本质上是大数据+AI技术+现实场景的产物。
通用和领域知识图谱
知识图谱分为通用知识图谱与领域知识图谱两类,两类图谱本质相同,其区别主要体现在覆盖范围与使用方式上。通用知识图谱可以形象地看成一个面向通用领域的结构化的百科知识库,其中包含了大量的现实世界中的常识性知识,覆盖面广。
领域知识图谱又叫行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个基于语义技术的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求。
语义集成
语义集成的目标就是将不同知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互提供语义互操作性。常用技术方法包括本体匹配(也称为本体 映射)、实例匹配(也称为实体对齐、对象共指消解)以及知识融合等。语义集成是知识图谱研究中的一个核心问题,对于链接数据和知识融合至关重要。语义集成研究对于提升基于知识图谱的信息服务水平和智能化程度,推动语义网以及人工智能、数据库、自然语言处理等相关领域的研究发展,具有重要的理论价值和广泛的应用前景,可以创造巨大的社会和经济效益。
语义搜索
知识图谱是对客观世界认识的形式化表示,将字符串映射为客观事件的事务(实体、事件以及之间的关系)。当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。语义搜索利用知识图谱可以准确地捕捉用户搜索意图,借助于知识图谱,直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。
基于知识的问答
问答系统(Question Answering, QA)是指让计算机自动回答用户所提出的问题,是信息服务的一种高级形式。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。华盛顿大学图灵中心主任 Etzioni 教授 2011 年曾在 Nature 上发表文章《SearchNeeds a Shake-Up》,其中明确指出:“以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态”[Etzioni O., 2011]。因此,问答系统被看做是未来信息服务的颠覆性技术之一,被认为是机器具备语言理解能力的主要验证手段之一。
国内外公司落地探索应用
知识图谱技术
知识图谱技术
人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将人们对世界认知联系在-起的纽带。知识图谱以结构化的形式描述客观世界中概念、实体及其关系。知识图谱技术是知识图谱建立和应用的技术,是语义Web、自然语言处理和机器学习等的交叉学科。知识图谱技术分为三个部分:知识图谱构建技术、知识图谱查询和推理技术,以及知识图谱应用。在大数据环境下,从互联网开放环境的大数据中获得知识,用这些知识提供智能服务互联网/行业,同时通过互联网可以获得更多的知识。这是一个迭代的相互增强过程,可以实现从互联网信息服务到智能知识服务的跃迁。
知识图谱构建
知识图谱从构建到应用的总体思路如下:
其中个别核心模块原理解释如下。
知识表示与建模
知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。
知识表示学习
随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量,实现了对实体和关系的分布式表示,可以高效地对实体和关系进行计算,、缓解知识稀疏、有助于实现知识融合,已经成为知识图谱语义链接预测和知识补全的重要方法。由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,因此对于知识库的构建、推理和应用具有重要意义,值得广受关注、深入研究。
实体识别与链接
实体是客观世界的事物,是构成知识图谱的基本单位(这里实体指个体或者实例)。实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。实体识别是识别文本中指定类别的实体。实体链接是识别出文本中提及实体的词或者短语(称为实体提及),并与知识库中对应实体进行链接。实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。实体识别技术可以检测文本中的新实体,并将其加入到现有知识库中。实体链接技术通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。
实体关系学习
实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。实体关系抽取分类预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,比如知识图谱中定义好的关系类别,如上下位关系、国家—首都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。实体关系识别是知识图谱自动构建和自然语言理解的基础。
事件知识学习
事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应用,事件有不同的描述范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。
知识图谱中的事件知识隐含互联网资源中,包括已有的结构化的语义知识、数据库的结构化信息、半结构化的信息资源以及非结构化资源,不同性质的资源有不同的知识获取方法。
知识图谱查询和推理计算
知识存储和查询
知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。因为知识图谱的结构是复杂的图结构,给知识图谱的存储和查询带来了挑战。当前目前知识图谱多以三元存在的 RDF 形式进行存储管理,对知识图谱的查询支持 SPARQL 查询。
知识推理
知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。