什么是知识图谱
知识图谱是一种用图模型来描述只是和建模事物之间关联关系的技术方法。
知识图谱由边和结点组成。结点表示实体,边是实体的属性/关系。
知识图谱旨在从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型。 知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术,而知识图谱的应用涉及语义搜索、智能问答、语言理解、决策分析等多个领域。
知识图谱的应用
辅助搜索、辅助问答、辅助大数据分析、辅助语言理解、辅助设备互联。
金融领域的知识图谱
金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报以及新闻的联合抽取。
在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多地以来规则型知识进行投资因素的关联分析 在应用形式方面,主要以金融问答和投顾投研类决策分析型应用为主。
金融知识图谱还有一个显著特点是高动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。
技术流程
知识来源:多种渠道获取知识图谱数据、例如文本、结构化数据库、多媒体数据、传感器数据和人工众包等。每个数据源的知识化都需要综合不同的技术手段。 例如,文本数据源需要综合实体识别、实体链接、关系抽取、事件抽取等各种自然语言处理技术;结构化数据库(关系数据库)需要将结构化数据定义到本体模型之间的语义映射,再通过编写语义翻译工具实现结构化数据到知识图谱的转化。知识表示与 schema 工程:知识表示是指用计算机符号描述人脑中的知识,它决定了知识图谱构建的产出目标。W3F 的 RDF 把三元组作为基本的数据模型,其基本逻辑结构包含主语、谓词、宾语三个部分。知识抽取:按任务可以分为概念抽取、实体识别、关系抽取、事件抽取、规则抽取等。传统专家系统时代的知识主要依靠手工录入;线代知识图谱的构架大多依靠已有的结构化数据资源进行转化,形成基础数据集、再依靠自动化知识抽取和知识图谱不全技术、从多种数据来源进一步扩展知识图谱,并通过人工众包来进一步提升知识图谱的质量。知识融合:指实体和关系元组的融合。补全和推理:基于本体推理的补全方法;基于图结构和关系路径特征的方法;基于表示学习和知识图谱的潜入的链接预测。检索和分析:基于知识图谱的检索实现形式主要包括语义检查和智能问答。
相关技术
数据库系统:知识图谱领域形成了 RDF 数据的三元组库,数据库领域开发了管理属性图的图数据库。 基于三元组库和图数据库能够提供的知识图谱数据存储方案可以分为三类:1. 基于关系的存储方案;2. 面向 RDF 的三元组库;3. 原生图数据库。智能问答:可以分为单知识点问题、多知识点问题。机器推理:基于规则的推理;基于分布式表示学习的推理;基于神经网络的推理;混合推理。推荐系统:区块链与去中心化: