1. 首页 > 基金定投

金融知识库(如何构建金融知识图谱)

 

 

 

 

 

 

1 什么是知识图谱?

知识图谱是Google提出来的一个新概念:“知识图谱本质上是语义网络(Semantic Network)的知识库”。

简单而言,知识图谱就是把所有不同种类的信息连接在一起而得到的一个复杂关系网络。

图是由节点(Vertex)和边(Edge)来构成,节点也可以称为“实体(Entity)”,边也就是“关系(Relationship)”。实体指的是现实世界中的事物比如人、手机号码、公司等,关系则用来表达不同实体之间的某种联系。

例如,A客户是B客户的紧急联系人,客户是实体,紧急联系人是关系。C号码与D号码有“通话”,号码是实体,而通话是关系。

2 为什么金融业务需要知识图谱?

2.1 风控

金融业务无论以何种形式存在及发展,其核心问题仍然是风控。

现状: 目前绝大多数互联网金融业务的核心风控能力仍然延续着传统金融风控方法,大数据分析多数采用的是评分卡方式,这种方式集统计分析与可解释特性在金融风控中得到大规模的应用。因此在传统方法的基础上,行业的一种普遍做法是尽量扩大分析变量的维度,尽可能收集用户的行为信息,尽可能多地接入第三方数据,然后加入到模型中来,并使用越来越复杂的模型,来提高预测的精度。

解决: 知识图谱将基于个体的决策上升为基于同质性群体的决策。风险(尤其是欺诈风险)往往隐藏在复杂的关系网络之中。由于关系网络中的社区代表了具有某些相近特征的人群,因此同一个社群中的个体的往往具有同质性的风险。知识图谱使得风险控制从个体上升到群体,突破了基于个体的风控的局限。

2.2 精准营销

获客与营销是金融业务保持竞争力的助推器。

现状: 随着移动互联网迅速发展,信息不对称被逐渐夷平。金融服务主体和金融产品近年来呈爆发式增长,市场竞争也越来越激烈,金融机构的获客成本越来越高。选择什么样的客群,如何触达目标客群,提供什么样的产品和利率才能吸引目标客户?成为每个金融机构日益关心的问题。

解决: 在具有明显社区结构的复杂关系网络中 , 聚集在同一社区的个体往往具有同质性,他们的需求、偏好往往也相似。我们可以通过关系网络的社群发现,来定位目标客群,使得基于群体的精准营销与获客成为可能。

3 复杂网络社区探测的一些基本知识

3.1 网络聚类

复杂网络社区探测 ( 又称网络聚类 ) 的目的就是要探测并揭示出复杂网络中固有的社区结构 。 2004 年 , Newman 等 基于对 “ 网络社区结构越明显 , 它与随机网络之间的差异也就应该越大 ”这一直观现象的思考 , 提出了一个可定量评价网络社区结构优劣的度量标准 , 被称为网络模块性函数(Q)。此后 , 以 Q 函数为目标函数的组合优化方法成为探测网络社区结构的主流方法之一 。

同一社区内之结点相互连接紧密、而不同社区间之结点相互连接稀疏

3.2 Q函数

Q 函数的定义为 : 网络社区内实际存在的关系数与完全随机的连接情况下社区内期望的关系数之差。

给定一个无向无权网络 N(V,E), 假设点集 V被划分 ( 聚类 ) 为若干个社区 . 若网络中任一结点 i的标签为 r(i), 它所属的社区为 c r(i) , 则 Q 函数可被定义为:

 

  • 其中 , A=(Aij)n×n 表示网络 N 的邻接矩阵 , 如果结点 i 与 j 之间存在边连接 , 则 Aij=1, 否则 Aij=0;
  • 函数 δ(u, v), 如果 u = v , 其取值为 1,否则取值为 0;
  • ki 表示结点 i 的度 , 被定义为 ki=∑jAij;
  • m表示网络 N 中总的边数 , 被定义为 m=1/2∗∑ijAij .

汉森老师用EXCEL做了一个Q函数进行网络聚类的DEMO,需要的小伙伴可以关注 汉森定理 公众号,发送关键词“Q函数”获取。

3.3 LGA (Genetic Algorithm with Local Search)

LGA算法这个算法是金弟博士2011年《自动化学报》上发表的《 局部搜索与遗传算法结合的大规模复杂网络社区探测》一文提出的。

 汉森老师与这个算法真的很有缘分,汉森老师在负责知识图谱的建设时,苦于很多网络聚类算法效率都不高,无法实现在线的网络聚类,只能离线跑批,直到看到了这篇论文。然后发邮件找论文作者金弟博士要来了该算法MATLAB源码,然后将这个源码做了优化,用MATLAB将该算法转成立C++代码,再让团队的小伙伴雄斌封装成了python库,可以直接调用。

局部搜索与遗传算法结合的大规模复杂网络社区探测算法,是以Q函数作为目标函数的网络社区探测算法。

值得指出的是,当前大多网络社区探测算法的时间复杂度都不小于 O(n2),LGA时间复杂度为O(cn) 且其中的网络平均社区规模c要远小于整个网络规模n。因此,LGA很适合于聚类真实世界中的大规模复杂网络。

 

4 知识图谱的具体应用

4.1 反欺诈与信用评估

基于知识图谱的风控主要从团伙欺诈检测、中介检测、失联修复等。

欺诈团伙检测:

通过社群检测算法,根据客户不同的,然后将群标签传递给图数据库系统,由图数据库系统统计客户所在群体的首逾率,逾期率,失联率等,根据所在群体的贷后表现,判断客户逾期的可能性。

 

信息冲突检测:

通过检测会员信息共用现象,交叉判断一个借款人的欺诈风险,从而,将信息冲突现象检测推送出来,发出欺诈团伙预警通告。

中介检测:

通过社群检测算法,对客户进行分群,根据群体的中心人物分析,判断起关键性角色的客户,通过这些客户标签传播判断风险可能性。

 

4.2 智能获客与精准营销

人以类聚,物以群分,复杂关系网络可以精准挖掘客户关系网中的潜在客户和需求,从而实现更加精准的营销。

4.3 扩展风控模型的维度指标

群统计变量和群特征变量如度、度中心性、紧密中心性、平均最短路径长度、聚集系数等,可以扩充风控模型的维度和信息。

都看到这里了,双击屏幕点个赞,再走吧!

5 知识图谱系统设计概述

5.1知识图谱系统总体流程

金融知识图谱系统的流程图如下所示:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。

联系我们

在线咨询:点击这里给我发消息

微信号:666666