加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码门户网 (https://www.92codes.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

基于动态知识图谱的大规模数据集成解决方案

发布时间:2020-05-30 16:49:17 所属栏目:传媒 来源:站长网
导读:副标题#e# 在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据在这种场景下,如果利用常
副标题[/!--empirenews.page--]

在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据…… 在这种场景下,如果利用常规的数据集成实现手段,就要调整表结构、改写ETL任务代码、删除已经集成过的数据,并重新进行数据集成。但这在大规模数据集成的场景下,几乎是不能接受的,比如已经集成数百张表、入库10PB数据,如果要重新进行一遍集成,可能需要数以月记。这时,具备数据动态集成的能力就十分重要了。 因此,如何在海量数据之上将动态的数据进行关联融合,同时满足融合快速、融合无信息丢失等业务要求,并将新增的数据快速融入到当前的图谱中,不间断提供知识服务是目前的业界难题。

 基于动态知识图谱的数据集成实现方案

常规的数据集成方案通常有以下痛点:

1.只能针对特定行业的数据进行集成,一旦存在多个行业数据交叉融合,需重新定制方案;

2.集成方案不灵活,一旦数据发生变更或有新的数据进入,就需下线业务重新集成,成本巨大。 对此,百分点利用动态知识谱图技术,将模型与数据进行解耦,采用灵活的元数据管理方式,即使元数据变更,已入库数据也无需重新入库。 百分点数据集成实现方案整体架构,包含五个部分:

https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXJiceLoeC5iaibFjV8KW2d6mlnqOKfkYS0NySl0LZsLiaEJt17DnJFVEPkg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

数据源:原始数据,支持各种类型的数据,如结构化数据,RDBMS、NOSQL、MQ中的数据,也可能是各种半结构化的数据,如HTML、PDF、TEXT等各种文档或音频、视频等多媒体数据。同时,系统也支持配置URL,通过互联网爬取的网页数据。

知识管理:知识管理的核心在于对多源异构的数据建立统一的模型,并将不同的源数据映射到统一的知识模型上,最后配置知识的融合规则与冲突解决规则,以形成统一的知识体系。

知识存储:核心的知识库,原始数据经过离线或实时ETL处理后的转换为知识,并与库中存量数据按照模型的配置进行知识拉通、融合、冲突解决后,供上游系统消费。

后台管理:实现对系统的监控、告警、日志审计以及资源管理、调度管理,并对采集到的数据进行统计分析,以改善整个动态知识图谱的运作效率。

知识应用:支持全局知识库联合搜索、图谱分析、地图分析、知识的多维度分析、多人多机协同分析以及战法分析,除通用的各种分析手段外,还支持特定行业的定制化分析应用。
由上可知,整个架构中最重要的部分为以知识管理为核心的知识图谱建模方式,以及知识存储为核心的动态存储设计,本文也将着重对以上两点进行解读。

以知识管理为核心的知识图谱建模

本体模型是数据世界对现实世界的映照,同时也是一种数据的分类、建模方式。在实际项目中,用户面对着海量多源的、异构的数据,非常难以进行数据分析。

 为了解决这一问题,本项目引入了本体模型,对异构数据进行统一建模,并在字段级别进行了归一化,多源异构数据源通过抽取、转换、清洗变成统一的本体模型后,可为上层应用或分析人员暴露更加友好的接口,从而提供便利。 值得注意的是,在本项目中,本体模型是由业务人员进行配置的。业务人员可以建立四种类型的本体,包括实体、事件、文档、关系,具体解释如下: 

实体:能够独立存在的人或事物,例如:

1. 人物: 凡是可以用于标识“人”的东西,都可以当作人物,包括虚拟的社交账号,实际中的手机号,具体的人等;
2. 物品: 包括真实的手机,电脑,各种真实物品;也包括IM工具,各类软件等虚拟物品;
3. 组织: 包括真实的各类组织,如ISIS组织,政府单位,慈善组织等各类真实的组织;也包括QQ群,聊天室等各类虚拟组织;
4. 位置: 包括某具体的地理位置,如政府大楼;也包括LAC地址,IP地址等虚拟空间。

 事件:有时间属性,视为一种特殊的关系,用于连接实体与实体,实体与文档。本项目中,事件主要指现实生活中的内容,如发邮件、发短信、转发帖子、发表评论等。 

文档:文档特指非结构化文档,如邮件中的各种格式的附件,包括但不限于PDF文档、Word文档,以及各种格式的视频、音频。

 关系:用于连接实体之间,实体与事件、文档等的相互关系,如人与人之间的亲属关系,人与物品之间的拥有关系,人与事件之间的主导关系。

在创建本体时,不光要指定本体的类型,还需要对本体所包含的字段与对应的字段类型进行配置,从而进行字段级别的归一化。此项目支持的字段类型有date、long、int、double、string和geo。特殊字段还会进行数值的归一化,如时间格式有多种表现形式,这里会转换为统一的形式,方便后续处理。

以车管所数据为例,通过车管所的数据可以建立一种人-车-罚单的本体模型,人与车之间为拥有关系;人与罚单之间通过“闯红灯”事件相连接,而罚单本身则以文档的形式展现。完成本体模型后,就完成了对元数据的描述。

 https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXUr1Q64UEsJ93TUXWuHz55hSmCricOGpFA6n8KG6iagxp7rSNHFHZ99dw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

接下来,就需要将真实的数据映射到本体模型上。同时,要在字段级别上对多源异构数据进行归一化。还以车管数据为例,具体过程如下图所示,可以看出,通过本体映射将车管所3张表的数据映射到了 7个本体上(2个实体、3个关系、1个事件和1个文档),并将车主名称和姓名进行了统一,将日期的不同表示方式进行了归一化。


https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTX2kY06cm5ZYibMd89GbTP4nk2qCD5LW3ZMPXTA7ticnEXutgvYMYFk2icA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

(编辑:源码门户网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读