@TOC[1] Here's the table of contents:
•一、新一代分布式架构•二、数据流通与数据交易•三、业务模型和数据模型•四、知识图谱数据生产•五、图数据研究中心实战案例•六、推荐链接
DTCC | 2021中国图数据库技术大会链接分享
在本届
DTCC
大会,Neo4j公司技术专家将分享Neo4j是如何在特性和架构上既满足功能和性能要求、同时提供最佳的可扩展性。对图数据技术感兴趣的小伙伴可以在下方链接了解详情。另外本文中分享一些,自己对于图数据技术粗浅的理解和经验。
一、新一代分布式架构
对图数据库是否适合传统分布式架构还是
Fabric架构
?Fabric思想
是比传统分布式架构更高维
的分布式架构设计,新一代分布式架构适应性、扩展性更强,同时该架构可以兼容传统的集中式架构和分布式架构架构上的降维打击。容量
与性能
?Fabric架构可以完全继承集中式和分布式存储引擎的优点,实现不同存储引擎的连接但是对数据模型一致性有更高的要求,运维复杂性也会更高。
二、数据流通与数据交易
数据
流通
与数据交易
场景下,借助Fabric架构可以实现数据的快速集成和流转。使用业务模型和数据模型的自动翻译技术,实现模型层面的流通、建立信任和激励机制,可以加速数据标准
的真正落地。
三、业务模型和数据模型
业务模型
和数据模型
?业务建模相关资料[2];数据模型相关资料[3]。业务模型是前台业务人员可以快速理解和使用的模型,传统的数据工程中数据工程师需要懂业务才可以精确地将业务模型翻译
为数据模型,而且这个过程完全是人工处理。真实的数据工程场景下,数据模型和业务模型不是一一对应的关系而是更加抽象的建模,因此业务人员直接使用底层数据是非常难懂地,通常需要借助一些贴合业务的系统来可视化获取、处理、理解数据。
四、知识图谱数据生产
目前企业建立的知识图谱大部分都是垂直领域的知识图谱。结合Fabric架构的数据平台引入区块链等技术建立数据信任机制、激励机制,可以加速全域数据的集成、在理论上可以实现一套
全域知识图谱
数据构建的平台技术。
五、图数据研究中心实战案例
在实际生产中,我们使用图平台解决的问题是智能投研分析中面临的数据获取效率、数据关联等问题。综合考虑性能、成本、稳定性、扩展性、社区成熟度等因素,我们使用基于Neo4j的开源衍生图数据库
ONgDB
搭建图平台,通过二次开发和插件工具的集成。已经基本满足深度学习模型训练
调用数据和智能搜索
的需求。通过半自动化生产工具olab-etl
实现图数据的持续高效生产;通过联邦查询技术
实现MySQL、Oracle、SQL server、Elasticsearch、MongoDB、Neo4j、ONgDB等本平台外部存储引擎的快速集成,集成后的数据可以使用Cypher标准化接口查询,同时实现了外部存储引擎数据的虚拟图化翻译
(所有的存储引擎走一样的Query接口标准,初步实现了图平台上One Query标准
)。展示一个样例工作台图片(基于ONgDB二次开发的工作台和其它基础图数据工具做为基础支撑),图数据工程师在该工作台使用标准的Cypher Query接口可以实现图数据库、传统数据仓库、搜索引擎等其它存储引擎数据的获取,即不用切换出该平台即可获取其它地方的数据(返回结果可以是列表、虚拟图等多种格式);分析型查询可以一键调用,可以提升数据处理和分析的效率。
六、推荐链接
图数据库技术专场解析|DTCC2021中国图数据库技术大会
技术动态 | 去中心化知识图谱协作平台建设实践
References
[1]
TOC: DTCC|2021中国图数据库技术大会链接分享
[2]
业务建模相关资料: https://baike.baidu.com/item/%E4%B8%9A%E5%8A%A1%E5%BB%BA%E6%A8%A1/6812236
[3]
数据模型相关资料: https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%A8%A1%E5%9E%8B/1305623
[4]
图数据库技术专场解析|DTCC2021中国图数据库技术大会: https://mp.weixin.qq.com/s/g7M65FARjhyeRdf9kAflug
[5]
技术动态|去中心化知识图谱协作平台建设实践: https://mp.weixin.qq.com/s/T6hJlyrLzmCrwuCLS2HoRQ