数据中台标准技术方案

数据中台标准技术方方案
1 数据中台概述
1.1
数据中台介绍
因为在当今互联网时代,用户才是商业战场的中心,为了快速响应用户的需求 , 借助平台化的力量可以事半功倍 。然而第一之前在传统企业信息化建设中企业为了满足单一业务场景需求而搭建的传统技术架构 , 其底层技术选型大都无法支撑现有大数据应用场景 。由此形成的技术壁垒,往往使得企业转型成本激增甚至无法实现转型;第二在企业不断发展的过程中伴随着业务的多元化发展,企业信息部门单独建设或重建全新业务系统,逐渐形成了一个个相互独立的数据中心,从而导致大量系统、功能和应用的重复建设,更造成了计算存储资源和人力资源的浪费;
第三企业由于业务发展带来的组织壁垒而形成的数据孤岛,是数据壁垒最典型的场景 。它使得企业数据难以被全局规划和定义,从而导致数据价值无法被充分挖掘 。传统信息化建设往往以满足业务流程结果做为唯一标准,忽视了过程数据和关联数据 。传统的数据平台和其所谓的三层技术架构:前端展示层、中间逻辑层、后端数据层,已经无法完善的解决上述三个问题并实现以用户为中心的业务提升的 。
当前企业数据的爆炸式增长以及价值的扩大化 , 数据将对企业未来的发展产生深远的影响,数据将成为企业的核心资产 。数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径 。
数据中台把数据统一之后 , 会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务 。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的 , 它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在 。
1.2
数据中台的价值
中台从公司战略角度,将这些行为进行了规范化,公共的部分交给公共系统部门去做 。中台实际上是通用业务的下沉,企业在一个行业耕耘多年之后 , 一般都会形成一些公用的业务,而这些业务是可以像中间件那样进行下沉共享的 。政府企业机构等对内对外有了统一的业务系统、管理平台等等,就不会再有各种业务系统孤岛 , 不会有数据打通问题,不会有跨部门的数据墙 。
有了统一的中台,也就有了统一的数据规范 。对于大数据相关的需求,可以从相对唯一的数据出口进行业务迭代,不需要为每一个部门进行定制开发,浪费人力 。
1.3
数据中台设计原则
1.3.1 数 据 的 一 致 性 与 标 准 性
除遵循数据库设计的软件行业标准外,还要遵循国家、地方标准及行业的习惯性事实标准 。此外,数据中台的建设中将充分考虑客户已建系统的数据,确保与客户现有数据的一致性和标准性 。
1.3.2 数 据 的 实 用 性 与 服 务 性
数据中台设计充分考虑实际情况和应用特点,遵循“服务性与实用性并重”的原则 , 通过数据整合与治理,数据高度可共享、和可根据实际需求不断灵活组合 , 为业务应用服务,数据质量高,保证数据的实用性 。
1.3.3 数 据 的 独 立 性 与 可 扩 展 性
设计时需要做到数据中台的数据具有独立性,独立于应用程序,使数据中心的设计及结构的变化不影响程序,反之亦然 。另外,数据库设计要考虑其扩展性能,使得系统增加新应用或新需求时,不至于引起整个数据中心结构的大变动 。
1.3.4 数 据 安 全 性
通过设计合理和有效的备份和恢复策略,确保数据中心遭遇突发事故时 , 能在最短的时间内恢复 。同时,通过做好对数据中台的访问授权设计,保证数据不被非法访问 。
1.3.5
数据分级管理机制
根据用户访问数据中台的角色,将用户分成决策分析用户、系统管理用户、运行浏览用户和运行调度用户等几个角色,分别赋予角色访问数据的权限和使用系统功能的权限 , 严格控制角色登录,实现数据的分级管理 。
1.4 数 据 中 台 设 计 方 法
1.4.1
基 于 面 向 服 务 的 架 构 方 法 ( SOA )
基于面向服务的架构方法(Service-Oriented Architecture,SOA)采用基于面向服务的架构方法,构建智慧城市运营中心的业务流程和IT 架构 。SOA(面向服务的体系结构)将政府中各个系统应用程序的不同功能单元抽象为服务 , 通过这些服务之间定义良好的接口和契约联系起来 。接口是采用中立的方式进行定义的,它独立于实现服务的硬件平台、操作系统和编程语言 。这使得构建在各种各样的系统中的服务能够通过统一和通用的方式进行交互 。SOA 架构由服务总线、服务目录、门户、流程管理等几个核心组件构成的 。这些核心组件协同工作共同支撑服务的部署、运行与管理监控 。
1.4.2
业 务 系 统 规 划 法 ( BSP )
业务系统规划法(BusinessSystemPlanning,BSP)的关键思想是将业务的长期战略目标转化为信息系统的战略目标,通过对业务战略的分析导出信息系统的规划 。
业务系统规划法(BSP)采用的基本方法是“自顶而下”的识别业务目标、企业过程和数据“自下而上”地分布设计系统,这样可以解决大型系统难以一次性设计完成的困难,也可以避免自下而上分散设计可能出现的数据不一致 。
业务系统规划法(BSP)的规划步骤:
(1)准备工作;
(2)调研;
(3)定义业务过程;
(4)业务过程重组;
(5)定义数据类;
(6)定义信息系统总体结构;
(7)确定总体结构中的优先顺序;
完成 BSP 研究报告,提出建议书和开发计划 。
1.4.3
系统工程理论
系统工程方法将相关问题及情况分门别类 , 确定边界,侧重各门类之间内在联系,确保处理方法的完整性,采用全面和运动的观点、方法分析主要问题及整个过程 。其具有综合性、科学性、实践性的特点 。利用系统工程理论指导软件开发和维护,主要使用工程化概念、原理、技术及方法开展软件开发、维护的工作 。采用系统工程方法是用系统的原理、方法研系统的对象,立足整体系统,制作出科学的工作计划及流程,有效的完成任务 。
系统工程方法依从系统全局观点,从系统与要素、系统与环境之间相互联系、相互作用出发研究相关对象,实现最佳处理问题的目标 。
其基本内容有:全面调查研究有关资料和数据,提取有效信息 , 系统了解相关问题信息,进一步确定完成任务所需条件:提出相关方案 , 展开定性和定量的理论分析,进而进行实验研究,客观评价系统技术性能、经济指标,注重社会效果 , 为最终方案在理论和实践上做铺垫;经由系统分析与综合,比较和鉴别出最优系统设计方案进行实施;依据系统设计方案,指定有效计划 , 将开发研究出的系统投入使用,并对系统的性能、工作状态及社会反应做出相关评价和检验 。系统工程方法在计算机软件方面应用广泛,同时起着重要作用 。结合系统工程方法的特点,在计算机软件设计阶段可规范其流程 , 促使计算机软件设计进程加快,同时提高开发人员的工作效率,为软件系统研发速度的提高打下基础 。
2 数据中台核心功能
2.1
技术架构
目前各政府机构和企业的信息化平台数据按结构类型主要分为三种,分别是:结构化数据、非结构化数据、半结构化数据三大类;结构化数据存储在关系型数据库中;非结构化数据主要包括音视频、图片、文档等 , 通过分布式文件系统在数据库进行统一管理;半结构化数据是结构化数据的一种形式,但它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,例如:日志文件、XML 文档、JSON 文档、Email 等 。建设数据中台的过程中 , 这三类数据都会做为数据源出现,因此数据中台要能够妥善的处理这三种类型的数据 。
数字中台基于数据资源多样性的特点和能够高效支持业务的目标,结合设计规划方法论、原则和规划思路 , 统一数据资源体系规划建设大数据采集感知体系、数据资源融合体系和信息共享服务体系 , 将数据安全和数据标准融入三大体系之中,通过智能演进不断提升数据接入、处理、组织、挖掘、治理和服务的能力,不断丰富和完善数据中台 。
数据中台主要包函:数据统一采集接入平台、数据集中处理平台、数据组织管理平台、数据组织管理平台、数据全域治理平台、数据融合共享平台、数据分析挖掘平台、知识图谱平台、统一管理平台、数据可视化平台等多个平台系统 。
2.1.1
层次架构
基于数据资源的需求分析和愿景目标,结合设计规划方法论、原则和规划思路,统一数据资源体系规划建设大数据采集感知体系、数据资源融合体系和信息共享服务体系 , 将数据安全和数据标准融入三大体系之中,通过智能演进不断提升数据接入、处理、组织、挖掘、治理和服务的能力,不断丰富和完善数据中台 。数据资源总体架构图如下所示:
2.1.2 逻 辑 架 构
统一数据资源体系的规划建设是数据建设的核心,承载着高效使用底层平台能力进行海量数据的动态感知采集和接入、标准化和智能化处理、精细化组织、全维度融合、精准可控的共享服务、多手段集成安全等关键责任和重任 。为实现上述目标 , 统一数据资源体系规划了三大体系:大数据感知采集体系、数据资源融合体系以及数据共享服务体系 。系统功能设计上,主要包含:数据接入、数据处理、数据组织、数据挖掘和数据治理、数据共享服务 。各个模块的功能构成如下:
2.1.3
数据架构
2.2
数据统一采集接入平台
2.2.1 平 台 架 构
采用统一的数据接入模式,以标准化、模块化的方式进行多源异构数据资源的接入;提供采集全面、动态可配的数据接入机制,实现数据的获取分发、策略配置、任务配置、任务调度、数据加密、断点
续传等数据接入功能;当接入时 , 同时维护数据资源目录,以及数据血缘信息 。
2.2.2
数据流程
平台提供一站式的数据迁移接入功能,内部数据通过专用数据通道进入统一接入平台,可在接入过程中做初步的清洗加工 , 并提供可视化的任务调度运行管理,并向数据智能管理和数据治理提供数据支撑 。
2.2.3
平台功能
2.2.3.1 数据接入
2.2.3.2 数据接入策略配置
2.2.3.3 接入数据断点续传
2.2.3.4 数据接入任务管理
2.2.3.5 接入数据清洗
2.2.3.6
接入数据统计
数据接入系统接入统计模块支持对接入数据、分发数据进行多种维度的数据量统计 。通过接入数据的接入统计,有助于对数据总资产总体的、宏观的、全面的掌握 。接入统计模块主要从接入数据的数据量、接入数据文件数量、每个接入数据文件的接入时间、数据接入的总耗时、数据来源、数据文件类型、分发数据的数据量、分发数据的文件数量、每个分发数据文件的分发时间、数据分发的总耗时、数据分发目的地等维度,对数据接入做接入数据的整体统计 。数据接入系统接入统计模块支持接入统计功能插件式开发,可自定义配置数据接入的统计项 。
2.2.3.7 接入数据对账
数据对账是数据提供方和数据接收方在数据传输结束后进行完整性、一致性、正确性检验的过程 , 提供数据接入效果评估能力 。包括以下功能:
2.2.3.8 接入数据质量
数据接入系统的数据质量模块对接入数据做接入维度的数据质量检测评估 。数据接入系统对接入数据解密异常、解压异常的数据作为问题数据记录日志 。数据接入系统对接入数据的数据对账异常记录在接入数据问题报告 。接入数据在完成数据对账后生成数据接入质量报告,对数据接入过程做整体的质量评估检测 。数据接入系统的问题数据记录日志、接入数据问题报告对数据接入异常的数据做详细的信息记录,支持用户手动查询问题数据 。在数据接入过程中配置数据质量检查逻辑规则,将干净的数据装入目标中,将判断的问题的数据路由到数据表或者数据文件中,支持
将成功、失败信息反馈记录,若执行多次后交换成功,记录交换次数 。数据接入系统支持对接入系统的运行状态的监控,支持向运维监控系统报送数据接入系统的 JVM、task、CPU、内存、节点、主题、活跃分区、离线分区、请求度量指标等系统状态指标数据 。另外数据中台对数据质量管理是平台建设中必不可少的重要组成部分 , 良好的数据质量挂管理工作可以保证平台数据的正确性、完整性、相关性等质量指标 。缺乏数据质量管理将造成平台数据质量失去控制、质量低下,用户对平台数据不认可、对数据缺少信任、增加平台的推广难度、降低平台应用服务质量,以及增加平台的建设和维护成本等后果 。
数据质量管理的目标包含两方面 , 一是对源系统层的数据质量有个较全面的了解,比较具体的反映数据平台涉及的各源业务系统的数据质量;二是防范数据平台内部数据流程过程发生的错误,提高数据平台中的数据质量 。数据质量管理并不仅是在生产阶段才实施 , 在数据中台建设过程中,数据质量检查需要从源数据分析开始,自始至终贯穿全过程 。在源数据分析阶段,通过数据剖析(Data Profiling)可以分析源系统数据质量问题;
在开发测试阶段 , 通过对数据加载的各个阶段设置检查,可以验证上游系统接口的完整性以及模型加工的正确性;
在投产后的生产环境,通过设置代码完整性、总分核对等检查,监控平台内的数据质量 。数据中台实施数据质量管理的目的在于 , 提高数据平台的加工数据质量,监控上游系统数据质量软件没有注册类,协助客户建立企业级数据质量管理环境 。数据质量管理主要包含:
2.3
数据集中处理平台
数据处理是实现数据标准化的过程 , 包括了数据的提取、清洗、关联、比对、标识、对象化等操作,支持实时计算和离线计算,支持批量处理操作 。数据传输过程支持分布式数据传输方式 。在数据处理过程中,引入人工智能技术,实现结构化和非结构化数据的处理,采用图计算和内存计算技术,实现数据的价值提升 。在数据处理过程中,引入模型体系和标签工程和知识图谱技术,进一步提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象 。
2.3.1
平台架构
数据处理遵循相关标准,通过对数据进行提取、清洗、关联、比对、标识、对象化、构建知识图谱等规范化处理流程,实现异构数的标准化及深度融合 。数据处理采用开放式架构,能够以统一、标准、易于扩展的方式进行数据处理流程的动态编排 。同时,在各环节引入了自然语言处理、多媒体信息处理和机器学习等技术,实现对数据的智能感知和认知 。
2.3.2 数 据 流 程
2.3.3 平 台 功 能
2.3.3.1 数据提取
数据提取的过程主要是从功能各个业务系统上根据约定的采集周期采集全量或增量数据,生成相应的文本文件 。在采集过程中可能涉及系统内或跨系统的数据关联获取 。这些文本文件的结构与源数据基本相同(根据具体需求可能要滤掉一些字段信息),我们称这些存放源数据的文本文件为 EXF(Extract Format) 。数据抽取需要注意如下事项:为提高 ETL 效率,数据在进入 ETL 系统后的 EXF 文件将转换
为系统内部文件格式
? 从 ETL 程序设计的灵活性和整体结构的一直性考虑,尽量采用 pull 的方式,减少对源系统的影响和对其他开发队伍的依赖 , 并减少网络压力 , 目前最先进的方式是基于 LOG 捕获纯增量 。
? EXF 的文件格式接近数据源的数据结构定义
? 在业务需求清晰明确的前提下,Extract 过程中可以过滤不需要的数据记录和字段数据转换 。数据转换过程中数据载体为文件 , 这样充分发挥 ETL 工具处理文件的强大性能和稳定性,根据数据抽取过程生成的 CIF 文件,经过数据清洗、数据转换、数据聚合、复杂计算以及数据匹配等处理过程 , 生成与目标数据结构相同的 PLF(Pre-Load Format)文件 。具体包含
一下过程:
? 数据内容数值的检查
? 代码转换 。包括转换为数据仓库系统自己语言
? 数据内容数据格式的规范化
? 代理键的生成
? 数据内容 Merge
在整个数据转换过程中需要记录很多诸如出错日志、处理流程监
控日志以及一些统计信息 。这主要由一些公用的程序模块来完成,保
证无论数据是否非法都会在我们的 ETL 处理范围之内 。
2.3.3.1.1 非结构化数据提取
非结构化数据的种类和来源比较复杂,对这些数据的提取处理操作也会因不同数据种类的不同使用不同的实现技术 。非结构化数据包含索引格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频文件和视频文件,在集群中提取生物特征数据,提取身份、行为、轨迹、关系、位置等信息,提取后形成的结构化数据保存在关系型存储中,利于数据长期存储和时用 。原始数据保存在列式存储中 。遵从数据标准,数据提取模块从策略和配置管理中心获取不同数据类型相应的提取策略和规则,加载基于文本语义的分析提取模块、图像检测提取模块、语音识别提取模块、视频转换提取模块等,进行相应类型非结构化数据的提取处理 。非结构数据提取方式如采用先进的计算机视觉和语音识别等技术 。
2.3.3.1.2 结构化数据提取
由于结构化数据已经比较规整,因而对它的提取操作相对简单 。按照数据标准,从策略和配置中心获取提取结构化策略和规则,对原数据中的各类数据,通过基于语言要素的语义提取技术或特征函数,自动计算特征值及特征值之间的语义关系,对数据进行关键信息提取即可 。提取后的信息可应用于对象标注、业务分析、业务关联、业务预测等方面 。
2.3.3.1.3 对象化提取
遵从数据标准,根据对象提取规则对数据进行主题进行对象化处理 。对象数据以聚合的方式展现 。主题库保存按照对象提取、处理、归并、更新、标识等数据对象化规则产生的多维度的对象化数据 。对象化提取的数据主要为主题库数据 。并且每一个主题下,可能存在多个对象实体库 。对象提?。褐С侄韵筇卣髯远崛?nbsp;, 根据对象特征自动建模,利用并行分布式计算资源,对数据进行对象化提取、存储对象数据、更新对象数据 。
对象去重:对对象化结果数据,通过对象化去重,消除冗余数据 。
对象标识:对指定数据来源的数据,进行标识的操作,在对象化
提取环节,需要将标识提取到对象化数据中 。具体规则、填写的字段
和字段内容,以设计实现为准 。
2.3.3.2 数据清洗
数据清洗的任务是过滤那些不符合要求的数据 , 将过滤的结果能够直观的展示给相应的主管部门,主管部门确认是否过滤掉或者修正之后再进行抽取 。不符合要求的数据主要有一下几类:
缺失的数据:主要是一些数据的信息确实,如物品名称、物品代号、业务系统中数据不能匹配等 。在系统中用户可以自动逸过滤规则,把这一类数据过滤出来 , 输出到文本文件或Excel 等格式文件提交给业务用户 , 业务用户在人工对数据修改核对后,再写入数据仓库,如果修改的规则是固定的,也可以由系统按照规则自动添加、修改数据 。
? 错误的数据:错误的数据生产的原因是业务系统不够健全,或则人为误操作再接手输入后没有进行判断直接写入后台数据库造成的 , 这一类数据也要进行分类,不同的分类采取不同的处理方式,包括人工处理和自动处理,处理之后再更改数据库里的数据 。
? 重复的数据:重复的数据特别是再维表中会常出现这种情况,系统可以按照规则将重复数据导出来 , 让用户确认并回写到数据库 。数据清洗是一个和业务用户反复沟通的过程,不可能再很短的时间内完成,只能不断的发现问题,可能解决问题 。对于是否过滤,是否修正一般要求用户确认,对于过滤掉的数据要写入文本文件、Excel文件、数据库表 。数据清洗需要注意的是对于每个过程规则都要认证进行验证,并要用户确认 。
2.3.3.2.1 非结构化数据清洗
非结构化数据主要为文本、 XML、图片和视频数据 。对于非结构化数据 , 主要通过同一时间窗口比对去重、MD5 值比对去重、人工智能等技术方法去重 。文本数据的清洗,主要基于自然语言处理技术,通过分词、语料标注、字典构建、关键词识别等技术,根据相应的非结构化数据特点进行数据建模,利用机器学习和数据挖掘的方法进行文件去重 。图片数据可以通过以图找图技术,进行图片去重 。根据相似图像检测技术以通过提取某些表征图像内容的特征,与数据库中目标图片特征进行匹配判断 , 从而判别出该图像是否为目标图像的拷贝或近似 。考虑到图像编辑的多样化,相似图像检测选择具有良好的尺度和亮度不变性,同时对仿射形变、视角改变和噪声等也有一定的鲁棒性的特征点来进行建库 。
通过比较查询图像与参考图像的特征点相似性,判断出查询图像是否为相似图像 。该技术能够有效的处理复制、编辑等操作引擎的图像内容的变化 , 具有较好的检测准确率 。图片检测技术提供图像清晰度识别 , 适用于各类图库产品,提升整体图像质量 。通过图像模糊、失焦、噪点、锯齿以及马赛克等维度进行检测,对无价值的图像数据实现去重 。针对音频数据,除了 MD5 值进行校验去重之外,还可以通过对音频样本进行分析 , 可以在一个音频集合中发现与音频样本相同的内容 。这里相同的内容是指在不同的音视频文件中,与样本内容片段一致的部分,实现音频数据的去重 。视频文件可以通过关键帧抽?。ü酝颊彝肌⒂镆羰侗稹D5值校验等技术,实现视频的去重 。
2.3.3.2.2 结构化数据清洗
遵从数据标准 , 根据业务规划对冗余数据进行过滤,根据不同的去重规则和方法对数据进行去重判定 , 去除重复冗余数据 。通过定义过滤规则,使用流式 SQL 和表达式,按条件对数据进行重新组合和二次加工 。数据清洗可以区分为冗余信息过滤、敏感信息过滤、数据去重和格式清洗等内容 。通过对数据进行清洗,提高数据的使用价值 。数据清洗在具体实现上可分为全量清洗、增量清洗,根据实时性需要可以区分为实时清洗、非实时清洗 。清洗过程又可以细分为过滤、去重、检验、格转 。
2.3.3.3 数据关联
数据的多源性,导致不同来源的数据之间的关系时离散的,需要对这些离散关系进行匹配或联接,进一步提高数据可用性 。数据经过提取、清洗之后形成的数据实体,比如可以通过命名实体识别对身份证进行识别,根据两个身份证之间的共现或根据词向量计算词与词之间的相似度来判断两个人是否有关系 。
2.3.3.4
数据对比
数据比对包括结构化比对、关键词比对等 , 满足数据关联、线索发现、触网报警等业务需要 。从数据类型上分,数据比对分为结构化数据比对、非结构化数据比对 。在数据处理过程中 , 数据的比对通常作为数据的查重、筛选和补充,将输入数据与已有数据进行比对关联 , 结构化数据主要通过数据库查询、关键字索引实现比对 , 非结构化数据图像、声纹等 。数据比对除了在各种应用场景作为数据查询与识别的方式,在数据管理方,将比对之后的数据进行存储、建模、标识管理,不仅可以完善数据关系、丰富数据资按照数据比对的方式 , 数据比对又分为如下比对:
关键词比对:通过对关键词及关键词组合的比对,在海量全文数据库中命中发现关键词相关信息 。
二进制比对:通过对二进制文件(如文档文件、图片文件、音视频文件等)的比对,在数据中命中发现二进制文件相关信息 。
2.3.3.5 数据标识
标识是对数据、数据集进行某一特征、特征的识别和认定 。对数据进行标识化可以增加数据维度,拓展数据的属性,提供建立与数据之上的抽象 。标识流程主要是围绕标识建立一套包括标识的定义、执行、流程管理以及可视化等功能的系统 。数据标识支持离线和在线标识 。其中离线标处理,以数据源与数据式 。
数据标识依托标识规则和知识库 , 对输入数据进行比对分析、逻辑计算,输出打上敏感级别语言、区域、位置等标识的数据,为上层应用提供支持 。数据标识分为通用标识和业务标识 , 通用标识是数据自身所蕴含的特定含义的显性化,通常由数据的自身定义或由处理关联、比对结果等来确定 。业务标识是根据不同的知识库形成具有明确业务含义的标识,对数据进行业务标识,支撑各种资源库、主题库的形成及模型分析 。
在对各种数据进行标识的过程中,需要预先从策略和配置中心获取标识部分的策略和规则 。通过对用户信息的分析、提炼形成高度精炼的自定义特征标识定义:基于标识定义并结合资源目录、规则库、模型库、算法库等应用需求,在数据处理过程中同步对数据进行标识 。根据地理、业务、安全等级和数据的敏感等级等对数据进行标识 。通过人工智能(语音识别、图像识别)和文本识别技术(NLP)对文本、图片和媒体文件进行标识 。
2.3.3.6 数据纠错
综上所述,数据的标准化处理过程,按照数据标准,基本实现了自动化和智能化的处理,但是由于数据的多源异构特性,数据的庞大复杂性,对此类数据的自动化处理将是一个渐进改进的过程 。在平台前期运行中,对进入各类资源库、主题库和业务库的数据需要进行准确性认定 。针对有误的策略执行回滚操作,针对错误的数据中 实现纠正错误数据功能 。
2.3.3.7 数据处理任务调度
输汇聚模式,实现任务自动切片分发、断点续传、节点管理、调度节点故障切换等功能 。对视频图像、音频、文档等大文件数据,提供 FTP/SFTP、HTTP 等文件传输方式,实现断网续传、多线程并行、分块传输等功能 。支持对各类数据文件的同步、异步,多节点间文件接力传输,支持对文件、文件夹、文件夹下指定文件传输等功能,支持对数据文件的全量、增量传输 , 对中间过期文件的压缩、清理,及文件的多副本存储 。支持实时数据交换及加工,实现数据库、文件、JSON、XML及 MQ、TLQ 等之间的相互交换功能 。
支持各类转换程序和交换任务的灵活定制,方便用户对数据提取汇聚任务的流程控制和动态处理 。支持对数据传输过程中的加密、压缩等功能 。支持按年、月、周、日、小时、分钟、秒定时调度 , 可选指定有效时间内调度 。增量情况下支持实时调度,数据近秒级同步 。提供事件触发调度功能,包括文件就绪触发、变化日志触发、HTTP 等接口或 URL 调度事件触发,支持操作系统 shell 脚本 , 和数据库系统的 shell 命令和 SQL 脚本调度功能 。提供调度任务的实时可视化监控 , 包括交换节点的操作系统主要性能指标的图标、曲线,支持监控数据接口开发 。提供流程调度组建,包括采样分流组建和任务编排组件,实现多任务的并行、串行、混合调度功能 。采样分流一是实现数据的采样 , 例:100w 数据,按照 10%的比例进行采样;
二是实现根据数据的条件进行判断后对数据进行分流,例如性别为男的到某个库、性别为女的到另一个库,实现数据判断分流 。任务编排用于实现当 A 方案执行完毕后,需要马上启动 B 方案的执行 , 此插件配置在 A 方案的末尾 , 用户指定需要调度的方案 。控制管理主要面向执行节点合调度节点,执行节点主要承担数据传输任务的部署运行智能,各配置好的数据传输任务采用数据库方式存储,能够在不同执行节点上按需选用单机、集群或分布式模式执行 。调度节点是执行所有数据传输任务的统一入口,采用“双活”模式部署运行,当一个调度节点出现故障时,另一个调度节点能够自动接管正在执行的数据传输任务并实现断点续传,保障任务执行稳定性,确保调度节点可靠运行 。数据传输任务调度方式按需选择 , 支持顺序、按需(常规类型)分压、分流(复杂类型)等多种方式 。
调度节点能够根据每个执行节点任务执行情况,自动调配任务负载,能够将新增的传输任务或压力较大执行节点的传输任务 , 调配到相对较空闲的执行节点 。调度节点能够自动检测执行节点出现的问题并做自动处理,能够感知新增的执行节点并自动添加到分布式执行节点集群 。调度节点要具备高可用能力 。数据处理中使用到的完整的任务调度引擎,需要支持监控调度引擎中每个调度任务的运行状态 , 如:当前是否运行;最近一次运行的时间、运行结果、是否出现异常等 。
2.3.3.8 策略配置管理
针对结构化数据、半结构化数据、非结构化数据的不同类型特点,配置管理中心支持按照提取、清洗、过滤、比对、关联、标识等数据处理过程,提供一体化、可融合的数据适配解析器器合数据转换功能,实现根据数据类型和数据情况的自适应数据解析和流程化处理 。支持任意种类、任意数据结构、任意目标库的数据提取传输,这持 kafka、webservice 等消息处理机制,支持流式和离线处理 。
支持任意类型的数据融合任务配置,在保证数据安全的基础上 , 根据传输策略,进行数据传输和存储 。支持过滤、融合规则自定义,主要包括代码映射、NULL 值替换、字符串操作、字符串替换、字符串截取、添加字段、数据类型转换、公式计算、正则处理、组合字段、身份证操作、获取图片、数据比对、自定义 SQL 脚本执行、JSON 输出等数据转换规则,以及对关键字段空值、重复、异常等问题数据过滤规则,以及 MD5 加密规则 。实现基于数据元的异构数据自动解析 , 并能按照业务场景进行自定义配置 , 实现智能化、可视化、组建式数据汇聚融合任务构建 。支持可视化配置管理 , 根据不同的数据级别 , 分配不同的配置权限空值 。支持策略配置的保存、加载、自动分发同步功能 。
2.3.3.9
数据存储
结构化和半结构化数据可存储于分布式并行数据库中,数据存储格式可以为列式存储和行式存储等多种存储方式;分布式内存系统:管理多个底层文件系统,将不同的文件系统统一在同一个名称空间下,让上层客户端可以自由访问统一空间内的不同路径、不同存储系统的数据,供文件接口,存储并维护文件的元数据;并提供容错的元数据服务 。针对不同的应用场景支持传统的批处理系统和高并发 MPP 作为查询引擎 。批处理系统使用场景分钟级、小时级以上的任务、稳定可靠、成本低;MPP 使用场景为秒级、毫秒级以下的处理任务 , 主要服务于即席查询场景,对外提供各种数据查询和可视化服务 。在查询引擎上层做统一封装,提供统一的分布式并行数据库服务 。
多种数据类型支持
支持结构化数据和半结构化数据( JSON/BSON , XML 形式存储) 。由于越来越多的应用在考虑对结构化数据的增删改查操作和半结构化数据做查询,检索和分析,对这些数据存储的支持能简化应用程序的开发工作,同时优化使得对这类数据的操作性能更高 。
? 文本格式支持
可支持 Text File、XML 和 JSON 等文本 。可将上述的文件写入到数据库的文件系统中,由于上述文本格式除了会占用更多磁盘资源外,对它的解析开销一般会比二进制格式高几十倍以上,尤其是 XML和 JSON , 它们的解析开销比 Text File 还要大 。可将上述文件格式进行压缩后入库 , 大幅减少磁盘空间的占用率 。文本数据入库后 , 可通过统一的 SQL 语句对数据进行查询 。
? 数据表压缩
对中间数据或最终数据做压缩 , 是提高数据吞吐量和性能的一种手段 。对数据做压缩 , 可以大量减少磁盘的存储空间 , 比如基于文本的数据文件,压缩比可达 5 倍以上,同时压缩后的文件在磁盘间传输和 I/O 也会大大减少 。使用 RocksDB 对数据进行存储,并支持 LZ4等多种压缩算法 。支持对表按照压缩比例进行及时透明压缩 。数据压缩后支持查询、修改、插入、删除,此过程中无需解压 。分布式云存储系统,在数据存储层构建的分布式文件系统作为图片、视频等非结构化文件的基础文件系统,对各类媒体流数据,如视频文件进行存储和管理 。一般情况下,非结构化文件如图片、视频等 。这类数据数据量很大,属于非结构化数据,不宜存储在数据库中 。另外,这类数据的查询并不是直接针对图片和视频本身的查询,而是根据图片或视频(如果有)文件的路径进行定位 。
2.3.3.10 数据模型建设
整个模型工程的架构主要由算子管理、模型建模、模型管理和模型引擎四部分组成 。用户可以通过多种建模方式创建基于标准的模型,部署到模型运行引擎上面配置模型参数,模型运行引擎会对模型运行的合法性进行验证,包括是否符合标准 , 数据资源是否有访问权限,算法参数是否合法,模型编排是否合理等 。模型通过验证之后,会上传到测试平台上面 , 通过数据采样、构建测试集等多种方式检测模型执行的准确性 。模型测试成功之后,进行模型上线部署 。通过申请计算资源 , 将模型实例化成任务运行 。
传统建模的数据来源和模型的使用一般在同一数据库当中,大数据环境下因为数据采集类型的多样性和数据计算的多样性使得来源和使用分散在不同的计算存储资源当中 。一个模型的运行可能需要涉及到图计算、离线计算、多维分析等多种方式的计算,因此模型需要能在多个存储和计算资源当中自由流转 。模型适配主要是解决了这种需要跨存储、跨计算资源的统一运行 。通过对模型的输入、输出、算子进行识别 , 将需要设计到的数据输入、输出资源调度到对应的数据接口服务中,通过统一的数据接口服务,降低了模型运行的复杂度 。
通过将算子调度到合适的数据接口服务上面执行 。每个算子的运行都会对应到一个计算框架上面,通过解析算子的执行顺序以及依赖关系,整个模型的运行过程会形成一幅有向无环图,形成有向无环图的过程中也会根据算子之间的依赖关系形成血缘,当某个算子计算错误的时候,只需要根据血缘重新计算相关的操作而不必回滚整个模型 。
2.3.3.11 知识图谱建设
将各类数据,汇总融合成为人、事、地、物、组织等多类实体,根据其中的属性联系、时空联系、语义联系、特征联系等,建立相互关系 , 最终形成一张由人事地物组织构成的关系大网 。关系网根据数据的接入可自动更新,有效解决大数据时代数据分散、割裂以及难以统一处理的问题,为系统提供多维度、可查询、可分析、可研判的数据系统 。
根据展示、分析需要,可以通过扇形层次树、圆形层次树、关系网络图、柱状图、时序图等主流常规的统计分析图形来组织和展示数据,方便用户更方便、更直观、更深入、更全面的获取信息,及时应用到综合研判作战系统中去,为实际作战提供有效支撑 。
大规模知识库的构建与应用需要多智能信息处理技术的支持 。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素 。通过知识融合,可以消除实体、关系、属性等画像与事实对象之间的歧义,形成高质量的知识库 。知识推理则是在已有的知识库基础上进一步挖掘、扩展知识库 。知识图谱逻辑架构:知识图谱在逻辑上可以分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储 。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达 。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小 。知识图谱体系架构:知识图谱的体系架构是指构建模式结构,主要由自顶向下(top-down)与自低向上(bottom-up)两种构建方式 。
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库 。该构建方式需要利用一些现有的结构化知识库作为其基础知识库 。自底向上指的是从宜些开放数据中提取出实体,选择其中置信度的加入到知识库,再构建顶层的本体模式 。目前,大多数知识图谱都是采用自底向上的方式进行构建 。由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合 。知识融合是高层次的知识组织,使来自不同的知识源的知识再同一框架规范下进行异构数据整合、消岐、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合 , 形成高质量的知识库 。
2.3.3.12
人工智能语义分析建设
实体语义分析平台是一款集成统计学习、机器学习、深度学习等关键自然语言处理技术 , 具备专属语义模型建设和场景化自然语言处理流程建设能力的非结构化文本数据语义挖掘工具 。致力于解决机器学习算法与业务的自动映射,提供业务建模与业务计算能力为企业实现非结构化文本落地 。实现对非结构化文本进行智能处理,输出多维度业务标签,将无序的非结构化信息转换为满足业务需求的结构化数据 。可实现实体数据模型构建 , 高度抽象各项业务库、表,以构建对象、属性、方法的方式,对非结构化数据的重构 。再通过对象、属性、方法的关系配置,实现业务数据的关系定义 。
目前各级机关已经逐步建立了各类公共基础信息资源库、人员社会行为动态信息资料库和业务信息系统,积累了大量的数据资源 , 这些数据中存在相当一部分是非结构化文本信息,由于其非结构化的特征,导致无法充分利用,不能对非结构化信息形成索引,无法建立要素的主题库,无法去执行精确查找和匹配;缺乏支撑非结构化问信息查询分析引擎,缺乏对一词多义、多词一义、表达方式等中文词语、句子的在刑侦场景下的准确理解功能,导致查询结果的关联性、拓展性差 。通过智能实体语义分析平台,运用大数据的思维,可对数据进行结构化梳理,根据不同客户的不同需求,使这些数据具有结构化的特征 , 为维护社会安全和打击犯罪提供助力 。
2.
数据组织管理平台
2.4.1 平 台 架 构
数据在原始库中形成数据缓存层 , 以支持数据加工 。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理 。原始库对外提供了查询、比对、推送、订阅等服务 。同时为后续的数据血缘追踪提供溯源支持 。资源库是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层 。资源库对外支持数据的分类检索、轨迹碰撞 , 及明细数据的统计、分析、比对、推送、订阅等服务 。
主题库通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱 。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务 。知识库对外支撑知识类数据的查询以及模型工程、标签工程等服务 。业务库中的业务专题库实现了业务专题类分析 , 业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑 。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务 。数据资源目录对外支撑各部门对数据资源目录的查询 。数据试验空间是一个可扩展的数据库,其以交互协作的方式探索数据的丰富信息 。对外可支持数据的分析挖掘服务及智能应用 。
2.4.2
数据流程
数据组织过程通过分层实现,经过标准化、对象化的处理过程 , 提高数据质量和数据价值数据源:在接入时,一般直接进入原始库 。也可直接分发,进行数据处理,存储到资源库或业务库
原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并 , 进行关联和标识(对象标识),输出到主题库主题库:经离线归一化(Idmapping)计算、关联和标识(包括对象标识) 。计算结果可以输出到主题库或业务库业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务库进行挖掘 , 可反哺和进一步完善知识库
2.4.3 平 台 功 能
2.4.3.1
原始库建设
原始库是对不同来源的数据,按照数据的原始格式进行存储,支持所有的数据类型 。因此 , 原始库的数据组织方式与接入时的数据组织方式直接一一对应,不对数据做任何处理 。同时,原始库作为数据资源的一部分,也需要按需提供给各个业务系统使用 , 因此 , 在接入的过程中会根据资源目录的编目规则对来源数据进行数据资源编码,最终原始库的数据信息通过数据资源编码在数据资源目录中展示出来,并为数据服务提供所需数据的标识 。
正常情况下,所有从各个数据来源接入的数据,都会在原始库做持久化 , 保留标准化、数据处理之前的数据,包括批量接入及实时接入的内容 。根据数据的种类及数据量,源系统数据在原始库中将按一定策略保留,如 3 个月、1 年、长期等 。在某些情况下,如某个数据来源的量特别大,不适合在原始库再存一份,且来源数据本身可以作为数据中心的一部分纳入进来,那么来源数据就可以进行数据标准化处理以及其他数据处理过程,最终保留到相应的资源库或知识库或业务库,来源数据的原始提供库作为数据中心的原始库的一部分 , 提供原始数据的信息 。
原始库的数据中如果存在知识性数据,也可以不经过资源库,直接进到知识库 。如果业务库对原始库的数据有使用需要,也可以直接从原始库取数据到业务库 。同时,业务库中产生的新的数据,也会作为内部数据源,通过采集感知体系 , 接入到原始库中 。鉴于原始库的数据按照原始格式进行存储的特性,以及原始库作为数据汇聚的最初的资源池 。
2.4.3.2
资源库建设
资源库 , 综合各类数据资源进行提炼加工,形成公共数据集合 , 对各项业务工作都具有支撑作用,可以脱离任何业务而独立存在 , 也与每一项业务相关 。资源库的数据由原始库而来 。资源库的数据流向主要是主题库,但其中如果有知识性数据 , 那么也可以直接进入到知识库 。
业务系统如果对资源库的数据有需求,那么资源库的数据也可以直接进入到业务库 , 形成业务资源库 。资源库是在原始库上对所有汇聚数据,按照一定的规则进行清洗、标准化,并按业务使用规则或属性规则等进行整合加工与汇总,为整个数据中台提供基础数据资源支撑的数据集合 。因此,资源库主要以结构化数据类型为主 , 非结构化的信息可以以属性的方式存在,也可以使用数据处理的技术,将非结构化的数据做结构化提取之后再汇聚到资源库 。资源库数据整合的几个基本原则:
①以资源库的数据标准为依据,尽可能保留原始库中有价值的信息,并且按照数据标准做标准化处理 。有标准的属性全部做标准化处理,有验证校验规则的属性全部都做验证校验 。
②同类数据做整合 。同类业务来源的同类数据要做数据整合 。
③抽象之后的同类数据做整合 。不同类业务来源的不同类数据如果能抽象成同类数据,也要做数据整合 。由于资源库是将原始库的数据进行标准化、清洗、关联、比对、标识之后按照行为、轨迹、内容、物品、身份、关系、关联等分类方式重新组织的,因此相比原始库 , 资源库的数据从各方面来说,都有了较大提升和规范:
①以结构化数据为主,非结构化数据作为结构化数据的补充信息,通过数据建立关系 。生物特征信息作为行业特有的非结构化数据,且对于人员具有很好的标识特性,因此,也是资源库的一部分,支撑每一个有需要的业务 。
②数据质量大幅提升 。资源库是面向全业务的基础数据资源,对数据质量有很高的要求 。对于上层应用来说,垃圾数据只会产生垃圾主题、垃圾信息、垃圾知识 。因此,从原始库到资源库的提取过程中,会对数据进行标准化、数据校验、清洗等一系列可以提升数据质量的处理动作 , 因此资源库数据作为轻度融合的高质量的数据资源,为所有应用提供最基本的数据支持 。
③数据结构遵循资源库的数据标准 。尽管数据来源多样丰富,标准化程度各有不同,但资源库必须遵循数据中台的关于资源库的数据标准进行组织,包括所有相关的数据项、字典、分类等 。
④与原始库相比,资源库的数据价值得到提升 。资源库的数据经过标准化之后,数据质量显著提升 , 遵循资源库的数据标准 。对应用来说,所有资源库数据都是有效、有价值、可用的数据,应用系统可以基于海量的资源库数据进行开发研究 。资源库通过数据资源目录和全局统一索引,提供全面的数据共享服务 。但资源库由原始库通过数据标准化进而整合而成 , 包含大量明细数据,数据规模仍较大 。因此,为了既能达到资源库的全网络总索引、总导航的总体目标,又能够平衡各分中心的资源情况,按照资源库的数据种类和特点,可以有本地存储和主中心存储两种方式 。
主中心存储:这部分资源库的数据在主中心进行整合并存储 , 特点是数据量相对稳定 , 属于基础资源 。*****的数据 。本地存储:这部分资源库的数据在各中心进行整合并存储,特点是数据量大,持续增长 , 且不会和其他分中心、其他采集来源的数据进行整合,因此,在本地处理就可以 。
2.4.3.3
主题库建设
主题库一般是根据客户实际的业务需要分析各行业的特性来定制化的相关数据库 。
2.4.3.4
业务库建设
业务库是支撑业务的相关需求,为特定的业务活动提供基础数据、临时数据、分析统计类数据、挖掘类数据等 , 并记录业务过程中总结及发现的相关知识 。业务库的数据来源可以是按需获取原始库、资源库、主题库和知识库的数据 , 也可以是外部导入的数据 。如果业务库里中产生的知识具备全领域、全地域共享的特点,那么可以通过资源注册的方式共享知识库,实现全领域、全地域共享 。
业务系统内产生的其他数据,如果有汇聚到数据中心的需求,则通过数据中心的采集汇聚体系 , 作为一个新的内部资源,将数据注入到平台中 。按照数据组织的方式分,业务库内的数据可以分为业务知识库、业务资源库、业务实体库和业务专题库 。标签数据贯穿在整个数据平台过程之中 。如资源库的数据可以打上数据标签和行为标签,一般以属性的形式附在资源库数据之上 。而由于主题数据是在资源库之上做了融合的数据,同一个主题实体会拥有很多来自资源库的标签信息,对这些数据标签和行为标签再次通过一定的规则运算或智能运算,可以为主题实体打上更多元、更丰富的标签,所以主题库的标签信息与主题数据分开存储,主题标识与标签信息单独形成标签库的数据 。
此外其他专题库也可以产生自己的标签数据 。数据来源可以是原始库、资源库、主题库或标签专题库等,按照专题系统自身的需求,设置自身的标签规则或智能标签模型,在现有的数据基础上进行其领域范围内关注的标签数据计算 , 形成领域范围内专题库标签数据库 。标签库的数据组织结构,主要由两大部分组成:标识属性:即数据的标识信息,根据标识信息能够追溯到原始数据 。若标签打在关系数据上,那么标签属性则是两个关系主体的标识信息 。标签属性:即对数据的标签标识 。标签本身有标识属性、规则属性,这部分信息在知识库中 。通过标签标识赫尔规则标识信息,可以获取到标签的权限、分级、分类、时效性以及可靠度等信息 。
2.4.3.5
知识库建设
知识库是指专业领域或与专业领域相关的特征知识数据和规则方法集合,包括一些全领域共享的用于主体、行为、言论分类的特定知识性数据集合,也包括处理、控制、表达知识数据的规则、方法、过程等集合 , 如犯罪规律、技法战法、业务处理逻辑等 。
知识库的数据来源比较广,现有系统的知识库会通过数据接入流程进入到原始库进而归并到知识库,资源库里的知识性数据也可以进入到知识库,基于主题库形成的知识也是知识库的重要来源,同时业务系统产生的知识性数据则可以通过注册的方式进入到知识库 。而知识库的数据也可以被业务系统按需取用 。
2.5
数据全域治理平台
2.5.1 平 台 架 构
数据标准管理负责管理维护整个数据中台的标准,为其他各类管理活动提供标准化服务支持 。元数据管理为血缘管理和数据资产管理提供元数据支撑,基于元数据管理建立血缘关系、进行血缘分析、元数据级别的分级定义和资源目录规划等;数据资产管理负责数据资产共享、分发、使用、管理,包含数据资源目录、分级分类、生命周期管理、血缘管理等部分;数据质量通过建立评估标准和管理规范,提供数据质量问题发现、监测跟踪、分析应用等闭环流程和管理功能,为数据质量提供必要的保障;数据运维管理则全面掌握数据接入、数据流量、数据资源的总体情况和使用情况;数据运营是数据资产管理实现的最终阶段,该阶段包括开展数据资产价值评估、数据资产运营流通等
2.5.2
数据流程
数据治理,通过管理数据资源目录、元数据、分级分类、血缘关系等信息保障数据汇聚与融合后的效果,规范数据组织形式;同时对数据质量进行管控,通过运维手段确保数据全生命周期的高质量运行,通过数据运营变现数据价值;
2.5.3
平台功能
2.5.3.1 数据资源目录
建设数据中台数据资源目录,以全国的原始库、资源库、主题库、知识库、业务库的数据资源为管理对象 。形成标准的、规范的、统一的数据中台数据资源目录,结合用户分级分类访问权限管理,促进数据中台的数据资源科学、有序、安全的开放和共享 。
2.5.3.1.1 数据资源编目
资源编目对大数据集信息资源依据规范的元数据描述 , 按照一定的分类方法进行排序和编码的一组信息,用以描述各个数据资源的特征 , 以便于对相关数据资源的检索、定位、获取和订阅 。
用户可通过目录编制模块对关系型数据库、文件存储、数据中台、分析计算引擎、 接口编目 5 种类型的资源信息进行管理、维护,主要操作包括(新增)数据库、(新增)文件存储、(新增)大数据、(新增)接口编目、(新增)分析计算引擎、修改、 删除、查看、编制、搜索、重置 。
2.5.3.1.2 资源目录管理
目录管理是用户将已经建好的资源信息实现发布的模块,包括提交、审核、发布、驳回、已发布步骤 。
2.5.3.1.3 资源目录订阅
资源信息发布成功后 , 用户可以订阅查看,目录订阅是管理用户订阅资源信息的 模块 , 用户实现成功订阅资源信息有目录订阅、目录审核、目录订阅或被驳回目录 。
2.5.3.1.4 资源目录梳理
目录梳理是管理对资源信息的梳理、需求的功能模块 。包括资源信息、应用系统 信息、需求信息三个模块 。
2.5.3.1.5 资源信息管理
用户在新增资源信息前,可以将资源信息梳理出来,通过编目将资源信息转 到目录编制中,资源信息就是用户梳理资源信息的模块 。主要操作有编目、查看、新增、编辑、删除、搜索、重置等 。
2.5.3.1.6 应用系统管理
应用系统信息是管理应用系统中的资源信息,主要操作有新增、
删除、修改、搜 索、重置 。
2.5.3.1.7 目录系统管理
系统管理是管理用户、为用户分配系统权限、维护目录编制中数
据字典的模块 。
2.5.3.2 元 数据管理
元数据管理是数据治理得到有效实施的关键技术环节之一,为了
在大数据能力构建过程中有效的实时数据治理,平台须提供元数据管
理功能,管理在实时过程中沉淀的各类元数据信息 , 并可开放各类元
数据信息 , 以支持管理人员、业务人员和技术人员快速了解平台数据
对象定义以及对象之间的关系等 。
2.5.3.2.1 元数据采集
元数据管理范围主要包含数据中台的技术元数据、业务元数据两
方面,通过绑定技术元数据与业务元数据的关联关系,从而提供贯穿
业务层面到技术层面的数据中台数据资源目录、元数据库、数据关系,
提供数据字典的归类、归口管理,统一查询 。
2.5.3.2.2 元数据维护
元数据维护提供对元数据的增加、删除和修改等基本操作 。对于
元数据的增量维护,要求能保留历史版本信息 。
元数据的维护操作是原子操作 , 这些原子操作可通过服务封装的
形式向各系统的其他模块提供数据维护接口 。
2.5.3.2.3 元数据变更管理
元数据变更管理包括变更通知和版本管理两个部分 。
变更通知是当元数据发生改变时 , 系统自动发送信息(邮件、短
信)给订阅用户 。用户可以主动订阅自己关心的元数据,帮助了解与
自身工作相关的业务系统变更情况,提高工作的主动性 。
版本管理是对不同时期进入元数据库的同一实体的元数据进行
管理 。要求的基本功能够显示同一实体的元数据的修改历史 。另外还
提供版本差异分析和版本变更分析等 。并且能够进行单个元数据版本
的恢复 。
2.5.3.2.4 元数据查询
元数据查询是指对元数据库中的元数据基本信息进行查询的功
能,通过该功能可以查询数据库表、维表、指标、过程及参与输入输
出的实体信息 , 以及其他纳入管理的实体基本信息 , 查询的信息按处
理的层次及业务主题进行组织,查询功能返回实体及所属的相关信
息 。
元数据查询功能要求支持对历史版本信息的查询,以了解具体实
体的历史变更情况 。
2.5.3.2.5 元数据统计
元数据统计是指用户可以按不同类别进行元数据个数的统计 。方
便用户全面了解元数据管理模块中的元数据分布,该统计功能可以按
元数据类型、元数据创建者和元数据的版本号来进行统计 。
2.5.3.3 血 缘管理
2.5.3.3.1 数据血缘概述
数据的血缘关系主要由数据平台各类数据源的数据项信息、库表
关系、ETL 逻辑、存储过程、代码逻辑等组成 。能清晰的反映数据从
源头到过程转化,到最终数据产物之前的转换关系 , 包括但不限于:
组合关系、依赖关系、数据流向拓扑信息 。
通过完善的数据血缘关系建设,建设数据中台的数据地图,提供
良好的数据溯源、血统分析的能力 。
2.5.3.3.2 建立血缘关系
通过预先整合各个资源库之间的数据提取、数据清洗、数据关联、
数据比对、数据标识处理流程的处理策略 , 从数据资源维度记录目标
数据资源的数据来源包含哪些源头数据资源 。数据资源血缘关系主要
体现数据资源间的依赖关系、组合关系、数据流向 。
2.5.3.3.3 血缘分析
数据的溯源,体现了数据的来龙去脉中的来,能帮助我们追踪数
据的来源,追踪数据处理过程 。在数据的血缘关系可视化图形上,目
标数据资源的左边就是数据来源 , 非常清晰,一目了然 。数据在之前
的环节经过了哪些转换也能从可视化图形上看出来,对异常数据产生
原因的分析帮助很大 。
当需要对目标数据资源调整的时候 , 可以通过数据资源维度或者
数据项维度,分析目标数据资源的流向软件没有注册类,会影响到哪些数据资源 。最
终确定目标数据资源进行调整的时候影响范围有多广 , 帮助用户根据
目标数据资源的影响范围制定完整的从前到后的数据资源调整策略 。
数据的影响,体现了数据的来龙去脉的去,能帮助我们快速分析
数据的影响范围 。在数据的血缘关系可视化图形上 , 目标数据资源的
右边就是影响范围,数据在之后的环节经过了哪些转换也能从可视化
图形上看出来,对数据影响的分析帮助很大 。
2.6 数 据 质 量 管 理 平 台
2.6.1
数据标准管理
数据标准管理包括:根据制定的数据中台、各数据来源方基础数
据 , 业务数据的数据标准,统一管理数据标准,规范数据资源格式、

数据中台标准技术方案

文章插图
命名的准确性和口径的一致性,数据标准管理包含以下能力:
标准生成:可按照业务领域、业务主题、信息分类、信息项等生
成标准文档,支持导出为多种格式;
标准映射:可以将制定的标准与元数据管理中的资源进行关联映
射,即实现数据标准的落地执行,维护标准与元数据之间的落地映射
关系,包括元数据与数据标准的映射、元数据与数据质量的映射,以
及数据标准和数据质量的映射,能提供在线的手工映射配置功能 , 并
能对映射结果做页面展示;
变更查询:查询发布或废止的标准的历史变更轨迹;
映射查询:查询标准项与元数据之间的落地情况;
维护标准:对标准状态进行管理,包括增删改、审核、定版、发
布、废止等;
标准版本查询:对发布状态的标准进行版本管理;
标准导出:按照当前系统中发布的最新标准或者选择版本来下载
标准信息 。
通过统一的数据标准制定和发布,结合制度约束、系统控制等手
段,实现系统数据中台数据的完整性、有效性、一致性、规范性、开
放性和共享性管理,为数据资源管理活动提供参考依据 。
2.6.2
数据生命周期管理
目前对数据生命周期的定义,行业认可度比较高、内涵比较全面
的定义来自于国际数据管理协会( Data Management Association , 
简称 DAMA) 。DAMA 认为“数据生命周期( Data Lifecycle)”是数据
从创建或采集、存储和维护、使用直到最终消亡的全过程 。
具体至本项目的全周期管理,须贯穿于数据中台采集、存储、整
合、处理与分析、应用与呈现、归档与销毁的数据生命周期,进行持
续优化治理 。元数据管理和主数据管理是数据标准化层面的治理,从
基础上保障数据的完整性、规范性和一致性;数据质量管理更加强调
运用数据特征度量来精确判定数据价值,更加注重数据清洗后的整
合、分析与价值利用,更加倾向于通过持续治理来有改进数据质量、
创造新的价值;数据中台的开放共享使得数据安全与合规问题更加严
重,需要在数据全生命周期内强化数据分级分类管理、强制数据鉴权
访问,确保重要数据资产在使用过程中具有适当的认证、授权、审计、
控制 。
在整个生命周期中,根据数据的保存时间、使用频率等指标,数
据的存储形态可分为在线、近线、离线三个阶段 。
在线阶段:在线阶段指数据的产生和在本系统应用的阶段 , 其具
有较高的保留价值、用户访问频率和安全保护要求,保存时间要能支
持应用系统正常运转以及业务活动正常展开 。
近线阶段:近线阶段指在系统资源受限的情况下 , 为保持在线应
用系统的健康安全运行,将访问频度较低且应用需求不高的数据从在
线应用中分离出来,保存在其他应用中 , 并提供相应的联机查询服务 。
离线阶段:离线阶段指在系统资源受限的情况下,为保持在线或
近线应用系统的健康安全运行,将访问频度较低且应用需求不高的数
据从在线或近线应用中分离出来,保存在磁带、光盘及低端磁盘(包
括移动磁盘)的归档方式 。离线后不提供信息联机访问接口,如有相
应的查询要求 , 需特定的查询工具或将归档数据导入相应系统(例如
备份系统或专门建立用于查询的系统) 。
2.6.3
数据质量管理
建立数据质量评估标准和管理规范,提供数据质量问题发现、监
测跟踪、分析应用等闭环流程和管理功能,实现基于不同来源数据的
逻辑校验和监测管理;实现数据源头采集、传输、应用全流程的规范
性、一致性、准确性、完整性检查;实现数据质量问题检测预警 , 支
持检测预警规则动态调整 。
2.6.4
数据运维管理
通过数据运维管理全面掌握数据接入、数据流浪、数据资源的总
体情况和使用情况 。
主要包含以下方面:
①提供数据资源的分类统计展现能力;
②提供系统资源的集中展示能力;
③提供数据接入、数据处理等关键监控点监控能力;
④提供服务调用的统计监控能力
⑤实时数据处理监测功能,实现实时入库数据数据堆积统计、数
据心跳图、数据入库异常统计等监测管理;
⑥质量展示分析功能 , 包括数据对账分析,有值率分析,数据标
准化分析等;
⑦提供报表功能 , 支持从不同维度对系统内的数据资源进行统计
分析 。
数据运维管理和数据质量管理息息相关,数据质量管理是客观上
对整个数据提供层数据的质量量化评价标准 , 用来把数据质量比较抽
象的概念用数字等指标来进行量化,是对数据提供层数据质量高低的
一个客观评价 。数据运维管理是把数据提供层数据通过可视化或报表
等方式客观展示系统整体情况,通过可视化的形式把数据质量进行展
示汇总,从而达到真实数据的客观展示,并通过客观数据发现系统的
问题,来逐步完善系统的整体功能和性能,从而提升整个系统的质量 。
2.7
数据共享服务平台
2.7.1 平 台 架 构
服务总线通过 API 接口方式提供服务,服务构建平台为应用开发
提供支撑 。通过以上方式 , 形成数据中台手段丰富、分类服务、按需
动态授权的数据服务综合模式 。
2.7.2
数据流程
2.7.3
平台功能
2.7.3.1 数据服务总线设计
2.7.3.1.1 数据服务总线功能
服务管理中心主要针对节点和服务进行管理 。节点分为主中心节
点和分中心节点(包括备份中心) 。节点管理主要完成节点注册,节
点审批以及节点的基本信息维护等 。服务管理主要完成服务注册、服
务审批、服务发布、服务检索、服务维护、服务分类以及服务信息的
全网同步等 。
服务执行中心提供多协议的服务运行环境 。服务执行中心包含服
务的执行管理和信息交换 。执行管理主要完成服务调度、服务路由、
认证管理、鉴权管理、缓存管理以及流控管理 。信息交换主要完成消
息交换、文件交换、流交换、断点续传、重发处理以及优先级等 。
服务监控中心对节点的运行状态、服务的状态及运行情况进行监
控 。服务监控中心包含节点监控、服务监控、服务审计、服务评价、
传输监控、统计及上线功能等 。节点监控主要完成节点的启停和异常
的管理功能 。服务监控主要完成服务的起停和异常的管理功能等 。
数据服务总线包含三大中心和总线的系统管理 , 分别是 , 数据服
务管理中心、数据服务执行中心、数据服务监控中心、数据服务总线
系统管理 。整体功能设计符合并满足,性能要求,可用性要求,开放
性要求,易用性要求,安全性要求 。
数据服务总线系统包括,组织结构管理、用户管理、角色管理以
及日志管理等 。
2.7.3.1.2 数据服务总线部署
数据服务总线,在主中心和分中心分别部署,在各级数据服务总
线节点之间建立数据互联通路,实现消息、实时数据流(包括音视频
流数据)、文件等多种数据交换方式,实现服务调度、服务路由、数
据交换、服务调用、服务安全等功能 。
数据服务目录,数据服务的统一视图 。数据服务目录既包含主中
心注册的数据服务,也包含分中心注册的数据服务 , 从而满足全国一
张网的全景式服务注册发布,做到扁平化管理 。通过服务发布时的权
限配置,可以将服务访问级别配置为主中心和分中心,从而做到统一
化、精细化运营 。
2.7.3.2 数据服务场景设计
2.7.3.2.1 数据服务构建场景
2.7.3.2.1.1
数据服务构建申请
服务构建者 , 使用统一服务描述语言,进行服务的开发 。对于开
发完成的服务,进行服务的验证,如果验证环节顺利完成,下一步进
行服务的注册,填写包括服务的名称,服务的说明,服务的有效期等
信息 。最后提交服务,进行注册环节的审批流程 。
2.7.3.2.1.2
数据服务构建审批
对于服务构建者提交的服务注册审批申请,服务管理者,进行全
面的审核,如果同意该服务发布,那么批准发布此服务,否则,驳回
此服务 。对于审批通过发布的服务 , 可以在服务目录中看到 。
2.7.3.2.2 数据服务使用场景
服务使用者浏览服务目录 , 选择需要使用的服务,提交服务使用
申请 。服务管理者对此服务使用申请进行鉴权,如果判断有权使用此
服务,那么批准此申请 。服务使用者在使用完服务后,对服务进行评
价,评价信息会被其他服务使用者参考,以帮助他们了解服务的质量 。
2.7.3.2.3 数据服务审计场景
服务审计者对服务使用日志进行审计,审计的结果,会通知服务
的使用者和服务的管理者 。
2.7.3.3 数据交换服务
数据交换服务是数据中台各节点提供的面向业务部门的数据交
换渠道 。目前包含数据订阅、数据下载、数据推送等数据共享服务模
式 。
2.7.3.3.1 数据订阅服务
数据订阅服务包含订阅发布和订阅推送两个过程 。
实时订阅和精准推送 。订阅类型包含增量订阅、关键词订阅、范
围订阅、协议订阅、消息订阅、主题订阅等 。
数据订阅服务主要功能包括可订阅数据和服务目录查询 , 数据订
阅提交,订阅撤销、续订和订阅协议标准查询等 。
数据订阅服务的流程图参见数据服务逻辑图 。
首先订阅服务先完成订阅的发布 。订阅服务在数据资源的基础
上,将满足订闹发布条件的数据成标准化,以订阅服务广播发布到数
据服务总线,以支持满足权限的使用者订阅 。
其次,订阅者发起订阅请求,在请求数据范围获得鉴权之后,订
阅数据服务总线分配订阅点,等待订阅服务响应;订阅服务根据订阅
者鉴权,将数据按照订阅数据标准汇总封装 , 推送给数据订阅者 。
数据订阅服务支持按照数据类型、数据的存储方式、数据的交换
【数据中台标准技术方案】协议标准、时效要求等配置 。
订阅服务提供基于标准的 REST 或 API 接口服务 , 供应应用层去
封装和使用 。
2.7.3.3.2 数据推送服务
数据推送是数据平台各节点之间 , 数据平台和省市县各平台之间
数据交换的基础核心能力,数据推送实现将加工好的数据或分析成
果,向一线推送,以便应用于实战、体现大数据价值,并将数据化为
数据能力的过程 。
数据推送是对数据资源依据分级分类,按照使用者对数据源、数
据类型的需求,封装实时、离线等多种实现方式的推送服务 , 支持文
件、流式、库表、指定数据标准等各种数据推送组织方式 。
数据推送的范围涵盖原始库、资源库、主题库、知识库和业务库
所有按权下的数据内容,包含结构化、半结构化、非结构化等数据类
型 。
数据推送服务主要功能包括:数据推送服务请求;数据推送规则
配置,数据范围选择,数据组织数据推送数据标准选择;数据推送方
式和位置选择等 。
数据规则包含:关键词、标签、数据源、协议类型、渠道来源、
周期、频率等
数据推送服务首先由使用者发起请求,或者由平台管理者指定推
送对象,在请求数据范围获得鉴权之后,推送请求进入数据服务总线
任务管理队列 , 分配推送服务响应点;推送服务根据推送者鉴权,在
全平台内完成数据封装,交给推送服务;推送服务通过数据服务总线,
将数据资源推送给服务使用者 。
数据推送服务支持数据类型、数据的存储方式、数据的交换协议
标准、时效要求等配置 。
推送服务提供基于标准的 API、文件、库表封装服务 , 供应用层
去封装和使用 。
2.7.3.3.3 数据下载服务
数据下载服务是对数据资源异步处理方式 。数据下载服务,提供
日常业务数据、政策信息、共享目录数据等的下载路径 。
数据下载服务功能包含:可下载数据目录查询、单个文件或批量
打包、文件的分段、断点上传下载等能力 。
数据下载服务 , 首先由下载者发起下载请求,获得鉴权之后,下
载者进获取数据目录查看权,在下载者根据数据目录选择下载资源包
后,下载服务对下载任务进行下载鉴权,并分配下载点;下载完成下
载数据打包;下载服务请求传输资源,实现数据下载的分段、断点续
传功能 。
下载服务提供基于标准额 REST 或 API 接口服务,供应用层去封
装和使用 。
2.7.3.4 数 据可视化服务
数据可视化服务,帮助用户快速完成多数据整合,建立统一数据
口径,支持自助式数据准备,并提供灵活、易用、高效可视化探索式
分析能力,帮助用户构建切合自身业务的企业洞察,并将数据决策快
速覆盖隔层相关人员及应用场景 。
只需用拖拽方式就快速地创建出交互、精美、智能的视图和仪表
板,提供精美大屏模板及样式编辑,快速部署可视化大屏需求 。任何
用户甚至是零基础的用户都能很快、很轻松地直接面对数据进行分
析 , 从而摆脱对开发人员的依赖 。
数据可视化分析为上层应用如查询搜索、信息比对、关联分析、
统计分析、智能预测等应用提供统一的访问接口和查询界面 。可无缝
完成上层应用的对接,如可视化图表分析工具,GIS 应用,图片识别
应用等 。
2.7.3.5 数据管理服务
2.7.3.5.1 元数据访问服务
2.7.3.5.2 数据字典服务
2.7.3.5.3 数据鉴权服务

2.7.3.5.4 跨网跨域服务
2.8
数据可视化平台
2.8.1 平 台 架 构
数据可视化平台为整个数据中台提供了大数据可视化展示能力,
它为客户提供了各种可视化组件,客户可以根据自己的需求通过组件
间简单组合进行数据展示 。为客户提供了超过 50 种以上的数据可视
化展示方式 。
数据可视化平台通过三维表现技术来表示复杂的信息,实现对海
量数据的立体呈现 。可视化技术借助人脑的视觉思维能力,通过挖掘
数据之间重要的关联关系将若干关联性的可视化数据进行汇总处理,
揭示数据中隐含的规律和发展趋势,从而提高数据的使用效率 。在解
决了海量数据分析耗时过长、挖掘深度不够、数据展现简单等问题的
基础上,大数据可视化平台使人们不再局限于使用传统关系数据表来
分析数据信息,而是以更直观的方式呈现和推导数据间的逻辑关系 。
总而言之 , 数据可视化是做大数据分析的一个很重要的手段 。
2.8.2
数据流程
通过可视化分析展示平台,使抽象的数据信息变得简单、易懂 , 
直观呈现数据分析结果,丰富的可视化组件可帮助业务准确的表达数
据的价值所在,完善的功能可帮助用户建立有针对性的报表体系 。其
主要价值可体现在即席查询、数据洞察与大屏呈现、移动报表之上 。
2.8.3
2.8.3.1
平台功能
数据可视化
系统支持多场景模板管理,预置地理分析、实时监控、汇报展示
等多种场景模版 。
第 77 页 共 93 页
系统支持除针对业务展示优化过的常规图表外,还能够绘制包括
海量数据的地理轨迹、热力分布、地域区块、 3D 地图、3D 地球 , 
地理数据的多层叠加 。此外还有拓扑关系、树图等异形图表可以自由
搭配 。
系统支持多数据源接入如分析型数据库,关系型数据库,本地
CSV 上传和在线 API 等;可满足各类大数据实时计算、监控的需求 , 
充分发挥大数据计算的能力 。
系统提供多种的业务模块级而非图表组件的 Widget,所见即所
得式的配置方式,无需编程能力 , 只需要通过拖拽,即可创造出专业
的可视化应用 。
提供丰富的图形可视化选择,(堆积)柱图、 堆积)横条图、散
点图、(堆积)面积图、折线图、组合图、瀑布图、饼图、环形图、
南丁格尔玫瑰图、油量图、散点图、气泡图、雷达图、关系图、热力
图、词云图 。
2.8.3.2
地图分析
地图分析可以将数据在地图上进行可视化呈现 , 形成地理导航
仪,通过点击、下钻以及图表联动等方式,进行数据分析和展示 。
1、内置中国全部省份、地市的矢量地图,支持区域的模糊匹配
2、内置 Baidu 地图接口 , 简单配置即可
3、可自定义地图
4、支持区域、线(河流、道路)、点(城市、建筑)
5、支持地图缩放、下钻、鼠标热点
6、支持与 ArcGIS、Baidu 地图、Google 地图、天地图等集成
7、支持迁徙地图、航线地图、热力地图、散点地图、染色地图

2.8.3.3
仪表盘
适用于管理者把握全局,运筹帷幄 。以简洁、直观的界面,展现
各环节的数据,并以丰富的展现和互动形式为决策者提供帮助 。
1、可视化配置、布局灵活、快速发布、支持页面主题
2、丰富的互动性 , 支持 What-if 分析,参数控件可视化
3、支持页面内部、页面之间的钻取、关联分析
4、帮助开发人员快速完成仪表盘设计,实现交付过程敏捷化
2.8.3.4
大屏幕
2.8.3.5
报表报告
2.8.3.6
分析报告
2.8.3.7
丰富的交互查询
2.8.3.8
二三维联动功能
2.8.3.9
数据历史回放
2.8.3.10 圈选式查询
2.8.3.11 数据报警
2.8.3.12 明细查询
2.8.3.14 多维分析
2.8.3.15 多样化的统计分析与主题分析
2.8.3.16 统计分析
3 主要关键技术
3.1内存级数据交换共享
3.2一站式数据集成和数据管理
3.3数据分析模型
3.4数据治理技术
3.5数据挖掘技术
3.6可视化建模技术
3.7NLP 语 义 分 析 技 术
3.8知识图谱技术
3.9 数据交换共享技术指标
3.10 应 用 系 统 技 术 指 标
本文到此结束,希望对大家有所帮助!

猜你喜欢