2020年12月
基于国家电网数据中台建设的数据治理经验王兆辉,康之增,刘云龙
(国网河北电力有限公司互联网部,河北石家庄050021)
【摘要】基于国家电网数据中台的建设与应用,本文提出“先理再治”的数据全面排查方法,使用SG-国家电网公司企业信息模型(CIM)确立数据标准,构建存量数据治理、增量数据治理、数据交换治理框架,促进国网河北电力有限公司的数据中台建设,为电力领域的数据治理技术提供经验参考。
【关键词】大数据;治理;电网
【中图分类号】TM7【文献标识码】A【文章编号】1006-4222(2020)12-0005-03
1背景
数据治理是一种质量控制规程,用于在管理、使用、改进和保护组织信息的过程中添加新的严谨性和纪律性[1]。目前,数据治理面临的挑战主要体现在数据标准不统一、数据质量问题严重、数据复杂度高、隐私和风险保护性强、效益实现期望高等方面,研究人员对各个领域的数据治理提出了相关的治理经验或思想。朱维和等人[2]提出了公安大数据治理关键技术的框架,包括数据资源目录构建、细粒度的敏感
信息控制、多维度实时的数据资产信息展示、以业务元模型为核心的数据服务,提高了公安数据的质量、管理、应用水平。王春水[3]将数据治理应用于自然资源研究,使用了数据管理共享治理框架,包括标准建设、制度建设、数据资源目录建设,并结合治理框架搭建了大数据云平台,提高了信息智慧化服务的能力。郑苑等人[4]针对高校数据治理提出了管理机制创新的思考,帮助高校更加全面、客观地分析和解决数据治理领域的问题。姚卓[5]针对金融行业提出了数据安全治理体系建设,论证了金融机构对数据安全的重大要求。卫荣[6]针对医疗健康领域提出了大数据质量治理体系,强调数据治理对质量起着关键性的作用,关系到医疗的精准性。但是,对于电力行业的数据治理研究相对较小。
2019年,国家电网河北电力有限公司根据总部统一规划启动了数据中台的项目建设。2020年,河北公司完成了数据中台搭建、组件联调测试、两级数据贯通及应用构建工作,基于数据中台数据接入组件,完成规划计划、基建管理、用电信息采集等50多套数据系统需要接入数据中台,当中涉及的部门众多,人员结构复杂,数据质量参差不齐。为了更好地服务业务应用,有效提高公司数据的实时性、安全性和准确性,从项目的启动、结束和运维,项目人员严格开展了数据治理专项工作,围绕同期线损、营配贯通、多维精益管理、客户服务等重点业务场景,对已接入数据中台的营销业务应用、PMS2.0、ERP等业务系统数据,从数据完整性、一致性、合理性等方面开展长期和全方位的数据治理。
2信息系统存在问题
随着国家电网信息化战略不断深入,经过十多年的信息化建设,信息系统已全面覆盖企业经营、电网运行和客户服务等业务领域及各层级应用,为公司各项业务有效运转提供了有力支撑,“一切业务数据化”基本完成,但在信息系统建设、管控、服务模式等方面,仍存在以下问题:
(1)以业务为角度,业务在一定程度上仍是专业级,信息系统很大程度上仍是“部门级”,各业务系统形成以各自为中心的单体应用,导致跨专业业务流程断点、集成穿墙打洞、数据壁垒和管理力度不匹配。
(2)以技术为角度,信息化资产和能力未有效积累,系统中业务和数据的服务化和复用化程度低,系统开发往往需要从零开始,数据分析需要直接面对原始数据,导致系统灵活性差、建设周期长、成本高,不能支撑新型业务迅速构建。
(3)以客户为角度,以客户为中心、以应用价值为导向的理念仍需加强,系统“管控式”成分较重、大而全、核心功能不突出,不能满足基层单位个性化应用需求,数据分析应用数量多而散、低水平重复、实用价值低现象普遍存在,导致系统不好用、不易用、用户体验差。
为了彻底解决上述问题,国家电网河北电力有限公司积极推进数据中台的建设,通过数据中台的建设实现数据融合与共享,向“一切数据业务化”转进,有力支撑前端业务系统的
通信设计与应用5
2020年12月
快速开发与部署,最终全面实现战略升级、组织升级、技术升级,提高公司核心竞争力,力求在市场竞争中赢得主动,实现公司和社会效益的最大化。
3数据治理经验
3.1数据全面排查
排查过程中采用以下方式:
(1)自上而下,从国网顶层开始排查是否存在统一的数据管理体系标准、标准执行情况如何等。如果不存在就由IT 部牵头制定数据标准,如果存在就排查标准是否合适,是否符合业务部门的要求,并检查是否按要求严格执行。
(2)收集一线人员的意见。一线人员是具体操作人员,是数据录入的源头,多收集和听取他们的想法,数据治理才更有针对性。
(3)明确需求,除了了解现状外还收集了各数据管理人员的诉求,并引导出具体要求。比如数据缺失是如何处理的,工具是否具有易用性等。
经过数据排查后,形成EXCEL数据清单并进行导出。以会议的形式,组织专家(经验丰富人员)判断出数据管理所处等级,分析出凸显问题、数据治理的紧迫性等,为后续工作奠定基础。
3.2确定数据标准
确定数据标准是数据治理的核心环节。经过排查后出问题,进一步确定数据治理的目标,根据目标确定标准。做到标准统一,贴合实际,有一定前瞻性,让各系统的使用人员对同一指标的理解一致。
数据标准制定过程如下:
(1)参考国家标准、行业标准、企业标准。
(2)借鉴参与厂商多年的数据治理经验。
(3)听取有多年经验的行业专家。
(4)听取一线人员和业务部门的意见和建议。
经过以上方法收集资料,并对此综合考虑,最终制定一份合适的数据标准,为后续治理提供基准。本项目采用国家电网公司企业信息模型(SG-CIM)确定数据标准。该模型是使用面向对象的建模技术定义
、统一建模语言进行表达,是在IEC 61968/IEC61970CIM标准的基础上,结合国家电网公司实际业务需求对CIM模型进行扩展和重新组织,形成国网公司企业统一信息模型,为企业级信息系统数据模型统一奠定基础,提供参考依据。
3.3存量数据治理框架
数据标准建立好后,需要根据标准进行改造。存量数据是重中之重,由于历史数据时间跨度较大,各应用系统都有改造,造成年前年后数据不一致,元数据不统一等,数据质量较差。针对这种现象通过与业务部门协商,或增补,或清洗,或转换最终形成一个统一的、一致的、完整的、合规的、无冗余的数据。例如性别统一为数字表示,1为男,2为女。再如机构编码统一为:GW0001为国网总公司,GWHB0001为河北分公司。
于此,本文提出存量数据治理框架,具体方法和原则如下:(1)从中台自身的存量数据入手,进行一个一个应用梳理并与相关部门保持沟通,形成数据治理清单,明确各种数据的处理方式。
(2)合理分工,根据数据所属应用(部门),根据数据标准谁的数据谁改造,专业的人做专业的事。
(3)采用华为中台的大禹工具进行自动化调度。如图1所示,数据从源系统出发,经过贴源层,穿过共享层,最后抵达分析层。
通过本过程完成了存量数据治理,解决大部分数据质量问题。坚持“有法必依”,有标准必须执行,才能保证数据质量。
3.4数据交换治理
数据中台里数据治理的目的就是进行数据交换、共享、消除信息孤岛。所以数据治理工作的好坏,直接体现在交换共享上。只有本层做好,才能充分体现治理工作的成效,凸显数据中台的价值,为其他应用系统打下坚实基础。
本文提出数据交换治理框架,内容包括:
(1)数据交换两端数据格式是否一致。
(2)数据交换两端数据量是否一致。
(3)数据交换的时效性能否满足。
(4)选择华为中台大禹工具进行数据交换,自动运行。
(5)数据链路应本着越简单,越有效,效果越好的原则配置。
通过数据交换实现了数据共享,融会贯通。这一过程同样坚持“有法必依”,简单有效为原则。
3.5增量数据治理
经过上一步治理,数据治理工作正式进入日常运维阶段,数据需要按周期调度,例如每日凌晨。此阶段是一个长期坚持治理的过程,单纯技术手段无法保证数据质量,必须由组织、制度,以及个人职责来保障。
本文提出增量数据治理框架,结合图2,其原则和方法如下:
(1)根据时间属性从源系统中取出增量数据。
(2)根据数据标准对增量数据进行治理,并分出数据的变化(增删改)。
(3)对有变化的数据通过Kafka消息机制,进行分发,监测。
(4)在数据共享层按标准进行抹平操作。
经过本过程,本轮数据治理工作才算完整。由于数据治理是全过程、全方位、全周期的治理,将与数据中台,国家
电网
图1数据中台自动
化调度
图2增量数据治理框架
通信设计与应用6
2020年12月
各类软件,避免服务器软件“滥用”。
(4)可支持软件的不同版本的管理,便于不同系统适用不同的软件版本。
4总结
通过可信计算技术建立的主动防御体系,一方面利用主动免疫的原理,检验和识别合法应用,仅允许符合记录特征的合法程序在系统中执行,将已知和未知的病毒木马程序排斥在系统之外。另一方面通过对系统的操作权限进行严格控制,使程序或用户按照预期的行为进行操作,保护重要系统资源免受非法操作的破坏,保证业务系统稳定运行。
可信计算技术在不打补丁,无杀毒软件的情况下,能够有效阻止针对应用和系统漏洞产生的攻击入侵行为和病毒木马程序的运行。同时该技术对于计算机系统有良好的兼容能力,在保障安全的同时不会对系统性能造成任何影响。
参考文献
[1]中华人民共和国网络安全法[EB/OL].[2]沈昌祥,陈兴蜀.基于可信计算构建纵深防御的信息安全保障体
系[J].四川大学学报:工程科学版,2014,46(11):1-7. [3]姚尧,孙瑜.可信计算在保险行业核心系统中的应用研究[J].信息
安全研究,2017(4):364-369.
[4]信息安全技术网络安全等级保护基本要求:GB/T22239—2019 [EB/OL].max.book118/html/2019/1224/6142031015002134. shtm
[5]信息安全技术网络安全等级保护安全设计技术要求:GB/T25070—2019[EB/OL].max.book118/html/2019/1106/8012024014 002062.shtm
基金项目:城市轨道交通系统安全保障技术国家工程实验室项目(发改办高技〔2016〕583号);中国铁路信息科技集团有限公司科技研究开发计划项目(KGZG-CKY-2019017(2019A01))。
收稿日期:2020-11-03
作者简介:雷彦斌(1975-),男,汉族,湖南东安人,高级工程师,博士,主要从事铁路信息化建设工作。
长期共存,共同发展。
3.6取得的成果
通过数据治理项目的实施取得了如下成果:
(1)保障了数据中台数据可信度,数据的完整性、合规性、时效性。符合让“数据用起来”的要求。
(2)使数据成为资产,赋能业务。极大降低用户使用大数据的门槛,帮助用户快速构建应用分析场景及各种数据处理功能。
(3)促进公司机构改革,使机构向扁平化方向发展。通过数据在上下级,部门间顺畅流动,每个工作人员都可以看到相关信息,减少了中间环节。公司机构相应改革,精兵简政,极大提高公司竞争力。
(4)促公司战略升级,数据中台的建设成功使公司信息化建设迈向新的台阶,向最终实现战略目标更近一步。
4结语
数据治理促进了国网河北电力有限公司的数据中台建设,同时也为电力领域的数据治理技术提供了经验参考。数据从零散到统一,从混乱到有序,需要进行数据排查、确定数据标准、进行存量数据治理、数据交换治理、增量数据治理。为了让政府和企业更好地利用好数据,数据治理依然需要实践与探索。
参考文献
[1]吴信东,董丙冰,堵新政,等.数据治理技术[J].软件学报,2019,30
(9):2830-2856.
[2]朱维和,魏锋,高晓岚.公安大数据治理技术研究[J].警察技术,2018(6):32-35.
[3]王春水.自然资源数据治理与应用研究:以山西省为例[J].国土资
源信息化,2019(4):15-19.
[4]郑苑,梁振辉.教育信息化背景下高校数据治理研究[J].中国教育
信息化,2020(17):50-54.
[5]姚卓.金融数据治理体系建设[J].金融科技时代,2020(9):33-35.
[6]卫荣.健康医疗大数据质量治理研究[J].中国卫生质量管理,2020,27
(3):5-8.
收稿日期:2020-11-03
国家电网有限公司作者简介:王兆辉(1974-),男,汉族,河北石家庄人,高级工程师,本科,主要从事电力大数据管理及应用工作。
康之增(1984-),男,汉族,河北沧州人,高级工程师,本科,主要从事数据基础管理工作。
刘云龙(1982-),男,汉族,河北石家庄人,工程师,本科,主要从事互联网专业新兴产业发展工作。
(上接第4页)
通信设计与应用7