一、关于Dataphin(智能数据建设与治理)
Dataphin是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助各企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。
Dataphin支持在多种大数据架构之上构建数据中台,具备一站式数据采、建、管、用全生命周期管理能力,显著提升数据治理水平,在计算引擎利旧降本基础上满足企业多元化数智应用需求,为企业上云用数赋智夯实数字化能力底座。
二、DataphinV3.6版本概览
01-拓展多引擎、多类型数据源、多消息渠道,满足企业多元化数智应用需求
ADB引擎适配:新增适配以AnalyticDB for PostgreSQL作为计算引擎,可支持数据集成、离线&实时数据研发、数据质量、资产安全、数据服务等功能,助力企业构建统一的数据仓库平台。
数据源拓展:新增支持达梦数据源可用于离线集成、提升对国产数据库的支持度;Hive及HDFS的数据源增加EMR版本选择,实时集成输出组件新增支持Hive,增强对Hive数据源的适配度。
自定义消息渠道:支持自定义消息发送渠道,通过配置化的方式实现与阿里云电话&短信、企业自有消息渠道的对接,以接收任务监控、质量监控、数据服务监控等告警信息。
02-贯穿事前规划、事中监控、事后稽核的全链路数据治理能力
概念建模:可视化定义基于实际业务场景抽象出的业务实体及关系,以更好地反映业务之间的联系,并为逻辑模型建设提供依据。
智能基线监控:支持配置天基线,添加需要保障的关键任务或字段后,系统可基于依赖关系自动圈选需要纳入监控范围的任务,同时支持配置灵活的告警规则及接收方式,以降低人工运维成本。
全域数据质量:拓展支持针对多种数据源表的质量监控,内置丰富的质量规则模板,同时支持基于业务场景自定义监控规则,以提升配置灵活性和业务监控覆盖面。
数据标准落标:新增支持批量导入数据标准,提升配置效率;支持基于标准属性和字段元数据进行关联映射配置,实现标准和资产的关联,作为后续落标稽核的基础。
03-研发体验优化,加速企业数字能力建设
编辑器优化:优化报错提示,可快速定位到错误代码行并提示错误原因及修复建议;新增set参数提示,可查看参数的默认值、类型及说明,提升数据开发效率。
集成组件优化:Orcale组件适配特殊字符的处理以减少运行报错,hologres组件支持填写SQL准备及完成语句,hana组件支持小写表名等,降低集成任务配置成本。
补数据优化:支持一键过滤下游暂停调度的任务极其全部下游,以保障补数据整体链路可正常执行,减少人工筛选成本。
脱敏方式拓展:支持配置底层查询直接过敏或仅展示脱敏,以支持简单的where/join等子查询场景,对业务使用更友好。
三、新版本重点特性详解及应用场景示例
特性1:基础研发版支持AnalyticDB PostgreSQL计算引擎
应用场景:构筑可线性扩展的企业数据仓库服务,加速企业数据分析和运营体系搭建
AnalyticDB PostgreSQL强兼容PG/Greenplum开源生态,兼容Oracle/TD语法生态,具备秒级弹性和数据共享等国内领先的产品能力;支持复杂SQL优化、海量数据关联聚合、资源负载管理,可提供PB级企业数据分析服务。
Dataphin基础研发版支持以AnalyticDB PostgreSQL作为计算引擎,用户现有的OLTP数据库实例,如RDS MySQL,PostgreSQL,或传统数据库实例 Oracle,SQL Server等,均可以通过Dataphin的数据集成和调度能力同步到AnalyticDB PostgreSQL;结合数据质量监控、安全分类分级及脱敏配置等功能,打通入库、清洗、分析和洞察的全链路,助力企业构建统一的数据仓库平台,加速面向业务场景的数据分析和运营体系搭建。
特性2:概念建模
应用场景: 可视化定义基于实际业务场景抽象出的业务实体及关系,为逻辑模型建设提供依据
主题域层级从1级拓展到最多5级,企业可基于主题域更好的构建资产类目体系,实现数据分层管理。
新增概念建模能力,在数仓规划及数据架构设计阶段,支持可视化配置基于实际业务场景抽象出的业务实体及其之间的关系,并以实体关系流程图的形式直观展示,有利于数据消费者更好理解数据和数据对应的业务。如制造业中的“原材料采购”场景,可以抽象出“客户、订单、原材料商品、地址”等业务对象,以及“供应商询价、下采购单、财务预付款、供应商发货、到货签收、财务付尾款”等业务活动。
此外,业务实体间的关系类型,在原有关联, 继承, 层级的基础之上, 新增前后序、流转、包含关系, 以便更精确的反映真实业务联系。如:“采购”流程包含“供应商发货”和“到货签收”两个事件,两个事件之间是流转关系,而“采购”是“供应商评审”的后续流程。
概念模型创建完成后,可基于定义的业务实体快速创建对应的逻辑表,默认继承实体之间的关系并自动翻译为数据表之间的关联逻辑,实现概念模型和逻辑模型的映射,为模型开发提供业务输入和指导。
特性3:基线运维
应用场景:保障核心业务数据的产出任务,及时发现异常并预警,降低对业务用数的影响
1、添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。
配置时只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的上游节点,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。
2、可自定义配置基线整体的预警及破线告警、基线监控范围内单个节点的运行出错或变慢告警,便于及时发现异常并处理。
可以将需要保障数据的预计产出时间配置为基线的“保障时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。
此外,还可以给基线链路上的单个任务或字段配置运行变慢或运行出错的告警,便于尽早发现可能出现的异常并处理,保障业务数据能正常产出。
3、支持查看每条基线的运行详情,如果存在预警或破线的风险,可自动识别定位到关键路径上的关键实例,便于开发运维人员直接处理,减少人工分析定位。
特性4:数据标准
应用场景:支持标准和资产的映射关联,以作为质量稽核的参考,提升企业资产治理水平。
1、标准属性配置优化,支持批量导入数据标准,提升配置效率。
支持配置属性字段的取值类型(自定义输入、枚举单选、枚举多选)及取值约束,同时也可引用码表作为枚举取值来源,以增强标准定义的规范性。如,指标的“业务分类”属性需要来源于企业的“业务系统”码表、“字段长度”属性的取值范围需要限制在0~128字符等。
支持下载标准定义模板,并通过上传Excel文件方式批量导入数据标准,实现历史标准的批量迁移入库。支持查看导入执行日志;支持配置导入冲突处理策略;支持一键下载异常记录及异常提示,以提升配置效率。
2、支持基于标准属性和元数据字段进行关联映射配置,实现标准和资产的关联,作为后续落标稽核的基础。
支持将标准属性和资产元数据进行关联映射配置,实现标准和资产的关联。可以在资产目录查看字段及指标的落标映射结果,以便参考映射到的标准定义进行开发,将数据治理前置到研发链路。针对不满足关联标准的资产,可以尽早进行整改,提升企业整体数字能力建设的标准化成熟和资产的健康度。
3、支持码表、词根的定义及管理。
码表可用于约束标准属性字段的取值范围,提升标准定义的准确性;词根可作为数据表、字段等研发对象命名的参考依据,提升研发规范性。
特性5:全域数据质量
应用场景:通过对全域数据表及数据源的监控,将数据质量风险前置,进一步提升资产健康度。
1、支持计算引擎内及多种数据源表的质量监控,支持数据源连通性及表结构异动性监控。
数据质量模块分为域内版和全域版。其中,域内版可以针对计算引擎内的物理表及字段,以及Dataphin特有的逻辑表、指标和实时元表进行质量监控;同时还支持对已创建数据源的连通性以及监控范围内的表结构异动性进行监控。全域版在支持计算引擎内物理表的基础上,还支持10余种数据源的表监控,如MySQL、Oracle、Hana等。结合使用全域版和域内版的功能,能够拓展可监控的资产对象类型,将数据质量风险前置,降低对后续研发链路的影响。
2、基于DAMA体系内置丰富的质量规则模板,开箱即用;可自定义监控规则并支持配置规则触发方式,以灵活适配多样化的业务需求。
基于DAMA(国际数据资产管理协会)体系,Dataphin质量模块内置完整性、唯一性、及时性、一致性、有效性、稳定性6类场景的系统模版及规则,大大降低使用门槛;支持自定义SQL的方式创建规则模版,以灵活适配多样性的业务需求。此外,支持配置灵活多样的规则触发条件,如定时触发、代码运行触发、任务调度触发等,可满足不同的开发场景。
3、自动生成质量监控报告,支持查看下载异常数据,可作为质量整改的参考。
特性6:编辑器优化
应用场景:优化报错及参数自动提示,提升开发效率和使用体验。
1、报错提示优化:支持快速定位到错误代码行并标识错误语句,提示错误原因及修复建议;可自动识别不规范的代码语句,支持一键修复或忽略提醒。
2、支持set参数提示:提示可选的参数,并支持查看参数的默认值、类型及说明;指定参数后,如有默认值或枚举值,自动提示可选值。
特性7:实时集成支持增量同步到Hive
应用场景:实时增量从MySQL或Oracle抽取数据同步到Hive
支持批量在Hive目标库自动建表,可自动为目标表添加系统附加字段;支持处理DDL,如新增表、删除表、表结构变更等8种场景;提供预览字段功能,可查看源表与目标表字段的差异对比,减少手动建表操作。支持智能检查目标表规范性及可用性,针对异常结果给出告警、错误等不同等级的提示,将问题前置以降低任务运行错误的可能性。
此外,新增实时集成任务的提交详情,异常及风险提示一目了然,校验流程透明化。
特性8:离线集成组件优化
应用场景:适配多种数据源的特殊逻辑及异常处理,提升集成任务配置流畅度。
输入组件,对PostgreSQL、AnalyticDB for PostgreSQL类型的数据源,在使用QuerySQL方式时,支持添加常量字段
Hana组件支持小写表名
由于AnalyticDB for PostgreSQL仅支持在建表时指定分区字段,不支持后续添加,因此在整库迁移目标数据源为AnalyticDB for PostgreSQL时,自动添加分区字段,以适配需要创建分区的场景
Hologres输出组件支持填写SQL准备语句和完成语句
优化Oracle来源表带有特殊字符(如/)时的处理策略,使离线管道任务能正常运行而无需使用自定义组件,降低配置成本
特性9:补数据支持过滤暂停节点
应用场景:批量选中多层节点进行补数据,可一键过滤暂停节点,避免阻断补数据任务执行。
调度方式为“暂停调度”的任务,生成的补数据实例默认为暂停运行。暂停运行的节点会阻断下游其他实例的运行,此外如果选择了多个补数据业务日期且设置为周期间串行(即并发分租数为1),还会影响后续业务日期实例的执行,阻断整个补数据进程。
基于该背景,Dataphin新增支持在配置补数据任务时,可一键过滤暂停调度的任务极其下游节点。此外某些场景下,暂停调度的任务在补数据对应的业务日期下需要正常参与调度,如每月第一天运行的财务月结算任务,需要在指定的临时结算日期运行。针对这种场景,新增支持配置选中的暂停任务在选中的补数据业务日期的运行方式,可选空跑、正常运行、暂停运行,以灵活适配多样性的业务求。
特性10:脱敏规则支持配置脱敏方式
应用场景:通过配置查询时不脱敏仅展示脱敏,以支持简单的where/join等条件,对业务使用更友好
数据开发中,常常对一些敏感字段需要配置脱敏规则,以保障数据安全。默认情况下,在整个研发链路中,配置了脱敏规则的数据均使用脱敏后的结果参与计算,会导致where/join等条件不生效的问题,影响业务使用。基于此背景,Dataphin支持针对脱敏规则配置不同的脱敏方式:
底层脱敏:在数据被查询时就进行脱敏。SQL的处理过程中,均使用脱敏后的结果处理,能对数据起到更好的保护效果
仅展示脱敏:在数据被查询时不进行脱敏,仅在最后对外展示的时候进行脱敏。SQL处理过程中,均使用原文进行处理,因此可以支持简单的where/join等条件,对业务使用更友好。需要注意的是,如果对敏感字段使用UDF处理(如字符串截取),会触发脱敏降级,该字段生成的衍生字段会统一降级为***。
通过该能力,开发人员可以根据不同的使用场景配置不同的脱敏策略,以更好地适配业务需求,平衡好数据安全性和使用灵活性。
特性11:自定义消息渠道
应用场景:快读对接阿里云电话/短信以及企业自有消息渠道,以获取告警及消息通知
支持实例级别和租户级别的自由配置,不同租户可开启不同的消息渠道。支持快速对接阿里云的电话及短信渠道,或经过简单的参数配置对接企业自由的消息渠道。配置完成后,支持发送测试消息,以快速验证渠道可用性,保证消息可正常发送。
特性12:跨租户发布配置优化
应用场景:导入导出配置优化,支持对接外部存储系统,发布流程更顺畅
1、导出文件配置优化:
新增可设置“是否导出建表语句”;如设置了导出,可在待发布对象列表下载建表文件
新增支持设置“是否运行下载发布文件”
新增支持发布文件外部存储设置(本期支持启用OSS存储),可设置导出完成后“是否自动转存外部存储”,并支持设置同名文件冲突处理策略;若开启外部存储,待发布对象列表可一键转存并查看转存记录
2、导入数据源校验优化:
按照“数据源名称”进行匹配,如有名称相同的数据源则校验数据源类型,类型一致则认为在目标环境匹配成功
如果未匹配到同名数据源,仅提示风险,不阻断发布(可能导致依赖对应数据源的任务发布失败)
四、总结与展望
本次发布的V3.6版本中,Dataphin围绕数据资产建设、数据资产治理、基础平台等三大功能板块进行了完备性、安全性、研发效率、开放性、稳定性、易用性、可交付性等方面进行了优化和升级。在下一个版本中,我们将持续提升资产建设平台的易用性及可交付性、资产治理平台的完备性以及基本户平台的稳定性和开放性进行迭代,敬请期待!