Dataphin V3.6版本发布啦！多项能力升级，助力企业提升全链路数据治理能力！_第一资讯_产品和服务

Dataphin V3.6版本发布啦！多项能力升级，助力企业提升全链路数据治理能力！

本次发布的V3.6版本中,Dataphin围绕数据资产建设、数据资产治理、基础平台等三大功能板块进行了完备性、安全性、研发效率、开放性、稳定性、易用性、可交付性等方面进行了优化和升级。在下一个版本中,我们将持续提升资产建设平台的易用性及可交付性、资产治理平台的完备性以及基本户平台的稳定性和开放性进行迭代,敬请期待!

发布时间：2022-10-13 16:50 来源：赛迪网作者：

一、关于Dataphin(智能数据建设与治理)

Dataphin是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助各企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。

Dataphin支持在多种大数据架构之上构建数据中台,具备一站式数据采、建、管、用全生命周期管理能力,显著提升数据治理水平,在计算引擎利旧降本基础上满足企业多元化数智应用需求,为企业上云用数赋智夯实数字化能力底座。

微信图片_20221013165115

　二、DataphinV3.6版本概览

01-拓展多引擎、多类型数据源、多消息渠道,满足企业多元化数智应用需求

ADB引擎适配:新增适配以AnalyticDB for PostgreSQL作为计算引擎,可支持数据集成、离线&实时数据研发、数据质量、资产安全、数据服务等功能,助力企业构建统一的数据仓库平台。

数据源拓展:新增支持达梦数据源可用于离线集成、提升对国产数据库的支持度;Hive及HDFS的数据源增加EMR版本选择,实时集成输出组件新增支持Hive,增强对Hive数据源的适配度。

自定义消息渠道:支持自定义消息发送渠道,通过配置化的方式实现与阿里云电话&短信、企业自有消息渠道的对接,以接收任务监控、质量监控、数据服务监控等告警信息。

02-贯穿事前规划、事中监控、事后稽核的全链路数据治理能力

概念建模:可视化定义基于实际业务场景抽象出的业务实体及关系,以更好地反映业务之间的联系,并为逻辑模型建设提供依据。

智能基线监控:支持配置天基线,添加需要保障的关键任务或字段后,系统可基于依赖关系自动圈选需要纳入监控范围的任务,同时支持配置灵活的告警规则及接收方式,以降低人工运维成本。

全域数据质量:拓展支持针对多种数据源表的质量监控,内置丰富的质量规则模板,同时支持基于业务场景自定义监控规则,以提升配置灵活性和业务监控覆盖面。

数据标准落标:新增支持批量导入数据标准,提升配置效率;支持基于标准属性和字段元数据进行关联映射配置,实现标准和资产的关联,作为后续落标稽核的基础。

03-研发体验优化,加速企业数字能力建设

编辑器优化:优化报错提示,可快速定位到错误代码行并提示错误原因及修复建议;新增set参数提示,可查看参数的默认值、类型及说明,提升数据开发效率。

集成组件优化:Orcale组件适配特殊字符的处理以减少运行报错,hologres组件支持填写SQL准备及完成语句,hana组件支持小写表名等,降低集成任务配置成本。

补数据优化:支持一键过滤下游暂停调度的任务极其全部下游,以保障补数据整体链路可正常执行,减少人工筛选成本。

脱敏方式拓展:支持配置底层查询直接过敏或仅展示脱敏,以支持简单的where/join等子查询场景,对业务使用更友好。

三、新版本重点特性详解及应用场景示例

　　特性1:基础研发版支持AnalyticDB PostgreSQL计算引擎

应用场景:构筑可线性扩展的企业数据仓库服务,加速企业数据分析和运营体系搭建

AnalyticDB PostgreSQL强兼容PG/Greenplum开源生态,兼容Oracle/TD语法生态,具备秒级弹性和数据共享等国内领先的产品能力;支持复杂SQL优化、海量数据关联聚合、资源负载管理,可提供PB级企业数据分析服务。

Dataphin基础研发版支持以AnalyticDB PostgreSQL作为计算引擎,用户现有的OLTP数据库实例,如RDS MySQL,PostgreSQL,或传统数据库实例 Oracle,SQL Server等,均可以通过Dataphin的数据集成和调度能力同步到AnalyticDB PostgreSQL;结合数据质量监控、安全分类分级及脱敏配置等功能,打通入库、清洗、分析和洞察的全链路,助力企业构建统一的数据仓库平台,加速面向业务场景的数据分析和运营体系搭建。

微信图片_20221013165122

微信图片_20221013165126

　特性2:概念建模

应用场景: 可视化定义基于实际业务场景抽象出的业务实体及关系,为逻辑模型建设提供依据

主题域层级从1级拓展到最多5级,企业可基于主题域更好的构建资产类目体系,实现数据分层管理。

微信图片_20221013165130

新增概念建模能力,在数仓规划及数据架构设计阶段,支持可视化配置基于实际业务场景抽象出的业务实体及其之间的关系,并以实体关系流程图的形式直观展示,有利于数据消费者更好理解数据和数据对应的业务。如制造业中的“原材料采购”场景,可以抽象出“客户、订单、原材料商品、地址”等业务对象,以及“供应商询价、下采购单、财务预付款、供应商发货、到货签收、财务付尾款”等业务活动。

此外,业务实体间的关系类型,在原有关联, 继承, 层级的基础之上, 新增前后序、流转、包含关系, 以便更精确的反映真实业务联系。如:“采购”流程包含“供应商发货”和“到货签收”两个事件,两个事件之间是流转关系,而“采购”是“供应商评审”的后续流程。

微信图片_20221013165134

概念模型创建完成后,可基于定义的业务实体快速创建对应的逻辑表,默认继承实体之间的关系并自动翻译为数据表之间的关联逻辑,实现概念模型和逻辑模型的映射,为模型开发提供业务输入和指导。

　　特性3:基线运维

应用场景:保障核心业务数据的产出任务,及时发现异常并预警,降低对业务用数的影响

1、添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。

配置时只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的上游节点,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。

2、可自定义配置基线整体的预警及破线告警、基线监控范围内单个节点的运行出错或变慢告警,便于及时发现异常并处理。

可以将需要保障数据的预计产出时间配置为基线的“保障时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。

此外,还可以给基线链路上的单个任务或字段配置运行变慢或运行出错的告警,便于尽早发现可能出现的异常并处理,保障业务数据能正常产出。

微信图片_20221013165139

3、支持查看每条基线的运行详情,如果存在预警或破线的风险,可自动识别定位到关键路径上的关键实例,便于开发运维人员直接处理,减少人工分析定位。

微信图片_20221013165143

　特性4:数据标准

应用场景:支持标准和资产的映射关联,以作为质量稽核的参考,提升企业资产治理水平。

1、标准属性配置优化,支持批量导入数据标准,提升配置效率。

支持配置属性字段的取值类型(自定义输入、枚举单选、枚举多选)及取值约束,同时也可引用码表作为枚举取值来源,以增强标准定义的规范性。如,指标的“业务分类”属性需要来源于企业的“业务系统”码表、“字段长度”属性的取值范围需要限制在0～128字符等。

支持下载标准定义模板,并通过上传Excel文件方式批量导入数据标准,实现历史标准的批量迁移入库。支持查看导入执行日志;支持配置导入冲突处理策略;支持一键下载异常记录及异常提示,以提升配置效率。

微信图片_20221013165148

微信图片_20221013165152

2、支持基于标准属性和元数据字段进行关联映射配置,实现标准和资产的关联,作为后续落标稽核的基础。

支持将标准属性和资产元数据进行关联映射配置,实现标准和资产的关联。可以在资产目录查看字段及指标的落标映射结果,以便参考映射到的标准定义进行开发,将数据治理前置到研发链路。针对不满足关联标准的资产,可以尽早进行整改,提升企业整体数字能力建设的标准化成熟和资产的健康度。

微信图片_20221013165156

3、支持码表、词根的定义及管理。

码表可用于约束标准属性字段的取值范围,提升标准定义的准确性;词根可作为数据表、字段等研发对象命名的参考依据,提升研发规范性。

微信图片_20221013165201

　特性5:全域数据质量

应用场景:通过对全域数据表及数据源的监控,将数据质量风险前置,进一步提升资产健康度。

1、支持计算引擎内及多种数据源表的质量监控,支持数据源连通性及表结构异动性监控。

数据质量模块分为域内版和全域版。其中,域内版可以针对计算引擎内的物理表及字段,以及Dataphin特有的逻辑表、指标和实时元表进行质量监控;同时还支持对已创建数据源的连通性以及监控范围内的表结构异动性进行监控。全域版在支持计算引擎内物理表的基础上,还支持10余种数据源的表监控,如MySQL、Oracle、Hana等。结合使用全域版和域内版的功能,能够拓展可监控的资产对象类型,将数据质量风险前置,降低对后续研发链路的影响。

微信图片_20221013165205

2、基于DAMA体系内置丰富的质量规则模板,开箱即用;可自定义监控规则并支持配置规则触发方式,以灵活适配多样化的业务需求。

基于DAMA(国际数据资产管理协会)体系,Dataphin质量模块内置完整性、唯一性、及时性、一致性、有效性、稳定性6类场景的系统模版及规则,大大降低使用门槛;支持自定义SQL的方式创建规则模版,以灵活适配多样性的业务需求。此外,支持配置灵活多样的规则触发条件,如定时触发、代码运行触发、任务调度触发等,可满足不同的开发场景。

微信图片_20221013165209

3、自动生成质量监控报告,支持查看下载异常数据,可作为质量整改的参考。

微信图片_20221013165213

　特性6:编辑器优化

应用场景:优化报错及参数自动提示,提升开发效率和使用体验。

1、报错提示优化:支持快速定位到错误代码行并标识错误语句,提示错误原因及修复建议;可自动识别不规范的代码语句,支持一键修复或忽略提醒。

微信图片_20221013165217

2、支持set参数提示:提示可选的参数,并支持查看参数的默认值、类型及说明;指定参数后,如有默认值或枚举值,自动提示可选值。

微信图片_20221013165221

　特性7:实时集成支持增量同步到Hive

应用场景:实时增量从MySQL或Oracle抽取数据同步到Hive

支持批量在Hive目标库自动建表,可自动为目标表添加系统附加字段;支持处理DDL,如新增表、删除表、表结构变更等8种场景;提供预览字段功能,可查看源表与目标表字段的差异对比,减少手动建表操作。支持智能检查目标表规范性及可用性,针对异常结果给出告警、错误等不同等级的提示,将问题前置以降低任务运行错误的可能性。

微信图片_20221013165225

此外,新增实时集成任务的提交详情,异常及风险提示一目了然,校验流程透明化。

微信图片_20221013165229

　特性8:离线集成组件优化

应用场景:适配多种数据源的特殊逻辑及异常处理,提升集成任务配置流畅度。

输入组件,对PostgreSQL、AnalyticDB for PostgreSQL类型的数据源,在使用QuerySQL方式时,支持添加常量字段

Hana组件支持小写表名

由于AnalyticDB for PostgreSQL仅支持在建表时指定分区字段,不支持后续添加,因此在整库迁移目标数据源为AnalyticDB for PostgreSQL时,自动添加分区字段,以适配需要创建分区的场景

Hologres输出组件支持填写SQL准备语句和完成语句

优化Oracle来源表带有特殊字符(如/)时的处理策略,使离线管道任务能正常运行而无需使用自定义组件,降低配置成本

特性9:补数据支持过滤暂停节点

应用场景:批量选中多层节点进行补数据,可一键过滤暂停节点,避免阻断补数据任务执行。

调度方式为“暂停调度”的任务,生成的补数据实例默认为暂停运行。暂停运行的节点会阻断下游其他实例的运行,此外如果选择了多个补数据业务日期且设置为周期间串行(即并发分租数为1),还会影响后续业务日期实例的执行,阻断整个补数据进程。

基于该背景,Dataphin新增支持在配置补数据任务时,可一键过滤暂停调度的任务极其下游节点。此外某些场景下,暂停调度的任务在补数据对应的业务日期下需要正常参与调度,如每月第一天运行的财务月结算任务,需要在指定的临时结算日期运行。针对这种场景,新增支持配置选中的暂停任务在选中的补数据业务日期的运行方式,可选空跑、正常运行、暂停运行,以灵活适配多样性的业务求。

微信图片_20221013165232