一月更新 | 实时数据同步新增SAP HANA、Db2等数据源、数据开发并行取数功能上线!

楼主
我是社区第1060314位番薯,欢迎点我头像关注我哦~
 

4.0.26 版本已发布,本次更新内容为:

1、【数据源】管道任务支持SAP HANA读取

2、【功能】定时和管道提供高级建标特性

3、【功能】支持Hive分区表创建和写入

4、【功能】支持利用并行取数提高读写效率

5、【功能】定时任务支持调用数据库存储过程
 

如果你想了解更多详情,请点击:「产品更新」新增BI公共数据作为数据源、并行取数提高数据读写效率、存储过程调用增强等 (qq.com)

一、  数据源

 

1、管道任务支持SAP HANA读取数据

SAP是一套被企业广泛使用的ERP系统,大多数企业会为了业务更灵活地数据分析,需要将数据导出后自行分析,一般会选择调用RFC函数配置SAP HANA数据源- FineDataLink帮助文档 进行定时取数。4.1.4版本开始,数据管道来源端支持SAP HANA数据库,用户可以通过管道任务对接SAP HANA实时取数,从而满足企业对更高时效性的需求。

 

 

数据管道配置数据源

💠详情:

支持的数据源范围- FineDataLink帮助文档

 

 

2、  将BI「公共数据」作为数据源

 

从4.1.3版本开始, 在数据源处提供BI公共数据,支持读取多个 FineBI 工程的数据,同时支持通过指定用户账号密码限制权限,保障使用安全。

● 数据连接处配置数据源

● 数据开发通过「数据同步」或「数据转换-数据集输入」可直接选择“公共数据”

 

 

数据来源远程公共数据选项

💠详情:

配置远程公共数据源- FineDataLink帮助文档

 

3、定时和管道提供高级建表特性

 

从4.1.3版本开始,在数据处理进行表输出时,在自动建表时提供建表功能以增加更多自定义特性,例如:定义表编码(UTF-8、ASCII等)、添加索引(帮助快速定位表中的特定行)、定义建表的类型(列式存储、行式存储)等,此功能同时应用于数据开发和数据管道。

 

手动建表配置

💠详情:

类型数据同步功能说明- FineDataLink帮助文档

 

4、Hive分区表创建与写入

 

从4.1.3版本开始,面对Hive大数据量的数据存储情况下,一般通过时间、地理、类别进行分区,提高查询速度。在FDL4.1.3的定时任务中,提供Hive在自动建表时支持分区表的创建,提供更好的“一站式”操作体验。

 

数据同配步置分区表

💠详情:

读取、创建、写入分区表- FineDataLink帮助文档 

 

5、Doris&StarRocks支持自动建表

 

从4.13版本开始,当客户构建数仓时使用Doris、StarRocks作为目标库时,由于Doris、StarRocks有多种表类型,大多需要手动建表,然后进行ETL配置,操作比较繁琐。在FDL4.1.3中,支持Doris、StarRocks的自动建表功能,同时可以定义表类型。

支持的表类型有:

● Doris:明细模型(Duplicate Key)、主键模型(Unique Key)

● StarRocks:明细模型(Duplicate Key)、更新模型(Unique Key)、主键模型(Primary Key)

 

另外,结合高级建表功能,用户可以修改建表语句,定义更灵活丰富的建表属性。

 

💠详情:

配置管道任务-表字段映射- FineDataLink帮助文档

数据同步功能说明- FineDataLink帮助文档 

 

6、  数据服务/数据管道支持Db2数据源

 

在数据服务模块中,FineDataLink 支持将处理好的数据库中的数据通过 API 形式发布出去,供其他工具使用。

从4.1.3版本开始,新增支持Db2数据源.

目前数据服务模块已支持:

MySQL、SQL Server、Oracle、PostgreSQL、GreenPlum、FineBI公共数据、IBM DB2、Doris、TiDB、Impala、TRANSWARP INCEPTOR、StarRocks、GaussDB 200、阿里云Maxcomputer以上十四种数据源。

 

在数据管道模块中,4.14版本新增支持Db2数据源,用户可以在管道任务中选取Db2数据源进行实时的数据同步。

目前数据管道模块已支持:

MySQL、SQLServer、Oracle、PostgreSQL、Kafka、GaussDB200、Greenplum、Doris、StarRocks、TiDB、ClickHouse、Amazon Redshift、SeaboxMPP、SAP HANA、IBM Db2以上十五种数据源。

 

💠详情:

FineDataLink支持的数据源- FineDataLink帮助文档

IBM DB2环境准备- FineDataLink帮助文档

 

二、  数据开发

 

1、定时任务支持运行到此节点

 

常见场景:当运行的多个节点处于整个流程的前半部分时,为了更新上游数据,便于调试,就可以使用「运行到此节点」。

 

从4.1.4版本开始,在数据开发右键菜单中加入「运行到此节点」选项,在「任务运维」-「运行记录」-「任务记录」中加入「重试」选项。可以使任务从头运行到此并产生实例。

 

定时任务运行至此节点

💠详情:

运行至此节点- FineDataLink帮助文档

 

2、文件读取、输出优化

 

为了支持更多种类的文件数据解析落库,以及确保从Finedatalink输出的文件支持从Finedatalink获取数据。

在4.1.4版本对文件读取、输出进行了一系列的优化:

 

● 对齐文件输入输出配置,使文件输出配置选项和文件输入配置选项保持一致。

● 开放上传的文件类型,不限制后缀名,本地/FTP/SFTP上的json/xml等文件也可以解析为二维表上传;

● 文件输出CSV数据时可以将CSV文件的后缀设置为txt\tsv\log等。同时,在文件输入CSV数据时也可以将后缀为txt\tsv\log的数据作为CSV文件输入。

 

文件输入支持更多文件与后缀

💠详情:

文件输入功能说明- FineDataLink帮助文档

文件输出算子功能说明- FineDataLink帮助文档

 

3、支持直接选表同步数据的功能

 

4.1.3版本新增支持获取来源表的schema信息,现在在数据同步节点、「DB表输入算子」、「参数赋值」、数据服务的发布内容及参数中新增直接选表的配置方式,并支持配置过滤条件。可以选择从下拉框直接选表,不需要写入任何SQL代码。

未来会基于此衍生出一系列的高级特性。例如支持同步DDL、多库多表同步。

 

DB表输入配置

💠详情:

数据同步功能说明- FineDataLink帮助文档

 

4、利用并行取数提高读写效率(MySQL\Oracle\SQL Server)

4.1.3版本针对数据库的特性做一些性能优化。在数据同步、数据转换的输入、输出算子下,增加并行取数的配置项,利用并行取数提高了读写效率,耗时最大可以缩减约80%。

 

并行取数配置

💠详情:

数据同步功能说明- FineDataLink帮助文档

 

5、定时任务支持调用数据库存储过程(MySQL\Oracle\SQL Server)

 

4.1.3版本在定时任务支持调用数据库存储过程

新增两种调用方式:

 

● SQL脚本新增了“存储过程”选择项,支持传入任务参数和动态参数。 

● 「数据同步」、「数据转换」、「参数赋值」新增了“存储过程”选择项, 调用数据库存储过程支持选择返回的结果集。

 

 

存储过程参数配置

 

💠详情:

定时任务调用数据库存储过程- FineDataLink帮助文档

 

三、  任务运维

1、产品各模块内存资源和并发控制

常见场景:有些公司ETL任务一般是夜晚进行,就需要为ETL任务在白天分配低内存,在夜晚分配高内存,从而实现资源的合理配置。

 

新版本在负载管理功能下新增「负载分配」模块。支持将数据管道、数据开发和数据服务的内存资源拆分,可以独立控制。支持数据开发、数据管道的并发控制,可以灵活调整不同模块的任务并发数。

 

负载管理配置

 

💠详情:

负载分配- FineDataLink帮助文档

 

2、定时任务自定义调度日历

 

常见场景:金融类外企/银行的工作日和节假日执行时间非正常工作日,定时任务的调度时间需要自定义。

 

● 新版本在任务运维-调度计划中新增「调度日历配置项」,可以上传日历文件作为调度日历。

● 在定时任务模块下的调度计划-定时调度中可以灵活设置任务调度所引用的日历并进行可视化预览。

 

 

调度日历配置

 

💠详情:

定时任务运维-调度计划- FineDataLink帮助文档

 

3、  提供定时任务\数据管道\数据服务的批量操作

 

常见场景:面对大量任务,手动开启任务或者调整调度计划需要耗费许多时间。

新版本提供的批量操作功能可以优化用户使用体验。  例如在定时任务中一键全选或者多选任务,执行批量设置容错机制、任务属性、结果通知操作。

 

● 支持定时任务调度批量开启/关闭与设置任务控制(超时/重试/脏数据/任务优先级/结果通知)

● 支持管道任务批量启动\暂停

● 支持API批量上下线

 

批量处理管道任务

 

💠详情:

定时任务运维-任务管理- FineDataLink帮助文档

管道任务运维- FineDataLink帮助文档

服务运维- FineDataLink帮助文档

 

四、  最佳实践合集

在过去的一个月里,我们根据众多客户的使用场景,在原有数仓搭建、API取数专题、数据告警和业务场景的基础上进行了更新:

 

1、金蝶K3系统以起始行为参数接口取数

当在金蝶K3 Cloud系统接口需要进行分页报表取数时,但没有有提供页码参数时,需要根据接口中返回的总行数,开始行索引参数以及返回行数限制参数进行取数。

 

 

 

2、API取数-钉钉获取部门用户信息

钉钉作为企业的通讯平台,需要获取钉钉中的用户和所在部门数据进行分析,但接口每次只能获取当前部门的下一部门基础信息,并不能获取当前部门下所有层级子部门信息,方案提供了获取所有部门和用户信息的方法。

 

 

3、  数仓搭建-数仓拉链表实践

当需要获取一个事物从最开始到当前状态的所有变化信息时,一般采用拉链表用来存储当天最新数据以及之前的历史的数据,这样既能满足反应数据的历史状态,又能最大限度地节省存储空间,但拉链表的实践在远比普通表难度要高,此方案提供了数仓拉链表的实践。

 

 

除此之外,还有一些其他场景:基于旺店通和手工Excel的电商场景销售分析基于EAS、OA系统的财务收入核算场景等,欢迎大家直接登录Demo平台进行查看。

 

 

💠 产品更新详情:

4.1.3更新日志- FineDataLink帮助文档

4.1.4 更新日志- FineDataLink帮助文档 

 

点击此处,直接体验

 

若有企业试用需求,请填写此申请表单,我们的工作人员会在3个工作日内联系您!

 

 

 

分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0回帖数 1关注人数 1829浏览人数
最后回复于:2024-1-25 11:54

返回顶部 返回列表