项目在建数仓,目前ODS层数据已经写好如上,后续需要进行增量更新,通过一个叫FMODIFYDATE的日期字段为条件进行增量更新。我没写过,有没有懂KETTLE的说一下步骤应该怎么写。FMODIFYDATE字段在数据同步中有。
kettle的这个插入/更新组件性能极低,建议使用时间戳增量更新,用update和insert来实现,不过就是要考虑历史数据修改补偿机制的问题
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=98012088_18_dg&wd=kettle%E6%95%B0%E6%8D%AE%E5%BA%93%E5%A2%9E%E9%87%8F%E5%90%8C%E6%AD%A5&fenlei=256&rsv_pq=cd68c8a600043b62&rsv_t=8de6v9qnTVc8pNSyNqaMmDTC65kMFkLmkXXliPkmxIjzDXfPtIAJOy8KsGOU0Zj5ltufu4g&rqlang=cn&rsv_dl=ts_1&rsv_enter=1&rsv_sug3=15&rsv_sug1=5&rsv_sug7=101&rsv_sug2=1&rsv_btype=t&prefixsug=K%2526gt%253BTTL%2526gt%253B%2526lt%253B%2520%25E5%25A2%259E%25E9%2587%258F&rsp=1&inputT=15395&rsv_sug4=15514 度娘
我觉得你 插入/更新 前面那部分全部都可以写sql来处理,增量就是往表里插入数据嘛,就每天查当天需要插入的数据就行了
有临时表的话直接从临时表将数据抽取过去即可,然后抽取完了就将临时表数据清除;记录所有记录要有个时间戳,那么需要更新的数据也是一样直接抽取过去,数据直接冗余,使用时重复数据按最新的时间戳获取;如果需要清除数据,那么隔一段时间就启动另一个脚本,删除数据,只留时间戳为最新的数据,数据标识也可以添加,就看你想怎么设计表单