创建自主数据集,汇总时候有个字符串拼接,这个相同的数据是会去重的是吗?怎么做到直接拼接不去重
系统默认走的spark sql是concat_ws('/', collect_set(字段)) as KK --去重逻辑
如果需要保留不去重:
切换成 concat_ws('/', collect_list(字段)) as KK 在数据集SQL中去处理;
————————————
~~~
如果汇总了,它自动会去重,软件规定了,没办法不去重。。。。