我的数据有3列:年,车型,销量
筛选出新车或停产车列表
2023年新车:2022年销量=0或空值,但是2023年销量大于0
2023年停产车型:2022年销量>0,但是2023年销量=0或空值
要统计你要的完整判断,需要把车型和年份生成一个完整的维度数据,比如下图:
A10001车型只有2020年,2021年有,A10004车型2020年没有,A10005仅2022年有,A10006车型仅2023年有
所以你需要先准备所有年份数据,从数据集里提取年份然后去重
再提取所有车型数据,从原数据集里取车型字段,然后去重
将两个表做一个左右合并 ,并生成迪卡积效果数据
将原数据集与上面这个数据集做左右 合并 如图:
用def分析函数计算上年销量,如图:
判断是否为新车或停产车,如图:
最后效果验证: