有一张宽表,在BI做抽取数据集,抽取是只抽一年且SQL就是select * 没有做别的操作。数据表在数仓存储一共215个字段,总共1800多万行数据,在数仓占用1.95G。但是抽取在BI只抽了一年却占用了22个G多的存储,第一个问题是想问下BI抽取数据集的存储逻辑是怎么存的。第二个问题是:我现在服务器是16C64G的,抽取数据集怎么根据我的服务器内存等算一下单个数据集的数据量打到多少之后查起来的速度会大幅度变慢。或者说单个数据集的数据量达到多少时对这个数据集进行查询速度会大幅度降低。
BI抽取数据集的存储逻辑是怎么存?
答:列式存储,文件存储,
抽取数据集怎么根据我的服务器内存等算一下单个数据集的数据量打到多少之后查起来的速度会大幅度变慢
答:单个数据集格子数不超过一亿,否则查询效率会大幅度变慢,甚至查不出。
第二个问题官方给的解决方案:用大数据直连。不走spider计算引擎。