BI抽取数据存储及数据量的问题

有一张宽表，在BI做抽取数据集，抽取是只抽一年且SQL就是select * 没有做别的操作。数据表在数仓存储一共215个字段，总共1800多万行数据，在数仓占用1.95G。但是抽取在BI只抽了一年却占用了22个G多的存储，第一个问题是想问下BI抽取数据集的存储逻辑是怎么存的。第二个问题是：我现在服务器是16C64G的，抽取数据集怎么根据我的服务器内存等算一下单个数据集的数据量打到多少之后查起来的速度会大幅度变慢。或者说单个数据集的数据量达到多少时对这个数据集进行查询速度会大幅度降低。

FineBI 蓝猫淘气三千问 发布于 2023-12-27 16:56

1min目标场景问卷

立即参与

回答问题关注问题

悬赏：4 F币 + 添加悬赏

提示：增加悬赏、完善问题、追问等操作，可使您的问题被置顶，并向所有关注者发送通知

共1回答

最佳回答

luojian0323Lv7资深互助
发布于2023-12-28 09:03（编辑于 2023-12-28 09:04）

BI抽取数据集的存储逻辑是怎么存？

答：列式存储，文件存储，

抽取数据集怎么根据我的服务器内存等算一下单个数据集的数据量打到多少之后查起来的速度会大幅度变慢

答：单个数据集格子数不超过一亿，否则查询效率会大幅度变慢，甚至查不出。

第二个问题官方给的解决方案：用大数据直连。不走spider计算引擎。

举报收起评论(6)

蓝猫淘气三千问(提问者) 谢谢大佬！我还想问下列式存储+文件存储为什么能让我的存储空间翻了快10倍这个能解释一下吗。我昨天试了一下感觉全量更新后存储空间就是最新的全量表的存储，并不是按版本存的，所以不太理解为什么翻了这么多倍。还有就是我最初是直连但是直接卡死不出数才想要不要改为抽取，但是这么看的话我有215个字段，1亿条只能让我存40多万条数据，但是一期数就不止40万了，有什么更好的解决办法嘛？

2023-12-28 09:24

宝矿力不加冰 老师，格子数是指单元格的数量吗？3行3列是9个格子数的意思？

2023-12-28 09:26

蓝猫淘气三千问(提问者) 关于列式存储+文件存储这一块有帮助文档可以看一下嘛

2023-12-28 09:26

luojian0323 回复宝矿力不加冰 是的。

2023-12-28 09:44

luojian0323 回复蓝猫淘气三千问(提问者) 暂时没有相关文档，有我相信你了不大能看懂，这是软件底层逻辑。列式存储就是数据集是按字段来存储在服务器的，一个表有N个字段就会存N个文件所以相对会多占空间，但这是spider引擎设计需要为了加快查询速度但也有一定数量限制，就是不能超过一亿，否则效率会降低。

2023-12-28 09:53