存储空间取决于列

Unite professionals to advance email dataset knowledge globally.
Post Reply
Bappy11
Posts: 446
Joined: Sun Dec 22, 2024 9:33 am

存储空间取决于列

Post by Bappy11 »

o 是 ilionx 的一名顾问,每天使用 Power BI 并为客户提供使用支持。在这篇博客中,他将指导您如何减少 Power BI 中的存储大小。许多组织都使用 Power BI 来作为传递仪表板和报告的工具。但是如何确保仪表板的性能不会令人失望呢?在这篇博客中,Remo 深入探讨了如何通过显著减少数据集存储大小来提高 Power BI 性能。



Power BI 数据集的存储大小
一般来说,“数据集越大,报告越慢”。考虑一个 Excel 文件,其中包含多行数据的文件很快崩溃了。行越多,过滤器的响应速度越慢,Excel 崩溃的可能性就越大。但是哪些因素导致我的 Power BI 数据集的大小不断增大?

示例情况
为了本博客的解释,我们假设以下情况:

我们有一个 数据仓库 ,其中包含来自零售组织的销售数据。该组织拥有 100 家商店,每家商店 每天有 5,000 名顾客 ,每名顾客 购买10 件商品 。
数据平台捕获最低、最详细的信息。示例:每条收据行(售出的每种产品)在数据平台中都有自己的一行数据。
Power BI 有两种模式,导入和直接查询(我们不会进一步讨论这些)。我们使用导入模式,其中数据保存在 Power BI 中。


表格
Power BI 处理的数据存储在表中。表格由行和列组成。在一个有 10 行(观察值)和 10 列(特征)的表格中,有 100 个单元格。每个单元格包含一个值,描述该特定观察的特征。一个表格所需的存储空间取决于行数、列数和单 荷兰电报数据 元格中的值。



限制行数
需要存储的数据行越多,所需的内存就越大。但是如何限制 Power BI 数据集中的行数?

数据聚合
如果数据平台中的数据 存储在最详细的级别,但业务问题没有延伸到该详细级别,那么将数据存储在该级别就是一种浪费。那么最好添加(聚合)到更高的级别。例如:无需将收据行的销售额导入 Power BI,而是可以在商店日级别进行此操作。

如果我们将示例中的所有收据行加载到 Power BI 中,则我们需要所有商店一年的 365*100*5000*10= 1,825,000,000 (18 亿)行数据。
按商店天数计算的相同总数可得出:365*100= 36,500 行。差异达 50,000 倍。

始终问自己是否具有正确的聚合级别来回答业务问题,而无需导入不必要的行。

聚合示例

聚合表示例
数据聚合的示例。在此示例中,表格从 12 行减少到 3 行(因子 4)。
Post Reply