使用 Tableau Desktop 的大型 CSV 文件
Large CSV file with Tableau Desktop
我有一个 100GB 的 CSV 文件(2 亿行 X 60 列),我用它通过提取在 Tableau Desktop 中创建仪表板。我一直面临性能问题,当我 select/deselect 任何维度过滤器时,刷新仪表板大约需要 2 分钟。使用 Tableau Server 可以解决这个问题吗?如果是,我应该配置多少个节点以及每个节点的配置?
是否也是缓存设置的问题?
我也在考虑将这些数据放入像 Redshift 这样的列式数据库中,然后使用实时连接,以便使用 Redshift 查询引擎而不是 Tableau。对于这种小型数据集来说,这是否有点矫枉过正?
Redshift 或 Athena 可以很好地解决这个问题。
Redshift 很容易设置,单个节点每月的费用约为 250 美元。您需要调整红移 table 以获得合理的性能。
AWS Athena 可能是以合理的价格获得良好性能的好方法
简单的 Athena 解决方案:
- gzip 您的 CSV 文件,将其分成大约 10MB 的块
- 将其上传到 s3 存储桶
- 运行 aws glue crawler against that bucket
- 将您的 tableau 桌面指向现在存在的 athena table。
假设您的 gzip 文件是 25GB,每次查询将花费您 0.13 美元,其他费用很少。
如果这太多了(因为您想 运行 很多查询),那么您可以通过
降低成本并提高性能
- 将您的数据分区到 s3 文件夹中
- 正在将您的数据转换为 parquet 格式
我有一个 100GB 的 CSV 文件(2 亿行 X 60 列),我用它通过提取在 Tableau Desktop 中创建仪表板。我一直面临性能问题,当我 select/deselect 任何维度过滤器时,刷新仪表板大约需要 2 分钟。使用 Tableau Server 可以解决这个问题吗?如果是,我应该配置多少个节点以及每个节点的配置?
是否也是缓存设置的问题?
我也在考虑将这些数据放入像 Redshift 这样的列式数据库中,然后使用实时连接,以便使用 Redshift 查询引擎而不是 Tableau。对于这种小型数据集来说,这是否有点矫枉过正?
Redshift 或 Athena 可以很好地解决这个问题。
Redshift 很容易设置,单个节点每月的费用约为 250 美元。您需要调整红移 table 以获得合理的性能。
AWS Athena 可能是以合理的价格获得良好性能的好方法
简单的 Athena 解决方案:
- gzip 您的 CSV 文件,将其分成大约 10MB 的块
- 将其上传到 s3 存储桶
- 运行 aws glue crawler against that bucket
- 将您的 tableau 桌面指向现在存在的 athena table。
假设您的 gzip 文件是 25GB,每次查询将花费您 0.13 美元,其他费用很少。
如果这太多了(因为您想 运行 很多查询),那么您可以通过
降低成本并提高性能- 将您的数据分区到 s3 文件夹中
- 正在将您的数据转换为 parquet 格式