使用 Tableau Desktop 的大型 CSV 文件

Large CSV file with Tableau Desktop

我有一个 100GB 的 CSV 文件(2 亿行 X 60 列),我用它通过提取在 Tableau Desktop 中创建仪表板。我一直面临性能问题,当我 select/deselect 任何维度过滤器时,刷新仪表板大约需要 2 分钟。使用 Tableau Server 可以解决这个问题吗?如果是,我应该配置多少个节点以及每个节点的配置?

是否也是缓存设置的问题?

我也在考虑将这些数据放入像 Redshift 这样的列式数据库中,然后使用实时连接,以便使用 Redshift 查询引擎而不是 Tableau。对于这种小型数据集来说,这是否有点矫枉过正?

Redshift 或 Athena 可以很好地解决这个问题。

Redshift 很容易设置,单个节点每月的费用约为 250 美元。您需要调整红移 table 以获得合理的性能。

A​​WS Athena 可能是以合理的价格获得良好性能的好方法

简单的 Athena 解决方案:

  1. gzip 您的 CSV 文件,将其分成大约 10MB 的块
  2. 将其上传到 s3 存储桶
  3. 运行 aws glue crawler against that bucket
  4. 将您的 tableau 桌面指向现在存在的 athena table。

假设您的 gzip 文件是 25GB,每次查询将花费您 0.13 美元,其他费用很少。

如果这太多了(因为您想 运行 很多查询),那么您可以通过

降低成本并提高性能
  • 将您的数据分区到 s3 文件夹中
  • 正在将您的数据转换为 parquet 格式