为仪表板预处理大数据的工具?

Tools to preprocess a big data for dashboards?

我有一个复杂的数据集,其中超过 1600 万行来自制药行业。关于数据,它保存在一个sql服务器上,有400多张关系表。

数据有多个层次结构,如省、市、邮政编码、人员和抗原措施等

我想创建许多仪表板以观察正在发生的变化和趋势。为此,我可以使用 Pentaho、R (shiny) 或 Tableau。但问题是数据如此庞大,用仪表板软件处理它需要很长时间。我可以选择制作立方体并将其连接到仪表板。

我的问题是是否有任何其他解决方案可以用来代替制作立方体?我不想经历制作和维护多维数据集的麻烦。

我想使用一个指定表之间关系的软件,以便 aggregation/amalgamation 顺利进行并输出可以连接到仪表板的已处理表。我听说 Alteryx 是一款可以为您做这件事的软件(我自己没试过,而且很贵!)。

我了解此任务需要两个或更多 softwares/tools。请分享您的意见和经验。请提及您使用的工具、数据大小、整个系统 fast/efficient 以及其他必要的详细信息。

这在很大程度上取决于您的数据集有多大(不仅仅是行数)以及您的 SQL 服务器的速度。

我已将超过 2000 万行(大小超过 4GB)的数据集直接加载到 Tableau 中(尽管这是在 64 位 Windows 机器或内存超过 8GB 的​​ Mac 上)。而且它们运作良好。

如果数据量很大(这意味着可能有 10 GB 的磁盘 space),那么您最好将 Tableau 直接连接到 SQL 服务器并让服务器完成繁重的工作起重。这也很好用。我在(快速而强大的)SQL 服务器上拥有十亿行数据集,如果 SQL 服务器针对快速分析而不是事务处理进行了优化,这也可以以合理的速度运行。

如果您的本地服务器功率或容量有限,那么我还建议将您的数据放在 Google 的 BigQuery(或亚马逊的 Redshift)之类的东西上,因为它们的设置成本低得离谱,而且提供惊人的分析能力。 Tableau 为两者提供了连接器,因此您通常可以实现交互速度,即使是在处理庞大的数据集时也是如此。我有一个包含 5 亿行和大约 100GB 数据的测试数据集,即使我直接从 Tableau 驱动它们,我也会在 15-30 秒内获得大多数查询的典型查询响应。