为仪表板预处理大数据的工具?
Tools to preprocess a big data for dashboards?
我有一个复杂的数据集,其中超过 1600 万行来自制药行业。关于数据,它保存在一个sql服务器上,有400多张关系表。
数据有多个层次结构,如省、市、邮政编码、人员和抗原措施等
我想创建许多仪表板以观察正在发生的变化和趋势。为此,我可以使用 Pentaho、R (shiny) 或 Tableau。但问题是数据如此庞大,用仪表板软件处理它需要很长时间。我可以选择制作立方体并将其连接到仪表板。
我的问题是是否有任何其他解决方案可以用来代替制作立方体?我不想经历制作和维护多维数据集的麻烦。
我想使用一个指定表之间关系的软件,以便 aggregation/amalgamation 顺利进行并输出可以连接到仪表板的已处理表。我听说 Alteryx 是一款可以为您做这件事的软件(我自己没试过,而且很贵!)。
我了解此任务需要两个或更多 softwares/tools。请分享您的意见和经验。请提及您使用的工具、数据大小、整个系统 fast/efficient 以及其他必要的详细信息。
这在很大程度上取决于您的数据集有多大(不仅仅是行数)以及您的 SQL 服务器的速度。
我已将超过 2000 万行(大小超过 4GB)的数据集直接加载到 Tableau 中(尽管这是在 64 位 Windows 机器或内存超过 8GB 的 Mac 上)。而且它们运作良好。
如果数据量很大(这意味着可能有 10 GB 的磁盘 space),那么您最好将 Tableau 直接连接到 SQL 服务器并让服务器完成繁重的工作起重。这也很好用。我在(快速而强大的)SQL 服务器上拥有十亿行数据集,如果 SQL 服务器针对快速分析而不是事务处理进行了优化,这也可以以合理的速度运行。
如果您的本地服务器功率或容量有限,那么我还建议将您的数据放在 Google 的 BigQuery(或亚马逊的 Redshift)之类的东西上,因为它们的设置成本低得离谱,而且提供惊人的分析能力。 Tableau 为两者提供了连接器,因此您通常可以实现交互速度,即使是在处理庞大的数据集时也是如此。我有一个包含 5 亿行和大约 100GB 数据的测试数据集,即使我直接从 Tableau 驱动它们,我也会在 15-30 秒内获得大多数查询的典型查询响应。
我有一个复杂的数据集,其中超过 1600 万行来自制药行业。关于数据,它保存在一个sql服务器上,有400多张关系表。
数据有多个层次结构,如省、市、邮政编码、人员和抗原措施等
我想创建许多仪表板以观察正在发生的变化和趋势。为此,我可以使用 Pentaho、R (shiny) 或 Tableau。但问题是数据如此庞大,用仪表板软件处理它需要很长时间。我可以选择制作立方体并将其连接到仪表板。
我的问题是是否有任何其他解决方案可以用来代替制作立方体?我不想经历制作和维护多维数据集的麻烦。
我想使用一个指定表之间关系的软件,以便 aggregation/amalgamation 顺利进行并输出可以连接到仪表板的已处理表。我听说 Alteryx 是一款可以为您做这件事的软件(我自己没试过,而且很贵!)。
我了解此任务需要两个或更多 softwares/tools。请分享您的意见和经验。请提及您使用的工具、数据大小、整个系统 fast/efficient 以及其他必要的详细信息。
这在很大程度上取决于您的数据集有多大(不仅仅是行数)以及您的 SQL 服务器的速度。
我已将超过 2000 万行(大小超过 4GB)的数据集直接加载到 Tableau 中(尽管这是在 64 位 Windows 机器或内存超过 8GB 的 Mac 上)。而且它们运作良好。
如果数据量很大(这意味着可能有 10 GB 的磁盘 space),那么您最好将 Tableau 直接连接到 SQL 服务器并让服务器完成繁重的工作起重。这也很好用。我在(快速而强大的)SQL 服务器上拥有十亿行数据集,如果 SQL 服务器针对快速分析而不是事务处理进行了优化,这也可以以合理的速度运行。
如果您的本地服务器功率或容量有限,那么我还建议将您的数据放在 Google 的 BigQuery(或亚马逊的 Redshift)之类的东西上,因为它们的设置成本低得离谱,而且提供惊人的分析能力。 Tableau 为两者提供了连接器,因此您通常可以实现交互速度,即使是在处理庞大的数据集时也是如此。我有一个包含 5 亿行和大约 100GB 数据的测试数据集,即使我直接从 Tableau 驱动它们,我也会在 15-30 秒内获得大多数查询的典型查询响应。