Apache Spark 或 SQL 服务器解决方案是否用于内存有限的本地数据操作?

Are Apache Spark or an SQL server solutions for memory-limited local data manipulation?

我在工作时被分配了一个 8GB RAM 的桌面,我无法修改。我的工作涉及对一组 ~1GB、~8M 行表进行数据操作。

如果我可以合并所有文件,我需要做的某些分析将更容易实现,但这意味着我目前正在使用的工具 R 根本无法加载合并后的文件.

我四处打听,被告知使用 Apache Spark 或设置本地 SQL 服务器可以解决问题,让我忽略数据处理步骤的内存限制(预期输出始终仅包含少数总计数)。我只是想确保这些在安装任何东西之前都能正常工作。

(作为一个额外的问题,我想知道像 SPSS 这样的软件是如何顺利地加载和处理巨大的数据集的,以及为什么 R 不能实现类似的方法)

Spark 和 SQL 服务器绝对可以处理和处理超过 RAM 容量的数据。

安装这些工具应该没什么大不了的。卸载本地 Spark 安装只是删除一个简单的目录。

Spark 旨在用于计算机集群,但您可以在本地工作站上使用它。

Spark 还将 read/write 直接以大多数平面文件格式提供数据。对于 SQL 服务器,您必须将其加载到 SQL 服务器表中。