Spark 阅读 python3 pickle 作为输入

Question

我的数据以 Python 3 个腌制文件的形式提供。大部分都是PandasDataFrames.

的连载

我想开始使用 Spark，因为我需要更多的内存和 CPU 一台计算机可以拥有的内存。此外，我将使用 HDFS 进行分布式存储。

作为初学者，我没有找到解释如何使用 pickle 文件作为输入文件的相关资料。

它存在吗？如果没有，是否有任何解决方法？

非常感谢

Answer 1

很大程度上取决于数据本身。一般来说，当 Spark 必须读取大的、不可拆分的文件时，它的性能并不是特别好。尽管如此，您可以尝试使用 binaryFiles 方法并将其与标准 Python 工具结合使用。让我们从一个虚拟数据开始：

import tempfile
import pandas as pd
import numpy as np

outdir = tempfile.mkdtemp()

for i in range(5):
    pd.DataFrame(
        np.random.randn(10, 2), columns=['foo', 'bar']
    ).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来我们可以使用bianryFiles方法来读取它：

rdd = sc.binaryFiles(outdir)

并反序列化单个对象：

import pickle
from io import BytesIO

dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]

##         foo       bar
## 0 -0.162584 -2.179106
## 1  0.269399 -0.433037
## 2 -0.295244  0.119195

一个重要的注意事项是，它通常需要比 textFile.

这样的简单方法多得多的内存

另一种方法是仅并行化路径并使用可以直接从分布式文件系统读取的库，如 hdfs3。这通常意味着以明显更差的数据局部性为代价降低内存需求。

考虑到这两个事实，通常最好以可以更高粒度加载的格式序列化您的数据。

注意：

SparkContext 提供了 pickleFile 方法，但名称可能会产生误导。它可用于读取 SequenceFiles 包含泡菜对象而不是普通的 Python 泡菜。

Spark 阅读 python3 pickle 作为输入

Spark reading python3 pickle as input

python

serialization

apache-spark

rdd

pyspark