PySpark 把数据放到 https
PySpark put data to https
我有一个包含 250,000 个客户数据的 spark 数据框 (PySpark)。现在我想将此数据发送到 HTTPS API(作为 JSON 文件)。
实际的解决方案是使用 Python 请求包发送数据,这对于一小部分数据工作正常。但是为此,我必须在一个节点上收集所有数据并从那里发送。
这个用例有更好的解决方案吗?
我可以 运行 每个节点上的一个函数来将数据存储到 https api?
非常感谢
克里斯托夫
将dataframe转换为rdd然后调用foreachPartition或foreach
def f(iterator):
for x in iterator:
#Implement the api call here
print(x)
df.rdd.foreachPartition(f)
我有一个包含 250,000 个客户数据的 spark 数据框 (PySpark)。现在我想将此数据发送到 HTTPS API(作为 JSON 文件)。 实际的解决方案是使用 Python 请求包发送数据,这对于一小部分数据工作正常。但是为此,我必须在一个节点上收集所有数据并从那里发送。
这个用例有更好的解决方案吗? 我可以 运行 每个节点上的一个函数来将数据存储到 https api?
非常感谢 克里斯托夫
将dataframe转换为rdd然后调用foreachPartition或foreach
def f(iterator):
for x in iterator:
#Implement the api call here
print(x)
df.rdd.foreachPartition(f)