Spark:通过地理坐标查找国家/地区

Spark: Find country by geographical coordinates

我有一个用 Scala 创建的包含地理坐标的 spark 数据框。我必须根据这个地理坐标添加带有国家/地区的列。我找到了一些 Python 工具,但据我所知我不能在 Scala 代码中使用它。如果我必须通过 udf 逐行处理(大约 50000 行),我也不确定效率。你知道我怎样才能以最快的方式处理这个问题吗?

如果您找到的工具是 python 库,则可以使用 Pandas UDF。 这样,它将并行化您的函数,而不是“逐行”应用它。

https://databricks.com/fr/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html

https://databricks.com/fr/blog/2020/05/20/new-pandas-udfs-and-python-type-hints-in-the-upcoming-release-of-apache-spark-3-0.html