Spark:通过地理坐标查找国家/地区
Spark: Find country by geographical coordinates
我有一个用 Scala 创建的包含地理坐标的 spark 数据框。我必须根据这个地理坐标添加带有国家/地区的列。我找到了一些 Python 工具,但据我所知我不能在 Scala 代码中使用它。如果我必须通过 udf 逐行处理(大约 50000 行),我也不确定效率。你知道我怎样才能以最快的方式处理这个问题吗?
如果您找到的工具是 python 库,则可以使用 Pandas UDF。
这样,它将并行化您的函数,而不是“逐行”应用它。
https://databricks.com/fr/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html
我有一个用 Scala 创建的包含地理坐标的 spark 数据框。我必须根据这个地理坐标添加带有国家/地区的列。我找到了一些 Python 工具,但据我所知我不能在 Scala 代码中使用它。如果我必须通过 udf 逐行处理(大约 50000 行),我也不确定效率。你知道我怎样才能以最快的方式处理这个问题吗?
如果您找到的工具是 python 库,则可以使用 Pandas UDF。 这样,它将并行化您的函数,而不是“逐行”应用它。
https://databricks.com/fr/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html