如何提高计算haversine公式的查询性能?

How to improve query performance that compute haversine formula?

给定 table 个具有纬度和经度的位置,其中哪些位置最接近给定位置?

当然,求地球表面的距离,就是用大圆距离,用半正弦公式,也叫球面余弦公式算出来。

我有以下代码:

 SELECT zip, latitude, longitude, distance
 FROM (
  SELECT z.zip,
         z.latitude, z.longitude,
         p.radius,
         p.distance_unit
             * DEGREES(ACOS(COS(RADIANS(p.latpoint))
             * COS(RADIANS(z.latitude))
             * COS(RADIANS(p.longpoint - z.longitude))
             + SIN(RADIANS(p.latpoint))
             * SIN(RADIANS(z.latitude)))) AS distance
  FROM zip AS z
   JOIN (   /* these are the query parameters */
    SELECT  42.81 AS latpoint, -70.81 AS longpoint,
            50.0  AS radius,  111.045 AS distance_unit
        ) AS p ON 1=1
  WHERE z.latitude
    BETWEEN p.latpoint  - (p.radius / p.distance_unit)
        AND p.latpoint  + (p.radius / p.distance_unit)
   AND z.longitude
    BETWEEN p.longpoint - (p.radius / (p.distance_unit * COS(RADIANS(p.latpoint))))
        AND p.longpoint + (p.radius / (p.distance_unit * COS(RADIANS(p.latpoint))))
) AS d
WHERE distance <= radius

有什么方法可以提高这个查询的性能吗?

是否有必要使用 PostGIS 来改进它,或者它只是我的半正弦公式的包装器?

我猜计划者会自己重写这个查询,但值得一试。至少它更整洁。

select zip, latitude, longitude, distance
from (
    select z.zip,
           z.latitude, z.longitude,
           p.radius,
           p.distance_unit
               * p.degrees_acos_cos_radians_latpoint
               * cos(radians(z.latitude))
               * cos(radians(p.longpoint - z.longitude))
               + p.sin_radians_latpoint
               * sin(radians(z.latitude)))) as distance
    from
        zip z
        cross join (
            select
                latpoint, longpoint, radius, distance_unit,
                latpoint - radius / distance_unit as lat0,
                latpoint + radius / distance_unit as lat1,
                longpoint - radius / distance_unit * cos(radians(latpoint)) as long0,
                longpoint + radius / distance_unit * cos(radians(latpoint)) as long1,
                sin(radians(latpoint)) as sin_radians_latpoint,
                degrees(acos(cos(radians(latpoint)) as degrees_acos_cos_radians_latpoint
            from (
                values (42.81, -70.81, 50.0, 111.045)
            ) v (latpoint, longpoint, radius, distance_unit)
        ) p
    where
        z.latitude between lat0 and lat1
        and
        z.longitude between long0 and long1
) d
where distance <= radius

表情不是慢的部分。 "finding nearest" 的问题是难以使用索引来限制要查看的行数。

如果您在 z 上还没有这些,那么它们会有所帮助:

INDEX(latitude),
INDEX(longitude)

如果您已经有了它们,请确保其中之一已被子查询实际使用。

下一步会更激烈(也更有成果):http://mysql.rjweb.org/doc.php/latlng

这个查询永远不会特别快。但是,有一些方法可以对其进行改进。

首先:这里不需要Haversine公式。仅当地球曲率是一个重要因素或非常靠近两极时,才需要进行修正。这两种情况都不是这里的情况——需要准确计算的最大距离是 12 英里,勉强超过 horizon。在这个尺度上,地球实际上是平坦的,因此勾股定理足以计算距离。

一个纬度大约是 69 英里,在 52°N(荷兰附近),一个经度是 cos(52°) x 69 = 42.5 英里,所以公式变成:

sqrt(pow(69*(lat - $latitude), 2) + pow(42.5*(lng - $longitude), 2))

其次:我们可以使用"scissor test"来表示纬度和经度。如果一个点在任何主要方向上距离您的目标点超过 12 英里,则它肯定不能在该点的 12 英里圆内。我们可以利用这个事实对纬度和经度进行快速比较,完全跳过距离计算。使用我们上面导出的 latitude/longitude 的一次数字,我们有:

WHERE (lat BETWEEN ($latitude - 12/69.0) AND ($latitude + 12/69.0)) AND (lng BETWEEN ($longitude - 12/42.5) AND ($longitude + 12/42.5))

请注意,这不会取代完整的距离检查!这只是快速排除可能不在正确半径内的点的第一步。通过在 lat 或 lng 上建立索引,这将允许数据库服务器避免检查数据库中的许多行。