返回重复结果的猫鼬查询

Mongoose query returning repeated results

查询接收一对坐标、最大距离半径、一个 "skip" 整数和一个 "limit" 整数。该函数应该根据给定的位置 return 最近和最新的位置。我的代码中没有明显的错误,但是,当我再次调用查询时,它 returns 重复结果。 "skip" 变量根据 returned 的结果更新。

示例:

1) 我使用 skip = 0,limit = 10 进行查询。我收到 10 个非重复位置。

2) 现在再次调用查询,skip = 10,limit = 10。我收到另外 10 个位置,其中包含第一个查询的重复结果。

查询

Locations.find({ coordinates :
                 { $near : [ x , y ],
                   $maxDistance: maxDistance }
            })
.sort('date_created')
.skip(skip)
.limit(limit)
.exec(function(err, locations) {
    console.log("[+]Found Locations");
    callback(locations);
});

架构

var locationSchema = new Schema({
        date_created: { type: Date },
        coordinates: [],
        text: { type: String }
});

我试过到处寻找解决方案。我唯一的选择是 Mongo 的版本?我使用 mongoose 4.x.x 和 mongodb 就像 2.5.6。我相信。有任何想法吗?

对于您想要的结果排序,这里有几件事需要考虑,首先要考虑的是您在 "date_created" 中有一个 "secondary" 排序标准要处理。

那里的基本问题是 MongoDB 中的 $near 运算符和类似运算符目前 "project" 没有任何字段来指示来自查询位置的 "distance" ,而只是 "default sort" 数据。因此,为了执行 "secondary" 排序,需要存在具有 "distance" 的字段。因此还有其他选择。

第二种情况是 "skip" 和 "limit" 风格的分页在大数据集上的形式表现很糟糕,应该尽可能避免。因此,最好根据出现的 "range" select 数据,而不是 "skip" 通过您之前显示的所有结果。

这里要做的第一件事是使用一个命令,该命令可以 "project" 将距离与其他信息一起放入文档中。 $geoNear 的聚合命令对此很有用,特别是因为我们想要进行其他排序:

var seenIds = [],
    lastDistance = null,
    lastDate = null;

Locations.aggregate(
    [
        { "$geoNear": {
            "near": [x,y],
            "maxDistance": maxDistance
            "distanceField": "dist",
            "limit": 10
        }},
        { "$sort": { "dist": 1, "date_created": -1 }
    ],
    function(err,results) {
        results.forEach(function(result) {

            if ( ( result.dist != lastDistance ) || ( result.date_created != lastDate ) ) {
                seenIds = [];
                lastDistance = result.dist;
                lastDate = result.date_created;
           }
           seenIds.push(result._id);
       });
       // save those variables to session or other persistence
       // do something with results
    }
)

这是您获取前 10 个结果的第一次迭代。注意循环内的逻辑,其中检查结果中的每个文档是否有 "date_created" 或预计 "dist" 字段现在出现在文档中,发生这种情况时,"seenIds" 数组中的所有当前条目都将被擦除。一般的操作是在每次迭代中测试并可能更新所有变量,如果没有变化,则将项目添加到 "seenIds".

列表中

所有这三个正在处理的变量都需要存储在某个地方等待下一个请求。对于 Web 应用程序,会话存储是理想的,但不同的方法会有所不同。您只希望在我们开始下一个请求时调用这些值,因为在下一次和后续迭代中我们稍微改变了查询:

Locations.aggregate(
    [
        { "$geoNear": {
            "near": [x,y],
            "maxDistance": maxDistance,
            "minDistance": lastDistance,
            "distanceField": "dist",
            "limit": 10,
            "query": {
                "_id": { "$nin": seenIds },
                "date_created": { "$lt": lastDate }
            }
        }},
        { "$sort": { "dist": 1, "date_created": -1 }
    ],
    function(err,results) {
        results.forEach(function(result) {
            if ( ( result.dist != lastDistance ) || ( result.date_created != lastDate ) ) {
                seenIds = [];
                lastDistance = result.dist;
                lastDate = result.date_created;
           }
           seenIds.push(result._id);
       });
       // save those variables to session or other persistence
       // do something with results
    }
)

因此输入了 "minDistance" 参数,因为您想要排除任何已经看到的 "nearer" 结果,并且额外的检查放在查询中 "date_created" 需要 "less than" 和 "lastDistance" 记录,因为我们按降序排序,最后的 "sure" 过滤器排除列表中记录的任何“_id”值因为值没有改变。

现在有了 "seenIds" 列表不太可能增长的地理空间数据,因为通常您不会在相同的距离找到所有东西,但它是对排序的数据列表进行分页的一般过程,例如这个,所以值得理解这个概念。

因此,如果您希望能够使用辅助字段对地理空间数据进行排序并考虑 "near" 距离,那么这是一般方法,将距离值投影到文档结果中,如下所示以及在任何不会使它们唯一的更改之前存储最后一次看到的值。

一般概念是"advancing the minimum distance",使每页结果从查询中使用的源点开始逐渐"further away"。