如何从 1,000,000 行和 20,000 个特征中获取最近邻矩阵?
How Can I get the nearest neighbor matrix from 1,000,000 rows and 20,000 features?
我有大麻烦了。
我想计算一千万条记录的关系,但是因为Spark内存不足,处理停止了。
通过 TF-Hashing 创建一千万个文档来创建 20,000 个维度的特征。
首先,我尝试了'-近似相似连接',但计算没有收敛。
接下来,我尝试尝试scikit-learn的KNN,但是当我将所有数据都带到Driver时,内存溢出了。
没有其他办法吗?
最近邻似乎不是 Spark 的 MLLib 的一部分。我想到的方案是找分布式spark实现或者找tensorflow实现
在 Databricks 上吗?最近的版本支持分布式 Tensorflow。在单节点 Databricks Tensorflow 集群上,我有比你的大 运行 的卷。
快速搜索找到了这些
* tensorflow nearest neighbor
* spark nearest neighbor
请注意,我自己还没有尝试过这些。
我有大麻烦了。 我想计算一千万条记录的关系,但是因为Spark内存不足,处理停止了。 通过 TF-Hashing 创建一千万个文档来创建 20,000 个维度的特征。 首先,我尝试了'-近似相似连接',但计算没有收敛。 接下来,我尝试尝试scikit-learn的KNN,但是当我将所有数据都带到Driver时,内存溢出了。 没有其他办法吗?
最近邻似乎不是 Spark 的 MLLib 的一部分。我想到的方案是找分布式spark实现或者找tensorflow实现
在 Databricks 上吗?最近的版本支持分布式 Tensorflow。在单节点 Databricks Tensorflow 集群上,我有比你的大 运行 的卷。
快速搜索找到了这些 * tensorflow nearest neighbor * spark nearest neighbor
请注意,我自己还没有尝试过这些。