KNN 的大数据集

A large data set for KNN

我想应用针对大型数据集实现的修改后的 KNN。我试图找到一个非常适合 KNN 的大型数据集(超过 20000 行),以便可以比较经典 KNN 和我自己的版本。有什么例子吗?

网上搜索得当,应该有很多。 MNIST 手写数字数据集是一个很好的起点,它有 70000 个带标签的例子。经过仔细调整的 KNN 在此数据上运行良好。

可以从sklearn库中下载。

>>> from sklearn.datasets import fetch_mldata
>>> mnist = fetch_mldata('MNIST original', data_home=custom_data_home)

详情请参考https://scikit-learn.org/0.19/datasets/mldata.html