使用 k-means 或 k-nn 可以从两个数据集中推断出什么

What can be inferred from two datasets using k-means or k-nn

我想知道您可以使用从两个具有相似属性的大型数据集进行数据挖掘来推断出什么。假设您有两个数据集,其中包含有关某个国家/地区学校的详细信息,并且每个数据集都属于特定年份的学校阶段。您可以使用数据挖掘对这些数据集执行哪些操作?

我知道如何使用和应用 pandas 中的算法,但我在获取 k 均值背后的动机方面遇到了问题。

我知道您使用 k-means 根据数据集中的因素数量将未标记的数据放入聚类中,并根据每个数据元素的 属性 值,它们被放置在其中一个创建的集群。但是,您将如何处理这些集群?您如何使用它们来分析数据?我读到它甚至可以用于清理数据或将两个数据集相互关联,但我很难想象你将如何做这些事情。

非常感谢任何帮助。谢谢..

您可以使用这些数据集做很多事情,包括:

  • 根据某些因素,查看哪些处于较低阶段的学生在达到较高阶段后更有可能属于哪个组(成功、不成功等)
  • 查看哪些因素影响学生在不同阶段的成功(假设数据集包含此信息)
  • 您可以根据不同的因素进行多种不同的比较
  • ..还有更多。问题在于,如果不查看数据集包含的信息,就不可能说出可以从数据集中推断出什么。我的建议是你应该仔细查看两个数据集,看看它们是否有一些共同的列,然后选择你最感兴趣的列。