如何找到数据之间的相关性和关系

How to find correlation and relationship between data

我正在通过某些 API(直播 API)收集有关当前正在发生的特定事件的数据(文本)。我收到的数据基于我传递给 API 的默认关键字列表。 API 还会收集文本中出现的除我的默认关键字之外的关键字,然后将它们添加到我的默认列表中,以便 API 也可以使用这些关键字搜索数据。这就是问题所在,因为其中一些新添加的关键字与事件无关。我不想将数据搜索限制在我的默认列表中,因为我无法涵盖文本中使用的所有关键字。

到目前为止我的解决方案是尝试对每 1000 个接收到的数据执行 点双序列相关系数 ,但我不确定这是否是正确的方法以及如何做它。

如果有人能就如何解决这个问题给我建议或任何类型的解决方案,我将不胜感激?

您可以使用术语共现来处理关键字集合,这应该会提供与您的默认列表更好的相关性。 This 是一个示例,但您可以显着改进算法。