如何计算 Python 文件中单词的出现频率？

Question

我正在读取每个文件中的单词并将它们存储在列表中。

我能够计算每个单词在该文件中出现的次数。

这是我的代码。

for name in files:
    if name.endswith(".txt"):
        with open(name, "r") as word_list:
             words = word_list.read().split()

        counts = Counter(words)

        labels, values = zip(*counts.items())

        labels = np.array(labels)
        values = np.array(values)

这段代码和我的其他代码相结合，生成了数字的直方图

其中出现了一个词。这就是我数字数的地方

我需要将每个单词的出现次数除以文件中的单词总数以获得离散分布。

我怎样才能实现这个目标？

(原标题：Python。如何获取一个文件中单词的平均值？)

Answer 1

正如您自己所暗示的那样，频率由以下简单给出：

total = np.sum(values)
freqs = values / total

（可以合并，我这样写是为了更清楚）

我不确定这与 "average of words" 有什么关系，不管那是什么意思。

如何计算 Python 文件中单词的出现频率？

How to compute the frequency of words in a file in Python?

python

arrays

list

mean