Python_RAKE 中的关键字提取

Keyword Extraction in Python_RAKE

我是一名新手,对以下简单的 "loop" 问题感到困惑。我有一个包含 x 个文件的本地目录(大约 500 个 .txt 文件)。我想使用 Python 的 RAKE 从每个唯一文件中提取相应的关键字。我已经查看了 RAKE 的文档;但是,本教程中建议的代码获取单个文档的关键字。有人可以向我解释如何遍历存储在本地目录中的 X 数量的文件吗?这是教程中的代码,它对于单个文档来说非常好。

$git clone https://github.com/zelandiya/RAKE-tutorial

import rake
import operator

rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)

sample_file = open("data/docs/fao_test/w2167e.txt", 'r')
text = sample_file.read()
keywords = rake_object.run(text)
print "Keywords:", keywords

创建要处理的文件名列表:

filenames = [
    'data/docs/fao_test/w2167e.txt',
    'some/other/folder/filename.txt',
    etc...
]

如果您不想对所有名称进行硬编码,可以使用 glob 模块通过通配符收集文件名。

创建用于存储结果的字典:

results = {}

遍历每个文件名,读取内容并将 Rake 结果存储在字典中,以文件名为关键字:

for filename in filenames:
    with open(filename, 'r') as fp:
        results[filename] = rake_object.run(fp.read())