如何导入文本文件以适合此聚类算法?
How to import text files to fit this clustering algorithm?
我有 900 个 .txt 文件(所有这些都是美国总统的演讲)保存到我的 U:/ 驱动器上的一个文件夹中。我正在寻找 运行 一些文档聚类,按照此处给出的示例:http://brandonrose.org/clustering。在他的示例中,作者使用了 nltk
中的给定存储库。如何通过此算法正确地将我的文本文件导入 运行?
最终,我试图按照总统说话的方式对总统进行分组,因此最好有五六个总统集群以及属于这些集群的总统列表。
如果可以使用glob
模块获取每个文件名,然后将其内容读入字符串:
import glob
for filename in glob.glob("somefolder/*.txt"):
with open(filename, 'r') as inputFile:
filecontent = inputFile.read();
从现在开始,您可以使用变量 filename
和 filecontent
创建对象列表(最有可能是字典),然后您可以按照您链接的教程进行操作。
我有 900 个 .txt 文件(所有这些都是美国总统的演讲)保存到我的 U:/ 驱动器上的一个文件夹中。我正在寻找 运行 一些文档聚类,按照此处给出的示例:http://brandonrose.org/clustering。在他的示例中,作者使用了 nltk
中的给定存储库。如何通过此算法正确地将我的文本文件导入 运行?
最终,我试图按照总统说话的方式对总统进行分组,因此最好有五六个总统集群以及属于这些集群的总统列表。
如果可以使用glob
模块获取每个文件名,然后将其内容读入字符串:
import glob
for filename in glob.glob("somefolder/*.txt"):
with open(filename, 'r') as inputFile:
filecontent = inputFile.read();
从现在开始,您可以使用变量 filename
和 filecontent
创建对象列表(最有可能是字典),然后您可以按照您链接的教程进行操作。