scikit 学习加载原始文档

scikit learn loading raw documents

如何使用此 api 加载多个文本文件?

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files)
print(vectorizer.get_feature_names_out())

我希望以下内容(其中 txt 是 txt 文件的文件夹)能给我正确的输入?

files = load_files('./input/txt')

load_files()函数使用以下目录结构获取文件:

container_folder/
    category_1_folder/
        file_1.txt file_2.txt … file_42.txt
    category_2_folder/
        file_43.txt file_44.txt …

在您的情况下,您只有一个子文件夹。所以你只需要将输入文件夹放在 load_files 函数中。

示例:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files

files = load_files("input/",load_content=True)

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files['data'])