scikit 学习加载原始文档

Question

如何使用此 api 加载多个文本文件？

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files)
print(vectorizer.get_feature_names_out())

我希望以下内容（其中 txt 是 txt 文件的文件夹）能给我正确的输入？

files = load_files('./input/txt')

Answer 1

load_files()函数使用以下目录结构获取文件：

container_folder/
    category_1_folder/
        file_1.txt file_2.txt … file_42.txt
    category_2_folder/
        file_43.txt file_44.txt …

在您的情况下，您只有一个子文件夹。所以你只需要将输入文件夹放在 load_files 函数中。

示例：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files

files = load_files("input/",load_content=True)

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files['data'])

scikit 学习加载原始文档

scikit learn loading raw documents

python

scikit-learn