scikit 学习加载原始文档
scikit learn loading raw documents
如何使用此 api 加载多个文本文件?
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files)
print(vectorizer.get_feature_names_out())
我希望以下内容(其中 txt 是 txt 文件的文件夹)能给我正确的输入?
files = load_files('./input/txt')
load_files()
函数使用以下目录结构获取文件:
container_folder/
category_1_folder/
file_1.txt file_2.txt … file_42.txt
category_2_folder/
file_43.txt file_44.txt …
在您的情况下,您只有一个子文件夹。所以你只需要将输入文件夹放在 load_files 函数中。
示例:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files
files = load_files("input/",load_content=True)
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files['data'])
如何使用此 api 加载多个文本文件?
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files)
print(vectorizer.get_feature_names_out())
我希望以下内容(其中 txt 是 txt 文件的文件夹)能给我正确的输入?
files = load_files('./input/txt')
load_files()
函数使用以下目录结构获取文件:
container_folder/
category_1_folder/
file_1.txt file_2.txt … file_42.txt
category_2_folder/
file_43.txt file_44.txt …
在您的情况下,您只有一个子文件夹。所以你只需要将输入文件夹放在 load_files 函数中。
示例:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import load_files
files = load_files("input/",load_content=True)
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(files['data'])