找不到数据集“NYTimes”

data set ‘NYTimes’ not found

我正在使用 topicmodels 软件包:

library(topicmodels)
library(tm)

我试图加载 NYTimes 数据集。但是:

data(NYTimes)

returns错误:

Warning message:
In data(NYTimes) : data set ‘NYTimes’ not found

我从 R 上的教科书中获取了这段代码。

我猜你的意思是“...试图下载 ...”。 (不上传)。这不是错误,而是警告。无论如何,...

您需要加载包含特定 数据集NYTimes.

快速搜索 CRAN 网站说数据在 RTextTools 包中,不幸的是已存档。试试 GitHub 网站:https://github.com/cran/RTextTools/

如果您使用术语"CRAN" data(NYTimes) 进行Google 搜索,您应该很快就会发现"RTextTools" 包中有一个同名的数据集。

进一步搜索可在 CRAN 得到以下信息:

Package ‘RTextTools’ was removed from the CRAN repository.

Formerly available versions can be obtained from the archive.

Archived on 2019-03-05 as depends on archived package 'maxent' by the same non-maintainer.

所以转到 Package Archive for RTextTools,下载它,检查它是否需要编译(不需要),然后将参数 repo 设置为 NULL 安装。有关详细信息,请参阅 ?install.packages。事实证明这是行不通的,因为在编译过程中尝试安装 pkg:maxent 失败。

另一种选择是下载、解压缩、导航到扩展包目录中的 ../data/ 目录,然后还解压缩该名称的压缩文件(扩展名为 .csv)。

Edwards 的建议也是可行的,在这种情况下,您可以直接进入 https://github.com/cran/RTextTools/blob/master/data/NYTimes.csv.gz 下载并解压缩文件,而无需安装软件包。