Text-mining/word R 中的相关性
Text-mining/word correlation in R
我正在尝试在 R 中进行文本挖掘或单词关联工作。
我正在尝试做的更大的图景是,我查询整个导出的 OpenStreetMap 数据库,以查找到各个经纬度位置的特定距离内的所有要素。到目前为止,这就像一个魅力,我已经到了我有一个 character
类型的数据框列的地步,它包含特定距离内的所有要素,其中一行代表一个经纬度位置。数据框列可以在 this csv and a catalogue of all possible features can be found in this csv.
中找到
我的下一步是根据周围的特征对位置进行分类。为此,我想使用文本 mining/word 相关算法,该算法能够根据经常出现在相同位置的特征创建类别。
简而言之: 我有一个类型为 character
的列(单词用逗号分隔),其中一行包含某个区域附近的所有要素经纬度位置。根据周围的特征,我想根据相关特征对我的位置进行分类。
我尝试了 tm 包中的 findAssocs,不幸的是,它对类型 list
、data.frame
和 character
都不起作用。
我还发现 this wonderful documentation 可以指导 R 中的基本文本挖掘。这里的问题是,我似乎必须将数据框列的每一行转换为文档,以准备语料库以供进一步处理。虽然这对于我的 61 个位置的测试用例可能是可行的,但对于我对数万个位置的最终分析来说就不那么可行了。
任何人都可以在这里向我指出正确的方向吗?最好不要依赖像 'rapidminer' 这样的第三方软件。将所有内容都放在一个 R 脚本中对我的用例来说会好得多。
提前谢谢你。如果您需要任何其他信息,请告诉我。
我找到了将数据从我的格式转换为可用于文本挖掘的格式的分步指南。可以找到该指南 here。这确实暂时回答了我的问题。
我为 post.
道歉
我正在尝试在 R 中进行文本挖掘或单词关联工作。
我正在尝试做的更大的图景是,我查询整个导出的 OpenStreetMap 数据库,以查找到各个经纬度位置的特定距离内的所有要素。到目前为止,这就像一个魅力,我已经到了我有一个 character
类型的数据框列的地步,它包含特定距离内的所有要素,其中一行代表一个经纬度位置。数据框列可以在 this csv and a catalogue of all possible features can be found in this csv.
我的下一步是根据周围的特征对位置进行分类。为此,我想使用文本 mining/word 相关算法,该算法能够根据经常出现在相同位置的特征创建类别。
简而言之: 我有一个类型为 character
的列(单词用逗号分隔),其中一行包含某个区域附近的所有要素经纬度位置。根据周围的特征,我想根据相关特征对我的位置进行分类。
我尝试了 tm 包中的 findAssocs,不幸的是,它对类型 list
、data.frame
和 character
都不起作用。
我还发现 this wonderful documentation 可以指导 R 中的基本文本挖掘。这里的问题是,我似乎必须将数据框列的每一行转换为文档,以准备语料库以供进一步处理。虽然这对于我的 61 个位置的测试用例可能是可行的,但对于我对数万个位置的最终分析来说就不那么可行了。
任何人都可以在这里向我指出正确的方向吗?最好不要依赖像 'rapidminer' 这样的第三方软件。将所有内容都放在一个 R 脚本中对我的用例来说会好得多。
提前谢谢你。如果您需要任何其他信息,请告诉我。
我找到了将数据从我的格式转换为可用于文本挖掘的格式的分步指南。可以找到该指南 here。这确实暂时回答了我的问题。 我为 post.
道歉