使用 R 文本分析识别拼写错误

Question

我是 R 中 TM 包的新手。我正在尝试执行词频分析，但我知道我的源文件中存在几个拼写问题，我想知道如何在执行单词之前修复这些拼写错误频率分析。

我已经读过另一个 post (Stemming with R Text Analysis)，但我对那里提出的解决方案有疑问：Is it possible to use a dictionary (a data frame, example) to在创建 TermDocumentMatrix 之前在我的语料库中进行 several/all 替换，然后进行词频分析??

我有一个包含字典的数据框，它具有以下结构：

sept   -> september  
sep    -> september  
acct -> account  
serv  -> service  
servic     -> service  
adj    ->   adjustment  
ajuste   -> adjustment

我知道我可以开发一个函数来对我的语料库执行转换，但我真的不知道如何自动执行此任务并对我的数据框中的每条记录执行循环或类似操作。

如有任何帮助，我们将不胜感激。

Answer 1

对于从标准英语词典自动构建词干分析器的基本功能，Tyler Rinker's answers 已经显示了您想要的内容。

您需要添加的只是用于合成可能的拼写错误的代码，或者使用 Levenshtein 距离（请参阅 adist）等单词距离度量来匹配语料库中的（常见）拼写错误，以找到最接近的匹配项词典.

使用 R 文本分析识别拼写错误

Misspelling-aware stemming with R Text Analysis

replace

words

r

stemming

tm