识别推文中书名的算法

algorithm to identify book titles in tweets

我正在尝试制作一个程序来分析大量推文并生成关于人们在推文中发布的前 10 大最受欢迎书籍的报告。问题是我不知道如何识别推文中的书名。如果有人能为此类工作命名算法或至少指导我正确的方向，那就太好了。

您需要一个要搜索的术语列表。然后浏览推文并检查列表中的书名实例。

无法自动提取"book titles"。例如，您如何区分谈论 "the Martian" 他们昨晚在自家后院看到的人和 Andy Weir 的书？

如果您没有书名列表，Wikipedia provides some lists。但如果您的目标是比较新书（夏季畅销书），我想它们不会出现在这些列表中。您可以在 Internet 上找到其他列表...无论如何（为了可靠性）您需要一个列表。

然后，正如@Adam_G 之前所说：

There is no way to automatically extract "book titles". For instance, how could you differentiate between someone talking about "the Martian" they saw in their backyard last night and the book by Andy Weir?

让我们假设有两本书 "The cat" 和 "The fear of green sharks"。有许多包含序列 "the cat" 的推文，但在大多数情况下，这些推文与这本书无关。相反，所有包含 "the fear of the green sharks" 的推文显然都是关于这本书的。

所以你应该为每个标记序列分配一个 "probability" P 作为书名。在前面的示例中，"the cat" 的 P 非常低，而 "the fear of the green sharks" 的 P 非常高。您可以根据标题中的单词数量和这些单词（以及 2-gram、3-gram 等）在整个语言中的出现频率来计算 P 的值（可以使用大语料库）

现在考虑这条推文：

I read "The Cat" and I loved it!!

作为人类，我们知道 "The Cat" 是一本书，因为推文包含 "read"。因此，对于 P（例如 "the cat"）较低的标题，您可以尝试使用机器学习算法来了解该推文是否真的与该书有关。这个想法是计算包含标题的推文在给定推文中的单词的情况下真正与这本书有关的概率。详细了解机器学习算法，例如朴素贝叶斯分类器。

识别推文中书名的算法

algorithm to identify book titles in tweets

algorithm

twitter

nlp

text-mining

nltk