从新闻博客中提取特征
Features Extraction from News Blog
我是数据新手science/Machine学习。
我必须编写一个网络爬虫并从每个博客中提取功能。这些特征以标签的形式讲述了行业、特定产品、工具和类似的东西。
我已经完成了部分抓取,但现在我被实体识别困住了。
我做了数据处理(标记化、数据清理、删除停止 words/punctuation、stemming/lemmatization)。
现在,我必须为特征提取做些什么?
好的,您需要做的是设置一个 pandas 数据框。
在第一栏中,您需要拥有网站或博客的完整文本,以及您提到的流程。在以下列中,您需要为要应用于数据集的每个标签留一列,one-hot encoded。
然后您将需要通过手动标记数千个使用该一次性编码的网站或博客文章来填写行。
完成后,您可以训练您的机器。然后你放入任何新文章,机器将输出属于该文章的标签的概率。 github 上可能有很多存储库,其中包含您可以使用的预训练模型。
我是数据新手science/Machine学习。 我必须编写一个网络爬虫并从每个博客中提取功能。这些特征以标签的形式讲述了行业、特定产品、工具和类似的东西。 我已经完成了部分抓取,但现在我被实体识别困住了。 我做了数据处理(标记化、数据清理、删除停止 words/punctuation、stemming/lemmatization)。 现在,我必须为特征提取做些什么?
好的,您需要做的是设置一个 pandas 数据框。
在第一栏中,您需要拥有网站或博客的完整文本,以及您提到的流程。在以下列中,您需要为要应用于数据集的每个标签留一列,one-hot encoded。
然后您将需要通过手动标记数千个使用该一次性编码的网站或博客文章来填写行。
完成后,您可以训练您的机器。然后你放入任何新文章,机器将输出属于该文章的标签的概率。 github 上可能有很多存储库,其中包含您可以使用的预训练模型。