user/customer 个评论语料库的词嵌入

Word embeddings over user/customer reviews corpus

据我所知,大多数公开可用的嵌入都是通过新闻文章完成的,它们使用与 user/customer 评论中使用的不同的 language/words。

尽管此类嵌入可用于有关评论的 NLP 任务 和用户生成的内容,我认为语言的差异有重要作用,因此我宁愿使用在用户生成的内容(例如产品评论)上训练的嵌入。

我正在寻找英语评论或评论的语料库——尽管德语和荷兰语也很有用——以生成嵌入,或者已经在此类语料库上训练过的嵌入。

找到两个英文datasets/corpus:

https://www.yelp.com/dataset_challenge

https://snap.stanford.edu/data/web-Amazon.html

德语:

http://www.uni-weimar.de/en/media/chairs/webis/corpora/corpus-webis-cls-10/