如何评估 Word2Vec 模型
How to evaluate Word2Vec model
你好,我有自己的语料库,我在上面训练了几个 Word2Vec 模型。
相互评估它们并选择最佳方法的最佳方法是什么? (显然不是手动 - 我正在寻找各种措施)。
值得注意的是,嵌入是针对项目而不是单词,因此我不能使用任何现有的基准。
谢谢!
没有通用的方法来评估标记向量质量,如果您甚至不使用可以尝试其他任务(如流行的类比解决)的真实单词。
如果您有自定义的终极任务,则必须设计自己的可重复评分方法。这可能是您实际最终任务的某个子集,或者与该最终任务密切相关。本质上,无论您使用什么临时方法,'eyeball' 理智的结果都应该系统化,保存您对每次评估的判断,以便它们可以 运行 反复反对迭代模型改进。
(我需要更多关于您的 data/items 和最终目标的信息才能提出进一步的建议。)
评估 word2vec 模型的一种方法是开发一组 "ground truth" 个单词。 Ground truth 将表示理想情况下应该在向量 space 中最接近的单词。例如,如果您的语料库与客户服务相关,那么 "dissatisfied" 和 "disappointed" 的向量理想情况下可能具有最小的欧氏距离或最大的余弦相似度。
你为 ground truth 创建这个 table,它可能有 200 个成对的词。这 200 个单词是对您的行业/主题最重要的成对单词。要评估哪个 word2vec 模型最好,只需计算每对的距离,重复 200 次,对总距离求和,总距离最小的模型就是你的最佳模型。
我比 "eye-ball" 方法更喜欢这种方式,不管那是什么意思。
评估 Word2Vec 模型的方法之一是对 Word2Vec 生成的特征应用 K-Means 算法。同时创建您自己的手册 labels/ground 代表 instances/records 的真相。您可以通过将聚类结果标签与地面实况标签进行比较来计算模型的准确性。
例如:CLuter 0 - 阳性 -{"This is a good restaurant", "Good food here", "Not so good dinner"}
集群 1 - 负 - {"This is a fantastic hotel", "food was stale"}
现在,将集群生成的tags/labels与集群中instances/sentences的真实值进行比较,计算准确率。
你好,我有自己的语料库,我在上面训练了几个 Word2Vec 模型。 相互评估它们并选择最佳方法的最佳方法是什么? (显然不是手动 - 我正在寻找各种措施)。
值得注意的是,嵌入是针对项目而不是单词,因此我不能使用任何现有的基准。
谢谢!
没有通用的方法来评估标记向量质量,如果您甚至不使用可以尝试其他任务(如流行的类比解决)的真实单词。
如果您有自定义的终极任务,则必须设计自己的可重复评分方法。这可能是您实际最终任务的某个子集,或者与该最终任务密切相关。本质上,无论您使用什么临时方法,'eyeball' 理智的结果都应该系统化,保存您对每次评估的判断,以便它们可以 运行 反复反对迭代模型改进。
(我需要更多关于您的 data/items 和最终目标的信息才能提出进一步的建议。)
评估 word2vec 模型的一种方法是开发一组 "ground truth" 个单词。 Ground truth 将表示理想情况下应该在向量 space 中最接近的单词。例如,如果您的语料库与客户服务相关,那么 "dissatisfied" 和 "disappointed" 的向量理想情况下可能具有最小的欧氏距离或最大的余弦相似度。
你为 ground truth 创建这个 table,它可能有 200 个成对的词。这 200 个单词是对您的行业/主题最重要的成对单词。要评估哪个 word2vec 模型最好,只需计算每对的距离,重复 200 次,对总距离求和,总距离最小的模型就是你的最佳模型。
我比 "eye-ball" 方法更喜欢这种方式,不管那是什么意思。
评估 Word2Vec 模型的方法之一是对 Word2Vec 生成的特征应用 K-Means 算法。同时创建您自己的手册 labels/ground 代表 instances/records 的真相。您可以通过将聚类结果标签与地面实况标签进行比较来计算模型的准确性。
例如:CLuter 0 - 阳性 -{"This is a good restaurant", "Good food here", "Not so good dinner"} 集群 1 - 负 - {"This is a fantastic hotel", "food was stale"}
现在,将集群生成的tags/labels与集群中instances/sentences的真实值进行比较,计算准确率。