Word-sense 使用 pre-trained 嵌入基于词组的消歧
Word-sense disambiguation based on sets of words using pre-trained embeddings
我有兴趣为一组标签中的每个词识别 WordNet 同义词集 ID。
集合中的词为词义消歧提供上下文,如:
- {痣,皮肤}
- {痣、草、毛皮}
- {痣,化学}
- {河岸,河流,河岸}
- {银行、金钱、建筑物}
我知道 lesk 算法和库,例如 pywsd,它基于 10 多年的技术(可能仍然是最前沿的——这是我的问题)。
现在是否有更好的算法可以理解 pre-trained 嵌入,比如 GloVe,也许这些嵌入之间的距离?
是否有 ready-to-use 此类 WSD 算法的实现?
我知道这个问题接近询问主观偏好的危险区域——就像这个 5 岁的孩子 thread 一样。但我不是要选项的概述或解决问题的最佳软件。
迁移学习,尤其是 Allen AI 的 ELMO、OpenAI 的 Open-GPT 和 Google 的 BERT 等模型,使研究人员能够以最小的 task-specific fine-tuning 和为 NLP 社区的其他成员提供预训练模型,这些模型可以轻松地(使用更少的数据和更少的计算时间)fine-tuned 并实施以产生最先进的结果。
这些表示将帮助您准确地检索与客户的意图和上下文含义相匹配的结果(),即使没有关键字或词组重叠。
首先,嵌入只是一个点在高维向量中的(适度)低维表示 space。
通过将单词转换为嵌入,可以以数字形式对单词的语义重要性进行建模,从而对其执行数学运算。
当 word2vec 模型首次实现这一点时,这是一个惊人的突破。从那里,许多更高级的模型浮出水面,它们不仅捕获了静态语义,还捕获了语境化的含义。例如,考虑下面的两个句子:
I like apples.
I like Apple macbooks
请注意,apple 这个词在每个句子中都有不同的语义。现在有了语境化语言模型,apple 一词的嵌入将具有不同的向量表示,这使得它对于 NLP 任务更加强大。
像 BERT 这样的上下文嵌入比 Word2Vec 这样的模型更有优势,因为尽管每个单词在 Word2Vec 下都有固定的表示,而不管单词出现的上下文如何,BERT 产生的单词表示是由周围的单词动态通知的.
我有兴趣为一组标签中的每个词识别 WordNet 同义词集 ID。 集合中的词为词义消歧提供上下文,如:
- {痣,皮肤}
- {痣、草、毛皮}
- {痣,化学}
- {河岸,河流,河岸}
- {银行、金钱、建筑物}
我知道 lesk 算法和库,例如 pywsd,它基于 10 多年的技术(可能仍然是最前沿的——这是我的问题)。
现在是否有更好的算法可以理解 pre-trained 嵌入,比如 GloVe,也许这些嵌入之间的距离? 是否有 ready-to-use 此类 WSD 算法的实现?
我知道这个问题接近询问主观偏好的危险区域——就像这个 5 岁的孩子 thread 一样。但我不是要选项的概述或解决问题的最佳软件。
迁移学习,尤其是 Allen AI 的 ELMO、OpenAI 的 Open-GPT 和 Google 的 BERT 等模型,使研究人员能够以最小的 task-specific fine-tuning 和为 NLP 社区的其他成员提供预训练模型,这些模型可以轻松地(使用更少的数据和更少的计算时间)fine-tuned 并实施以产生最先进的结果。
这些表示将帮助您准确地检索与客户的意图和上下文含义相匹配的结果(),即使没有关键字或词组重叠。
首先,嵌入只是一个点在高维向量中的(适度)低维表示 space。
通过将单词转换为嵌入,可以以数字形式对单词的语义重要性进行建模,从而对其执行数学运算。
当 word2vec 模型首次实现这一点时,这是一个惊人的突破。从那里,许多更高级的模型浮出水面,它们不仅捕获了静态语义,还捕获了语境化的含义。例如,考虑下面的两个句子:
I like apples.
I like Apple macbooks
请注意,apple 这个词在每个句子中都有不同的语义。现在有了语境化语言模型,apple 一词的嵌入将具有不同的向量表示,这使得它对于 NLP 任务更加强大。
像 BERT 这样的上下文嵌入比 Word2Vec 这样的模型更有优势,因为尽管每个单词在 Word2Vec 下都有固定的表示,而不管单词出现的上下文如何,BERT 产生的单词表示是由周围的单词动态通知的.