潜在和显式语义分析之间的区别
difference between Latent and Explicit Semantic Analysis
我正在尝试分析论文''计算语义相关性
使用基于维基百科的显式语义
分析''。
其中描述的系统的一个组成部分是我目前正在努力解决的潜在语义分析和显式语义分析之间的区别。
我一直在写一份文档来概括我的理解,但它有点,"cobbled together",来自我不是 100% 理解的来源,所以我想知道我是否已经想出来是准确的,这里是:
When implementing a process like singular value decomposition (SVD) or Markov
chain Monte Carlo machines, a corpus of documents can be partitioned on the
basis of inherent characteristics and assigned to categories by applying different
weights to the features that constitute each singular data index. In this highdimensional
space it is often difficult to determine the combination of factors
leading to an outcome or result, the variables of interest are “hidden” or latent.
By defining a set of humanly intelligible categories, i.e. Wikipedia article
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system
whereby the criteria used to distinguish a datum are readily comprehensible,
from the text we note that “semantic analysis is explicit in the sense that we
manipulate manifest concepts grounded in human cognition, rather than ‘latent
concepts’ used by Latent Semantic Analysis”.
With that we have now established Explicit Semantic Analysis in opposition
to Latent Semantic Analysis.
准确吗?
关于此主题的信息有些稀疏。 This question 表面上处理类似的问题,但实际上并非如此。
潜在语义分析和所谓的显式语义分析之间的区别在于所使用的语料库和对词义建模的向量的维度。
潜在语义分析从基于文档的词向量开始,它捕获每个词与其出现的文档之间的关联,通常使用 tf-idf 等加权函数。然后,它使用奇异值分解将这些词向量的维数减少到(通常)300。与原始维度(对应于文档)相比,这 300 个新维度没有直接的解释。因此,它们被称为 "latent"。然后,LSA 可用于通过组合文本中单词的所有向量来对文本进行分类。
从您提到的论文中,我了解到显式语义分析也是一种基于文档的模型:它根据出现的维基百科文章对单词进行建模。然而,它与潜在语义分析的不同之处在于 (a) 语料库 (Wikipedia) 不能自由选择,并且 (b) 不涉及降维。同样,可以组合文本中单词的向量来对文本进行分类或解释。
一个简单的解释是:
ESA - 使用 knowledge-base like (wikipedia) 创建倒排索引,将单词映射到内容(即出现该单词的维基百科页面的标题)。然后对单词的这种向量表示进行操作,其中每个单词现在都是标题向量,其中包含 0、1。
LSA - 使用奇异值分解原理将 word-doc 矩阵投影到排名较低的 space 中,使得 word-doc 不 [=19] 的词向量表示的点积=] 在任何文档中彼此 co-occur 具有相似的词组(即想象一下 Cat 和 Car 从不 co-occur 在文档中,但可以在某些文档中与 Man 一起出现 D_1, 和 Car co-occurs with Man in some other document D_2) 更高。
我正在尝试分析论文''计算语义相关性 使用基于维基百科的显式语义 分析''。
其中描述的系统的一个组成部分是我目前正在努力解决的潜在语义分析和显式语义分析之间的区别。
我一直在写一份文档来概括我的理解,但它有点,"cobbled together",来自我不是 100% 理解的来源,所以我想知道我是否已经想出来是准确的,这里是:
When implementing a process like singular value decomposition (SVD) or Markov
chain Monte Carlo machines, a corpus of documents can be partitioned on the
basis of inherent characteristics and assigned to categories by applying different
weights to the features that constitute each singular data index. In this highdimensional
space it is often difficult to determine the combination of factors
leading to an outcome or result, the variables of interest are “hidden” or latent.
By defining a set of humanly intelligible categories, i.e. Wikipedia article
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system
whereby the criteria used to distinguish a datum are readily comprehensible,
from the text we note that “semantic analysis is explicit in the sense that we
manipulate manifest concepts grounded in human cognition, rather than ‘latent
concepts’ used by Latent Semantic Analysis”.
With that we have now established Explicit Semantic Analysis in opposition
to Latent Semantic Analysis.
准确吗?
关于此主题的信息有些稀疏。 This question 表面上处理类似的问题,但实际上并非如此。
潜在语义分析和所谓的显式语义分析之间的区别在于所使用的语料库和对词义建模的向量的维度。
潜在语义分析从基于文档的词向量开始,它捕获每个词与其出现的文档之间的关联,通常使用 tf-idf 等加权函数。然后,它使用奇异值分解将这些词向量的维数减少到(通常)300。与原始维度(对应于文档)相比,这 300 个新维度没有直接的解释。因此,它们被称为 "latent"。然后,LSA 可用于通过组合文本中单词的所有向量来对文本进行分类。
从您提到的论文中,我了解到显式语义分析也是一种基于文档的模型:它根据出现的维基百科文章对单词进行建模。然而,它与潜在语义分析的不同之处在于 (a) 语料库 (Wikipedia) 不能自由选择,并且 (b) 不涉及降维。同样,可以组合文本中单词的向量来对文本进行分类或解释。
一个简单的解释是:
ESA - 使用 knowledge-base like (wikipedia) 创建倒排索引,将单词映射到内容(即出现该单词的维基百科页面的标题)。然后对单词的这种向量表示进行操作,其中每个单词现在都是标题向量,其中包含 0、1。
LSA - 使用奇异值分解原理将 word-doc 矩阵投影到排名较低的 space 中,使得 word-doc 不 [=19] 的词向量表示的点积=] 在任何文档中彼此 co-occur 具有相似的词组(即想象一下 Cat 和 Car 从不 co-occur 在文档中,但可以在某些文档中与 Man 一起出现 D_1, 和 Car co-occurs with Man in some other document D_2) 更高。